当前位置: 首页 > news >正文

男女做暖暖暖网站南宁一站网网络技术有限公司

男女做暖暖暖网站,南宁一站网网络技术有限公司,中小型网站建设怎么样,网站开发需求用什么软件前言:LLaMA-Factory项目的目标是整合主流的各种高效训练微调技术,适配市场主流开源模型,形成一个功能丰富,适配性好的训练框架。 目录 1. 前期准备2. 原始模型直接推理3. 自定义数据集4. 模型训练5. 模型合并并导出 1. 前期准备 …

前言:LLaMA-Factory项目的目标是整合主流的各种高效训练微调技术,适配市场主流开源模型,形成一个功能丰富,适配性好的训练框架。

目录

  • 1. 前期准备
  • 2. 原始模型直接推理
  • 3. 自定义数据集
  • 4. 模型训练
  • 5. 模型合并并导出

1. 前期准备

下载源码:https://github.com/hiyouga/LLaMA-Factory
环境搭建的话参考readme.md:

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

2. 原始模型直接推理

只需要配置template和model_name_or_path。
终端运行:

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \  --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \  --template llama3

运行完可以在本地服务器访问:http://localhost:7860/

3. 自定义数据集

llama-factory支持json格式文件,自定义数据集中每条数据格式如下:

{
“prompt”: “介绍一下苹果”,
“response”: “苹果公司(Apple Inc.),是一家美国跨国科技公司,总部位于加利福尼亚州库比蒂诺。”
}

将文件放到llama factory项目下的data文件夹,然后编辑data_info.json文件,添加数据集映射:

 "demo": {"file_name": "demo.json","file_sha1":dwfewcevrvff"columns": {"prompt": "prompt","response": "response"}

demo是映射后使用的数据集别名,file_name是数据集路径,file_sha1不是必需的,但是可以缓存预处理后的数据集,避免二次训练时重新预处理,sha1的生成可以通过终端运行shasum -a 1 filename(linux命令),columns是json文件中的列名映射

4. 模型训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \--stage sft \  --do_train \  --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \  --dataset alpaca_gpt4_zh \  --dataset_dir ./data \  --template llama3 \  --finetuning_type lora \  --lora_target q_proj,v_proj \  --output_dir ./saves/LLaMA3-8B/lora/sft \  --overwrite_cache \  --overwrite_output_dir \  --cutoff_len 1024 \  --preprocessing_num_workers 16 \  --per_device_train_batch_size 2 \  --per_device_eval_batch_size 1 \  --gradient_accumulation_steps 8 \  --lr_scheduler_type cosine \  --logging_steps 50 \  --warmup_steps 20 \  --save_steps 100 \  --eval_steps 50 \  --evaluation_strategy steps \  --load_best_model_at_end \  --learning_rate 5e-5 \  --num_train_epochs 5.0 \  --max_samples 1000 \  --val_size 0.1 \  --plot_loss \  --fp16--logging_dir path_to_logging_directory

一些重要参数解读:

  • stage: 训练方式,pt,sft等
  • model_name_or_path:基础模型的路径
  • dataset:数据集名称,data_info.json中的
  • template:模板,在readme.md中可以找到对应的模型模板
  • finetuning_type:微调方式,一般选lora
  • output_dir:存储模型路径
  • logging_dir:日志路径

5. 模型合并并导出

训练后得到的模型不能直接使用,需要和基础模型合并后导出:

CUDA_VISIBLE_DEVICES=0 python src/export_model.py \--model_name_or_path qwen/Qwen-7B \--adapter_name_or_path /mnt/workspace/llama_factory_demo/qwen/lora/sft/checkpoint-50 \--template qwen \--finetuning_type lora \--export_dir /mnt/workspace/merge_w/qwen \--export_legacy_format False
  • model_name_or_path: 基础模型路径
  • adapter_name_or_path:训练后的模型路径
  • template:模板
  • finetuning_type:微调方式
  • export_dir:导出模型路径
http://www.zhongyajixie.com/news/2804.html

相关文章:

  • wordpress 3.1上海百度关键词优化公司
  • 海口做网站费用goole官网
  • 艾辰做网站优化电脑的软件有哪些
  • b2b2c平台网站建设设计网站都有哪些
  • 建站公司用哪家服务器怎么创建自己的游戏网站
  • node做网站网站建设找哪家好
  • 网络服务业有哪些夫唯seo
  • 网站如何做cdn重庆seo多少钱
  • 中国建筑股吧济南seo
  • 网站错误提示页设计seo零基础入门到精通200讲
  • 做动漫网站需要服务器么网站发布与推广怎么写
  • 做游戏网站需要多少钱深圳竞价托管
  • 建设眼镜网站风格宁波网络推广运营公司电话
  • 日用品网站1万2做代理垂直搜索引擎
  • 做网站的素材和步骤seo网络优化平台
  • 怎样可以做网站站长seo排名查询工具
  • 哪个网站做任务赚钱的2345中国最好的网址站
  • 做影视网站不备案网络营销与直播电商专业介绍
  • 做相片网站搭建网站需要哪些步骤
  • wordpress 路由设计seo优化快速排名技术
  • 免费一键搭建发卡网seo管理与优化期末试题
  • 安康地seo网络优化工程师前景如何
  • 深圳网站设计推荐刻网络营销的概念与含义
  • 网站域名和网站网址吗优化关键词快速排名
  • 深圳建站模板短视频新媒体推广
  • 做网站的公司哪家强博客是哪个软件
  • 做镜像网站违法批量查询权重
  • 推广普通话作文300字网络营销企业网站优化
  • 能看网站的浏览器网络营销网站建设
  • wordpress 总提示更新站长工具seo综合查询降级