当前位置: 首页 > news >正文

使用Minimind从0~1进行大模型预训练、SFT、RLHF

项目地址

资源:Tesla v100 32GBx8

测试原模型效果

python eval_llm.py --load_from ./MiniMind2

1. 预训练

预训练数据集
pretrain_hq.jsonl

{“text”: “<|im_start|>鉴别一组中文文章的风格和特点,例如官方、口语、文言等。需要提供样例文章才能准确鉴别不同的风格和特点。<|im_end|> <|im_start|>好的,现在帮我查一下今天的天气怎么样?今天的天气依据地区而异。请问你需要我帮你查询哪个地区的天气呢?<|im_end|> <|im_start|>打开闹钟功能,定一个明天早上七点的闹钟。好的,我已经帮您打开闹钟功能,闹钟将在明天早上七点准时响起。<|im_end|> <|im_start|>为以下场景写一句话描述:一个孤独的老人坐在公园长椅上看着远处。一位孤独的老人坐在公园长椅上凝视远方。<|im_end|> <|im_start|>非常感谢你的回答。请告诉我,这些数据是关于什么主题的?这些数据是关于不同年龄段的男女人口比例分布的。<|im_end|> <|im_start|>帮我想一个有趣的标题。这个挺有趣的:“如何成为一名成功的魔术师” 调皮的标题往往会吸引读者的注意力。<|im_end|> <|im_start|>回答一个问题,地球的半径是多少?地球的平均半径约为6371公里,这是地球自赤道到两极的距离的平均值。<|im_end|> <|im_start|>识别文本中的语气,并将其分类为喜悦、悲伤、惊异等。\n文本:“今天是我的生日!”这个文本的语气是喜悦。<|im_end|>”}

进行预训练
torchrun --nproc_per_node 8 train_pretrain.py

测试预训练的效果
python eval_llm.py --weight pretrain

2、SFT

SFT数据集
sft_mini_512.jsonl

{“conversations”: [{“role”: “user”, “content”: “请告诉我在中国古代的“四大发明”是什么?”}, {“role”: “assistant”, “content”: “中国古代的“四大发明”是指造纸术、印刷术、火药和指南针。这四项发明对世界文明的发展产生了深远的影响:\n\n1.造纸术:据史书记载,东汉时期的蔡伦改进了造纸工艺,使得纸张的生产更加便捷、成本更低,质量也更加优良。这一发明极大地促进了文化的传播和保存。\n\n2.印刷术:中国古代的印刷术最早可以追溯到唐代的雕版印刷,到了宋代发展出了活字印刷技术。印刷术的发明极大地促进了知识的传播,降低了书籍的成本,对教育和文化的发展起到了重要的推动作用。\n\n3.火药:火药最初是在唐代被发现的,最初可能用于医疗或炼金术。到了宋代,人们开始将火药用于军事目的,发明了各种火器。火药的发明改变了战争的面貌,对世界军事技术的发展产生了重大影响。\n\n4.指南针:指南针最初在中国被用于风水测量,后来逐渐发展成为航海导航的重要工具。这一发明极大地促进了海上航行技术的发展,对于新航路的开辟和世界地理大发现起到了关键作用。\n\n这四项发明不仅在中国历史上占有重要地位,而且对全世界的科技进步和文明发展都产生了深远的影响。”}]}

进行SFT
torchrun --nproc_per_node 8 train_full_sft.py

测试SFT 的效果
python eval_llm.py --weight full_sft

3、PPO

PPO数据集
rlaif-mini.jsonl
{“conversations”: [{“role”: “user”, “content”: “列出五个基本的人格理论,并分别以一句话概括。”}, {“role”: “assistant”, “content”: “空”}]}

# 进行PPO训练
torchrun --nproc_per_node 8 train_ppo.py

http://www.cnnetsun.cn/news/102245.html

相关文章:

  • EmotiVoice跨平台兼容性测试结果公布
  • EmotiVoice支持长文本输入吗?分段处理最佳实践
  • 第012章:进销存的萌芽——仓库里的黑洞与“永远对不上的账”(1998)
  • 0 基础挖 SRC 怕违法?保姆级封神指南!合法渠道 + 实操步骤 + 必备技能一文搞定!
  • 如何让机器说话更有感情?试试EmotiVoice多情感TTS
  • 【OpenCV】Python图像处理几何变换之透视
  • EmotiVoice语音合成结果隐私保护措施说明
  • SottPlot5曲线图学习,代码示例,最新版本使用总结(v5.1.x)
  • EmotiVoice语音合成语音压缩技术:减小文件体积不影响质量
  • 央广财经对话齐向东!网安是 “十五五” 黄金赛道,稳、宽、强 = 躺赢风口?
  • 工业互联网产业联盟:高标准数字园区建设研究报告 2025
  • 共商AI时代发展新路径 第十六届亚洲电子论坛举办
  • 软考—系统集成项目管理工程师计算公式汇总
  • AI元人文构想:在黑箱与元白箱之间的抉择分析
  • AI元人文构想:意义行为原生论——回应质疑
  • 15、网络相似度与二分网络的构建与分析
  • 1.5 LangChain vs. DeepSeek:MCP 客户端开发与框架集成的终极对决
  • 设计少儿编程逻辑训练AI助手,通过图形化编程积木操作,AI实时判断代码逻辑错误,提供引导提示,非直接给出答案,记录能力成长轨迹。
  • 开发中小商家库存智能预警系统,录入商品销售数据与库存总量,通过时间序列模型,预测补货节点,自动生成采购清单,支持导出EXCEL。
  • 2.5 学术界的“GPT”:DeepResearch 深度研究助手从零到一创建与配置指南
  • 必学收藏!大模型三大核心技术RAG、Agent与多模态:从入门到实战的完整指南
  • 3.2 前后端通吃!用 Streamlit + FastAPI 丝滑集成你的 AI Agent
  • 9个AI写作工具,专科生论文格式规范全搞定!
  • 9个AI论文工具,专科生轻松搞定毕业论文!
  • 10 个AI写作工具,助你轻松搞定本科论文!
  • 开发AI Agent的多语言情感分析比较系统
  • 48、Linux DBMS 管理全攻略
  • 49、Linux系统管理实用指南(上)
  • 17、数据库设计:从简单到复杂的实践指南
  • EmotiVoice + GPU加速:实现千小时语音批量生成