当前位置：首页 > news >正文

DeepSeek V3.2技术深度解析：Midtrain训练、RL鲁棒性与Agent任务合成全攻略

news 2026/7/2 13:41:10

文章总结了DeepSeek V3.2模型在mid train和后训练过程中的关键技术工作。包括使用低学习率进行continued pre-training提升长文本能力；通过专家蒸馏和GRPO优化（K3 Estimator、Off-Policy Sequence Mask等）提高RL稳定性；以及大尺度Agent任务合成Pipeline，通过1827个任务环境提升模型多领域任务表现。这些技术引领LLM发展方向，值得深入学习。

Midtrain

DSA的结构和优势不是本文重点，这里先暂时略过。我们来看一下在v3的基模之上，DeepSeek是怎么进行迭代的：

V3.1 Base: 840B tokens continued pretraining for long context extension on top of V3。
Starting from a base checkpoint of DeepSeek-V3.1-Terminus, whose context length has been extended to 128K, we perform continued pre-training followed by post-training to create DeepSeekV3. In this sparse training stage, we use a learning rate of 7.3 × 10e-6 , and select 2048 key-value tokens for each query token. We train both the main model and the indexer for 15000 steps, with each step consisting of 480 sequences of 128K tokens, resulting in a total of 943.7B token.
所以其实在v3的预训练之后，还有两个continued pretraining(Midtrain)阶段，一共训了差不多1.8T的token。并且要注意，是7.3 × 10e-6的低学习率去训练的。

Posttrain

专家蒸馏

在base model上为不同的能力单独后训练对应的专家，然后用这些专家再产生蒸馏sft数据，从而得到一个在各个能力上都还比较强的起点模型。然后在一个比较高的起点上再做一次rl，进一步推高指标。

Stablizing GRPO

稳定的RL是高效后训练的基石，DeepSeek一如既往地坚持使用GRPO，不过这一次加入了很多额外的优化。

1. K3 Estimator. 目前国内的趋势基本都是去掉KL约束，或者给KL约束一个非常低的系数，这里选择引入了K3 Estimator，并且考虑到潜在的数值问题，加上了重要性采样。不过在最后作者也说了，不同Domain的KL约束强度不一样，数学领域甚至可以不加KL约束。 另外这个技术的出处应该来自于：GRPO等算法中的KL损失改进思路——梯度的视角 2. Off-Policy Sequence Masking. 一个很简单的Mask，把训推差距过大的样本给Mask掉就好了，并且只Mask掉advantages为负的样本序列。 这个技术的出处来自于： https://yingru.notion.site/When-Speed-Kills-Stability-Demystifying-RL-Collapse-from-the-Training-Inference-Mismatch-271211a558b7808d8b12d403fd15edda 3. Keep Routing. 在训练的时候强制要求和推理的时候使用一样的 MoE Routing路径。 文章里还特意声明了一下，从DeepSeek-V3-0324开始，他们就已经在用这个技术了，认知确实是领先。 4. Keep Sampling Mask. Top-p和Top-k的采样策略，也会引入训推不一致的问题，这里发现采用top-p采样，在训推的时候都保持使用同样的truncation mask，可以有效地改善RL训练中的语言一致性问题。

大尺度Agentic任务合成

关于搜索，代码相关的任务合成，各种工作也讨论地比较多了，比如搜索一般都是基于长尾实体，构建复杂query和answer的pair，从而通过RL来提升BC等评测集的效果。这里主要还是介绍DeepSeek提出的通用Agent数据合成。他们合成了1827个任务环境，并且确保这些任务是难以解决但是容易验证的。

1. 给定一个任务类别，以及一个带有搜索和CI工具的沙盒，让agent首先从互联网检索一些相关数据，并存放在沙盒的数据库中。 2. 让agent基于任务和数据合成一系列的工具。 3. 首先基于当前数据库提出一个简单的任务，解决方案（只能用步骤b中的工具），和校验函数。 如果解决方案所产生的结果校验没有通过，那么agent就需要继续修改解决方案或者校验函数，直到通过为止。通过之后，就可以继续上升任务的难度，并更新对应的解决方案和校验函数。在迭代过程中，如果步骤b中的工具集不够用，那么可以去增强这个工具集合。 通过这个合成方案，可以得到几千个的组合，然后再通过DeepSeek-V3.2的pass@100去筛选，最后得到了1827个环境，4417个任务。

看蓝线，合成Agent任务上做RL，在多个评测集上都取得了非常明显的收益。

总结

DeepSeek V3.2看起来虽然是一个小版本的更新，但文中的诸多技术依然引导着LLM的技术发展方向，值得逐字逐句学习。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。