当前位置：首页 > news >正文

程序员必看！2025大模型结构发展全攻略：17个代表性模型对比与学习指南

news 2026/6/28 14:50:17

本文系统梳理了2025年大模型结构的发展趋势，聚焦于降低训练成本、提升推理效率和提高输出质量。通过对17个代表性大模型的结构对比分析，包括Deepeek V3、OLMo 2、Gemma 3等，展示了各模型在Transformer基础上的创新与优化，如MLA、MoE结构、滑动窗口注意力机制等，为开发者提供了清晰的模型架构演进路线图。

2025大模型结构发展方向整理

2025年，各大模型团队都在想方设法降低训练成本，提升推理效率，提高输出质量，不断在Transformer的基础上进行修改和优化。

为了把这些模型的差异讲清楚，本文梳理了在结构上颇具代表性的17个大模型，把相近架构之间的关键异同放在同一张表里，方便快速看懂。

这份整理主要参考了AI研究者Sebastian Raschka的文章《The Big LLM Architecture Comparison》。

小编把原文逐段拆解、理解后做了翻译整理，后台回复“模型对比”，获取完整中文版内容。

Deepeek V3 / R1

•入选原因：MLA + MoE结构取得很好的效果，成为模板结构
•关键点：使用MLA + MoE，显著降低KV Cache成本，同时保持MHA的效果。

OLMo 2

•入选原因：训练数据与代码高度透明，配有详尽的技术报告，为开发者提供极佳的参考。
•关键点：归一化层采用Post-Norm的变体，同时引入QK-Norm，在注意力层仍然采用MHA。

Gemma 3

•入选原因：引入滑动窗口注意力来提升计算效率
•关键点：使用较大词表来支持多语言，引入滑动窗口注意力机制，并在归一化层中同时采用Pre-Norm和Post-Norm。另外在Gemma 3n中引入了Per-Layer Embedding和MatFormer概念。

Mistral Small 3.1

•入选原因：多项测试中超越Gemma 3 27B，同时推理速度更快
•关键点：使用了定制化的tokenizer，缩减了KV-Cache规模和网络层数。使用常规GQA实现。

Llama 4

•入选原因：原生支持多模态能力，减少专家数量并增加了单个专家规模
•关键点：采用GQA + MoE，交替使用MoE与Dense层，其中MoE层专家数量较少但单个专家规模更大。

Qwen3

•入选原因：完整的不同参数模型产品线，并同时保持优秀的效果。
•关键点：覆盖0.6B–32B的完整Dense产品线，小模型性能尤其突出。MoE模型放弃了共享专家。

SmolLM3

•入选原因：3B模型性能出色，并且公开大量训练细节
•关键点：每隔4层使用一次NoPE，是少数继续验证NoPE效果的模型

Kimi K2 / Thinking

•入选原因：1T极端参数规模同时具有良好的训练稳定性
•关键点：使用Muon代替AdamW进行训练，Thinking版本上下文长度扩展到了256K

GPT-OSS

•入选原因：OpenAI继GPT2后首次开源模型
•关键点：每一层采用滑动窗口注意力，更宽的结构，更少的专家，采用GQA，引入了attention sinks

Grok 2.5

•入选原因：代表早期MoE形态模型在生产环境中落地形态
•关键点：少数量大规模的专家设计，额外引入的SwiGLU相当于共享专家

GLM-4.5

•入选原因：开始围绕Agent、Tool、Reasoning反向调整模型结构
•关键点：在MoE前放置了三个Dense层来提升收敛稳定性和整体性能

Qwen3-Next

•入选原因：Attention层改变最大的模型
•关键点：引入Gated DeltaNet+Gate Attention的混合机制，同时引入了多token预测机制

MiniMax-M2

•入选原因：从M1的线性注意力回退到完整的注意力机制
•关键点：高度稀疏的MoE、采用Per-Layer QK-Norm、attention中使用部分RoPE

Kimi Linear

•入选原因：代表混合注意力路线模型
•关键点：在Qwen3-Next的基础上，使用Kimi Delta Attention，在完整注意力层使用MLA

Olmo 3 Thinking

•入选原因：完全开源模型，包括权重、报告、checkpoint、训练数据，极具学术价值。
•关键点：使用滑动窗口注意力，延续Post-Norm路线，使用YaRN将上下文扩展到64K

DeepSeek V3.2

•入选原因：极好的模型效果
•关键点：引入稀疏注意力机制来提高计算与推理效率

Mistral 3

•入选原因：架构创新不一定来自于新结构，还可以在工程上打磨
•关键点：加入视觉编码器，采用自家tokenizer

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。