当前位置：首页 > news >正文

MiMo-V2-Flash学习

news 2026/6/4 8:49:33

总结于文章：https://mp.weixin.qq.com/s/XKRqHP-2sdWmLTbTWuNwkA

小米MiMo团队在12月16日晚上发布并开源了MiMo-V2-Flash。团队在官方博客中介绍，这是一款强大、高效且超快速的基座语言模型，在推理、编程和智能体场景中表现尤为出色，同时也是处理日常任务的优秀通用助手。

1.模型形态：推理效率成为核心

MiMo-V2-Flash采用混合专家（Mixture-of-Experts，MoE）架构，总参数规模为309B，但在实际推理过程中，仅有约15B参数被激活。

MiMo-V2-Flash支持最高256k的上下文长度，使其能够完成跨数百轮Agent交互和工具调用的任务。与这一指标同样重要的，是它实现这一能力的方式。团队围绕极致推理效率设计模型结构，主要有两个方面创新：Hybrid SWA架构（混合滑动窗口注意力）和3层MTP推理。这一设计并不追求理论上的最优表达能力，而是针对KV Cache的显存与计算成本进行了现实取舍。

罗福莉介绍：“MTP一开始是被提出来用于做推理加速的，后面DeepSeek将它用于提升基座模型的能力，我们也在训练的时候去加入了MTP层进一步提升基座模型的潜能。微调的时候加入了更多层的MTP，用很少量的算力就提升了MTP层的接受率。”

根据技术报告，MTP在不显著影响生成质量的前提下，可将推理速度提升最高约3倍。

2.训练方法：全新的后训练范式MOPD

小米MiMo团队在MiMo-V2-Flash的后训练阶段，创新提出了多教师在线策略蒸馏（Multi-Teacher Online Policy Distillation，MOPD）范式，正是针对这一问题提出的解决方案。

但这在推理和Agent场景里会出现问题，比如学生模型只学“答案”，不学“过程”；学生模型在真实推理中走偏、犯错，不按教师模型的路径走。此外Agent场景中的工具调用、多轮决策、长时规划，这些都不是“看一个标准答案”就能学会的。

而MOPD的核心思路，是让学生模型先按照当前策略生成推理或Agent行为轨迹，再由多个教师模型在这些on-policy 轨迹上进行token级指导。

问题：如何实现token级别指导？强化奖励吗？和deepseek math v2有点像？

这种方式使学生模型学习的对象从理想化的“标准答案”，转变成自身在真实状态空间中的行为分布。

罗福莉还分享了一件让她意外的事情：“当学生模型很快超越教师模型的时候，能不能让这个学生替换成教师，继续自我迭代提升？”

根据官方博客，MOPD采用了解耦设计，支持灵活地集成新的教师模型和ORM，并自然而然地实现“教与学”的闭环迭代：通过蒸馏得到的学生模型可以演化为更强的教师模型，从而实现能力的持续自我提升。

值得一提的是，MOPD训练稳定且极其高效——要达到教师模型的最高性能，仅需传统SFT+RL流程不到1/50的计算资源。

MOPD提供的是一种相对平滑、稳定的中间训练阶段，用于在进入高噪声的强化学习之前，对模型行为进行约束和塑形。这种设计降低了强化学习在长时序任务中可能出现的策略崩坏风险，也使模型在复杂环境中的探索更加可控。

3.罗福莉与小米：一次面向Agent时代的下注

而从行业视角看，MiMo-V2-Flash代表着大模型路线的一种分化趋势：在预训练Scaling逐渐逼近边际收益的背景下，围绕推理系统、Agent能力与工程可行性的探索，正在成为新的竞争维度。

这一方向并不依赖于极端的算力投入，而更强调系统设计、训练方法与工程能力的协同。这种路线，也更贴近大模型在产业环境中的真实需求。

有趣的是，今天罗福莉表达了类似的观点：“算力和数据也并非最终的护城河，真正的护城河，是科学的研究文化与方法，是将未知问题结合模型优势转化为可用产品的能力。”

她认为，大模型本质上是用了算力的暴力美学，直接去攻克了最顶层的语言，但是它跳过了中间的非常多的步骤，比如对世界的感知、模拟，以及作为实体与环境产生交互。

“单纯Scaling Up参数量不够，”罗福莉说，“要让大模型回到‘演化课堂’，补上它跳过的关键学习步骤。”

在MiMo-V2-Flash发布之前，罗福莉和MiMo有一次对话，她想让MiMo”深入阐述物理世界导向：强调多模态和真实世界交互才是通往真正智能（AGI）的关键，而非仅靠文本。

MiMo的回答是：“智能根植于存在，而非符号。”

http://www.cnnetsun.cn/news/112809.html

相关文章：

查重不是“安检门”，而是你学术表达的“校音器”——宏智树AI免费查重，让引用有回响，原创有回声

Git删除过去分支(如删除23年及之前的分支)

AB测试：数据驱动决策的科学与艺术

零基础学会用vue-qrcode制作第一个二维码

foreach vs for循环：大数据量下的性能对比实验

3.9 Elasticsearch-跨集群搜索（CCS）与跨集群复制（CCR）

用NATS+AI快速构建物联网数据采集原型

Excel格式转换异常？新手必看的5分钟解决指南

【智能聊天助手部署教程 (基于 Streamlit + Ollama)】

好写作AI第二大脑：当研究灵感不再碎片化，你的“学术外脑”已上线

好写作AI第二大脑：当研究灵感不再碎片化，你的“学术外挂”已上线

守护代码世界的守门人——软件测试团队心理健康白皮书

PinWin窗口置顶工具：提升Windows多任务效率的终极指南

Sheet-to-Doc：用Excel数据和Word模板自动生成文档

27岁，转行网络安全，是这辈子最成功的一件事......_27岁开始搞网安好吗

基于 OpenCV C# 的直线卡尺工具源码分享

FunASR多说话人识别终极指南：从实战到深度解析

SpringAI基于pgvector存储向量

15天零基础打造Android视频录制终极方案：基于FFmpeg的微信级体验完整实现

终极指南：macOS iSCSI启动器完整配置与使用详解

【计算机毕业设计案例】基于SpringBoot+微信小程序的智能在线预约挂号系统基于springboot+微信小程序的智能医疗管理系统设计与实现(程序+文档+讲解+定制)

【计算机毕业设计案例】基于springboot+微信小程序的校园活动管理系统设计与实现在线活动发布、报名管理与学生互动平台(程序+文档+讲解+定制)

HMC218BMS8GETR,3.5-8 GHz GaAs MMIC双平衡混频器, 现货库存

直流电机控制仿真：Matlab/Simulink 实现

如何用Charticulator轻松制作专业图表

俄罗斯服务器常见故障汇总及排查方法

Seed-VR2：突破性AI视频增强技术，6GB显存实现专业级画质处理

3分钟让你的Qt应用颜值翻倍：10款专业QSS模板免费使用指南

AI视频生成新纪元：5步掌握Wan2.2模型实战技巧

Stable Diffusion WebUI Forge技术架构深度解析：PyTorch如何驱动AI绘画革命