当前位置：首页 > news >正文

华为盘古Pro MoE开源：720亿参数MoGE架构如何重塑AI效率？

news 2026/7/3 20:37:24

华为盘古Pro MoE开源：720亿参数MoGE架构如何重塑AI效率？

【免费下载链接】openPangu-Pro-MoE-72B-modelopenPangu-Pro-MoE (72B-A16B)：昇腾原生的分组混合专家模型项目地址: https://ai.gitcode.com/ascend-tribe/pangu-pro-moe-model

导语

2025年6月30日，华为正式宣布开源盘古Pro MoE大模型，以720亿总参数、160亿激活参数的创新设计，在昇腾芯片上单卡推理性能达1148 tokens/s，重新定义了大模型的效率标准。

行业现状：从参数竞赛到实效主义

当前AI行业正经历从"参数军备竞赛"向"实效主义"的转型。据SuperCLUE 2025年5月榜单显示，盘古Pro MoE以72B总参数在千亿参数量以内大模型中并列国内第一，其16B激活参数性能媲美更大规模模型。这一突破标志着大模型发展进入"以小胜大"的新阶段，硬件效率与实际部署成本成为企业关注焦点。

核心亮点：MoGE架构的三大突破

1. 分组混合专家架构解决负载均衡难题

传统MoE模型中专家负载不均衡问题严重，部分专家处理高达30%的token量。盘古Pro MoE创新性地将64个路由专家分为8组，每组强制激活1个专家，同时引入4个共享专家处理通用知识，实现了近乎理想的负载分布——各专家处理token占比均约12.5%。

如上图所示，左侧为传统MoE模型专家负载分布，呈现明显集中趋势；右侧为盘古Pro MoE的均匀分布，充分体现了MoGE架构在负载均衡上的革命性改进。这种设计使分布式计算资源得到充分利用，为高效推理奠定基础。

2. 昇腾原生优化实现性能飞跃

通过系统级软硬协同优化，盘古Pro MoE在昇腾芯片上实现了推理性能的大幅提升。在昇腾300I Duo上单卡吞吐可达321 tokens/s，结合投机加速技术，在800I A2上性能更提升至1528 tokens/s，较同规模模型快6-8倍。

3. 高效训练与推理的工程实践

采用4000卡昇腾集群，盘古Pro MoE仅用7天就完成了15T tokens的预训练任务。模型支持Transformers和MindSpore双框架推理，环境依赖简洁，部署门槛低，为企业级应用提供了便捷的接入方式。

行业影响：开启大模型普惠化时代

1. 降低AI部署成本

动态负载均衡技术使云端推理成本显著降低，特别适合金融、电商等高并发场景。据测算，在相同业务负载下，盘古Pro MoE可减少40%的硬件投入。

2. 推动行业智能化升级

华为已宣布将盘古Pro MoE整合至云服务体系，重点赋能制造、医疗、农业等领域。通过轻量化推理引擎，客户可在昇腾系列芯片上高效运行百亿级模型，加速行业创新。

该图片展示了盘古Pro MoE技术报告封面，详细阐述了其MoGE架构原理与昇腾优化策略。报告显示，模型在逻辑推理、代码生成等核心能力维度均达到行业领先水平，为开发者提供了全面的技术参考。

3. 促进AI生态建设

开源策略使盘古Pro MoE成为学术研究与商业应用的共同基础。开发者可通过以下命令快速获取模型进行二次开发：

git clone https://gitcode.com/ascend-tribe/pangu-pro-moe-model

结论与前瞻

盘古Pro MoE的发布标志着大模型发展进入"质量重于数量"的新阶段。其创新的MoGE架构和昇腾原生优化，不仅解决了传统模型的效率瓶颈，更通过开源开放推动了AI技术的普惠化。未来，随着动态分组策略和跨平台优化的实现，盘古Pro MoE有望在更多领域展现价值，为千行百业的智能化转型提供强大动力。

【免费下载链接】openPangu-Pro-MoE-72B-modelopenPangu-Pro-MoE (72B-A16B)：昇腾原生的分组混合专家模型项目地址: https://ai.gitcode.com/ascend-tribe/pangu-pro-moe-model

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.cnnetsun.cn/news/29808.html

网页元素水平且垂直居中的实现方式

字节跳动BFS-Prover刷新自动定理证明纪录：72.95%准确率背后的轻量化革命

Rust包管理器Cargo完整指南：从新手到专家的10个实用技巧

Ray gRPC实战指南：5分钟构建高性能分布式服务

Keras 3模型持久化革命：从框架束缚到自由迁移的技术突破

LoopScrollRect终极指南：Unity高性能滚动列表快速上手

GLM-4.5-Air-FP8：120亿参数重构企业AI部署，能效革命如何改写智能体格局

18、OpenStack安全与发展趋势全解析

开源工具快速上手指南：三步掌握SJTUBeamer核心功能

Slim模板与SEO优化：如何让搜索引擎更好地索引你的内容？

USB Disk Ejector：告别繁琐点击，体验极速弹出的智能管理方案

猫抓资源嗅探扩展：5分钟掌握浏览器媒体下载黑科技

46、嵌入式应用程序部署全解析

49、嵌入式系统现场更新全攻略

SplineMesh贝塞尔曲线Unity插件终极安装与使用指南

ComfyUI ControlNet Aux 终极指南：解锁AI图像生成的新境界

Barlow字体家族：从几何美学到数字应用的全面解析

14、Linux 文件系统与文件操作全解析

Pandoc文档转换工具终极配置指南：5分钟完成专业部署

终极Qsign签名方案：5分钟搞定QQ机器人验证难题

SSDTTime黑苹果配置革命：智能补丁生成完整指南

终极GoSNMP完整指南：5分钟快速上手SNMP网络管理

WindowResizer：5分钟学会强制调整任何窗口尺寸的终极指南

Apertus-70B：1811种语言支持的合规开源大模型来了

OpenAI开源GPT-OSS-Safeguard-20B：安全推理模型重构AI内容风控范式

15、提升Ubuntu设备性能与可用性的实用指南

16、Ubuntu Mobile定制与优化全攻略

20、Ubuntu常见问题及ARM平台应用探索

22、技术指南：项目托管、桌面小程序与进程通信全解析

使用Knip彻底清理JavaScript项目：删除冗余代码的终极指南