当前位置：首页 > news >正文

阿里通义千问发布Qwen3-30B-A3B-Thinking-2507：33亿激活参数实现推理性能跃升

news 2026/6/6 22:03:15

阿里通义千问发布Qwen3-30B-A3B-Thinking-2507：33亿激活参数实现推理性能跃升

【免费下载链接】Qwen3-30B-A3B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

导语

阿里通义千问正式推出新一代推理模型Qwen3-30B-A3B-Thinking-2507，该模型在数学推理、代码生成等复杂任务上实现显著突破，原生支持256K上下文长度，并已全面开源。项目地址: https://gitcode.com/hf_mirrors/Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

行业现状

2025年，大语言模型领域正从"参数竞赛"转向"效率与能力并重"的发展新阶段。据行业分析，推理能力已成为企业选择AI工具的核心指标，超过60%的企业级用户将复杂问题解决能力列为模型选型的首要考量因素。与此同时，随着法律文档分析、科研文献处理等专业场景需求激增，超长上下文理解能力（10万tokens以上）成为区分高端模型的关键技术壁垒。

当前主流模型在推理任务上仍存在明显短板：传统 dense 模型参数量庞大导致部署成本高昂，而早期 MoE 模型则面临专家路由效率不足的问题。Qwen3-30B-A3B-Thinking-2507的发布正是针对这一行业痛点，通过305亿总参数与33亿激活参数的创新配比，实现了性能与效率的双重突破。

如上图所示，这是蓝色背景上带有白色"Qwen3"文字及卡通熊形象的Qwen3大语言模型品牌宣传图。该图片直观展示了Qwen3系列模型的品牌形象，为读者提供了对Qwen3模型家族的视觉认知，有助于加深对本文介绍的Qwen3-30B-A3B-Thinking-2507模型的整体印象。

模型核心亮点

数学推理能力达竞赛级别

Qwen3-30B-A3B-Thinking-2507在权威数学竞赛评测基准AIME25中取得85.0分的优异成绩，不仅超越了同系列前代模型Qwen3-235B-A22B Thinking（81.5分），更显著领先行业标杆产品Gemini2.5-Flash-Thinking（72.0分）。这一成绩意味着模型已具备接近人类竞赛选手的数学推理能力，能够处理复杂方程求解、几何证明、概率分析等高端数学任务。

百万级上下文处理能力

模型原生支持262,144 tokens（约200万字中文）的超长文本输入，并通过创新的Dual Chunk Attention（DCA）双块注意力机制，实现了最高100万tokens的极限文本处理能力。在1M版本RULER长文本理解基准测试中，该模型取得91.4%的平均准确率，远超行业同类产品。

这一能力使模型能够轻松处理完整的学术论文集、法律合同文件或大型代码库，为以下场景提供革命性支持：

法律行业：一次性分析上千页案件卷宗并生成案情摘要
科研领域：跨多篇相关论文进行文献综述与假设验证
软件开发：理解百万行级代码库的架构设计与依赖关系

高效部署与易用性提升

Qwen3-30B-A3B-Thinking-2507采用FP8量化技术，在保持性能损失小于3%的前提下，模型存储空间减少50%，推理速度提升40%。该模型全面兼容主流部署框架：

vllm（≥0.8.5）：支持OpenAI兼容API，单卡即可启动基础推理服务
sglang（≥0.4.6.post1）：针对推理任务优化的高效服务框架
Ollama/LMStudio：支持本地PC部署，普通开发者可轻松体验

特别值得注意的是，模型默认集成思考模式，用户无需额外设置enable_thinking=True参数，聊天模板会自动包含思考标记，大幅降低专业推理能力的使用门槛。

如上图所示，该图片展示了Qwen3-30B-A3B-Thinking-2507与其他AI模型在GPQA、AIME25、LiveCodeBench v6等基准测试上的性能对比。从图中可以清晰看出，Qwen3-30B-A3B-Thinking-2507在推理类任务中表现尤为突出，特别是在AIME25数学竞赛基准上以85.0分刷新纪录，充分体现了其在复杂推理领域的技术突破，为科研人员和工程师提供了强大的AI辅助工具。

行业影响与趋势

重新定义中等规模模型性能标准

Qwen3-30B-A3B-Thinking-2507以30B级别参数规模，在多项任务上达到甚至超越百亿级模型性能：

在MMLU-Redux测试中取得91.4分，接近Qwen3-235B-A22B Thinking的92.7分
LiveCodeBench v6编码测试中以66.0分超越Gemini2.5-Flash-Thinking的61.2分
多语言能力测试MultiIF中以76.4分刷新同规模模型纪录

这种"小而精"的技术路线，预示着大语言模型行业正从单纯追求参数规模转向架构创新与训练效率的竞争，将有效降低企业级AI应用的部署成本。

推动专业领域AI应用深化

模型在数学推理、代码生成和长文本理解的综合优势，将加速AI在以下专业领域的深度应用：

应用领域	典型场景	模型优势体现
科研辅助	复杂公式推导、实验数据分析	AIME25 85.0分的数学能力
智能编程	多语言代码生成、系统架构设计	LiveCodeBench v6 66.0分的编码能力
法律智能	合同审查、判例分析	256K上下文理解完整法律文件
金融分析	量化策略开发、风险评估模型	逻辑推理与代码能力的协同

开源生态加速行业创新

Qwen3-30B-A3B-Thinking-2507已全面开源，开发者可通过以下方式快速获取：

# 模型仓库地址 git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

开源策略将加速模型在学术界和产业界的应用落地，预计将催生三类创新方向：垂直领域微调应用、推理加速技术研究、多模态能力扩展。通义千问团队同时发布了完整的技术报告、API文档和部署示例，降低二次开发门槛。

如上图所示，该柱状图展示了Qwen3-30B-A3B-Thinking-2507与其他模型在GPQA、AIME25等基准测试中的性能对比。从图中数据可以看出，Qwen3-30B-A3B-Thinking-2507在推理任务上的改进尤为显著，特别是在AIME25数学竞赛基准上的得分领先其他对比模型，这为理解该模型的核心优势提供了直观的数据支持。