当前位置: 首页 > news >正文

OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

12 月 15 日,OpenAI 在官方博客上公布了最新的开源项目——Circuit‑Sparsity 模型。该模型仅拥有 0.4 B 参数,但高达 99.9% 的权重被强制置零,形成极度稀疏的 Transformer 结构。OpenAI 表示,此举旨在破解大语言模型(LLM)长期困扰业界的“黑箱”难题,为医疗、金融、法律等高风险领域的 AI 落地提供可解释性支撑。

何为 Circuit‑Sparsity?

传统的密集模型在训练过程中会让每个神经元或权重矩阵同时编码多个概念,形成所谓的“超级位置”(Superposition),导致模型决策难以追溯。OpenAI 通过 动态剪枝 + Top‑K 稀疏约束,在训练阶段仅保留绝对值最大的 0.1% 权重,并在关键层引入 AbsTopK 激活函数 与 RMSNorm 替代传统 LayerNorm,使得模型内部自然形成紧凑、可读的 ‍“电路”(Circuits)‍。

电路的可读性与规模优势

实验显示,稀疏模型在完成同一任务时所需的计算路径比密集模型小 16 倍。例如在“字符串闭合”任务中,仅用 12 个节点 就构建了完整的电路,且每个神经元的激活语义明确——有的专门检测单引号,有的充当计数器。通过 均值消融 实验验证,去除非电路节点对性能影响微乎其微,而删掉电路关键节点则会导致模型瞬间崩溃,进一步证明这些电路是真正的决策通路。

性能瓶颈与后续路线

尽管可解释性大幅提升,稀疏模型的计算效率仍是制约因素。由于稀疏矩阵难以利用 GPU 的 Tensor Cores 加速,模型推理速度比同等密集模型慢 100–1000 倍,在千亿参数级别的前沿模型上直接应用尚不可行。为此,OpenAI 提出了 ‍“桥梁网络”(Bridges)‍ 方案:在稀疏模型与已有密集模型之间插入编码‑解码映射层,实现对密集模型的可解释性编辑,同时保持其高效推理能力。

社群反响

国外技术社区对该项目评价两极。一方面,有网友称这项技术把模型“减肥到只剩骨架”,相当于打开了 AI 的黑匣子;另一部分则指出,稀疏模型的训练成本高出 100–1000 倍,仍属于“研究时代”,短期内难以取代现有的 MoE(混合专家)模型。总体来看,Circuit‑Sparsity 为 AI 可解释性提供了全新思路,也为后续从密集模型中提取稀疏电路奠定了技术基础。

OpenAI 在博客中写道:“我们的目标是逐步扩大可可靠解释的模型范围,同时打造相关工具,让未来的 AI 系统更易于分析、调试与评估。”团队计划在后续工作中 从现有密集模型中提取稀疏电路,并研发 更高效的可解释性训练技术,以期在保持性能的前提下进一步降低模型复杂度。

结语

Circuit‑Sparsity 的发布标志着大模型从“黑箱”向“可解释”迈出了重要一步。虽然当前仍面临计算效率的挑战,但其在模型结构简化、决策路径可视化方面的突破,为 AI 在高风险行业的安全落地提供了新的技术路径。随着桥梁网络等后续方案的完善,稀疏模型有望在保持可解释性的同时,逐步缩小与主流密集模型的性能差距,推动人工智能向更透明、更可靠的方向发展。

http://www.cnnetsun.cn/news/69588.html

相关文章:

  • 详谈:解释器模式(四)
  • 双Buck电路并联下的下垂控制与VDCM协同控制策略:增强直流微电网稳定性的仿真应用
  • Java 日期格式化方法:SimpleDateFormat 和 DateTimeFormatter
  • GPU 渲染模式:OpenGL ANGLE Vulkan 的选择与切换(工程师不踩坑指南)
  • 【dz-968】室内空气监测系统设计
  • 【接口测试】5_接口测试基础 _接口文档解析
  • 最近在搞风光储联合发电系统的仿真,发现直驱风机和光伏逆变器的配合特别有意思。今天就跟大伙儿唠唠这个模型搭建时遇到的坑,顺便分享几个关键模块的调参心得
  • 【保姆级教程】手把手带你读懂AI落地架构图!AI产品经理必备,每个节点都给你讲透!
  • 最小化门控记忆网络在风速条件分位数预测中的实践与应用
  • 先给大伙儿拆解下五层电梯PLC程序的实现逻辑。这玩意儿核心是状态转移和信号竞争,咱们直接上硬核部分。(文末附IO表与接线说明)
  • 「码同学」2025VIP性能测试课程
  • 零基础转行AI产品经理:大模型学习路线与面试题库全攻略
  • iOS 组件化:模块拆分、依赖反转、解耦实践
  • 不容错过!2026中东【沙特】工程机械展览会,震撼来袭
  • 测试数据生成的AI解决方案
  • PyWebview浅谈
  • HUB扩展:数字世界的隐形枢纽与生态重构者
  • 基于能量分配的光伏混合储能系统仿真模型:MPPT控制光伏最大功率跟踪,电池与超级电容协同工作实...
  • 【WebSocket稳定性提升秘诀】:如何在生产环境中规避7类典型错误
  • 为什么你的协程系统响应迟缓?优先级调度设计缺陷可能是罪魁祸首
  • 构造函数返回对象时的陷阱:为什么 `return {}` 会覆盖 new 操作符的默认行为
  • 宏任务与微任务的边界:为什么在不同浏览器环境下 Promise 的执行时序可能不一致
  • 智能工牌如何帮房企智能盘客,提升销售转化?
  • LP3713CH_5W/SOP7隔离适配器和充电器自供电PSR控制芯片 典型应用电路
  • FT8393MB1(5V/2.4A)12W线式电源控制芯片 典型应用电路
  • [吾爱大神原创工具] Python脚本打包为“EXE”工具(史上最高颜值)
  • 当电机遇上滑移:四轮驱动车能耗与稳定性的双线作战
  • AI视频工具普及,为何内容团队工时反增20%?
  • SQL多表查询实战:7种JOIN详解
  • 变量传递总是出错?掌握这3个核心原理,轻松打通R与Python壁垒