当前位置：首页 > news >正文

GPT-5.2 遭遇史诗级口碑翻车：OpenAI 的 Scaling Law 真的撞墙了吗？

news 2026/6/30 10:03:52

2025 年末的 AI 圈，本应是 OpenAI 巩固霸权的时间节点。代号为“大蒜”（Garlic）的 GPT-5.2 在万众期待中提前“抢跑”上线。萨姆·奥特曼在社交平台上意气风发，宣称首日 API 调用量便突破万亿 Token，增长曲线堪称疯狂。

然而，繁荣的背后却是深渊。上线仅仅 48 小时，全球开发者社区的差评便如潮水般涌来。

曾经那个灵动、博学、充满创造力的 GPT，在 5.2 版本中仿佛变成了一个“冰冷的官僚”。第三方权威机构 Epoch AI 发布的最新报告给 OpenAI 兜头泼了一盆冷水：GPT-5.2 的能力指数（ECI）仅为 152，在关键维度的较量中，竟然完败给了老对手谷歌的 Gemini 3 Pro。

这一仗，OpenAI 输得体无完肤。更极端的信号从内部传出：为了全力挽救口碑，OpenAI 甚至暂停了 AGI 的研发线，连备受瞩目的 Sora 也被搁置了八周。整家公司摆出了一副“破釜沉舟”的姿态，试图修复那个被用户戏称为“智商退化到石头水平”的模型。

二、基准测试的背叛：当“高分”不再等同于“高能”

在过去的一年里，我们习惯了 OpenAI 在各项榜单上霸榜。但在 5.2 时代，这种神话被彻底粉碎了。

1. FrontierMath 的滑铁卢

由数学天才陶哲轩联手百位数学家推出的顶级难题集 FrontierMath，被视为检验 AI “硬智力”的终极战场。GPT-5.2 虽然在 T1 至 T3 级别的基础题型中维持了体面，但在代表真正科研深度的 T4 级别面前，却被 Gemini 3 牢牢压制。这意味着在处理人类未知的科学边界问题时，OpenAI 的逻辑引擎出现了某种“疲软”。

2. SimpleQA 的信任危机

最令开发者心寒的是在 SimpleQA Verified（事实准确性验证）上的表现。实测数据显示，GPT-5.2 的事实可信度居然还不如前代 5.1 版本。迭代后的模型不仅没有变得更严谨，反而更爱胡说八道了。在一个需要精准交付的工程时代，这种“降智”无疑是致命的。

3. 国际象棋的“虚假繁荣”

虽然 GPT-5.2 在 Chess Puzzles（国际象棋残局）中拿下了第一，但业界专家指出，这种能力的提升很可能来自于对特定棋谱数据的过度训练。AI 变得更像一个“背题家”，而非一个具备通用思考能力的“战略家”。

三、谷歌的绝地反击：谢尔盖·布林的坦白局

风水轮流转。三年前，谷歌因为害怕 AI 产生负面言论，在 ChatGPT 面前错失先机；而三年后的今天，谷歌创始人谢尔盖·布林重返斯坦福演讲，公开承认了当年的失误。

谷歌不再瞻前顾后。凭借 Gemini 3 Pro 与 Nano Banana Pro 的组合拳，谷歌不仅在多模态理解上实现了跨代领先，更在模型的“语感”和“温度”上完成了逆袭。相比之下，OpenAI 似乎陷入了另一个极端：为了极致的安全对齐，将模型修剪得过于刻板、说教，甚至充满攻击性的冷漠。

不少重度用户直言：“GPT-5.2 的语气冰冷得堪比北极。它不再尝试理解你的需求，而是在一味地对你进行说教。”

四、 Scaling Law 的黄昏：预训练真的终结了吗？

关于 GPT-5.2 表现不佳的根源，硅谷流传着一个令人不安的推测：Scaling Law（规模法则）撞墙了。

早前的爆料指出，GPT-5.2 原计划在明年初发布，但迫于谷歌的压力仓促上线。更深层的危机在于，单纯依靠增加算力和数据量的“预训练阶段”已经无法带来指数级的智能跃迁。

尽管 OpenAI 内部整合了开发“Shallotpeat”期间积累的经验，并声称解决了大规模预训练中的关键 Bug，但 5.2 的表现证明，这种改进只是“修修补补”，而非“脱胎换骨”。纽约时报的爆料更具杀伤力：OpenAI 正在将重点转向“ChatGPT 优化”，而非底座模型的升级。这意味着，在短期内，我们可能无法看到真正的技术飞跃，取而代之的是各种产品细节上的打磨。