当前位置：首页 > news >正文

为什么你开了多卡，训练反而更慢？

news 2026/6/28 16:07:08

在模型规模不断增大的今天，多机多卡几乎是每个团队都会走到的一步。

但在真实训练中，很多团队会遇到一个反直觉的现象：卡是加了，训练却没有明显变快，甚至在某些阶段还变慢了。

在多个主流训练框架和工程实践中，都能看到类似反馈：当GPU 数量从 4 卡扩展到 8 卡、16 卡后，吞吐提升远低于预期。

这并不是多机多卡“没用”，而是算力在扩展之后，用法发生了变化。

PART 01

在讨论“快不快”之前，先说清楚什么是多机多卡训练

在单机单卡训练中，模型、数据和计算过程都集中在一张GPU 上完成，逻辑非常简单：一张卡，从头算到尾。

当模型规模和训练需求上来之后，单卡往往会遇到两个瓶颈：

显存不够，模型放不下
训练时间过长，实验周期无法接受

多机多卡训练，本质上就是为了解决这两个问题。在多机多卡训练中，训练任务会被“拆开”来执行：

模型或参数被拆分，分布在多张GPU 上
数据被并行处理，每张卡负责一部分计算
中间结果需要在GPU 之间同步，以保证训练一致性

这意味着，GPU 不再只是“算模型”，而是同时在做三件事：

计算模型
与其他GPU 交换信息
等待同步完成后进入下一步

也正因为如此，多机多卡训练的核心挑战，从“有没有算力”，变成了算力是如何被拆分、协同和调度的。

理解这一点，才能解释为什么—— 卡是加了，但速度不一定线性提升。

PART 02

为什么一上多机多卡，训练反而变慢了？

在单机单卡阶段，GPU 几乎只做一件事：算模型。

但进入多机多卡后，算力会被拆分为三部分：

模型计算
参数同步
跨卡跨机通信

在真实训练中，很多团队会发现一个变化：通信和同步的时间占比，从个位数提升到30% 甚至更高。尤其在以下场景中，这种问题会被放大：

batch size 较小
模型参数规模较大
GPU 数量增长快于模型计算量

这时，即使GPU 看起来“都在跑”，新增算力也可能被大量消耗在“等同步”上。

一个真实的多机多卡训练复盘场景：

在一个典型的大模型训练项目中，团队做过这样一次对比测试：

配置A：单机 4 卡

配置B：双机 8 卡

模型规模和batch 设置保持不变测试结果却非常反直觉：8 卡配置下，单 step 时间明显变长整体吞吐提升不足30%GPU 利用率看起来正常，但训练总时长反而拉长复盘后发现，问题并不在算力规模本身，而在于：参数同步频率显著增加跨机通信延迟被放大新增算力大量消耗在“等待同步”上卡是加了，但有效算力并没有等比例增加。

PART 03

显存问题解决了，但算力压力并没有消失

很多团队上多机多卡的直接原因是：“单机显存不够了。”

通过参数切分、状态分散等方式，显存占用确实可以明显下降，这是多机多卡训练必须解决的一步。

但在实际工程中，常见的反馈是：