从狂热到理性：大模型训练三堵墙，一场少数人的游戏

• 2023年6月30日上午10:57 • 发现 • 阅读 101

“只要有GPU卡，把服务器买走都行”。3月份开始，张阳明显感受大模型带来的冲击，作为一家云厂商算力平台负责人，他意识到市场甚至有些盲目。“当时客户比较慌，相当于对产品都没有什么要求，不关心网络和存储，就是感觉大家都在抢机器，先抢过来固定住时间，然后再去看怎么用，那会大家还没有想明白怎么用。”

到了4月，有些客户已经尝试过或者见过大模型训练，逐渐开始想明白，大概知道想要什么样的配置。要一堆GPU卡，实际上是一个认知误区，大模型训练的实现依靠的是一个算力集群，包含整套的服务。

但不是所有企业都能驾驭大规模算力集群，这注定是一场少数人的游戏。事实上，微软和OpenAI的合作也已经证明，用云来训练大模型，似乎是更合理的选择。

作为中间层，云厂商向下屏蔽底层软硬件的复杂性，向上对接企业的研发和算法工程师、个人开发者等，此外背靠集团的云厂商，还具备资金、人才、数据等优势，也就最先开始声势浩大的进军大模型。

AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色，仿佛齿轮般咬合在一起，构成数字经济的产业发动机，如今，大模型让每个齿轮都极速传动起来。

训练基础模型，是一切大模型产业生态的起点，也只有闯过算力关，才能拿到大模型竞赛的入场券。

大模型训练的三堵墙

技术的发展有其延续性，正如微软Azure为OpenAI打造的“超级计算机”，经历了数年的演进才有成果，现阶段大模型训练比拼的，其实是过去几年厂商的战略预判与技术积累，能上牌桌的大多是老玩家。

“大模型存在明显的炒作过热倾向，行业应该更加理性，而不是套着大模型概念做资本或者业务的炒作。我自己的观点是，真的不要去考虑端到端地去做一个大模型，对于非要做的企业，我只能说有机会，但是挑战很大。”一家互联网大厂大模型产品负责人对钛媒体表示。

在学术界看来，OpenAI并没有做出革命性的创新，本质是围绕AGI产品进行的“工程创新”，但正是工程化造就了OpenAI和大模型的成功，工程化体现在大模型研究、工程、产品、组织各个环节，算力训练集群也是如此。

“工程化做得好也很难，它证明了往上堆算力，堆数据是可以往前推进的。”微软技术中心首席架构师韩凯对钛媒体表示。

这一看似简单的逻辑背后，对企业而言却是极大的考验——看不见可能的出路，担心巨大的投入没有产出，这是最大的风险，也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随，而不是对一条没被验证过的路投资。

算力集群的工程化，至少要突破三堵墙。

首先是“算力”墙。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练，而单卡只有312TFLOPS算力时，一张卡训练一个模型要耗时32年。所以需要引入分布式训练的方法，使用多机多卡的方式来加速模型的训练，包括比较常见的数据并行和张量并行。”天翼云资深专家陈希表示。

其次是“存储”墙。单显卡的显存已经无法加载千亿级参数。千亿级参数完全加载到显存大概需要几个TB，如果再考虑梯度、优化器状态等训练过程产生的一些中间结果，占用的显存量就更大了，往往需要上百张卡才可以支持。

所以厂商一般会引入流水线并行，将模型不同的层放到不同的节点的显卡内进行计算。对于这一组节点只需要加载某一些层的参数，降低显存的压力。

随之而来的是“通信”墙。大模型并行切分到集群后，模型切片间会产生大量通信，包括节点内多卡通信，节点间通信。几种并行方式都会涉及到大量的节点与节点间的通信，这时候就会对总线和总带宽都有很高的要求，要达到几百G的吞吐。

另外除了这三堵墙以外，还有一些其他问题：如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显。最近几年随着transformer结构的引入，平均每两年，模型参数数量增长15倍。而相应的芯片制程从7nm提升到4nm，单卡算力增长不超过4倍，芯片工艺发展落后于大模型的需求。

大模型训练需要的不单单是算力，对存储，对安全，对训练框架都有一定的要求，需要一套比较完整的平台或服务来提供支持。“大家最近的一个普遍的感受，就是能满足大模型训练平台的提供商不多，高性能算力供应整体比较紧张。”陈希说。

为什么“他们”能成？

现在仍有不少企业毫无准备或者自我感觉有所准备，就冲进基础模型领域。

然而，如果细细研究现阶段做出基础模型的厂商，无一例外在AI领域都有足够积累，特别是底层基础设施层面，他们的实践也在验证“云是规模算力的最佳承载平台”这一判断。

“为了打造AI超级计算机，微软早在2018年就开始布局，除了OpenAI还投资了几个小公司，大数据是AI的前序，云计算基础设施是算力平台，大模型是算力、算法和数据的集合，微软的成功在于全栈能力。”韩凯表示。

回到国内，百度也遵循类似的逻辑。百度副总裁谢广军提到，算力和存储一定要达到更高的密度，才能够支持大模型。显著的问题还有网络互联，大模型训练用的比较多的显卡是带有NVLink高速互连的A800，需要比传统云计算做到更低延时、更高带宽，大量的小文件，也需要低延时、高存储的基础设施。

“大模型跑起来之后，还有非常多的地方需要加速，像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库，对于大模型计算和推理非常有帮助。”谢广军说。

从平台的视角来说，不管是训练任务还是推理任务，单个的任务就需要非常长的时间，需要占用很多资源。怎么能够保证资源的充分利用，以及降低它的训练和推理时间。这里面需要切任务、调度、并行，对于模型训练的加速比和并行度的支撑。

同时，一个平台上往往有有很多任务，如何灵活调度，进而能够让这些任务充分地使用资源，甚至能够感知到异构算力的拓扑，使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做。

以文心一言的训练为例，千卡规模的A100或者A800数据并行加速比达到90%，其中用了非常多的调优手段和技术，百度智能云围绕着大模型一层一层做优化，在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层，共同组成了 AI IaaS，这些基础设施可以支持上万亿参数大模型的训练。

此外，预训练模型需要通过千卡以上的集群训练，而在大多数情况，精调或者微调更普遍，基于大模型训练行业模型，相当于在树干上长树枝，不需要超大规模的集群，小几十张卡足以满足企业所需训练资源。

达观数据将在7月份正式推出国产版GPT“曹植”系统，也是得益于多年文本智能技术积累和垂直领域场景业务经验，算法和数据层面有所储备，而在测试阶段的算力层面，达观数据CEO陈运文表示，自建算力数据中心较为吃力，达观寻求了多种算力平台的支持，包括运营商算力中心、鹏程实验室等。

达观数据也曾尝试某家头部云厂商的GPU算力，但经过测算成本太高，租一年半下来的成本，足够达观数据自家购置一个自己的算力平台，达观数据选择了英伟达DGX高性能工作站方案，相当于英伟达自身做了很多集群优化，解决了存储和网络的大部分问题，直接买GPU卡自建集群和英伟达解决方案相比，综合性能相差一倍。

“我们自己的模型训练成本其实还是很高的，但是我们帮客户算过账，模型在推理阶段需要的算力投入并不大，很多客户只要单机多卡就够，硬件投入不算很大，但是给客户带来的效果和体验提升非常明显。”陈运文表示。

英伟达不只有GPU

小厂商用英伟达的商业技术补齐能力，大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能，进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU。

来自市场的消息显示，A800的价格一度超过8万元人民币，A100更贵，甚至超过9万元。

“英伟达的策略是既要确保每家大客户都能拿到货，同时又不会完全满足其短时大量的需求，这使得英伟达GPU保持在一个供应紧张的状态。”一位业内人士表示，英伟达全球A100的产能并不缺，供货没有问题，对于禁售A100之后，特供中国的替代品A800，英伟达特意开了一条产品线，因其产能相对有限，造成了供需矛盾。

一些厂商也在想其他办法，比如在香港建立算力集群，同时H800和A800复用了一部分产品线，未来H800的产能上来之后或许会压制A800，不排除英伟达会继续增加适用于中国市场的产线。

除了产量，高企的价格也源于英伟达芯片的工程化能力，这是其成为大模型训练核心的决定性原因。

业界内外对英伟达有两种极端认知：一种认为，英伟达难以战胜；另一种是诸多厂商在PPT上“吊打”英伟达。然而，即便在理念和先进性上领先，但这一切只停留在芯片设计环节，没有真正工业落地，也就无从对比。

现实情况是，在大模型算力领域，英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。

以英伟达最新发布的GH200GraceHopper超级芯片，以及拥有256个GH200超级芯片的DGXGH200超级计算机为例，产品性能上至少领先其他厂商一个身位。

涉及到算力集群，RDMA网络成为大模型时代的底层通信技术，业内主要使用的是Infiniband、RoCE，NVlink仅用于GPU之间通信，InfiniBand网络则为通用高性能网络，既可用于GPU之间通信，也可用于CPU之间通信。

Infiniband网络以往在超算领域应用较为广泛，随后扩展至人工智能计算，2019年，英伟达以69亿美元收购迈络思，补全了自己了网络短板，目前IB较为成熟，很多厂商都在尝试自研RoCE路线，在部分场景下较IB网络还有一定差距。

例如文心一言，早在2021年6月，百度智能云开始规划全新的高性能GPU集群的建设，联合NVIDIA共同完成了可以容纳万卡以上规模的IB网络架构设计，集群中节点间的每张GPU卡都通过IB网络连接，并在2022年4月将集群建设完成，提供单集群EFLOPS级别的算力。

2023年3月，文心一言在这个高性能集群上诞生，并不断迭代出新的能力。目前，这个集群的规模还在不断扩大。NVIDIA中国区解决方案与工程总经理赖俊杰也提到，高速IB网络互联的GPU集群是大模型时代的关键基础设施。

据了解，百度仅半年时间就采购了数万片英伟达A800，其他互联网厂商的采购量也在上万片，刨除一开始发生了挤兑现象导致供不应求外，目前英伟达产品的供货周期在三个月以内。

CUDA（ComputeUnifiedDeviceArchitecture）软件生态，也是备受开发人员好评的产品，它允许开发者使用C/C++、Fortran等编程语言在英伟达GPU上进行并行计算，提供了强大的计算能力和高效的数据传输方式，使得GPU在科学计算、机器学习、深度学习等领域得到了广泛的应用。

目前，英伟达是大模型热潮中最受益的厂商，没有之一，即便是微软为OpenAI搭建的超级计算机，也依赖于英伟达的产品，绝大多数训练算力都来自于英伟达GPU，面对全球如雪花般飞来的订单，英伟达赚的盆满钵满。

其最新的2024财年第一季度财报显示，英伟达数据中心业务营收为42.8亿美元，创下历史纪录，与上年同期相比增长14%，与上一财季相比增长18%，股价也创下历史新高。财报具有滞后性，大模型带来的业绩增收还没有完全体现在财报上。

国产算力的机会

在自主创新的大背景下，大模型算力也在加速拥抱国产化，大家的态度是远期普遍看好，短期仍有挑战。大模型时代到来之后，很多国产芯片虽然有所准备，但是在最高端的芯片上存在一定的差距。

燧原COO张亚林表示，当前所有人在做大模型训练的时候，时间至关重要，现在大家需要成熟的产品，不会倾向于选用国产化芯片，避免遇到一些稳定性或者成熟度的问题。

但推理层面是国产芯片的机会，张亚林表示，推理模型本身支持的方向比较单一，只要在推理模型上做到极致的调优，把性价比拿出来，很多用户反而愿意用国产化芯片。“我认为现在国产芯片应该倒过来，先做推理和微调，然后慢慢通过研究所、高校、国家级实验室的研究，牵引到集群化的能力，从推理到训练的曲线会更加合理。”他说。

谢广军提到，AI芯片的发展比摩尔定律更加激进，也会有更大的下降空间。算力短缺一方面算力跟不上需求，另一方面，还是由于整个供应形势所带来的问题。

“大模型的需求也会加速国产芯片的迭代。以昆仑芯来讲，今年年底昆仑第三代，更加适合大模型，不管是训练还是推理，包括通信、显存都会有非常大的提升。我相信其他的国产算力也是这样的，国产算力更具备竞争力，会使得整个算力成本进一步下降，而且是加速下降。”谢广军说。

钛媒体App了解到，今年国产芯片的发展呈现错位状态，国产芯片还没有对标到英伟达最高端的产品，比如A100。有几家国产芯片厂商已经预备在今年晚些时候，推出类似的对标产品。不论是训练还是推理，国产芯片的发展或多或少有一些滞后。

与之对应地，英伟达芯片供应相对紧张，国产算力在明年之后，会有比较大的机会，现在算力市场还在急剧增长，国产芯片的匹配度不够，主要还是英伟达在增长，如果需求匹配上之后，国内芯片会有很大的机会。

张亚林表示，如果燧原要真的“杀”到互联网客户场景，一定是在他们需要的场景和业务下，具备1.5倍的英伟达产品性能，和两倍的性价比。

“互联网客户普遍追求极致性价比，但是在集群方面要看TCO（总体拥有成本），集群的软硬件整体价格、运维服务部署等，比如我1000卡的集群，跟英伟达的600卡集群对比，可能性能差不多，但是我性价比更高，同时我提供更好的定制化的服务支持，在市场上也是很有竞争力的。”他说。

6月，关于大模型算力的讨论渐歇，基础模型厂商初窥门径，要么身体力行地去训练大模型，要么买到更有性价比的算力，但总体来说，以算力为中心的大模型基础设施，成本依然处于较高的水平。

IT产业总是遵循否定之否定的钟摆定理，在大模型的产业热潮中，接下来算力的各个环节如何进化，也更值得期待。（文中张阳为化名）

原创文章，作者：，如若转载，请注明出处：https://knewsmart.com/archives/168306

0 0 打赏

微信扫一扫

关于作者

0 文章

0 评论

粉丝

积极履行社会责任仕乐人才招聘顾问彰显企业时代担当

上一篇 2022年5月10日下午4:57

方舱医院研究表明正气片能明显缩短新冠无症状感染者核酸转阴时间

下一篇 2022年5月10日下午4:57

发现

第三代元PLUS 11.99万元起正式上市全系搭载第二代刀片电池及闪充技术

5月21日，比亚迪第三代元PLUS正式上市，官方指导价11.99万-14.99万。新车定位元力智趣闪充SUV，凭借全能产品力契合元气青年、年轻家庭与科技实用派的多元出行需求，以全球车品质与年轻姿态解锁高品质纯电出…

新智派
2026年5月21日
9.3K
发现

人均16本？2026全国职场人阅读调查来了！

本雅明在一百年前写下过一个诊断：我们生活在一个体验超载的时代，但内心却感到贫乏，似乎没什么能真正沉淀下来。他把那种可传承、能生根的深厚经验称为“Erfahrung”，而把那些孤立的、转瞬即逝的刺激称为“Erlebnis…

新智派
2026年4月27日
14.8K
发现

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

一壶武夷岩茶，升腾起连接东西方的氤氲热气。近日，《哈萨比斯：谷歌AI之脑》作者塞巴斯蒂安·马拉比，与华为管理顾问田涛展开了一场深度对话，整整2个小时，围绕人类“重构巴别塔”的雄心与野心，两位观察家在茶香中…

新智派
2026年4月20日
11.6K
发现

为什么我们还要读书？世界总有答案

OpenClaw能打开浏览器、查资料、写邮件、填表格——像一个不睡觉的实习生。 Gemini CLI能一口气吞下整个代码库，三秒钟给你一份精准的优化建议。 MGIE动动嘴就能修图，连软件都不用打开。 2026年，这些AI智能体不再是…

新智派
2026年4月20日
8.2K
发现

博世舒适科技日立冷热科技亮相中国制冷展，以绿色与智能引领行业升级

北京2026年4月17日 /美通社/ -- 在2026中国制冷展期间，博世舒适科技集团日立冷热科技集中展示了覆盖压缩机、空调系统及大型机组在内的全系列产品与解决方案。围绕绿色低碳与智能化发展趋势，公司正加快由单一设备…

新智派
2026年4月17日
3.9K
新智•新速•新未来｜OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式圆满举行

北京2026年4月17日 /美通社/ -- 2026年4月16日，"OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式"圆满举行。本次会议汇聚行业认证机构、核心技术伙伴及生态厂商，共同见证新一代工业控制技术的诞…

新智派
发现 2026年4月17日
6.2K
以责任赋能发展以初心传递温度 -- 中通快递正式发布 2025 年度可持续发展报告

上海2026年4月17日 /美通社/ -- 2026年4月17日，中国行业领先且快速成长的快递公司中通快递（开曼）有限公司（纽交所代码：ZTO及香港联交所代号：2057）（"中通"或"公司"）正式发布了2025年度可持续发展报告。这是…

新智派
发现 2026年4月17日
11.3K
水隐之触悦然心生 GROHE SPA水悦淋浴系统耀世登场

设计美学：采用高特朗水悦恒温控制面板，内嵌式按钮设计让科技隐于无形。核心技术：模块化创新设计搭配SmartControl控温技术，一键精准调控个性化组合。感官体验：宽大的顶洒与情绪调频式手持花洒结合，打造沉浸…

新智派
发现 2026年4月17日
3.6K
雅诗兰黛集团连续第六年参展中国国际消费品博览会，彰显深耕海南的长期承诺

海口2026年4月17日 /美通社/ -- 作为世界领先的优质护肤品、彩妆、香水和护发产品的制造商与营销商，雅诗兰黛集团连续第六年亮相中国国际消费品博览会（以下简称"消博会"）。围绕"重塑美妆新境，焕启致美之旅"的主…

新智派
发现 2026年4月17日
3.9K
发现

毛源昌眼镜亮相消博会，向世界讲述中华老字号新故事

杭州2026年4月17日 /美通社/ -- 4月13日-18日，第六届中国国际消费品博览会在海南海口举行。毛源昌眼镜作为商务部首批认定的"中华老字号"受邀参展，在老字号"镇店之宝"专题展示区，向全球客商呈现百年品牌的文化底…

新智派
2026年4月17日
3.4K

发表回复

登录后才能评论

从狂热到理性：大模型训练三堵墙，一场少数人的游戏

关于作者

相关推荐

发表回复