浪潮信息刘军：如何用更少GPU更快地完成2457亿参数巨量模型训练？

• 2022年1月5日下午4:56 • 专栏, 发现 • 阅读 119

北京2022年1月5日 /美通社/ -- 近年来，BERT、GPT-3等大规模预训练模型取得了巨大成功，引领语言模型进入巨量时代，算力、数据、参数规模快速朝着极致化的方向发展，也为模型训练和部署带来巨大挑战。在近日举行的2021 NeurIPS MeetUp China上，浪潮信息副总裁、AI&HPC产品线总经理刘军基于2457亿参数的“源1.0”中文语言模型，分享了浪潮人工智能研究院在巨量模型训练与计算性能提升方面的领先实践。

谈及巨量模型训练，刘军表示：“训练工作中最复杂也最具挑战的技术点在于如何行之有效地完成数千万级参数的模型训练”当前，GPU显存最高为数十GB左右，而训练‘ 源’ 这样训练数据集达5TB、参数量达2457亿的大模型需要的GPU显存高达几TB，显然无法在单个显卡或一台GPU服务器上完成因此，巨量模型训练工作，需要在模型算法、分布式训练、大规模集群计算等各个层面进行协同设计、优化，才能保证模型训练过程收敛。

浪潮人工智能研究院需要将“源1.0”训练所需的巨大算力并行分布到几千张GPU上模型训练时最常采用的是数据并行分布式计算策略，但这只能满足小模型的训练需求对于像“源 1.0”这样的巨量模型而言，需要专门设计算法来解决训练中的显存占用问题，同时还要兼顾训练过程中的GPU计算资源的利用率。

为此，浪潮采用了张量并行、流水线并行和数据并行的“三合一”并行策略首先，将266台AI服务器共计2128个GPU芯片分成7组，每组38台AI服务器放置一个完整的“源1.0”大模型，其次，每组的38个服务器，采用流水并行每个服务器放置1/38的模型（2个Transformer Layer），一共76层最后，在每台服务器内采用张量并行，按照Transformer结构的每一层进行均匀切分在此过程中，浪潮人工智能研究院也通过“增加序列长度”、“减少模型层数”、“增加隐藏层大小”、“增加节点中微批次大小”等模型结构策略，提升训练效率。

Model

Layers

Hidden size

Global BS

Micro BS

Sequence

Length

GPUs

Yuan 1.0

16384

3360

2048

2128

“源1.0”的模型结构以及分布式策略

最终，浪潮人工智能研究院完成2457亿参数的“源 1.0”模型训练，总计训练1800亿个tokens，模型收敛的交叉熵为1.64相较于GPT-3的1750亿参数，“源1.0”是其参数量的1.404倍GPT-3使用10000块GPU、花了30天训练完成1750亿参数，“源1.0”在2128个GPU集群上跑了16天完成了训练，使用更少GPU更快完成训练，大幅提升计算效率。

“源1.0”消耗的总算力为4095 PetaFlop/s-day，每个GPU的实际训练性能达到140 TFlops，GPT-3消耗的总算力为3640 PetaFlop/s-day，其单GPU计算性能为12 TFlops而微软和英伟达打造的5300亿参数量的MT-NLG模型用了4480个A100 GPU，其单GPU计算性能为113 TFlops，也低于“源1.0”。

“源1.0”与 GPT-3 的参数量、算力对比。

浪潮人工智能研究院在实现更高计算效率的同时，也探索优化大规模AI计算集群架构当前，如MT-NLG等大规模深度学习模型需要在计算集群中采用8x200Gbps的IB互联架构，而“源1.0”在集群架构设计上采用了2x200Gbps的高速网络实现节点互联，“我们在实践发现，通过一定的优化工作，可以使用更少网络设备数量，取得更佳的计算性能”刘军表示。

巨量模型是当前人工智能研究的热点，当前的巨量模型远没有达到模型能力的极限，增大模型参数量和训练数据量仍然将带来模型精度的持续提升对于巨量模型的发展趋势，刘军表示，“巨量模型的计算量已经超过PetaFlop/s-day的阶段，进入到ExtraFlop/s-day的阶段1 ExtraFlops等于1000 PetaFlops，因此可以说，GPT-3的计算量是3.64ExtraFlop/s-day，‘源1.0’的计算量则是4.095 ExtraFlop/s-day从十年的尺度来看，今天我们还处于巨量模型起步阶段，人类对计算的追求是没有极限的，目前巨量模型消耗的计算量可能仅仅是未来一台电脑的计算量”刘军对巨量模型的未来发展充满信心。

原创文章，作者：，如若转载，请注明出处：https://knewsmart.com/archives/56050

0 0 打赏

微信扫一扫

关于作者

0 文章

0 评论

粉丝

延续与革新并存，绘王新一代Kamvas Pro 13&16(2.5K)震撼上市

上一篇 2022年1月5日下午4:56

南宁临空冷链医药项目开工，普洛斯助力空港经济发展

下一篇 2022年1月5日下午4:56

发现

第三代元PLUS 11.99万元起正式上市全系搭载第二代刀片电池及闪充技术

5月21日，比亚迪第三代元PLUS正式上市，官方指导价11.99万-14.99万。新车定位元力智趣闪充SUV，凭借全能产品力契合元气青年、年轻家庭与科技实用派的多元出行需求，以全球车品质与年轻姿态解锁高品质纯电出…

新智派
2026年5月21日
12.4K
发现

人均16本？2026全国职场人阅读调查来了！

本雅明在一百年前写下过一个诊断：我们生活在一个体验超载的时代，但内心却感到贫乏，似乎没什么能真正沉淀下来。他把那种可传承、能生根的深厚经验称为“Erfahrung”，而把那些孤立的、转瞬即逝的刺激称为“Erlebnis…

新智派
2026年4月27日
15.5K
发现

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

一壶武夷岩茶，升腾起连接东西方的氤氲热气。近日，《哈萨比斯：谷歌AI之脑》作者塞巴斯蒂安·马拉比，与华为管理顾问田涛展开了一场深度对话，整整2个小时，围绕人类“重构巴别塔”的雄心与野心，两位观察家在茶香中…

新智派
2026年4月20日
12.1K
发现

为什么我们还要读书？世界总有答案

OpenClaw能打开浏览器、查资料、写邮件、填表格——像一个不睡觉的实习生。 Gemini CLI能一口气吞下整个代码库，三秒钟给你一份精准的优化建议。 MGIE动动嘴就能修图，连软件都不用打开。 2026年，这些AI智能体不再是…

新智派
2026年4月20日
8.8K
发现

博世舒适科技日立冷热科技亮相中国制冷展，以绿色与智能引领行业升级

北京2026年4月17日 /美通社/ -- 在2026中国制冷展期间，博世舒适科技集团日立冷热科技集中展示了覆盖压缩机、空调系统及大型机组在内的全系列产品与解决方案。围绕绿色低碳与智能化发展趋势，公司正加快由单一设备…

新智派
2026年4月17日
4.6K
新智•新速•新未来｜OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式圆满举行

北京2026年4月17日 /美通社/ -- 2026年4月16日，"OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式"圆满举行。本次会议汇聚行业认证机构、核心技术伙伴及生态厂商，共同见证新一代工业控制技术的诞…

新智派
发现 2026年4月17日
6.7K
以责任赋能发展以初心传递温度 -- 中通快递正式发布 2025 年度可持续发展报告

上海2026年4月17日 /美通社/ -- 2026年4月17日，中国行业领先且快速成长的快递公司中通快递（开曼）有限公司（纽交所代码：ZTO及香港联交所代号：2057）（"中通"或"公司"）正式发布了2025年度可持续发展报告。这是…

新智派
发现 2026年4月17日
12.0K
水隐之触悦然心生 GROHE SPA水悦淋浴系统耀世登场

设计美学：采用高特朗水悦恒温控制面板，内嵌式按钮设计让科技隐于无形。核心技术：模块化创新设计搭配SmartControl控温技术，一键精准调控个性化组合。感官体验：宽大的顶洒与情绪调频式手持花洒结合，打造沉浸…

新智派
发现 2026年4月17日
4.2K
雅诗兰黛集团连续第六年参展中国国际消费品博览会，彰显深耕海南的长期承诺

海口2026年4月17日 /美通社/ -- 作为世界领先的优质护肤品、彩妆、香水和护发产品的制造商与营销商，雅诗兰黛集团连续第六年亮相中国国际消费品博览会（以下简称"消博会"）。围绕"重塑美妆新境，焕启致美之旅"的主…

新智派
发现 2026年4月17日
4.5K
发现

毛源昌眼镜亮相消博会，向世界讲述中华老字号新故事

杭州2026年4月17日 /美通社/ -- 4月13日-18日，第六届中国国际消费品博览会在海南海口举行。毛源昌眼镜作为商务部首批认定的"中华老字号"受邀参展，在老字号"镇店之宝"专题展示区，向全球客商呈现百年品牌的文化底…

新智派
2026年4月17日
4.0K

发表回复

登录后才能评论

浪潮信息刘军：如何用更少GPU更快地完成2457亿参数巨量模型训练？

关于作者

相关推荐

发表回复