大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显

文 | 智能相对论

作者 | 叶远风

18.8万亿美元,这是市场预计2030年AI推动智能经济可产生的价值总和,其中大模型带来的AI能力质变无疑成为重要的推动力量。

大模型浪潮下,业界对AI发展的三驾马车——算力、算法、数据任何一个维度的关注都到了全新的高度,避免“木桶效应”成为大模型发展首要考虑的问题。

而在这个过程中,业界对“数据”的关注,往往集中在“量”+“质”上,更庞大的数据量与更高的数据质量能推动大模型有更好的训练与应用效果,已经成为共识。

但是,随着大模型创新对数据需求越来越复杂,单单关注数据的“量”+“质”已经不够,能够承载数据、满足大模型需要的存储,同样值得大模型领域从业者关注。

在刚刚举办的华为全联接大会2023(HC 2023)上,华为方面系统介绍了其存储解决方案如何解决大模型训练与应用痛点、支撑大模型创新进程。

华为的动作,从数据维度全景展示了大模型发展的本质——“数据要素”大开发,以及存储创新如何为这种本质提供力量,帮助大模型从业者更好地掘金智能经济时代。

大模型时代即是数据要素时代,存储作为载体的价值彰显

毫无疑问,大模型对算力、算法、数据的需求都在急速提高。

市场研究统计,过去五年,大模型参数增加2000倍,所需计算能力增加5万倍,对数据存储需求增加10万倍,连带网络带宽需求增加8000倍。

大开大合大需求,需要大设施、大投入。

但是,如果从创新的视角来看,实际上无论是算法还是算力的提供,其难度都在下降或者说收敛。

在很多企业都头疼的算力上,虽然需要的量很大,但无非都来自于英伟达、昇腾等GPU硬件资源,是一件主要依赖成本投入的事。换句话说,只要有足够多的预算,算力资源就能供给上来。

在算法端,虽然各大厂商不断调优迭代,但总体上都在采用Transformer模型基础架构,基于Pytorch、TensorFlow、MindSpore等主流开发框架开发,是逐渐收敛的。

这时候,压力来到了数据这里。

随着大模型深入发展,在总量上,数据需求早已从TB级跃升到PB级,需要的“池子”越来越大;而同时,对数据类型的需求又极大丰富,单一文本的模态之外,图片、视频、语音等多模态数据爆发,数据需求越来越复杂,这些都考验着存储的承载力,以及如何在训练、应用过程中更好地与算力、算法协同工作。

这期间,诸多难题出现,等待存储攻克,主要包括:

小文件读取性能。大模型在数据需求上以图片文本等海量小文件为主,单台AI服务器每秒能够读取2万多张图片,这往往会导致数据加载效率低(类似于个人PC上的复制动作,同等空间下,内含大量小文件文件夹会比单一大文件要慢很多),影响大模型的训练效率。此时,海量小文件性能就成为瓶颈,万亿参数大模型的基础要求已经达到1000万IOPS。

CheckPoint断点续训。大模型训练过程中出于参数调优等各种需求,会在不特定时间点中断形成CheckPoint,后续再启动继续训练(需要时间,形成GPU资源利用的空档)。这是一种对长时间训练的模型非常友好的能力,但企业频繁参数调优往往会造成GPU利用率降低(目前业界通常平均每二天就会中断一次,GPU利用率只有40%),需要存储具备很强的大文件读写性能,才能减少GPU等待时间、提升昂贵资源利用效率。

“AI幻觉”问题。大模型输出结果“胡编乱造”,与事实明显冲突的现象是业界十分头疼的问题,这种大模型自以为是的现象称作“AI幻觉”。看起来这是算法上的问题,但实际上,业界在探索中逐渐发现,它的解决需要的是在数据层面不断“求证”(主要是参考上下文信息),本质上要求存储能够提供一个类似于“百科词典”的知识体系,来作为大模型的“海马体”提供准确的行业知识。

可以看到,在创新层面,解决大模型在存储上面临的挑战,可能要优先于算力和算法。

这一点,其实也让大模型进一步回归到本质上,即以参数量更大的AI模型进一步挖掘数据要素的价值,推动千行百业实现转型升级。

现在,数据要素已经作为数字经济和信息社会的核心资源,被认为是继土地、劳动力、资本、技术之后的又一重要生产要素,包括大模型在内的无数创新,都是在围绕数据要素进行价值深度开发。

大模型的发展过程,可以看作是数据要素不断从原始走向价值输出的过程。

这一过程中,算法在前方引导方向、走向通用或具体行业,澎湃的算力带来强劲的推动力,而存储则提供支撑与协同能力。当算力主要依赖成本投入、算法逐步收敛,存储作为数据要素载体的创新价值就越来越凸显。

让数据要素价值落地,华为存储多维度出击解决痛点问题

如何解决存储面临的挑战,华为高性能知识库存储OceanStor A800产品与对应解决方案在面向行业模型训推场景拥有全面领先的训推效率,总体而言有四大特点:

1、极高的整体性能,匹配大模型训练需要

华为存储首要解决的是在整体性能上满足大模型对训练数据的庞大需求,尤其是对小文件读取性能的需求。

OceanStor A800基于创新数控分离架构,单框IOPS能够达到2400万,训练集加载效率是业界的4倍,而且可以根据客户需求实现性能线性扩展。此外,OceanFS分布式文件系统实现全局均衡打散,消除了CPU瓶颈,能带来海量小文件性能的极致提升体验,满足大量小文件读取需求。

只要有性能需要,尽管“往上加”,华为存储都“扛得住”。

2、特殊能力优化,满足断点续训等特定需要

断点续训等特殊情况下如何更好地提供支撑,是华为存储在大模型训练阶段要同步应对的挑战。

通过盘控协同、NFS+并行文件系统,华为存储实现了单框500GB/s超高带宽,能够做到CheckPoint的超快恢复,断点续训恢复速度是业界3倍,TB级CheckPoint读写实现从小时级到分钟级的跨越(即万亿参数大模型平均恢复时间小时级提速到分钟级),减少昂贵的GPU等待。

只要是优化大模型需要的,客户都能够更加大胆地进行参数调优等操作。

除此之外,其管控面拥有资源分区+统一调度能力,还能够让存储适合不同的业务模型。

不管客户面向什么业务模型进行开发,不管客户在过程中选择在什么时候暂停,华为存储都能更好地应对。

3、响应能力强化,满足大模型应用的实时需求

训练阶段完成后,华为存储要做的,是在应用阶段满足严苛的数据响应需要。

目前,在大模型应用阶段,得益于内置了向量知识库(以向量的形式储存行业知识),华为存储的QPS达到了25万+,已经能够实现毫秒级响应,一方面能够加速推理,使得应用过程中的GPU资源消耗大大减少,有效节约了落地成本——当前很多大模型在开放应用阶段的资源消耗十分巨大,有些企业已经不堪重负;另一方面“百科词典”使得大模型更具准确的行业知识,对减少AI幻觉产生起到重要的支撑作用,能大大提升推理的精度。

4、架构创新,保障整体系统的稳定可靠

对存储最后一个也是最基本的要求是,无论具备什么样的特性,都要保证稳定可靠的整体结构,不发生安全问题、不“掉链子”。

华为存储解决一系列大模型数据痛点需求的过程,某种程度上也增加了存储方案与体系的复杂性,但与此同时,华为并没有牺牲系统的可靠性,其创新的全互联AA架构,能够实现5层全方位保护与6个9的超高可靠。

由此,大模型的数据可靠性及训练稳定性实现了端到端的保障。

造轮者,先行久远路途

华为存储能够解决大模型数据痛点问题,根源在于其长期以来在存储上的创新探索。

OceanStor A800的数控分离架构,就利用了业界前沿的数据读写直通到盘的技术创新,让数据面直通到盘,与控制面分离,实现IO直通,从而减少数据读写时CPU的运算,大大提升存储性能。

实际上,华为长期以来在存储上进行技术耕耘,已经取得了颇多类似的前沿创新成果。

目前,华为OceanStor存储在全球拥有12个研发中心、4000+研发人员、3000+专利,产品涉足高性能NAS存储解决方案、存储防勒索解决方案、容器存储解决方案、数据中心虚拟化等多个领域,获得了广泛好评。

在全球150多个国家,华为存储已经服务了包括运营商、金融、政府、能源、医疗、制造、交通等行业在内的25000+客户。

可以说,为数据要素价值开发、为大模型创新需求量身定制的存储能力,是华为长期以来在存储赛道上深耕的必然结果——华为存储早已做好了为众多领域数据需求(不只有大模型)提供强大承载力与协同力的准备。

*本文图片均来源于网络

#智能相对论 Focusing on智能新产业新服务,这是智能的服务NO.240深度解读

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/212721

(0)
上一篇 2023年9月28日
下一篇 2023年9月28日

相关推荐

  • /稿件更正 -- 意大利对外贸易委员会上海代表处/

    由意大利对外贸易委员会上海代表处通过美通社发布的新闻稿件《第四届意大利烹饪教育项目在中国启动》(发布时间:20-May-2024)中,第1段第1句误为:"意大利驻化使领事馆";正确内容应为:"意大利驻华使领事馆"。特…

    1小时前
    6.7K
  • 热雪奇迹"雪上新生"雪板循环利用行动开启 共筑绿色滑雪新场景

    北京2024年5月20日 /美通社/ -- 聚焦绿色发展,责任引领未来。一直以来,热雪奇迹积极履行社会责任,用低碳行动回馈社会。日前,以"雪上新生"为主题的雪板循环利用绿色行动正式启动,由热雪奇迹号召并发起,携手绿…

    1小时前
    6.4K
  • Eppendorf CC40NX超速连续流离心系统亮相

    Eppendorf集团在第二十三届生物制品年会上发布了Eppendorf CC40NX超速连续流离心系统,旨在支持疫苗和基因治疗等领域的大规模工业化生产。该产品具备原位灭菌功能,可处理高达200L的连续流离心模式通量,并配备数据…

    发现 2小时前
    8.7K
  • 软通动力助推贵州数字化转型升级

    软通动力信息技术(集团)股份有限公司与中国移动通信集团贵州有限公司遵义分公司近日在遵义签署了战略合作协议,将围绕DICT业务、软件研发、产品推广、行业解决方案等领域深化合作,共同推进西南地区数字经济的发…

    发现 2小时前
    7.0K
  • 软通动力参加华为AI+制造行业峰会

    5月16日,华为AI+制造行业峰会在深圳举办,主题为"数智制造,激发新质生产力"。软通动力参与并发表演讲,探讨制造业与AI技术融合。软通动力拥有智能制造领域多年经验,提供全方位解决方案,并与华为合作打造智慧工…

    发现 3小时前
    6.0K
  • 鸿湖万联加强与鄂尔多斯工业互联网平台的战略合作关系

    5月16日,第十八届鄂尔多斯国际煤炭及能源工业博览会在鄂尔多斯东胜区开幕,吸引了3000余家参展企业和超过10万人次的参观者。软通动力子公司鸿湖万联在同期举办的华为矿鸿生态论坛上获得首批矿鸿OS生态合作伙伴(OS…

    发现 3小时前
    6.5K
  • IBM Think 2024大会即将启幕

    北京时间5月20日晚,IBM的年度盛会Think 2024将在美国波士顿开幕。此次为期四天的活动将吸引来自全球的5000位行业、商业和科技领导人、IBM客户与合作伙伴、媒体、分析师和投资者参加。大会以“AI规模化应用”为主题,…

    发现 5小时前
    8.4K
  • 百世云仓将在东南亚构建云仓网络

    5月20日,百世供应链在全国网络大会上宣布其百世云仓全面出海战略,重点进军东南亚市场。该战略不仅聚焦于市场拓展,还强调本土化运营的重要性。百世云仓将通过整合前端商流、末端物流以及资源端,在东南亚构建一个…

    发现 5小时前
    9.3K
  • 国轩高科推出超快充、长续航、全固态电池新品

    国轩高科第13届科技大会以"致新世界"为主题启幕,发布三大新产品技术:5C超快充G刻电池、高镍三元星晨电池和全固态金石电池。G刻电池支持9.8分钟充至80%,适用于多种车型,采用多项安全设计。星晨电池由第七代工厂…

    发现 5小时前
    9.3K
  • 迪卡侬投资创新初创公司RECYC'ELIT

    迪卡侬投资于纺织品循环利用初创企业RECYC'ELIT,加强其可持续发展战略。RECYC'ELIT专注于开发可回收产品,使用突破性技术回收聚酯纤维等材料。RECYC'ELIT计划于2025年建设示范工厂,进一步实现化学回收减少浪费。…

    发现 5小时前
    9.4K

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们
联系我们
分享本页
返回顶部