IBM AI存储:算力稀缺时代的"破局者"

算力稀缺时代,存力大有可为

作者:周立旸,IBM 大中华区科技事业部存储软件产品总监

北京2023年11月21日  /美通社/ -- 2023年11月,业界"又双叒叕"发布了数款重磅 AI 基础架构产品。算力方面,英伟达(NVIDIA)发布了号称"史上最强"的新一代AI芯片H200,和上一代产品相比,显存容量几乎翻了一番,性能提升了60% 到90%。存力方面,IBM同样发布了新一代 Storage Scale System 6000(SSS 6000),这是一个旨在满足数据密集型和 AI 工作负载需求的云规模全球数据平台,单个模块可提供超过 256GB/s 的吞吐量和 5M IOPS 的文件访问性能,分别超过市场领先竞争对手 2.5 倍和 2 倍,能够满足多个并行的 AI 工作负载和数据密集型工作负载对极高的数据访问速度要求。


周立旸,IBM 大中华区科技事业部存储软件产品总监

 


IBM AI存储:算力稀缺时代的“破局者”

 


IBM Storage Scale System 6000

IBM 在2022年发布的Storage Scale System 3500(SSS 3500)数据存储,单个模块24块NVMe SSD可以提供超过125GB/s 的数据访问性能,已经大幅领先于大部分 AI 存储产品,IBM为何要推出更高性能的 SSS 6000呢?

算力和算法的发展,需要更快速的数据访问

人工智能是算法、数据、算力的有效结合,近年来大模型训练和推理、多模态 AI等领域的突破更是得益于高质量数据的发展。随着数据集规模不断增加,应用程序载入数据花费的时间越来越长,进而影响了应用程序的性能,因为存力不足导致的低效I/O使得运算速度日益提升的GPU无用武之地。为了满足不断提高的算力和各种基础模型对更大参数规模的需要,也需要提供更高速的数据访问能力。

举例来说,在目前主流的NVIDIA H100/H800 平台上,运行一个大小为30TB的图像数据集用于AI训练,每颗GPU所需的数据存储访问性能就超过了4GBps,运行更大规模的数据集的应用或支持多种负载的智算平台可能需要数百GBps到数TBps的高速数据存储才能满足其对存力的需求。经过充分优化的 IBM Storage Scale System 可以充分发挥并行架构和高速网络的优势,加速各种 AI 工作负载应用。

此外,不仅仅是训练环节,对于AI应用来说,从数据摄入到生产推理,每个环节都需要利用不同工具实现海量数据处理,并且这是一个不断重复的流程。用户需要构建的端到端的高速数据管道,简化流程并实现数据安全、高效的流动。基于IBM Storage Scale软件多协议互通的全局数据平台能力,用户可以在不同地点通过不同接口访问同样的数据,减少创建不必要的数据副本并通过智能的缓存技术减少数据传递的网络开销,整合来自核心、边缘和云端的宝贵数据资源。


AI应用全流程

算力短缺时代,需要提高GPU资源的利用率

随着通用型人工智能和大模型的发展,目前包括中国公司在内的全球AI公司都存在算力短缺的情况,英伟达等主要供应商的中高性能 GPU更是"千金难求"。对于拥有一定数量GPU的用户来说,如果能够将GPU的利用率提高一倍,就相当于增加了一倍的额外算力,在更短的时间内完成更多的应用。

由于显存容量受限,多机多卡的GPU集群需要共享的外部存储来为所有节点提供高速的应用数据访问。将数据从存储载入到GPU,过去都是由CPU负责,而这将会成为硬件性能的瓶颈。即使实现了服务器节点到存储的高速访问,数据到GPU的这"最后一公里"往往会造成GPU等待数据的情况,导致GPU利用率低下。

为此,英伟达开发了GPUDirect存储技术,可以通过RDMA高速网络直接将数据从外部存储传输至 GPU 显存上,能有效减轻CPU I/O的瓶颈,提升GPU 访问数据的带宽并大幅缩短时间延迟。IBM Storage Scale软件是首批支持该技术的认证存储产品,经测试,采用GDS 技术的IBM Storage Scale System 可以将GPU 访问数据的带宽提高一倍,时间延迟缩短一半。

在实际应用中,通过采用GDUDirect 存储(GDS)技术可以将GPU的利用率提高90%。例如,德国大陆汽车(Continental Automotive AG)采用 IBM Storage Scale System 作为 NVIDIA DGX 系统的共享数据存储后,AI 训练时间缩短了 70%,每个月完成的试验数量增长了14倍,宝贵GPU资源的利用率得到了极大的提升。


GPUDirect 存储技术带来时间延迟和CPU利用率的显著改善

IBM 存储与英伟达有着多年的合作历史,早在2018年和2019年就推出了DGX-1 POD和DGX-2 POD 的参考架构,并帮助英伟达利用IBM Storage Scale System构建了2018年全球超级计算机排名第61位的Circe和2019年全球排名第22位的DGX-2H SuperPOD;此后更是成为其 GPU Direct to Storage (GDS) 公开测试版本的合作伙伴,针对NVIDIA DGX A100 和 H100 的BasePOD 和 SuperPOD 都提供了NVIDIA认证的参考存储架构。

IBM Storage Scale软件也是首批官方认证支持GDS的产品。今年11月发布的最新Top500超级计算机榜单中,位于西班牙巴塞罗那超级计算中心的MareNostrum 5 ACC(GPU集群分区) 排名第八,该系统采用了4500块NVIDIA H100 GPU,其存储部分采用了容量为248PB的IBM Storage Scale System和400PB的磁带系统。

IBM AI存储的降本增效"黑科技"

除了 IBM Storage Scale 软件的高性能数据访问能力,以及跨系统、跨地域的全局数据访问和调度能力,IBM AI存储还有不少"黑科技"可以更好地帮助 AI 用户降本增效:

绿色节能:IBM 享有专利的计算存储驱动器FlashCore Module (FCM) 在存储驱动器内部集成了智能的FPGA芯片,通过硬件加速可实现强大的在线数据压缩和加密功能。基于该技术 Storage Scale System 6000可以在4U空间内 提供高达 3.6PB 全闪存有效容量,将每 TB 的存储成本降低 70%,将每TB的能耗降低 53%。 安全弹性:IBM Storage Scale 软件的纠删码功能确保了数据可靠性,与传统 RAID 相比,可以在数分钟(而非数小时或数天) 内重建磁盘,最大程度地减少故障对数据访问性能的影响;IBM Storage Scale 软件提供 Safeguarded Copy(不可篡改的数据快照)和日志审计、加密功能,可以有效应对如网络攻击和勒索病毒等的安全威胁,提供高达 6 个 9 的可用性。 支持混搭:IBM Storage Scale 提供多种部署和配置选项,可将不同存储设备、基于 NFS 的其它文件存储和基于S3的其它对象存储、甚至是磁带存储统一纳入到全局命名空间中,消除数据孤岛,简化海量数据的访问和管理。


IBM AI存储支持多协议互通

得益于这些领先优势,在2023年发布的Gartner 分布式存储魔力象限报告中,IBM连续第八年被评为领导者,并在报告中被认为是用于高性能文件、AI 和分析型工作负载的最佳解决方案。

无论是应对当前算力稀缺的挑战,还是发展以数据为中心的新一代AI应用,提升存力、优化数据存储已经成为必选项。我们期待继续携手中国客户和合作伙伴突破算力瓶颈、避开成本陷阱,更加高效地将AI转化为生产力!

关于IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。了解更多信息,请访问:https://www.ibm.com/cn-zh 

媒体联络人
崔守峰,shou.feng.cui@ibm.com 

 

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/226239

(0)
上一篇 2023年11月21日
下一篇 2023年11月21日

相关推荐

  • 员工挂“罪牌”戴纸托手铐引质疑,80后王云安创立的古茗又“翻车”了

    雷达财经鸿途出品 文|莫恩盟 编|深海 员工头挂“罪牌”、手戴形似手铐纸托的视频,将头部茶饮品牌古茗推至舆论的风口浪尖。被不少网友指责不尊重员工的舆论不断发酵后,古茗通过官方账号进行致歉:“对不起,我们玩梗…

    专栏 33分钟前
    5.7K
  • 精准学发布全球首个超拟人一对一AI老师

    作者:曾响铃 9月19日,在2024云栖大会上,一位可以给学生做学习计划、根据知识点讲课、能够培养和纠正学习习惯和方法的老师引起了巨大关注。与普通老师不同的是,这是一位依托于AI技术诞生的“超拟人AI一对一老师”…

    专栏 33分钟前
    5.6K
  • Gen.G与迪桑特合作发布新队服

    全球电子竞技公司Gen.G Esports宣布将携手运动品牌迪桑特推出2024英雄联盟全球总决赛(世界赛)纪念队服。这是迪桑特与电竞的首次跨界合作。由短袖队服和夹克组成的这套队服以白色为主,金色线条表现Gen.G LOGO,中间…

    发现 34分钟前
    5.5K
  • Gen.G与迪桑特合作发布新队服

    全球电子竞技公司Gen.G Esports(Gen.G)宣布将携手运动品牌迪桑特推出2024英雄联盟全球总决赛(世界赛)纪念队服。这是迪桑特与电竞的首次跨界合作,不仅为Gen.G征战2024世界赛提供支持,还设计了饱含对比赛信心和…

    发现 34分钟前
    4.5K
  • 国际商会发布第11版《广告和营销传播准则》

    全球最大的商业协会国际商会(ICC)呼吁广告商和营销商在面临行业混乱和自律挑战时,率先倡导健全的道德标准。ICC发布了《广告和营销传播准则》第11版,该准则85年来一直是全球广告行业自律的支柱。ICC指出,所有参与…

    发现 34分钟前
    5.0K
  • Cambrex新技术显著降低成本与环境影响

    Cambrex旗下公司Snapdragon Chemistry已成功开发出一种新型液相多肽合成 (LPPS) 技术,该技术利用传统的活性药物成分 (API) 批量反应器和连续流,避免了对专用固相反应器的依赖。与标准固态肽综合工艺相比,这种新…

    发现 34分钟前
    5.6K
  • 乐高与F1达成长期合作

    乐高集团与一级方程式赛车(F1)宣布建立新的长期战略合作伙伴关系,合作将从2025年F1赛季开始。此次合作将乐高积木拼搭的乐趣和F1的速度与激情巧妙融合,旨在将这项激动人心的运动带给全球更多家庭,让创新、技术与…

    发现 34分钟前
    5.0K
  • 普渡机器人发布初代类人形机器人PUDU D7

    9月19日,全球服务机器人领军企业普渡机器人发布其初代类人形机器人PUDU D7。基于仿生双臂和全向移动底盘设计,PUDU D7能够在多个场景中执行复杂任务操作,更好地满足跨行业客户的多样化需求。PUDU D7由普渡X实验室…

    发现 34分钟前
    5.0K
  • 欧洲首家锂精炼厂落成

    原材料公司AMG在德国Bitterfeld为欧洲首家锂精炼厂举行了落成典礼。该厂旨在帮助欧洲大陆提高电动汽车电池生产的独立性。Bitterfeld的新工厂是氢氧化锂精炼厂,每年将生产20,000吨氢氧化锂,供应匈牙利和波兰的正极…

    发现 34分钟前
    3.6K
  • TÜV莱茵与SID China启动显示行业新工作组

    TÜV莱茵与SID China共同发起的“显示产业链碳排放分析和计算方法工作组”和“独立第三方检测实验室工作组”正式成立。两个工作组旨在汇聚业界专家智慧,推进基础研究和技术交流,为显示行业发展提供有针对性的解决方案…

    发现 34分钟前
    4.0K

发表回复

登录后才能评论