湖仓一体:揭秘数据湖架构现代化之道

作者:Hebert W. Pereyra,IBM 杰出工程师,Hybrid Data Management首席架构师

译者:刘俊 ,IBM watsonx.data开发架构师

北京2023年7月17日 /美通社/ -- 数据湖诞生至今已有十多年的历史,为全球一些最大的企业提供了数据分析的支持。然而,也有人认为,绝大多数数据湖部署已经演变成为"数据沼泽"。不论你站在哪一边,现实情况是,这些系统中仍然承载着大量的数据。这些数据规模庞大,使得移动、迁移或对其进行现代化都变得异常困难。

数据湖的巨大挑战:单一结构的架构问题

从较高层次来看,数据湖是一个大规模的单一数据存储库。数据可以以原始形式存储,也可以经过优化,采用适合专用引擎使用的不同格式。

就Hadoop而言,它是最受欢迎的数据湖之一,通过使用开源软件实现该存储库,并在通用硬件上运行,可以以非常低的成本在系统中存储大量数据。数据可以以开放的数据格式进行持久化,从而实现了数据消费的民主化,并通过自动复制提供了高可用性的支持。默认的处理框架具备从故障中恢复的能力。这无疑是与传统分析环境有着显著差异的重要转变,传统数据分析环境往往意味着供应商锁定以及无法处理大规模数据。

另一个出乎意料的挑战是将Spark引入作为大数据处理框架。由于其支持数据转换、流式处理和SQL,它迅速获得了广泛的认可。然而,它并未能与现有的数据湖环境友好共存,因此通常需要额外的专用计算集群才能运行Spark。

我们将时间前移15年回到当下,现实已经清楚地表明了这项技术所涉及的权衡和妥协。其快速的采用意味着客户很快失去了对数据湖中数据的追踪。同样具有挑战的是,他们无法确定数据的来源、获取方式以及在处理过程中的转换方式。数据治理仍然是这项技术中尚未探索的领域。虽然软件可能是开源的,但需要有人学习如何使用、维护和支持它。仅依赖社区支持并不能持续满足业务运营所需的响应时间。高可用性通过复制实现则意味着需要更多磁盘上的数据副本,增加存储成本,并导致故障更加频繁。而高可用的分布式处理框架则意味着不得不在性能方面做出妥协,以换取弹性(这将导致交互式分析和商业智能的性能严重下降)。

为何要对数据湖进行现代化?

数据湖在特定的使用场景中已经被证明是成功的。然而清楚的是,企业迫切需要对这些部署进行现代化,保护基础设施、技能和存储在这些系统中的数据的投资。

在寻找答案的过程中,行业研究了现有的数据平台技术及其优势。很明显,有效的方法是将传统的(或者说是遗留的)数据仓库或数据集市的关键特性与数据湖的优势结合起来。以下几个关键要素迅速浮出水面:

具备弹性和可扩展的存储,能够满足日益增长的数据规模需求。 采用开放的数据格式,使数据对所有人都可访问,同时针对高性能进行优化,并具备良好定义的结构。 开放的元数据(可共享),能够支持多个消费引擎或框架。 支持数据更新(ACID特性)和事务并发处理。 综合的数据安全和数据治理(如数据血缘、完整的数据访问策略定义和执行,包括地理分布)。

上述要素导致了湖仓一体的出现。湖仓一体是一种数据平台,是将数据仓库和数据湖的优点融合在一起,形成统一、协调的数据管理解决方案。

利用watsonx.data来现代化数据湖的好处


站在当下数据分析的十字路口,IBM的回应是为企业提供watsonx.data解决方案。

站在当下数据分析的十字路口,IBM的回应是为企业提供watsonx.data解决方案,这是一个用于大规模数据管理的新型开放式数据存储,允许企业在无需迁移的情况下围绕、增强和现代化其现有的数据湖和数据仓库。它支持开放式的多云与混合云,可以在客户管理的基础设施(本地或者私有云)和公有云上运行。它建立在湖仓一体架构之上,并嵌入了一整套解决方案(以及通用软件堆栈),适用于所有形态。

与市场上的竞品相比,IBM的方法基于开源堆栈和架构。这些组件并不是新的,而是业界已经广泛使用的成熟组件。IBM关注它们的互操作性、共存性和元数据交换。用户可以快速入门,从而大大降低了入门和使用的成本,因为其上层架构和基础概念是大家熟悉且直观的:

通过对象存储实现开放的数据(和表格格式) 通过S3进行数据访问 使用Presto和Spark进行查询计算(SQL、数据科学、转换和流处理) 通过Hive和兼容结构实现开放的元数据共享

Watsonx.data为企业提供了一种保护他们在数据湖和数据仓库数十年投资的方式,使企业可立即扩展并逐步现代化其安装,将每个组件专注于对企业最重要的使用场景。

一个关键的差异化因素是多引擎 策略,允许用户在统一的数据平台上根据实际情况选择适合的技术。watsonx.data使客户能够实现完全动态的分层存储(以及相关的计算)。随着时间的推移,这可以带来非常显著的数据管理和处理的成本节省。

如果最终企业的目标是通过湖仓一体架构来现代化现有的数据湖部署,那么watsonx.data则通过选择计算方式来最小化数据迁移和应用迁移,从而简化了任务。

接下来可以做什么?

在过去的几年里,数据湖在大多数企业的数据管理策略中发挥了重要作用。如果企业的目标是对其数据管理策略进行演进并现代化为真正的混合分析云架构,那么IBM基于湖仓一体架构构建的新型数据存储watsonx.data,则是值得企业考虑的技术选择。

相关资料:

点击下载电子书:《为 AI而设的数据存储》:https://www.ibm.com/account/reg/us-en/signup?formid=urx-52131 点击阅读 IBM watsonx.data 解决方案简介:https://www.ibm.com/downloads/cas/4Z1YXEBO 浏览 watsonx.data 的产品页面了解更多:https://www.ibm.com/products/watsonx-data

关于IBM
IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和 Red Hat OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。了解更多信息,请访问:https://www.ibm.com/cn-zh

媒体联络人:
郭韬 gguotao@cn.ibm.com

 

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/174330

(0)
上一篇 2023年7月17日 下午5:14
下一篇 2023年7月17日 下午5:14

相关推荐

  • 移卡本地生活业务布局不断扩张

    移卡本地生活业务布局不断扩张,其中移卡到店开放平台2024年GMV稳步增长,月均环比保持在20%左右,全年GMV同比增长894%。移卡去年已针对小红书组建了专门的运营团队,发力小红书平台的“心智”营销。目前,移卡在小红…

    发现 52分钟前
    5.7K
  • M1预付费和Maxx服务迁移至6D Technologies Canvas

    6D Technologies宣布,M1 Limited的预付费和Maxx服务已成功迁移至尖端数字BSS平台6D Technologies Canvas。在15个月的时间里,6D Technologies将M1的所有预付费和Maxx(后付费)用户从原有系统迁移至Canvas。此次现…

    发现 52分钟前
    5.9K
  • M1携手6D Technologies云原生BSS平台实现转型

    M1携手6D Technologies云原生BSS平台,成功实现数字化转型 印度班加罗尔 2025年1月15日 /美通社/ -- 数字化转型解决方案的全球领导者6D Technologies欣然宣布,M1 Limited的预付费和Maxx服务已成功迁移至尖端数字BS…

    发现 52分钟前
    5.0K
  • 大宇宙与横河电机签署战略合作协议,建立伙伴关系

    上海2025年1月15日 /美通社/ -- 大宇宙信息创造(中国)有限公司(以下简称:大宇宙)与横河电机(中国)有限公司(以下简称:横河电机)于2025年1月9日正式签署战略合作协议(简称:MOU)。在该协议下,双方就精益制造及智能制…

    发现 52分钟前
    5.0K
  • 众合云科荣获支付宝就业「2024年度领航合作伙伴」

    北京2025年1月15日 /美通社/ -- 1月8日,支付宝就业年度生态大会在杭州隆重举行。本次论坛以"共生•共进•共赢"为主题,共话新形势下人力资源服务业发展,助力劳动者安心就业。会上,众合云科荣获支付宝就业「2024年…

    发现 52分钟前
    5.3K
  • 耐世特常熟基地盛大开业,扩大先进转向系统生产与验证规模

    中国常熟2025年1月15日 /美通社/ -- 耐世特汽车系统今日宣布其位于中国江苏省常熟市的全新基地盛大开业。这一战略布局标志着耐世特在全球先进转向系统制造和测试能力上的进一步扩展,旨在充分利用亚太地区的增长优…

    发现 52分钟前
    6.0K
  • 上海恒隆广场"新春新禧"春节主题活动闪耀启幕

    上海2025年1月15日 /美通社/ -- 新春送福,新岁纳祥。2025年1月6日至2月16日,上海恒隆广场重磅呈现"新春新禧"春节主题活动,在蛇年到来之际为宾客打造传统与现代交融的福瑞盛典,寓意以无限富足与美好,开启新一年…

    发现 52分钟前
    5.2K
  • 哪吒汽车被冻结1.5亿股权 哪吒汽车所持1.5亿股权被冻结

    哪吒汽车被冻结1.5亿股权 哪吒汽车所持1.5亿股权被冻结

    52分钟前
    5.2K
  • HERE携手亚马逊云科技加速汽车软件创新

    HERE与亚马逊云科技签订十年、十亿美元云基础设施合作协议,为全球汽车、交通等领域提供AI驱动的实时流地图和位置服务。此次合作将推动软件定义汽车(SDV)创新发展,助力汽车制造商加速开发高级驾驶辅助系统(ADAS…

    发现 1小时前
    8.0K
  • 广和通AI红外相机助力多领域智能化发展

    广和通近日推出多功能AI红外相机解决方案,融合AI算法、AI模型和传感器,助力户外打猎、森林防火、国土资源监管、电网监拍等领域的智能化升级。该解决方案内置广和通目标检测算法,能有效解决野外偏远地区目标检测…

    发现 1小时前
    7.9K

发表回复

登录后才能评论