躁动图计算:蚂蚁和字节们想找到“幻视”额头上那颗宝石

在美剧《国土安全》里常出现这样的桥段:警员在自己家里理出一面墙,把手上案件里的所有关联人物和事件都贴在墙上,然后就是一个填肉的过程......照片、箭头和关键词组成一幅复杂的事件全貌。

——找到那个罪犯。

这几乎是所有悬疑电影的经典场景。整个案件唯一的破绽就藏在这张关系网络里,推理者的视线在这面墙上流转,观众的肾上腺素也被极速调动起来。

图源:《国土安全》剧照

我们会觉得这是合理的,设想中人类最敏锐的大脑可以穿破墙上的迷雾——如果墙上只有5个家庭,10个嫌疑人,和关于他们的100件事的话。

但如果把这面墙无限扩大,比如1亿个嫌疑人,100亿件事呢?

看起来这已远超人脑的负载极限,但我们可能已经见过这样的事了——或许你我的手机里就正在经历这些——比如各式各样的知识图谱,以及在它底层,一个抽象出来叫做图计算的技术概念。

图计算缘起

“Things, not strings.”(是相互连接的事件,而不只是一个个字符串)

Google20125月提出了这句话,以及知识图谱的概念。

知识图谱,由知识(Knowledge)和图谱(Graph)两个词构成,前者是信息的内容要素,后者是信息最终的表现形态。这种信息间全新的连接方式,其基本组成单位是实体关系实体三元组,以及实体及其相关属性值对,实体之间通过关系相互联结,构成网状的知识结构。

知识图谱能够成立的核心是计算机的知识推理机制,图计算为其提供了重要的底层技术支持。

图计算中的Graph,这是一种基于图论而非数论的计算逻辑。

图论的基本要素是节点节点可以理解为人或者网络账号这些相对静态的实体,而则代表着不同实体之间的关系或者行为。

比如A在抖音上关注了B,这个动作就成为AB之间这条上可包含的信息。在记录内容的时候可以表示方向(可以理解为在AB之间标注出了箭头),这被称为有向图,而如果没有标注方向则称为无向图。这种信息数据甚至可以是多模态的,比如在脑科学领域涉及光或电信号的时候。

相比于链表或者线性表的二维结构,相当于在结构上做了一次升维,这也让其对于关系有更优越的描述能力,也更接近人类对于事物联系的原生表达。

图源:源于网络

简单来讲,我们从来不是以Excel的样子来理解外部世界的,图的相互连接更接近正常人的思考方式。从遥远的阿兰图灵时代开始,人类就在思考如何让机器像人类一样思考,图计算是目前为止最有潜力的路径。

一开始只是试图找到从鹿特丹到格罗宁根的最短路径,荷兰计算机科学家Dijkstra为了解决这个问题在1956年发明了寻求图最短路径的Dijkstra算法,这是最早与图计算连接起来的概念之一。到Google创始人Larry Page20世纪末发明了开创性的PageRank算法(网页排名),以及随着社交网络时代降临而繁荣起来的如Girvan-Newman算法等社区发现算法。

这其中也能看出来,图计算的定义本身也在经历一个从狭义到广义的延展过程。

狭义的图计算更多指在确定不变的图上做的计算,比如基于地图信息的路网图——在变化频率和幅度很低的鹿特丹到格罗宁根之间寻找一条最短路径——这是图计算可以解决的典型问题。

广义的图计算指一切基于图数据进行的分析计算,其中的数据概念进而扩充到海量规模并且富于动态变化,比如社交媒体的关系网络(脸书的核心框架Social Graph),不断发生新事件的历史知识图谱,或者将道路拥堵变化也考虑在内的路径规划。

于是图数据库的概念被引入进来。

图数据库是用来处理图这种数据结构的工具,传统的使用二维表格存储数据的数据库被称为关系性数据库——或者可以被理解成无数以横竖轴结构展开的表数据的集合,图数据库则是另一种非关系性数据库,它把所有表格打散了,然后织成一张网。

图数据库与关系型数据库最大的不同是免索引邻接。即图数据模型中的每个节点都会维护与它相邻的节点关系,这就意味着查询时间与图的整体规模无关,只与每个节点的邻点数量有关,这使得图数据库在处理数据之间关系方面比关系性数据库更加灵活之外,也具备处理大量复杂关系时比后者更优越的性能。

Google创始人Larry Page  图源:Learn Biography

图计算与图数据库的发展是互联网时代的一条暗线,在其中一些关键技术背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你还记得2007年开始爆发的那场金融危机的话——莱曼兄弟公司破产,高盛却因为提前预见到了次级抵押贷款市场的熊市而活了下来,背后是图数据库系统——SecDB对危险的察觉能力。

不遑说,今天许多伟大公司都是基于图计算领域的尖端技术而诞生或持续繁荣的。

而在经历了几十年的发展之后,图计算现在站到了更广泛的应用场景入口。

咨询公司Gartner在《2021 年十大数据和分析技术趋势》的报告中预测,2025年全球将有80%的数据和分析创新会与图技术有关。

在这届世界人工智能大会(WAIC)上,与图计算或图数据有关的论坛数量也多达五场,是本次大会上被最高频的概念之一。如蚂蚁集团、亚马逊云等瞩目的图数据库框架,也在本届WAIC上首次开源。

图计算作为一种技术在国内开始成熟的标志是,小范围的数据已无法探索技术上限,它比以往任何时候都需要更大的试验场,比如6亿用户的抖音,或者12亿用户的支付宝。越来越多大型科技公司出现在关于图计算的讨论中。开源是产业化的隐喻,产业化的加速使图计算开始获得更丰富的能力纵深,甚至早已不局限在知识图谱的领域。

抖音与支付宝,两条路径

20188月,字节跳动内部开始自研图数据库ByteGraph的开发。

ByteGraph项目的发起是为了抖音核心的社交关系问题。个性化推荐系统逐渐成为互联网各大社交媒体和电商网站的基础能力。与此并行的,知识图谱的场景也正在丰富,大量研究工作逐渐指向两者的交汇处,图计算与知识图谱可以用来完善基于内容的推荐系统,从而提升推荐效果。

这是图计算在字节跳动内的起点,并由此开始进入业务的底层开发场景。从抖音开始,ByteGraph逐渐演变为支持有向属性图数据模型、支持写入原子性、部分Gremlin图查询语言的通用图数据库系统,随后逐渐渗入今日头条、TikTok、西瓜、等几乎字节跳动全部产品线。

图源:知乎

(现在)字节跳动整个业务开发团队,已经都在用图建模的方式来表达和处理业务逻辑ByteGraph团队负责人张帅表示。

开发团队围聚在一起探索业务时,往往会拽过来一块白板,把初步的开发逻辑和任何灵感写在一起。这某种程度上即是一种知识图谱,并且天然与人类大脑思维接近。但此前这样一张思维导图需要被重新整理——可以理解为把图文并茂的图降维成一张Excel——再进入开发步骤。

但现在基于图计算和图数据库,这张白板上的草图可以直接被代码化了。

在电商、到店业务甚至音乐等更复杂的场景嵌进信息流与社交属性后,作为一种关系逻辑的重要性在字节跳动内完全显示出来了。张帅透露ByteGraph已经在火山引擎上开始构建,这意味着字节跳动的图数据库开源已经开始提上日程。

在图数据库的进展方面,蚂蚁集团走在字节跳动前面。在本届WAIC上,蚂蚁集团宣布开源图数据库TuGraph的单机版本。

蚂蚁集团的图数据库研发从2015年开始,隔年第一次发布自研分布式图数据库并用于支付宝。2021年,蚂蚁集团联合清华大学自主研发的 大规模图计算系统 GeaGraph” 完成了产品 3.0 版本的迭代。迭代后的版本查询效率提升 10 倍,兼容性更强,并且正式升级为TuGraph

相比抖音,支付宝背后有一张更庞大的用户关系网络,而其围绕支付展开的科技金融业务,也让两者在进入图计算领域的侧重上分出差异。

图源:Mobile World Live

蚂蚁集团看中的是图计算中增强数据的表征,从而增强支付安全性的能力。

比如在支付宝的场景中,判断一个用户的消费偏好,或者这个人还款的信用,当用户数据信息很丰富的时候,人工智能算法往往会得到很好的结果。但如果用户背后没有太丰富的信息——比如他只是偶尔的用支付宝转过几笔钱——如何得知这个人的特点呢?

图数据比起以关系数据网为代表的表数据最鲜明的优越性在于,很多时候人、地点和事件的关联性并不完全能以表的形式呈现,却能用节点这种更松散的形式记录下来,这些隐形的关联信息单独来看并不能解释某个关联用户的行为,但这张网聚集起来却能形成一些社区发现。也因此,当这张关系网络中纳入的用户越多,这种四两拨千斤的能力也愈强。

图是一种最为灵活的连接方式,让实体之间可以不受限制地连接蚂蚁技术研究院院长陈文光表示,这同时也赋予了算法更多的可解释性

人跟随着算法生活的蜜月正在过去,算法对人的过度入侵开始被提到高位审视。在这个过程中,算法已经不可逆的搭建起一套社会需要依附其上的运转方式,于是当代码替人做了决定——比如你的转账额度,或者为什么一直收到某一类的广告——这个决定是如何做出的,需要可以被清晰追溯。

陈文光以社区发现举了个例子:

比如在某个社区里已知有一些坏人,然后我们发现某个人和这些邻居的链接比较紧密,那这个人是坏人的概率也会更大。

这是最基本的思路。一个人的节点特征是由他邻居的节点特征通过某种运算,结合和他过去的特征合在一起型成的。(邻居的表征和关联关系)能够影响我们对一个人的判断,形成他(一个节点)新的特征,这与之前纯粹将数据放进神经网络,通过统计学得到一个完全没法解释的分类答案不一样。

相比于表数据来说,图计算带有一个更清晰的逐层推导结构,这个结构本身就意味着一定的可解释性。

这种把薄数据变厚的能力以及推理过程的可解释性,已经开始和蚂蚁集团开源的可信隐私计算框架隐语一起,在支付宝反诈风控的系统中形成合力。目前支付宝可在0.01秒内完成对一笔交易的风险判定,并且在2021年的全年统计中资损率低于亿分之0.98——即平台上1亿人民币的资金流转中,出于欺诈行为的不到1元。

开始跨入现实之门

在这位从学界跨入产界的蚂蚁智库首席看来,图计算是一个处在数据和人工智能发展交汇处的概念。技术沉淀多时,亟需的是场景。

陈文光是以费马科技创始人的身份加入蚂蚁集团的,再那之前的十几年一直在清华大学计算机系担任教授,这番从学界投身产界,最终进入大公司的姿态本身也像是图计算作为一个前沿领域发展的某种映射。

费马科技在20165月创立,站在台前的是包括洪春涛和朱晓伟在内的几位清华计算机系博士,陈文光则落于幕后担任首席科学家。公司的业务方向是立足于高性能的分布式图计算以进行大规模关系网络分析,为银行等客户提供反欺诈能力和社交分析能力,以及整体的金融大数据解决方案。

2016年之前,陈文光在清华大学主导的图计算研究已经有了成果,团队自研的图计算系统比当时开源软件中常用的图计算框架GraphX要快100倍左右,而所需的内存只是后者的10%。把自己培养的博士生聚拢起来,继续优化自研的图计算系统,并为它找到使用场景,这是费马科技成立的初衷。

费马的畅想卡在规模化这最后一步。

图计算要想真正成长起来,第一步要解决:做出来;第二步:有人用;第三步:大规模使用。而当时困扰我的问题,怎么实现从有人用到大规模使用。

几年时间里费马科技确实拿到了一些标杆客户,比如京东金融和国家电网,但整体的商业化路径并不清晰,这也不是技术出身的团队所擅长的事。

在本届WAIC的一场论坛上,洪春涛与陈文光同席出现在最后的圆桌环节。洪春涛曾是费马科技的CEO,现在他的身份是蚂蚁集团图数据库负责人。2020年,洪春涛曾经表示图计算未来的市场规模会达到千亿,并且已到爆发前夜,但2021年初的多项工商变更则表明,费马科技决定在这黎明前的最后一夜拥抱蚂蚁集团。

原费马科技高管,左三为陈文光,右二为洪春涛   图源:搜狐

 2020 年的时候,我们发现了自身的局限性。费马团队总体上技术上是很强,但是管理和市场销售,特别是后者我们相对比较弱的,陈文光在今年6月的一次采访中对极客公园表示。

2020年,蚂蚁集团宣布了陈文光的加入。两年之后,后者开始担任蚂蚁技术研究院院长。

蚂蚁集团对于图计算的布局很早,从2015年开始就自主研发分布式图数据库、流式图计算等图相关技术,2016 年发布自研分布式图数据库。而手握支付宝,意味着蚂蚁天然有了全球领先的图计算的场景需求,这是纯粹从技术出发的图计算团队都不具备的。

从陈文光的表述中,费马科技并入蚂蚁集团并不是商业场上那种千篇一律的无奈收购,而是一个技术找到场景的积极故事。蚂蚁集团,或者字节跳动这些掌握大量数据的科技公司正拥有这片土壤。只有在最大限度的接触到真实数据之后,图计算的成长才会开始加速,直到最终从象牙塔中走出,找到现实世界中的位置。

除了蚂蚁和字节跳动,国内的互联网巨头几乎无一例外的都已经开始图计算和图数据库的相关布局。

华为云的图引擎服务GESGraph Engine Service)是国内首个商用的、拥有自主知识产权的国产分布式原生图引擎。早在2019年华为云推出一站式AI开发平台ModelArts,联合了GES图引擎打造的图神经网络,自此图深度学习开始落地。

202061日,腾讯云正式发布分布式图数据库产品腾讯云数图TGDBTencent Graph Database),能够实现万亿级关联关系数据实时查询,高效治理异构数据,支持实时图计算。

而早在2018年,百度已宣布开源大规模图数据库HugeGraph,这也是国内第一家开源的图数据库。今年5月百度将HugeGraph捐赠给了世界上最大的开源软件基金会Apache,成为后者的孵化项目之一。孵化成功的HugeGraph有望成为全球首个Apache软件基金会的图数据库顶级项目。

这一切迹象都在表明,图计算正在被积极的潮水推动着。人类苦寻“幻视”一样理想的人工智能,或许我们已经找到额头上的那颗宝石了。

参考资料:

《图论及相关历史》

《人人都在谈的图数据库到底是个啥?》

《图计算,下一个科技前沿?

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/82331

(0)
上一篇 2022年9月15日 上午9:56
下一篇 2022年9月15日 上午9:57

相关推荐

  • 积极趋势显现,从阿里健康财报看长期价值

    分析大健康公司的发展态势并推测其未来走向,解读其财报是一条捷径。 11月13日,阿里健康发布2025财年中期业绩公告。财报显示,截至2024年9月30日止6个月内,阿里健康营收142.7亿元,同比增长10.2%;净利润达7.69亿…

    专栏 6小时前
    13.4K
  • 这个热度飙升的赛道,正在悄悄搞定5亿人

    对所有运动户外服饰品牌来说,从“爆红”走向“长红”的关键,一是好产品,二是好内容。 来源|极点商业 作者|Cindy 刘霞 编辑|杨 铭 “今年有意想不到的消费热情。” 谈及最近双11的忙碌状态,迪卡侬抖音电商渠道负责人陈…

    专栏 6小时前
    12.4K
  • 上新50分钟破百万元,单品均价超3000元的潮牌什么来头?

    来源 / 财经故事会 顺风、造风而不跟风,品牌独特调性和平台流行趋势的交叉地带,隐藏着确定性的增长机会。 采写/万天南 编辑/陈纪英 时尚会过去,但风格永存。 香奈儿的这句名言,或许是所有设计师潮牌的共识——…

    专栏 6小时前
    14.7K
  • 京东2024年三季度收入加速增长 活跃用户和购物频次保持双位数增长

    作者:美股研究社 北京时间11月14日,京东集团【纳斯达克代码:JD,港交所代号:9618(港币柜台)及89618(人民币柜台)】发布了2024年三季度业绩。随着越来越多的用户在京东体验到“又便宜又好”的产品与服务,季度…

    专栏 6小时前
    13.8K
  • 当代年轻人,正从百吋大电视收获情绪价值

    “二十多块的视频会员我到处借,但上万元的百吋电视我说买就买了。” 00后木木是个典型的游戏迷,前不久心爱的国产游戏《黑神话:悟空》发售后,他果断买了一台100英寸的海信大电视,只为更好的游戏画质和体验。 “别…

    专栏 6小时前
    14.9K
  • 黑医美围猎“县城贵妇”

    来源 / 互联网那些事 《2023年医美人群洞察报告》指出,我国在2022年共有2093万名医美消费者,在2023年共有2354万名医美消费者,涨幅数据为12.5%。倘若站在城市县级角度去观察市场,我们就会发现四级及以下城市体验…

    专栏 6小时前
    11.8K
  • 今年双11,8成年轻人青睐国潮

    出品/新摘商业评论 时至今日,大众对“国潮”一词早已不觉新鲜,但让人很意外的是,国潮本身的热力值却丝毫不减。最近,中国青年报社主办了一场2024青年国潮平台大会,很多人就再次为国潮热度感到震撼。 大会发布了最…

    专栏 6小时前
    13.9K
  • 问界理想的新擂台:问界M8 VS理想L8

    作者:刘旷 要说近年来什么行业最“卷”,相信绝大多数人都会提名新能源汽车行业。事实也正是如此,伴随着消费者需求的提升、技术的持续迭代升级,新能源汽车正以前所未有之势迅速发展。为了在不断扩大的市场中获得更…

    专栏 6小时前
    15.7K
  • 李子柒归来,牵扯许多人情世故?

    雷达财经出品 文|孟帅 编|深海 “这个大漆视频迟到了四年”,1200多个日日夜夜过后,李子柒终于回来了! 此番回归,李子柒带着满满的诚意和热情,两天内连续发布了三条视频,堪称“腹泻式”更新,让不少粉丝直呼“仿佛过…

    专栏 6小时前
    14.2K
  • 魅族的“AI生态战略”,“投资人”苏静玩得转?

    文 | 智能相对论 作者 | 佘凯文 前不久,那个曾被称为国产机神的品牌——魅族,因一场发布会再次进入大众视野。 之所以被关注,是因为发布会上除了魅族Lucky 08 AI手机的发布,还发布了AR智能眼镜StarV View、StarV A…

    专栏 6小时前
    14.2K

发表回复

登录后才能评论
联系我们
联系我们
分享本页
返回顶部