全球大数据早已进入加速发展期,数据的生产量和计算量都呈现指数级爆发式增长,可能达到数十亿的顶点和数万亿的边,且还在不断增长。大数据、云计算或许已经不适合目前数据的增长,传统的分布式大数据处理平台也出现网络和磁盘读写开销大、运算速度慢、处理效率极低的问题。多维度交互以及爆发增长的数据量,不断挑战着数据的存储能力和运算能力。
在处理复杂数据关系的计算中,图计算技术(Graph Computing)被Twitter、Google、阿里巴巴等头部企业投入研发,应用于生活中的方方面面。例如在最常见的社交领域,可以通过用户生活社交、互动情况等数据,绘制关系图,以此管理社交关系,来实现更加精准的好友推荐机制,钓鱼账号、垃圾账号、钓鱼账号的识别和预防等。
对于图计算技术的研发,蚂蚁集团智能计算首席架构师何昌华表示,如果讲我们现在应用的技术——大数据理解为用表格处理问题,图计算可以理解为在表格的基础上升级为图表。“图计算的开发和应用下,数据结构的升级和升维使得图存储有望成为未来数据底座,建模后的范式升维也让更加复杂的数据计算变为可能。”
图计算:新一轮的技术迭代?
图计算是一种高效解决图计算问题为目标的系统软件称为图计算系统。图计算用于计算对象之间关联关系的一种抽象数据结构,使用顶点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系,将上述关系抽象成用图描述的数据即为图数据。图计算,便是以图作为数据模型来表达问题并予以解决的这一过程。
图数据的典型例子比如微信的社交网络,是由节点(个人)和边(关注、点赞)构成的图;电商等交易网络,是由节点(个人、商品、商家、金融机构)和边(购买、收藏、种树、偷蚂蚁能量)构成的图。
如此一来,抽象出来的图数据构成了研究和商用的基础,可以以此探究出“世界上任意两个人之间的人脉距离”,“关键意见领袖”等。将这些应用到商业领域,其底层的运算往往是图相关的算法,这便是图计算。
“图计算相当于把世界上种类繁多的事物,通过数据建模,以助于我们对事物运行进行更深入的研究。”对于图计算,蚂蚁集团智能计算首席架构师何昌华表示,
在图计算的存储和计算中,点越多,当然各点相互之间可能的关系也就越错综复杂。
“图计算建立的数据模型比传统二维表格的模型更加具体和多维,在实际应用中能够解决更加复杂的问题。”在何昌华看来,过去典型的计算往往是A与B之间,比如家用导航地图两点之间的最佳路径,并没有形成闭环;而现在的计算会在多点之间,多个路径,且同时发生。
例如,网络交易发生后会有一些不良商家通过银行卡或者熟人完成套现,有一些人通过花呗完成营销或者欺诈。在防止欺诈事件发生时,可以发现欺诈往往通过常用银行卡交易后,又用一个卡做转账,最后又转回商家,这类情况就可以被AI识别并规避。
据了解,对于多点位图形的研究最早于18世纪,至今已经三百年了。在格立斯堡这个小镇有7座桥,18世纪的欧拉就想怎么能够走遍7座桥且路线不重复,这是图计算中一个比较典型的计算问题。在此之后,越来越多的研究不断尝试将图计算应用在更多的场景和领域中。
何昌华表示,图智能有望成为金融领域的新基建,这项研究包括图存储、图计算、图学习等一系列技术应用。
金融领域科技创新的“新基建”
伴随行业越来越复杂的融合场景和海量数据,在金融领域,如何针对风险控制和精准营销做决策,比如准确判断用户是不是在欺诈、洗钱之类,以及商户如何运营最佳,一直是难题和痛点。
“蚂蚁从业务出发,慢慢发现蚂蚁的业务和图计算天然地有着联系,每天同时发生的各种交易、支付、交互行为,通过建模和研究,这些分布书数据,可以被用于规避金融风险,解决欺诈等很多社会问题。”何昌华说。
在金融的实体模型中,有着数十亿的结点和边:有些是相对静态的,如企业之间的股权关系、个人客户之间的亲属关系,有些则是不断地在动态变化,如转账关系、贸易关系等等。图计算和基于图的数据分析,帮助我们实体和实体之间的经济行为关系。
图:图计算在各领域的应用
蚂蚁集团联合清华大学自主研发的大规模图计算系统GeaStack,使用图数据模型实现了对海量交易数据的高效分析,可快速识别和防范日益多样的欺诈、洗钱等恶意金融行为。GeaStack解决了图数据分析面临的大数据量、高吞吐率和低延迟等重大挑战。
图计算已经在金融、搜索引擎等领域实现应用。
通过图计算技术,蚂蚁集团增加反欺诈稽核金额6%,反洗钱风险审理分析效率提升90%,有效地降低了用户财产损失,维护了金融稳定,成果在金融、电信、医疗领域应用前景广阔。
实际上,不仅仅是阿里巴巴,近年来图数据和计算技术一直是学术界和工业界的热点。特别是,在过去的十年中,图计算系统的性能已提高了 10~100倍,并且系统仍在变得越来越高效。
截至目前,图计算的研发正在被投入到生活所涉及的方方面面,以实现更精准的数据解决方案。
例如,通过构建物联网设备节点的关联关系图,可以打造更加智慧更加合理的智能交通、道路规划、平安城市、轨迹分析、钓鱼网站识别,惠及民生;在供应链关系层面,通过图计算技术可以迅速处理复杂且快速变化的库存、供应链,并推动推动创新制造;社交领域,通过用户生活交集、互动情况等数据,绘制关联关系图,管理社交关系,以实现更精准的服务。
在何昌华看来,“未来(图计算技术)将会帮助我们解决现实生活中的很多问题,比如说公共卫生领域,在健康医疗领域,包括在金融、反欺诈、反洗钱这些领域都可以做出相应贡献。”