高手问答第 241 期 —— 图数据库开辟与应用实战分享

xplanet 发布于 03/18 08:53
浏览 4K+
收藏 18

【直播预告】计算中心件Linkis开源技巧的应用和实际!>>>

以后,互联网数据呈指数级增长,集中表示在数据量级的飞越和数据接洽关系的复杂化加深。关于企业而言,若何若何经过过程发掘大年夜数据的接洽关系性去摸索“隐蔽”在眼前的价值变得更减轻要。

但是,传统的关系型数据库,在处理复杂数据关系运算上表示很差,随着数据量和深度的增长,关系型数据库没法在有效的时间内计算出成果。所以,为了更好地应用数据间的连接,企业须要一种——将关系信息存储为实体、灵活拓展数据模型的数据库技巧,这项技巧就是图数据库。

2019 年 Gartner 数据与分析峰会上,图数据被列为年度十大年夜数据和分析趋势之一。并且,估计到 2022 年,全球图处理及图数据的应用将以每年 100% 的速度迅猛增长。根据 DB Engines 近 7 年数据库风行趋势显示,图数据库相较其他主流数据库受迎接程度遥遥抢先。

OSCHINA 本期高手问答 (2020 年 03 月 18 日 - 2020 年 03 月 25 日) 将以【图数据库的优势】为话题展开评论辩论,包含「图数据库入门」、「图数据库在详细场景的应用」、「图数据库的技巧道理」、「图数据库若何处理面对的挑衅」、「图数据库的选型」、「图数据库在人工智能的展望」等,固然也能够延长到图数据库的全部范畴,或聚焦于有关 HugeGraph 图数据库 的实战成绩。

佳宾简介

李章梅,现任百度安然部资深研发工程师,HugeGraph 开源图数据库技巧担任人。重要从事图数据库及分布式存储的研发任务,曾在【第十届中国数据库技巧大年夜会】图数据库服装论坛t.vhao.net发扮演讲。开源技巧爱好者,持续参与开源社区供献,包含 OpenStack、Ceph、ScyllaDB、RocksDB、TinkerPop 等。

为了鼓励积极提问,华章图书会在问答停止后从提问者中抽取 3 名荣幸读者赠予深刻浅出图神经搜集:GNN原懂得析一书。 该书将实际与实际相结合,分别从道理、算法、完成、应用 4 个维度详细讲解了图神经搜集。

购书地址:https://item.jd.com/12615065.html?dist=jd

另外,另抽取三位荣幸读者,分别赠予百度熊一只 :D

OSCHINA 高手问答一向的风格,不迎接任何与主题有关的评论辩论和喷子。

下面迎接大年夜家向李章梅师长教员 @JermyLi 积极提问,直接回帖提问便可。

加载中
0
xplanet
xplanet

高手问答第 241 期 —— 图数据库开辟与应用实战分享
@lxbzmy  @flygogo  @miller-he
祝贺以上三位网友分别取得《深刻浅出图神经搜集:GNN原懂得析》图书一本。
@becke  @灰灰  @该昵称已占用
祝贺以上三位网友分别取得百度熊一只。
请私信 @xplanet 告诉快递信息(姓名+德律风+地址)。

0
久永
久永

@JermyLi 长处疑问借此提问:为啥要交换的是图数据库,然则送的书倒是图AI?(PS:钢筋门不消纠结另外一个送的礼品)正好比来在接触AI方面的材料,那么我就想借此图数据库关于图神经搜集的优势在哪?有没有甚么环球无双排的特点优势?

J
JermyLi
小我懂得,图数据库的优势偏存储和OLTP查询,图神经搜集则偏计算和离线分析,两个技巧可以相互自力应用,但其实不是对立的。现实上,由于二者处理的数据都是图数据,所以可以结合起来应用,相互弥补优势:图神经搜集基于图数据停止计算,图数据库可作为输入输入存储。神经搜集一次计算的数据量受内存限制,大年夜范围的全图计算,常常须要抽取部分子图,图数据库可供给子图采样等操作,计算输入成果存在图中利于后续查询和图谱退化。
0
js2java
js2java

@JermyLi  师长教员你好, 图数据库入门 ,选哪个框架进修比较好?市情上的图数据库很多,应当怎样选? 假设做社交类应用的,图数据库怎样选?

J
JermyLi
图数据库属于比较新的技巧,以后算是诸侯混战时代。不论是技巧照样说话,行业标准常常能带来极大年夜优势:标准化效力高、进修本钱低、技巧可复用。图包含Cypher和Gremlin两个主流派,Cypher属于范畴开辟者、Gremlin开源开放支撑厂商浩大。Gremlin作为Apache TinkerPop框架标准说话,小我异常看好其趋势。社交类应用选择HugeGraph,支撑大年夜范围数据,国际首款开源图数据库。
0
开源中国首席罗纳尔多
开源中国首席罗纳尔多

@JermyLi 您好,请问图数据库应用在哪些方面和场景?

J
JermyLi
典范应用处景包含深度关系摸索、接洽关系分析、途径搜刮、特点抽取、数据聚类、社区检测、 知识图谱等,实用营业范畴如搜集安然、黑产攻击、金融风控、社交搜集和智能机械人等。 举个栗子,比如金融风控营业中,有讹诈用户应用假装身份证和手机停止存款,那么可以经过过程图数据库分析其社会关系,即使其能构造出通话记录、密切接洽人等关系搜集,经过图数据库技巧多维度深层次分析,也可快速检测出来。
0
js2java
js2java

@JermyLi  直接存眷师长教员的GitHub了,进修了  ,请问python3.7运转应当也没有成绩吧? 这个 配套代码 项目 ,为啥没有效TensorFlow或许caffe ?? 

这个技巧选项推敲是?

python>=3.6
jupyter
scipy
numpy
matplotlib
torch>=1.2.0
https://github.com/FighterLYL/GraphNeuralNetwork

J
JermyLi
这个是忠雨师长教员的项目,我约请作者 @刘忠雨 来解答哦。
0
鸡蛋小先生
鸡蛋小先生

@JermyLi   图计算与神经搜集天然地结合到了一路 ,请问图数据库在安然范畴方面有没有啥应用? 

图数据能不克不及接洽关系分析出,安然成绩?

J
JermyLi
另外一方面,用于搜集进击关系图谱分析。在搜集安然本身的监测上图也是一个利器,比如搜集进击事宜数据范围巨大年夜,传统的技巧对孤立事宜之间的接洽关系、事宜间的团伙属性的及时追踪才能缺乏。图数据库可以抽取搜集安然事宜接洽关系关系、构建接洽关系搜集数据检索体系,及时检索IP进击链路与团伙。
J
JermyLi
HugeGraph重要应用处景是处理百度安然事业部所面对的反讹诈、威逼谍报、黑产攻击等营业的图数据存储和建模分析需求,在此基本上渐渐扩大及支撑了更多的通用图应用。 图数据库的优势是分析复杂的接洽关系关系,账号、IP、设备、手机号、App等构成的接洽关系关系搜集异常复杂,图数据库处理的成绩,就是从平分析讹诈特点(比如高密子图),发掘讹诈用户。 另外一方面,用于搜集进击关系图谱分析。(限制了200字)
0
鸡蛋小先生
鸡蛋小先生

@JermyLi  这类基于 基于社交搜集的推荐体系  , 在告白行业应用若何分析,老婆女性同伙不玩游戏,老公男性同伙玩游戏这类情况,应当若何断定? 

J
JermyLi
基于社交搜集的推荐是有实际根据的:近朱者赤。那类似协同推荐、PersonalRank算法就是很好的例子。传统的方法更多的是分析浅层次的属性特点,实际上深层次的关系特点中,包含了更多丰富的规律。发明聚集团伙、并结合其属性&行动停止分析,群体的潜伏特点就轻易量化出来。
0
lxbzmy
lxbzmy

@JermyLi 想问一个成绩图数据库建模成绩,在设计relation时,有哪些经历可以分享。

在我的应用中,大年夜部分边能都看作为contains,如许做查询写起来费事,然则模型简单。能否可分享一下你的经历?

J
JermyLi
应用大年夜一统的建模办法有一个好处,一切的实体都能轻松归入出去,扩大性好,这类方法常常合适实体类型爆炸式增长的场景,或许某些通用知识图谱范畴。就如你所说的,查询起来费事,由于关系损掉了类型信息,比如“同事”、“亲戚”这两种关系,细粒度接洽关系分析得出的特点和笼统分析得出的特点,具有不一样的含义,比如断定这群人“爱吃辣”这个特点。别的,还表如今性能上,比如碰着“存眷”这类边可以禁止往回走,不然能够堕入超等点
0
赤脚小子
赤脚小子

@JermyLi 你好,请问如今做推荐体系是否是只上图数据库就够了?

J
JermyLi
推荐体系异常合适应用图数据库,包含协同推荐、社区聚类推荐、各类Rank推荐。图推荐的好处是链路清楚易懂、解释下强、可精细化迭代改进。比如在某商品推荐营业中,针对用户Query,基于实体和关系语义的推荐,Badcase辨认精确率就远高于模型练习得出的成果。“只上图数据库就够了”能够也其实不是那么相对,有一些传统办法依然可作为弥补。
0
g
graph进修

@JermyLi

你好,graph.removeVertex(x.id()) 可以根据id删除点,请问若何可以批量删除呢;别的官方文档Api操作简介甚么时辰可以详细一些,讲解的功能有些笼统

J
JermyLi
感激存眷和反应,文档方面我们会持续改进。批量删除今朝只能经过过程gremlin语句来完成,比如g.V().has('flag',0).drop(),不过受限于一次提交内容不准可过量,逾越1万笔记录的删除须要分批停止,所以须要用户手动停止一些提交数量控制。 后续HugeGraph会支撑批量删除API,请存眷Issue:github.com/hugegraph/hugegraph/issues/886
前往顶部
顶部