新智元报导
来历:专知
修改:元子
地址:
https://arxiv.org/abs/2003.02320
在本文中,咱们对常识图谱进行了全面的介绍,在需求开发多样化、动态、大规模数据搜集的场景中,常识图谱最近引起了工业界和学术界的极大重视。在大致介绍之后,咱们对用于常识图谱的各种根据图的数据模型和查询言语进行了概括和比照。咱们将评论schema, identity, 和 context 在常识图谱中的效果。咱们解说怎么运用演绎和概括技能的组合来标明和提取常识。咱们总结了常识图谱的创立、丰厚、质量评价、细化和发布的办法。咱们将概述闻名的敞开常识图谱和企业常识图谱及其运用,以及它们怎么运用上述技能。终究,咱们总结了未来高层次的常识图谱研讨方向。
常识图谱的优势
虽然“常识图谱”一词至少从1972年就开端呈现在文献中了[440],但它的现代办法起源于2012年发布的谷歌常识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、linkedIn[214]、微软[457]、优步[205]等公司相继发布了开发常识图谱的布告。事实证明,学术界难以忽视这一概念的日益遍及: 渐渐的变多的科学文献宣布关于常识图谱的主题,这中心还包含书本(如[400]),以及概述界说(如[136])的论文,新技能(如[298,399,521]),以及对常识图谱详细方面的查询(如[375,519])。
一切这些开展的中心思维是运用图形来标明数据,一般经过某种办法显式地标明常识来增强这种思维[365]。成果最常用于触及大规模集成、办理和从不同数据源提取价值的运用场景[365]。在这种情况下,与联系模型或NoSQL代替计划比较,运用根据图的常识笼统有许多优点。图为各种范畴供给了简练而直观的笼统,其间边捕获了社会数据、生物交互、书目引证和协作作者、交通网络等[15]中固有实体之间的(潜在的循环)联系。图答应维护者推延办法的界说,答应数据(及其规模)以比联系设置中一般或许的更灵敏的办法开展,特别是关于获取不完整的常识[2]。与(其他)NoSQL模型不同,专门的图形查询言语不只支撑规范的联系运算符(衔接、联合、投影等),并且还支撑递归查找经过恣意长度途径[14]衔接的实体的导航运算符。规范的常识标明办法主义——如本体论[66,228,344]和规矩[242,270]——可拿来界说和推理用于符号和描绘图中的节点和边的术语的语义。可弹性的图形剖析结构[314,478,529]可用于计算中心性、集群、摘要等,以取得对所描绘范畴的洞悉。各种标明办法也被开发出来,支撑直接在图上运用机器学习技能[519,527]。
总归,构建和运用常识图谱的决议计划为集成和从不同数据源提取价值供给了一系列技能。可是,咱们还没有看到一个通用的一致总结,它描绘了怎么运用常识图谱,运用了哪些技能,以及它们怎么与现有的数据办理主题相关。
教程方针:全面介绍常识图谱
本教程的方针是全面介绍常识图谱: 描绘它们的根本数据模型以及怎么查询它们;评论与schema, identity, 和 context相关的表征;评论演绎和概括的办法使常识清晰;介绍可用于创立和充分图形结构数据的各种技能;描绘怎么辨认常识图谱的质量以及怎么改善常识图谱;评论发布常识图谱的规范和最佳实践;并供给在实践中发现的现有常识图谱的概述。咱们的方针受众包含对常识图谱不熟悉的研讨人员和实践者。因而,咱们并不假定读者对常识图谱有特定的专业相关常识。
常识图。“常识图谱”的界说依然存在争议[36,53,136],其间呈现了一些(有时彼此抵触的)界说,从详细的技能主张到更具包容性的一般性主张;咱们在附录a中评论了这些从前的界说。在这里,咱们采用了一个包容性的界说,其间咱们将常识图谱视为一个数据图,意图是堆集和传递实在国际的常识,其节点标明感兴趣的实体,其边际标明这些实体之间的联系。数据图(又称数据图)契合一个根据图的数据模型,它可所以一个有向边符号的图,一个特点图等(咱们在第二节中评论详细的代替计划)。这些常识能够从外部资源中堆集,也能够从常识图谱自身中提取。常识能够由简略的句子组成,如“圣地亚哥是智利的首都”,也能够由量化的句子组成,如“一切的首都都是城市”。简略的句子可当作数据图的边来堆集。假如常识图谱计划堆集量化的句子,那么就需求一种更有表现力的办法来标明常识——例如本体或规矩。演绎的办法可拿来承继和堆集进一步的常识(例如,“圣地亚哥是一个城市”)。根据简略或量化句子的额定常识也能够终究靠概括办法从常识图谱中提取和堆集。
常识图谱一般来自多个来历,因而,在结构和粒度方面或许十分多样化。处理这种多样性, 标明办法, 身份, 和上下文常常起着要害的效果,在一个办法界说了一个高层结构常识图谱,身份标明图中哪些节点(或外部源)引证同一个实在的实体,而上下文或许标明一个特定的设置一些单位的常识是实在的。如前所述,常识图谱需求有用的提取、充分、质量评价和细化办法才干跟着时刻的推移而增加和改善。
在实践中 常识图谱的方针是作为安排或社区内继续不断的开展的同享常识根底[365]。在实践中,咱们区分了两种类型的常识图谱:敞开常识图谱和企业常识图谱。敞开常识图谱在网上发布,使其内容对大众有优点。最杰出的比如——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多范畴,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]树立的。敞开常识图谱也在特定范畴内宣布过,如媒体[406]、政府[222,450]、地舆[472]、旅行[11,263,308,540]、生命科学[79]等。企业常识图谱一般是公司内部的,并运用于商业用例[365]。运用企业常识图谱的闻名职业包含网络查找(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、交际网络(如Facebook[365]、linkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。运用包含查找[457,459],引荐[83,205,214,365],个人署理[392],广告[214],商业剖析[214],危险评价[107,495],自动化[223],以及更多。咱们将在第10节中供给更多关于在实践中运用常识图谱的细节。
课程其余部分结构
第2节概述了图形数据模型和可用于查询它们的言语。
第3节描绘了常识图谱中办法、标识和上下文的标明办法。
第四节介绍了演绎式的办法主义,经过这种办法主义,常识能够被描绘和推导出来。
第5节描绘了能够提取额定常识的概括技能。
第6节评论了怎么从外部资源中创立和丰厚常识图谱。
第7节列举了可用于评价常识图谱的质量维度。
第8节评论常识图谱细化的各种技能。
第9节评论发布常识图谱的准则和协议。
第10节介绍了一些闻名的常识图谱及其运用。
第11节总结了常识图谱的研讨概略和未来的研讨方向。
附录A供给了常识图谱的历史背景和曾经的界说。
附录B列举了将从论文正文中引证的正式界说。
本文授权转载自大众号:专知