知识图谱构建全流程
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
一、知识图谱简介
知识图谱是结构化的语义知识库用于迅速描述物理世界中的概念及其相互关系通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识使信息资源更易于计算、理解以及评价并能实现知识的快速响应和推理。
1.1 广泛应用于各领域
当下知识图谱已在工业领域得到了广泛应用如搜索领域的Google搜索、百度搜索社交领域的领英经济图谱企业信息领域的天眼查企业图谱电商领域的淘宝商品图谱O2O领域的美团知识大脑医疗领域的丁香园知识图谱以及工业制造业知识图谱等。
在知识图谱技术发展初期很多企业和科研机构会采用自顶向下的方式构建基础知识库如 Freebase。随着自动知识抽取与加工技术的不断成熟当前的知识图谱大多采用自底向上的方式构建如 Google 的 Knowledge Vault 和微软的 Satori 知识库。
1.2 构建技术分类
知识图谱的构建技术主要有自顶向下和自底向上两种。
- 自顶向下构建借助百科类网站等结构化数据源从高质量数据中提取本体和模式信息加入到知识库里。
- 自底向上构建借助一定的技术手段从公开采集的数据中提取出资源模式选择其中置信度较高的信息加入到知识库中。
1.3 “实体-关系-实体”三元组
下图是典型的知识图谱样例示意图。可以看到“图谱”中有很多节点如果两个节点之间存在关系他们就会被一条无向边连接在一起这个节点我们称为实体Entity节点之间的这条边我们称为关系Relationship。
知识图谱的基本单位就是“实体(Entity)-关系(Relationship)-实体(Entity)” 构成的三元组这也是知识图谱的核心。
二、数据类型和存储方式
知识图谱的原始数据类型一般来说有三类也是互联网上的三类原始数据
- 结构化数据Structed Data如关系数据库、链接数据
- 半结构化数据Semi-Structured Data如XML、JSON、百科
- 非结构化数据Unstructured Data如图片、音频、视频
典型的半结构化数据样例如下
如何存储上面这三类数据类型呢
一般有两种选择可以通过 RDF资源描述框架这样的规范存储格式来进行存储比较常用的有 Jena等。
<RDF>
<Description about="https://www.w3.org/RDF/">
<author>HanXinzi</author>
<homepage> http://www.showmeai.tech </homepage>
</Description>
</RDF>
另一种方法是使用 图数据库来进行存储常用的有 Neo4j等。
截止目前为止看起来知识图谱主要是一堆三元组那用关系数据库来存储可以吗
对从技术上来说用关系数据库来存储知识图谱尤其是简单结构的知识图谱是完全没问题的。但一旦知识图谱变复杂用传统的「关系数据存储」查询效率会显著低于「图数据库」。在一些涉及到2,3度的关联查询场景图数据库能把查询效率提升几千倍甚至几百万倍。
而且基于图的存储在设计上会非常灵活一般只需要局部的改动即可。当你的场景数据规模较大的时候建议直接用图数据库来进行存储。
三、知识图谱的架构
知识图谱的架构主要可以被分为
- 逻辑架构
- 技术架构
3.1 逻辑架构
在逻辑上我们通常将知识图谱划分为两个层次数据层和模式层。
- 模式层在数据层之上是知识图谱的核心存储经过提炼的知识通常通过本体库来管理这一层本体库可以理解为面向对象里的“类”这样一个概念本体库就储存着知识图谱的类。
- 数据层存储真实的数据。
可以看看这个例子
模式层 实体-关系-实体实体-属性-性值
数据层吴京-妻子-谢楠吴京-导演-战狼Ⅱ
3.2 技术架构
知识图谱的整体架构如图所示其中虚线框内的部分为知识图谱的构建过程同时也是知识图谱更新的过程。别紧张让我们顺着这张图来理一下思路。
- 首先我们有一大堆的数据这些数据可能是结构化的、非结构化的以及半结构化的
- 然后我们基于这些数据来构建知识图谱这一步主要是通过一系列自动化或半自动化的技术手段来从原始数据中提取出知识要素即一堆实体关系并将其存入我们的知识库的模式层和数据层。
四、构建技术
前面的内容说到了知识图谱有自顶向下和自底向上两种构建方式这里提到的构建技术主要是自底向上的构建技术。
如前所述构建知识图谱是一个迭代更新的过程根据知识获取的逻辑每一轮迭代包含三个阶段
- 信息抽取从各种类型的数据源中提取出实体、属性以及实体间的相互关系在此基础上形成本体化的知识表达。
- 知识融合在获得新知识之后需要对其进行整合以消除矛盾和歧义比如某些实体可能有多种表达某个特定称谓也许对应于多个不同的实体等。
- 知识加工对于经过融合的新知识需要经过质量评估之后部分需要人工参与甄别才能将合格的部分加入到知识库中以确保知识库的质量。
下面我们依次来对每一个步骤进行介绍。
4.1 知识抽取
知识抽取infromation extraction是知识图谱构建的第1步其中的关键问题是如何从异构数据源中自动抽取信息得到候选指示单元
信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括实体抽取、关系抽取和属性抽取。
1实体抽取
实体抽取也称为命名实体识别named entity recognitionNER是指从文本数据集中自动识别出命名实体。
图中通过实体抽取我们可以从其中抽取出四个实体“非洲”、“中国海军”、“冷锋”、“战狼”。
研究历史
◉ 从面向单一领域进行实体抽取逐步跨步到面向开放域Open Domain的实体抽取。
2关系抽取
文本语料经过实体抽取之后得到的是一系列离散的命名实体。为了得到语义信息还需要从相关语料中提取出实体之间的关联关系通过关系将实体联系起来才能够形成网状的知识结构。这就是关系抽取需要做的事如下图所示。
研究历史
◉ 人工构造语法和语义规则模式匹配。
◉ 统计机器学习方法。
◉ 基于特征向量或核函数的有监督学习方法。
◉ 研究重点转向半监督和无监督。
◉ 开始研究面向开放域的信息抽取方法。
◉ 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合。
3属性抽取
属性抽取的目标是从不同信息源中采集特定实体的属性信息如针对某个公众人物可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。
研究历史
◉ 将实体的属性视作实体与属性值之间的一种名词性关系将属性抽取任务转化为关系抽取任务。
◉ 基于规则和启发式算法抽取结构化数据。
◉ 基于百科类网站的半结构化数据通过自动抽取生成训练语料用于训练实体属性标注模型然后将其应用于对非结构化数据的实体属性抽取。
◉ 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式据此实现对属性名和属性值在文本中的定位。
4.2 知识融合
通过信息抽取我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。如果我们将接下来的过程比喻成拼图的话那么这些信息就是拼图碎片散乱无章甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。
也就是说拼图碎片信息之间的关系是扁平化的缺乏层次性和逻辑性拼图知识中还存在大量冗杂和错误的拼图碎片信息。那么如何解决这一问题就是在知识融合这一步里我们需要做的了。
知识融合包括2部分内容实体链接、知识合并。
1实体链接
实体链接entity linking是指对于从文本中抽取得到的实体对象将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项从知识库中选出一组候选实体对象然后通过相似度计算将指称项链接到正确的实体对象。
研究历史
◉ 仅关注如何将从文本中抽取到的实体链接到知识库中忽视了位于同一文档的实体间存在的语义联系
◉ 开始关注利用实体的共现关系同时将多个实体链接到知识库中。即集成实体链接collective entity linking。
实体链接的流程
- 从文本中通过实体抽取得到实体指称项。
- 进行实体消歧和共指消解判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义。
- 在确认知识库中对应的正确实体对象之后将该实体指称项链接到知识库中对应实体。
◉ 实体消歧是专门用于解决同名实体产生歧义问题的技术通过实体消歧就可以根据当前的语境准确建立实体链接实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题类似于词性消歧和词义消歧。
◉ 共指消解主要用于解决多个指称对应同一实体对象的问题。在一次会话中多个指称可能指向的是同一实体对象。利用共指消解技术可以将这些指称项关联合并到正确的实体对象由于该问题在信息检索和自然语言处理等领域具有特殊的重要性吸引了大量的研究努力。共指消解还有一些其他的名字比如对象对齐、实体匹配和实体同义。
2知识融合
在前面的实体链接中我们已经将实体链接到知识库中对应的正确实体对象那里去了但需要注意的是实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。
那么除了半结构化数据和非结构化数据以外我们还有个更方便的数据来源———结构化数据如外部知识库和关系数据库。对于这部分结构化数据的处理就是我们知识融合的内容啦。
一般来说知识融合主要分为两种合并外部知识库主要处理数据层和模式层的冲突合并关系数据库有RDB2RDF等方法。
4.3 知识加工
经过刚才那一系列步骤我们终于走到了知识加工这一步了在前面我们已经通过信息抽取从原始语料中提取出了实体、关系与属性等知识要素并且经过知识融合消除实体指称项与实体对象之间的歧义得到一系列基本的事实表达。
然而事实本身并不等于知识。要想最终获得结构化网络化的知识体系还需要经历知识加工的过程。知识加工主要包括3方面内容本体抽取、知识推理和质量评估。
1本体抽取
本体ontology是指工人的概念集合、概念框架如“人”、“事”、“物”等。本体可以采用人工编辑的方式手动构建借助本体编辑软件也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大且很难找到符合要求的专家因此当前主流的全局本体库产品都是从一些面向特定领域的现有本体库出发采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段 实体并列关系相似度计算 → 实体上下位关系抽取 → 本体的生成。
如图所示当知识图谱刚得到“战狼Ⅱ”、“流浪地球”、“北京文化”这三个实体的时候可能会认为它们三个之间并没有什么差别。但当它去计算三个实体之间的相似度后就会发现“战狼Ⅱ”和“流浪地球”之间可能更相似与“北京文化”差别更大一些。
- 第一步下来知识图谱实际上还是没有一个上下层的概念。它还是不知道“流浪地球”和“北京文化”不隶属于一个类型无法比较。
- 因此第二步『实体上下位关系抽取』需要去完成这样的工作从而生成第三步的本体。
- 当三步结束后这个知识图谱可能就会明白“战狼2和流浪地球是电影这个实体下的细分实体。它们和北京文化这家公司并不是一类”。
2知识推理
在我们完成了本体构建这一步之后一个知识图谱的雏形便已经搭建好了。但可能在这个时候知识图谱之间大多数关系都是残缺的缺失值非常严重那么这个时候我们就可以使用知识推理技术去完成进一步的知识发现。
当然知识推理的对象也并不局限于实体间的关系也可以是实体的属性值本体的概念层次关系等。
- 推理属性值已知某实体的生日属性可以通过推理得到该实体的年龄属性
- 推理概念已知(老虎科猫科)和猫科目食肉目可以推出老虎目食肉目
这一块的算法主要可以分为3大类基于知识表达的关系推理技术基于概率图模型的关系推理技术路线示意图基于深度学习的关系推理技术路线示意图。
3质量评估
质量评估也是知识库构建技术的重要组成部分这一部分存在的意义在于可以对知识的可信度进行量化通过舍弃置信度较低的知识来保障知识库的质量。
4.4 知识更新
从逻辑上看知识库的更新包括概念层的更新和数据层的更新。
- 概念层的更新新增数据后获得了新的概念需要自动将新的概念添加到知识库的概念层中。
- 数据层的更新主要是新增或更新实体、关系、属性值对数据层进行更新需要考虑数据源的可靠性、数据的一致性是否存在矛盾或冗杂等问题等可靠数据源并选择在各数据源中出现频率高的事实和属性加入知识库。
知识图谱的内容更新有两种方式
- 全面更新指以更新后的全部数据为输入从零开始构建知识图谱。这种方法比较简单但资源消耗大而且需要耗费大量人力资源进行系统维护
- 增量更新以当前新增数据为输入向现有知识图谱中添加新增知识。这种方式资源消耗小但目前仍需要大量人工干预定义规则等因此实施起来十分困难。
知识图谱的构建就此结束
五、相关代码实现参考
获取『自然语言处理』行业解决方案
公众号 ShowMeAI研究中心 回复关键字『 自然语言处理』获取 ShowMeAI 整理的 大厂解决方案 —— 包含腾讯、爱奇艺、美团、小米、百度、淘宝、高德等项目代码、数据集、论文合辑等打包资料。
相关代码实现参考
ShowMeAI社区的技术专家小伙伴们也对知识图谱的典型算法做了实现。对『 知识图谱构建与落地实践』细节感兴趣的话请前往我们的 GitHub项目 https://github.com/ShowMeAI-Hub 查看实现代码。感谢 AI算法研究所 参与此项目的所有技术专家小伙伴推荐大家关注公众号。数据集和代码的整理花费了很多心思欢迎大家 PR 和 Star
六、参考文献
- 1 刘峤, 李杨, 段宏,等. 知识图谱构建技术综述J. 计算机研究与发展, 2016, 53(3):582-600.
- 2 打怪的蚂蚁. CSDN. 知识图谱技术技巧.
- 3 Ehrlinger L, Wöß W. Towards a Definition of Knowledge GraphsC// Joint Proceedings of the Posters and Demos Track of,
International Conference on Semantic Systems - Semantics2016 and,
International Workshop on Semantic Change & Evolving Semantics. 2016.
- 4 Das R, Neelakantan A, Belanger D, et al. Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural NetworksJ.