泸西县图书馆“U书快借”平台

精彩书摘

第一篇基础知识篇
　　第1章知识图谱概述
　　1.1 知识图谱简介
　　在过去的10～15年，知识图谱及其相关应用已经在各个方面改变了人们的生活。无论是从搜索引擎中得到更直观的搜索结果、在网上购物时借助推荐系统获取更加个性化的购物体验，还是近年来问世的种类繁多的语音助手，如Siri、Google Assistant以及小爱同学等，人们每天都在与知识图谱进行无数次的交互。知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为科学研究和实际应用提供有价值的数据和智能支撑。本节从知识图谱的概念、常见的知识图谱以及知识图谱的价值与应用三个方面对知识图谱进行简单的介绍。
　　1.1.1 图、图谱与知识图谱
　　一个图(graph)由节点和边组成。当节点和边有了语义标签时，这个图里就有了图谱：可以按照边的标签来搜索和显示分类(如is-a或part-of)连接的相关节点集合(图集)，如华谱系统里由 father-of关系连接的一份份家谱谱系图。图谱具有分类编辑的系统性和逻辑性，而不同的语义标签可以在一个图中连接不同的图谱。当节点和边的语义标签有了领域知识对其进行解释时，这个图才能成为一个知识图谱(knowledge graph)。
　　知识图谱是一种语义图谱。尽管“知识图谱”这一专有名词是Google公司于2012年提出的，但与知识图谱这一概念相关的研究早已出现[1，2]。
　　知识图谱由节点和边组成，其中节点用于表示语义符号，而边则表示语义符号之间的语义关系。知识图谱中的节点可以是一个具体的实体，如人名“马克龙”、地名“法国”等，也可以是某些抽象概念，如“总统”、“人工智能”等。知识图谱中的边代表了实体之间的各种关系，如亲属、合作等。知识图谱中的边还可以代表实体的属性，如书籍的标题、城市的位置等。总体而言，知识图谱是由学科专家借助人工智能技术和机器学习算法创建的知识领域模型，是一种揭示实体之间关系的语义网。图1.1展示了一个知识图谱的基本结构。
　　图1.1 知识图谱的基本结构
　　一般地，知识图谱可以形式化地定义为由结构化三元组组成的有向图，表示为，其中为实体集，；为关系集，；为三元组集合，。
　　以三元组(巴黎，位于，法国)为例，其中“巴黎”称为头实体，其类型为“城市”，“法国”称为尾实体，其类型为“国家”，头实体和尾实体之间的关系为“位于”。在某些三元组中，关系代表实体的某种属性，相应地，此时尾实体也称为属性值，如(史蒂夫乔布斯，出生于，1955年)。目前大多数知识图谱都以三元组的形式来表示各种类型的知识，但知识图谱中的知识表示(knowledge representation)除了这种以三元组表示的二元关系以外，也包括类别、属性等不同粒度、不同层次的语义关系。
　　互联网上存在海量的知识资源，这些知识资源大多数以非结构化的形式表示，如文本、音频、图片等。对于计算机，处理非结构化数据通常是非常困难的。知识图谱对互联网错综复杂的非结构化数据进行加工、处理和整合，将其转化为清晰、简洁的“实体-关系-实体”三元组和“实体-属性”对，从而实现知识提取和知识整合，*终形成图结构的知识库，使得计算机可以轻松处理。
　　1.1.2 知识图谱的价值
　　知识图谱通过节点和关系对真实世界的各种场景进行直观的建模，使用“图”这种基础的数据结构直观、自然、高效地表达世界上的各种实体和关系。在表达能力方面，相比于传统数据库，知识图谱表达关系的方式更加多样，基于图论等背景知识可以进行更加复杂多样的关联分析，满足企业的分析和管理需求；在推理能力方面，可以基于知识图谱的图结构设计相应的业务规则，通过本体推理辅助业务决策；在时间和空间开销方面，知识图谱通常采用图数据库进行存储，相比于传统数据库响应时间更短，计算能力更强，向用户返回结果的速度更快。
　　自1984年Cyc①项目启动以来，陆续出现了一系列的知识库和知识图谱项目，如通过专家知识构建的Cyc、WordNet②，通过互联网资源及群体智能构建的Freebase③、DBpedia④、Wikidata⑤、YAGO[3]、BabelNet[4]，以及使用机器学习技术自动构建的NELL[5]和Knowledge Vault[6]等。知识图谱在多个领域都展现出了广泛的应用价值。例如，美团公司构建了大规模餐饮娱乐知识图谱“美团大脑”⑥，实现了对商家和消费者的多维度精准刻画。当消费者在美食类目下以“鱼”为关键字进行搜索时，可以通过知识图谱得知“鱼”是一种“食材”，进而在提供搜索结果时除了提供“清蒸鱼”、“糖醋鱼”等传统的搜索结果外，还能够提供“赛螃蟹”这样的将鱼肉作为主料的菜品，从而丰富了搜索结果，提升了用户体验。在金融领域，可以通过用户在网络的通信信息构建知识图谱的关联关系，对用户在信贷行为上高频交互过的人员和群组进行溯源，从而精准定位骗贷团伙，实现反欺诈领域的监控和预警。
　　总之，知识图谱因其对现实世界进行建模的特点，已经成功俘获了大批客户，涉及金融、广告、信息技术(IT)、社交网络甚至传统制造业等多个领域。在未来，随着人工智能逐渐渗透到每一个人的生活中，知识图谱势必会得到更加广泛的应用。
　　1.1.3 知识图谱的挑战
　　尽管知识图谱已经在许多方面得到了广泛的应用，但其目前仍有一些亟待解决的问题。其一是知识来源的缺失，或称为知识的确定性问题。目前知识图谱中的知识多是从维基百科(Wikipedia)等互联网资源中经过清洗和处理得到的，而很难对这些知识进行溯源，进而证实或证伪。《华盛顿邮报》曾报道称，通过Google得到的搜索结果缺少消息来源，“削弱了人们核实信息的能力”。其二是如何区分同名的不同实体，如网球运动员李娜和演员李娜。其三是如何通过知识图谱进行推理，如某人的长子和次子之间的关系就是兄弟。
　　另外，目前绝大多数的知识图谱并不包含图谱中的实体和关系的任何背景信息，换句话说，大多数“知识图谱”只是通过自然语言处理等技术从非结构化数据中生成的“数据图谱”，这些图谱提炼了原始数据中的信息，但并不具备推理能力。目前有一些工作致力于解决这些方面的问题[7，8]，如何使知识图谱具有更强大的智能，仍然是非常具有挑战性的问题。
　　1.2 知识图谱的发展历程
　　知识图谱技术由历史上的许多相关技术，如语义网、本体论、人工智能等多个方面继承和发展而来。知识图谱的发展历程可以追溯到20世纪70年代问世的专家系统，该系统依据领域专家的知识和经验模拟人类的决策过程进行推理和判断，以解决需要人类专家处理的复杂问题。如图1.2所示，20世纪80年代开始，依赖专家知识构建的Cyc、WordNet等本体知识库问世，这类知识库是知识图谱的早期雏形。进入21世纪，出现了第一个大规模的现代开放域知识图谱DBpedia，随着人工智能技术的发展又出现了能够自动构建的知识图谱，如NELL和Knowledge Vault等。本节将从传统的知识库、现代的知识图谱、人工智能时代的知识图谱三个方面进行介绍。
　　图1.2 知识图谱的发展历程
　　1.2.1 传统的知识库
　　Cyc和WordNet是较为典型的依赖专家知识构建的早期知识库项目。Cyc项目开始于1984年，其*初的目标是建立人类*大的常识知识库，并在此基础上完成知识推理等任务。Cyc目前包含50万个实体、约3万个关系以及500万条事实，主要由术语(term)和断言(assertion)进行表示。Cyc项目还开放了一个可以免费使用的子集，即OpenCyc。早期的Cyc项目大多采用人工构建的方法来推进，近年来Cyc也开始尝试使用自然语言理解工具从互联网的非结构化数据中抽取知识。自2008年起，Cyc的资源开始被映射到Wikipedia、DBpedia等资源上，这使得Cyc与现代知识库项目建立链接变得更加容易。Cyc的一大特点是其采用了形式化的方式描述知识，这使得Cyc可以进行复杂推理。

展开

目录
“新一代人工智能创新平台建设及其关键技术丛书”序
前言
第一篇基础知识篇
第1章知识图谱概述 3
1.1 知识图谱简介 3
1.1.1 图、图谱与知识图谱 3
1.1.2 知识图谱的价值 4
1.1.3 知识图谱的挑战 5
1.2 知识图谱的发展历程 6
1.2.1 传统的知识库 6
1.2.2 现代的知识图谱 7
1.2.3 人工智能时代的知识图谱 8
1.2.4 数据图谱与知识图谱的对比 9
1.3 知识图谱的组成 9
1.3.1 知识图谱中的实体 10
1.3.2 知识图谱中的关系 11
1.3.3 知识图谱中的事件 12
1.4 知识图谱构建技术流程 13
1.4.1 知识获取 13
1.4.2 知识存储 14
1.4.3 知识表示 15
1.4.4 知识抽取 16
1.4.5 知识融合 17
1.4.6 知识补全 18
1.5 知识图谱的典型应用 19
1.5.1 知识图谱可视化分析 19
1.5.2 知识图谱与知识推理 20
1.5.3 知识图谱与语义检索 22
1.5.4 知识图谱与智能问答 23
1.5.5 知识图谱与推荐系统 25
1.6 本章小结 26
第2章知识表示 27
2.1 知识表示简介 27
2.1.1 知识表示的定义 27
2.1.2 知识表示与知识图谱 28
2.2 知识表示的发展历程 28
2.2.1 知识的逻辑符号表示 30
2.2.2 知识的框架表示 34
2.2.3 知识的语义网表示 39
2.2.4 知识的嵌入表示 43
2.3 知识图谱的知识表示 47
2.3.1 知识图谱中知识的框架表示 48
2.3.2 知识图谱中知识的嵌入表示 50
2.4 本章小结 57
第3章知识图谱中的实体 58
3.1 实体的定义 58
3.1.1 实体的类型描述 58
3.1.2 实体的组织形式 59
3.2 实体抽取技术 60
3.2.1 实体抽取任务定义 60
3.2.2 实体抽取流程 60
3.3 命名实体识别技术 61
3.3.1 任务定义 61
3.3.2 实体的命名实体识别方法 61
3.3.3 基于深度学习的命名实体识别 66
3.4 实体集合扩展技术 71
3.4.1 任务定义 71
3.4.2 实体集合扩展方法 71
3.5 命名实体消歧技术 73
3.5.1 任务定义 74
3.5.2 基于传统特征的命名实体消歧 75
3.5.3 基于任务优化的命名实体消歧 79
3.5.4 基于深度学习的命名实体消歧 81
3.6 实体抽取评测 82
3.6.1 评测指标 82
3.6.2 评测数据 87
3.6.3 评测比赛 91
3.7 本章小结 92
第4章知识图谱中的关系 93
4.1 关系的定义 93
4.1.1 关系的类型描述 93
4.1.2 关系的组织形式 95
4.2 关系抽取技术 95
4.2.1 关系抽取任务 95
4.2.2 关系抽取方法分类 96
4.2.3 基于模式的关系抽取 97
4.2.4 基于特征的关系抽取 102
4.2.5 基于深度学习的关系抽取 105
4.3 关系抽取评测 113
4.3.1 评测指标 113
4.3.2 评测数据 116
4.3.3 评测比赛 117
第5章知识图谱中的事件 119
5.1 事件的定义 119
5.1.1 事件的类型描述 120
5.1.2 事件的组织形式 120
5.2 事件抽取技术 122
5.2.1 事件抽取任务定义 122
5.2.2 事件抽取方法分类 123
5.2.3 基于简单模式匹配的事件抽取 123
5.2.4 基于机器学习的事件抽取 126
5.2.5 开放域事件抽取 132
5.3 事件抽取评测 135
5.3.1 评测指标 135
5.3.2 相关评测会议及数据 136
第二篇前沿技术篇
第6章知识图谱融合 143
6.1 融合任务的定义 143
6.1.1 融合任务描述 143
6.1.2 数据融合与知识图谱融合的对比 145
6.1.3 实体融合 145
6.1.4 关系融合 146
6.1.5 本体融合 146
6.2 知识图谱融合技术 147
6.2.1 实体对齐 147
6.2.2 关系对齐 150
6.2.3 本体对齐 154
6.3 知识图谱融合评测 157
6.3.1 评测指标 158
6.3.2 评测数据 159
6.3.3 评测比赛 163
6.4 知识图谱融合典型应用 164
6.4.1 常用外部资源 164
6.4.2 从数据仓库到主题域图谱 172
6.5 本章小结 174
第7章知识图谱推理 176
7.1 推理任务的定义 176
7.1.1 推理任务描述 176
7.1.2 推理任务分类 176
7.1.3 数据推理与知识图谱推理的对比 178
7.2 知识图谱推理技术 179
7.2.1 基于演绎的推理技术 180
7.2.2 基于规则的推理技术 188
7.2.3 基于模型的推理技术 192
7.2.4 线性推理方法 195
7.3 知识图谱推理评测 198
7.3.1 评测指标 198
7.3.2 评测数据 199
7.3.3 评测比赛 200
7.4 知识图谱推理典型应用 201
7.4.1 知识补全 201
7.4.2 知识问答 202
7.4.3 多事件因果推理 206
7.5 本章小结 207
第8章知识图谱搜索与推荐 208
8.1 搜索任务的定义 208
8.1.1 搜索任务描述 209
8.1.2 搜索任务分类 209
8.1.3 传统搜索与知识图谱搜索的对比 210
8.2 知识图谱搜索技术 212
8.2.1 搜索流程框架 212
8.2.2 基于存储结构的数据搜索 215
8.2.3 基于语义的数据搜索 217
8.2.4 基于深度学习的搜索 219
8.3 知识图谱搜索评测 220
8.3.1 评测指标 220
8.3.2 评测数据 222
8.3.3 评测比赛 222
8.4 知识图谱搜索典型应用 223
8.4.1 智能推荐 223
8.4.2 基于图谱的信息检索 227
8.4.3 知识库问答 229
8.5 本章小结 230
第9章知识图谱的自动构建 231
9.1 知识图谱构建的流程和核心要素 231
9.1.1 知识建模 232
9.1.2 知识存储与知识表示 233
9.1.3 知识抽取 234
9.1.4 知识融合 240
9.2 知识图谱构建的方法 240
9.2.1 自顶向下的构建方式 241
9.2.2 自底向上的构建方式 242
9.3 知识图谱自动构建的困境 243
9.4 本章小结 244
第10章事理图谱 246
10.1 事理图谱的概念和案例 246
10.1.1 事理图谱的概念 246
10.1.2 事理图谱的案例 248
10.2 事理图谱的作用 251
10.3 事理图谱的挑战 253
10.4 本章小结 256
第三篇应用实践篇
第11章企业级知识图谱 259
11.1 企业级知识图谱的作用 259
11.1.1 企业级知识图谱构建的核心目标 259
11.1.2 企业级知识图谱的难点 261
11.2 结构化数据治理 262
11.2.1 元数据管理 263
11.2.2 数据质量监控 265
11.3 非结构化数据的预处理 267
11.3.1 正则表达式 268
11.3.2 中文分词问题 268
11.3.3 停用词、标点的去除 269
11.3.4 特征提取 270
11.4 数据存储和图数据库选择 271
11.4.1 分布式存储与分布式文件系统 271
11.4.2 图数据库的选择 274
11.5 知识构建和维护的生命周期 276
11.5.1 知识建模 276
11.5.2 知识获取 276
11.5.3 知识存储 277
11.5.4 知识融合 277
11.5.5 知识计算 277
11.5.6 知识应用 277
11.6 本章小结 277
第12章图谱可视化 279
12.1 可视化概述 279
12.1.1 数据、信息和知识的定义 279
12.1.2 可视化分类 280
12.2 图谱可视化表达 284
12.2.1 空间填充 284
12.2.2 节点链接图 285
12.2.3 热图 286
12.2.4 邻接矩阵 287
12.2.5 其他可视化表达 288
12.3 图谱可视化方法 289
12.3.1 知识图谱构图 290
12.3.2 知识图谱度量方法 291
12.3.3 知识图谱布局方法 294
12.4 图谱可视化实践 295
12.4.1 D3 295
12.4.2 知识图谱数据可视化实践 296
12.5 本章小结 300
参考文献 301

展开