(1)作者背景资深:作者是资深AI技术专家,BAT高级算法工程师。
(2)作者经验丰富:作者在NLP、内容理解等领域有多年实践经验。
(3)揭秘大模型:揭秘大模型的底层技术原理,详解文本内容理解和生产的技术细节。
(4)解决6大难题:为内容重复理解、内容通顺度识别及纠正、内容质量、标签体系构建、文本摘要生成、文本纠错6大内容理解难题提供基于NLP的解决方案。
(5)结合业务场景:所有内容、技术、算法均从实际业务场景出发,从问题的角度拆解问题。
(6)大量NLP算法:书中系统讲解了可用于内容理解的各种NLP算法的原理和使用。
(7)包含大量案例:以实战为导向,用案例贯穿全书。
CONTENTS
目 录
前言
第1章 文本特征表示 1
1.1 语料与语料预处理 1
1.1.1 语料和语料库 1
1.1.2 语料预处理 2
1.2 文本特征表示方法 6
1.2.1 离散型特征表示方法 6
1.2.2 分布型特征表示方法 13
1.3 词向量的评判标准 29
1.3.1 内部评估 29
1.3.2 外在评估 31
1.4 本章小结 34
第2章 内容重复理解 35
2.1 标题重复 35
2.1.1 标题符号规整化处理 36
2.1.2 Jieba分词 39
2.1.3 LAC分词 43
2.1.4 基于分词及字符串等
方式进行重复识别 45
2.2 段落重复识别实例 47
2.2.1 段落重复识别 47
2.2.2 基于N-gram算法进行
内容去重 48
2.2.3 平滑处理技术 54
2.3 基于相似度计算的文章判重 57
2.3.1 文本相似度计算任务
的分析 57
2.3.2 距离度量方式 58
2.3.3 基于SimHash算法进行
文本重复检测 62
2.4 本章小结 66
第3章 内容通顺度识别及纠正 67
3.1 数据增强 67
3.2 基于FastText算法的句子
通顺度识别 73
3.2.1 CBOW模型 74
3.2.2 FastText算法原理 75
3.2.3 FastText算法实战 81
3.3 基于TextCNN算法的分类
任务实现 93
3.3.1 专有名词简介 93
3.3.2 算法介绍 94
3.3.3 参数调优经验总结 96
3.3.4 基于Keras工具实现TextCNN算法 96
3.4 基于TextRNN算法的分类
任务实现 98
3.4.1 LSTM和BiLSTM 98
3.4.2 TextCNN和TextRNN
识别效果对比 105
3.5 基于Seq2Seq模型的
纠正策略 106
3.5.1 Seq2Seq模型原理 106
3.5.2 纠正不通顺句子的方法 108
3.6 本章小结 114
第4章 内容质量 116
4.1 GBDT算法 116
4.1.1 GBDT算法概述 117
4.1.2 负梯度拟合 117
4.1.3 GBDT回归算法 118
4.1.4 GBDT分类算法 119
4.2 XGBoost算法 121
4.2.1 从GBDT到XGBoost 121
4.2.2 XGBoost损失函数 122
4.2.3 XGBoost损失函数的
优化求解 124
4.2.4 XGBoost算法流程 125
4.2.5 XGBoost算法参数
及调优 127
4.3 知识问答质量体系的搭建 129
4.3.1 知识问答质量体系
建立的意义 130
4.3.2 整体的项目实施方案 130
4.3.3 知识问答质量体系
搭建流程 133
4.4 本章小结 142
第5章 标签体系构建 143
5.1 标签体系 143
5.1.1 标签体系的重要性 143
5.1.2 标签体系的分类 144
5.1.3 构建标签体系 146
5.2 TF-IDF算法 151
5.2.1 TF-IDF算法介绍 151
5.2.2 TF-IDF算法实现 152
5.3 PageRank算法 155
5.4 TextRank算法 163
5.4.1 TextRank算法的使用
场景 164
5.4.2 TextRank算法的
优缺点 168
5.5 本章小结 168
第6章 文本摘要生成 169
6.1 文本摘要相关介绍 169
6.1.1 文本摘要问题定义 169
6.1.2 文本摘要分类 170
6.1.3 文本摘要的技术和方法 170
6.2 基于无监督的抽取式文本摘要 172
6.2.1 基于经验的文本摘要 173
6.2.2 基于主题模型的
文本摘要 175
6.2.3 基于图的文本摘要 182
6.2.4 基于特征评分的
文本摘要 185
6.2.5 基于聚类的文本摘要 188
6.3 基于有监督的抽取式文本摘要 191
6.4 基于深度神经网络的生成式
文本摘要 201
6.5 文本摘要常用数据集 210
6.6 文本摘要评价方法 211
6.6.1 自动评价方法 211
6.6.2 人工评价方法 213
6.7 本章小结 213
第7章 文本纠错 214
7.1 错误来源及类型 214
7.2 文本纠错的3种传统方法 215
7.2.1 模板匹配 215
7.2.2 编辑距离匹配 216
7.2.3 HANSpeller++框架 217
7.3 文本纠错深度学习方法 220
7.3.1 英文文本纠错方法 220
7.3.2 中文文本纠错方法 224
7.4 工业界解决方法 233
7.4.1 3阶段级联的纠错方案 234
7.4.2 符合多种场景的通用
纠错方案 236
7.4.3 保险文本的纠错方案 237
7.5 文本纠错工具 239
7.5.1 pycorrector 239
7.5.2 xmnlp 240
7.6 本章小结 242
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录