第1章 跨媒体科技大数据的获取与处理
科技资源跨媒体信息包含的内容是多种多样的,其中,最有代表性的类型为论文、基金项目和资讯新闻数据。这些数据不仅包含摘要、正文、发表时间、引用数量等基础信息,也包含关键词、学科、研究主题等更高维度的抽象信息,而这正是科技资源的独特属性,即学科之间存在嵌套和交叉关系,学科和研究主题之间存在对应关系。考虑到这些数据集来源的不同,需要采用针对不同数据的获取方法,获取互联网及各知识库中与成果信息相关的庞大的知识集,应用正则表达式,针对不同的数据源制定相应的规则,解析爬取到的结果数据,并进行初步的筛选和处理。在获取到数据后,进行预处理操作,对重要的属性值,可以结合属性特征补全某个特定值,如果数据的残缺程度过高,可研究和挖掘的价值已经不大,可将这些数据作为无用数据删除,对于从多个数据源重复采集到的数据,进行去重操作。本章给出了跨媒体科技大数据的数据收集、处理与存储的方法。结合科技资源数据指标繁多、类别细分的特点,利用信息抽取系统对科技资源数据进行多层次的信息采集;对于科技资源数据进行语料清洗,对文本内容统一格式、去噪等,利用正则表达式匹配规则提取文本中符合特性的文本数据;对图像内容统一数据增强,如图像的切割、灰度化等。处理后的结构化数据存储到关系型数据库MySQL的表中。科技大数据包含大量相关数据,存在着大量的噪声。在繁多的数据中,过滤掉科技大数据中广泛存在的噪声信息,获得科技大数据对象自身相关的属性数据、发布的内容消息,做好数据预处理,以及分类别存储对后续研究至关重要。
1.1 科技资源数据收集、预处理与存储架构
科技资源不同于社交、新闻等数据,科技资源天然具有专业性,因此数据的分布呈现比较强的集中性。对于采集到的科技数据,因为其具有多领域的跨学科特点,需要做不同的预处理和持久化,所以需要一种灵活的数据处理体系。因此本节设计了一种针对科技大数据的采集、处理与存储流水线式处理体系。本节所用到的数据主要取自AMiner、知网空间和百度学术以及一些公开学术数据集等。为了完成数据的高效自动获取工作,本节设计了一个多领域跨媒体科技资源的实时采集系统。采集系统主要包含以下几个组件:采集引擎、爬虫、调度器、下载器、管道、中间件。采集引擎是核心模块,基于事件驱动机制用来处理整个系统的数据流,分布式的爬虫负责根据URL(uniform resource locator,统一资源定位器)列表循环请求网络上的科技资源或者调用开放API(application program interface,应用程序编程接口)获取信息,调度器负责整个采集系统的任务调度,下载器用于下载网页内容,管道负责对数据进行处理以及持久化,中间件主要用于定制化组件间和引擎的逻辑交互。由于有些网页是动态渲染生成,直接爬取无法正确获取到有价值的信息,采用Selenium工具模拟浏览器的行为,采集由JavaScript等脚本动态生成的数据。
百度学术、知网空间与网络科技资讯站点作为重要的信息发布和信息获取工具,每时每刻都在产生着大量的数据,这些数据的规模庞大,形式多种多样,包含大量多模态信息,高效地对数据进行抓取,过滤其中无关信息,将数据进行初步处理,以恰当的形式存储到合适的位置至关重要。本节提出一种集群分布式部署抓取方法,实现对数据的收集与预处理。图1-1为跨媒体科技大数据获取、预处理与存储架构图。
1.2 跨媒体科技大数据的获取
针对海量的多模态科技资源,建立一种基于发布-订阅模式的科技大数据采集、处理与持久化体系。针对科技大数据中文本资源在不同领域存在二义性等特点,提出基于密集卷积注意力的特征表示算法,对科技文本资源进行深度特征提取与表达。针对科技大数据中图像资源存在的尺寸不统一等问题,通过引入空间金字塔池化层的CNN对科技图像资源进行深度特征的提取与表达,从而避免由缩放等操作造成的信息丢失。多领域跨媒体科技大数据的获取架构如图1-2所示。
获取科技资源原始数据后,通过构建规则库对科技大数据进行评估,去除无效和重复的内容,将有效的内容进行下一步的处理。对于提取到的文本数据,去除对于字符串解析乱码或者只包含特殊符号的数据。对剩余的数据进行去停用词和特定标点等操作。对文本实现繁体转简体的工作,以降低同义文本不同形式的影响。将数据进行ORM(object relationship mapping,对象关系映射),实现对数据的结构化存储。对每个持久化存储的文本生成唯一ID,得到一系列由ID符号构成的文档集。对于图像数据,图像进行灰度化处理,去除色彩信息,将所有图像向量输入到修改后的VGG(visual geometry group,视觉几何小组)网络中,得到图像的语义特征向量。对于已经预处理好的文本以及图像数据进行序列化处理,文本以文档的形式,存储到全文检索型数据库ElasticSearch中,多媒体类型数据以机器码的形式存放到本地的机械磁盘中,实现了科技资源数据的获取、预处理和存储。
跨媒体科技大数据数据采集流程和框架如图1-3所示。采用的是从网上各大信息平台爬取的非结构化数据,其中包含了部分结构化数据。表1-1为获取数据的处理步骤,表1-2为获取到的主要的科技资源文本政策数据的规模。
目录
第1章 跨媒体科技大数据的获取与处理 1
1.1 科技资源数据收集、预处理与存储架构 1
1.2 跨媒体科技大数据的获取 3
1.3 跨媒体科技大数据的处理 5
1.4 跨媒体科技大数据的存储 11
1.5 本章小结 12
第2章 科技大数据的特征提取 13
2.1 科技大数据特征与信息关联 13
2.2 科技资源跨媒体信息特征提取 17
2.3 科技资源多模态大数据特征提取与表示 22
2.4 科技需求跨模态大数据的特征提取 29
2.5 科技资源跨媒体深度特征提取与表达 35
2.6 本章小结 39
第3章 科技大数据语义学习与关联 40
3.1 跨模态科技大数据的关联映射学习与统一语义表示 40
3.2 跨媒体科技大数据的语义统一表征 47
3.3 多领域跨媒体科技大数据的语义学习 49
3.4 多模态科技大数据语义理解与对齐 59
3.5 科技资源实体的跨媒体语义关联关系分析 65
3.6 本章小结 72
第4章 科技大数据的实体关联与实体识别 73
4.1 科技实体关联的可解释性描述 73
4.2 多模态科技知识的实体描述与归纳 76
4.3 科技大数据的实体深度关联建模 77
4.4 跨媒体科技大数据的细粒度实体挖掘 88
4.5 跨媒体科技大数据的实体识别与关联关系发现 93
4.6 科技资源实体信息与实体关联关系挖掘与发现 110
4.7 本章小结 121
第5章 科技大数据的关系预测与演进规律分析 122
5.1 科技大数据的隐性关系推理与预测 122
5.2 科技大数据的关系演进规律分析 129
5.3 科技资源跨媒体信息挖掘与演进规律分析 134
5.4 基于图团体检测的科技大数据演进规律分析 138
5.5 本章小结 144
第6章 科技大数据的知识表示与知识服务 145
6.1 科技大数据的知识表示 145
6.2 基于知识表示的科技服务 153
6.3 本章小结 156
第7章 跨媒体科技大数据知识图谱构建 157
7.1 跨媒体科技大数据的知识图谱的结构 157
7.2 跨媒体科技大数据的实体消歧算法 158
7.3 跨媒体科技大数据的知识图谱构建系统 161
7.4 本章小结 165
第8章 基于深度学习的科技资源立体精准画像 166
8.1 跨媒体科技大数据的动态精准画像的构建 166
8.2 基于深度学习的跨媒体科技资源立体精准画像系统 168
8.3 本章小结 172
第9章 科技资源跨媒体信息的分布式检索查询 173
9.1 科技资源跨媒体信息检索查询与可视化 173
9.2 科技大数据索引与检索排序 174
9.3 基于学者合作关系和引文影响力融合的专家学者发现算法 179
9.4 基于学者兴趣和专家学者预测的科技大数据检索查询 186
9.5 实验结果及分析 188
9.6 科技资源跨媒体信息的分布式检索查询系统 194
9.7 本章小结 197
第10章 跨媒体科技大数据的知识服务构件 198
10.1 跨媒体科技大数据的知识服务构件的开放协同机制 198
10.2 跨媒体科技大数据的动态推演展示与交互可视化 204
10.3 跨媒体科技大数据知识服务与交互可视化构件系统 210
10.4 跨模态科技大数据的知识服务构件系统实现 212
10.5 本章小结 216
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录