搜索
高级检索
我的书架
0
高级搜索
书 名 :
著 者 :
出 版 社 :
I S B N:
出版时间 :
搜索
无库存
国之重器出版工程 大数据清洗技术
¥
0.00
定价
¥ 88.00
员工书屋
此书还可采购10本,持证读者免费借回家
ISBN:
9787560377537
作 者:
王宏志
出 版 社 :
哈尔滨工业大学出版社
出版日期:
2020-01-01
收藏
加入书架
畅销推荐
kubernetes权威指南从docker到kubernetes实践全接触(第6版)(上)(博文视点出品)
电子工业出版社
2024
人工智能趋势下的工程科技人才培养探究
西安电子科技大学出版社
2024
非平衡数据分类理论与方法
科学出版社
2024
用户研究方法卓越产品和服务的用户研究技巧
机械工业出版社
2024
走向第四范式数据密集型科学研究
科学出版社
2024
node-red物联网应用开发工程实践
机械工业出版社
2024
一本书讲透混合云安全
机械工业出版社
2024
新型数据库系统原理、架构与实践
机械工业出版社
2024
数据中心经营之道
机械工业出版社
2024
node-red物联网应用开发技术详解
机械工业出版社
2024
产品特色
编辑推荐
展开
作者简介
王宏志,哈尔滨工业大学计算机科学与技术学院教授、博士生导师,青年龙江学者。其研究方向为大数据、数据科学、数据管理与分析。在VLDB, SIGMOD等国内外重要会议和期刊发表学术论文200余篇,出版学术专著两本,先后主持国家自然科学基金重点项目等10余个项目。获得黑龙江省自然科学一等奖、教育部高等学校科技进步一等奖、黑龙江省青年科技奖等奖励和荣誉。任ACM SIGMOD中国秘书长、中国数据库专业委员会常务委员、ACM数据科学学科标准编写组专家。
展开
内容介绍
本书主要介绍了大数据清洗方面的研究成果。全书共分7章,重点面向大数据清洗中计算困难、错误混杂、缺少知识等难题,针对实体识别、真值发现、缺失值填充、不一致检测与修复等问题提出了相应的技术和算法,并在第7章提出了多数据质量问题综合清洗与优化技术。
本书可作为高等院校和科研机构大数据、数据质量管理、数据治理等方面的教学和科研参考书。
展开
精彩书评
展开
精彩书摘
展开
目录
第 1章 绪论 1
1.1 大数据的定义及其应用 2
1.2 数据质量问题 4
1.3 大数据的质量问题与挑战 12
1.4 数据清洗研究进展 13
1.5 本书的内容 16
本章参考文献 17
第 2章 大数据处理技术概述 21
2.1 大数据并行计算平台 22
2.2 众包技术 26
本章参考文献 29
第3章 实体识别 30
3.1 实体识别概述 31
3.2 串行实体识别算法 35
3.3 并行实体识别算法 45
3.4 增量实体识别算法 77
3.5 基于众包的实体识别 94
本章参考文献 100
第4章 真值发现 107
4.1 真值发现算法概述 108
4.2 并行真值发现算法 109
4.3 增量真值发现算法 127
4.4 基于众包的真值发现 140
本章参考文献 144
第5章 缺失值填充 145
5.1 缺失值填充算法概述 146
5.2 基于贝叶斯网络的串行缺失值填充算法 150
5.3 实验结果及分析 175
5.4 并行缺失值填充算法 182
5.5 基于众包的缺失值填充算法 196
本章参考文献 202
第6章 不一致数据检测与修复 205
6.1 不一致数据检测与修复概述 206
6.2 并行不一致数据检测与修复算法 211
6.3 基于众包的不一致数据检测与修复算法 225
6.4 扫描数据一次的大数据不一致检测算法 229
本章参考文献 244
第7章 多数据质量问题综合清洗与优化 249
7.1 数据质量维度的关联 250
7.2 基于任务合并的并行数据清洗优化 274
7.3 综合大数据清洗系统 293
本章参考文献 303
名词索引 307
展开
评论
展开
加入书架成功!若您下单的图书有多卷册,请在确认订单时标明您需要的是哪一册,谢谢!
继续借书
去结算
收藏图书成功!
我知道了(
3
)
发表书评
取消
发表
读者登录
温馨提示:请使用员工书屋的读者帐号和密码进行登录
登录
新手上路
快速入门
购物指南
常见问题
支付方式
支付方式
配送方式
快递送货
关于我们
关于我们
特色服务
在线办证