1.项目经典:深度剖析三大企业级项目实战案例——电商推荐系统、汽车销售数据分析系统、微博数据分析系统,帮助读者进一步提高自己;
2.详细介绍HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大数据工具。
进入21世纪,我们迎来了数据爆炸式增长的时代,人们计量数据的单位由GB进入到了TB、PB、EB、ZB……举个简单的例子,十年前或者五年前我们购买移动硬盘,它的存储容量为80GB至500GB;现在我们购买移动硬盘,它的存储容量为1TB至2TB。因此,在数据爆炸式增长的同时,我们也迎来了大数据的时代。所谓大数据,简单来讲就是数据体量巨大、数据种类繁多、数据价值密度低、数据处理速度快,大数据是需要新处理模式才能具有更强大决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
在过去很多年,各个企业、单位都积累了大量丰富的数据,并购买服务器来存储这些数据。数据是积累下来了,可是对于持续不断增长的数据,除了需要不断购买服务器,花巨大的硬件成本来存储,我们又能从这些持续不断积累下来的数据中得到什么?如何去挖掘和利用这些数据?这些数据都是历史数据,也叫离线数据,于是一个全新的技术Hive离线计算进入了大众的视野。它提出海量数据可以继续沿用传统的数据分析方法SQL语句来处理,开发人员不需要学习新的脚本语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据。区别是,此时此刻SQL语句不再运行在传统的数据库或者数据仓库中,而是运行在大数据分布式并行计算处理平台上。该数据平台为我们提供了一个工具,那就是Hive离线计算处理工具,所用到的语言称之为HiveQL查询语言,其语法结构与传统SQL语言几乎是一模一样的,这就是本书将要介绍的Hive大数据离线计算的相关技术。它能解决不断增长的海量离线数据处理计算问题,帮助企业从数据中获取经验,并得到巨大的潜在商业价值。
本书将带您认识Hive大数据离线计算的基本概念。通过学习本书,您将对Hive大数据离线技术有一个深刻的认识,并且掌握大数据技术中主流的离线计算工具Hive,再通过大数据的离线计算项目案例,让您从Hive大数据离线计算技术的实战应用中得到训练。这也许是您学习大数据离线计算技术的最佳入门途径之一。
展开