云书馆

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

Spark SQL是 Spark大数据框架的一部分，支持使用标准SQL查询和HiveQL来读写数据，可用于结构化数据处理，并可以执行类似SQL的Spark数据查询，有助于开发人员更快地创建和运行Spark程序。纪涵、靖晓文、赵政达著的这本《Spark SQL入门与实践指南》分为4篇，共9章，第一篇讲解了Spark SQL 发展历史和开发环境搭建。第二篇讲解了Spark SQL 实例，使得读者掌握Spark SQL的入门操作，了解Spark RDD、DataFrame和DataSet，并熟悉 DataFrame 各种操作。第三篇讲解了基于WiFi探针的商业大数据分析项目，实例中包含数据采集、预处理、存储、利用Spark SQL 挖掘数据，一步一步带领读者学习Spark SQL强大的数据挖掘功能。第四篇讲解了Spark SQL 优化的知识。本书适合Spark初学者、Spark数据分析人员以及Spark程序开发人员，也适合高校和培训学校相关专业的师生教学参考。

展开

精彩书评

展开

精彩书摘

展开

第一部分入门篇
第1章初识Spark SQL
1.1 Spark SQL的前世今生
1.2 Spark SQL能做什么
第2章 Spark安装、编程环境搭建以及打包提交
2.1 Spark的简易安装
2.2 准备编写Spark应用程序的IDEA环境
2.3 将编写好的Spark应用程序打包成jar提交到Spark上
第二部分基础篇
第3章 Spark上的RDD编程
3.1 RDD基础
3.1.1 创建RDD
3.1.2 RDD转化操作、行动操作
3.1.3 惰性求值
3.1.4 RDD缓存概述
3.1.5 RDD基本编程步骤
3.2 RDD简单实例—wordcount
3.3 创建RDD
3.3.1 程序内部数据作为数据源
3.3.2 外部数据源
3.4 RDD操作
3.4.1 转化操作
3.4.2 行动操作
3.4.3 惰性求值
3.5 向Spark传递函数
3.5.1 传入匿名函数
3.5.2 传入静态方法和传入方法的引用
3.5.3 闭包的理解
3.5.4 关于向Spark传递函数与闭包的总结
3.6 常见的转化操作和行动操作
3.6.1 基本RDD转化操作
3.6.2 基本RDD行动操作
3.6.3 键值对RDD
3.6.4 不同类型RDD之间的转换
3.7 深入理解RDD
3.8 RDD 缓存、持久化
3.8.1 RDD缓存
3.8.2 RDD持久化
3.8.3 持久化存储等级选取策略
3.9 RDD checkpoint容错机制
第4章 Spark SQL编程入门
4.1 Spark SQL概述
4.1.1 Spark SQL是什么
4.1.2 Spark SQL通过什么来实现
4.1.3 Spark SQL 处理数据的优势
4.1.4 Spark SQL数据核心抽象——DataFrame
4.2 Spark SQL编程入门示例
4.2.1 程序主入口：SparkSession
4.2.2 创建 DataFrame
4.2.3 DataFrame基本操作
4.2.4 执行SQL查询
4.2.5 全局临时表
4.2.6 Dataset
4.2.7 将RDDs转化为DataFrame
4.2.8 用户自定义函数
第5章 Spark SQL的DataFrame操作大全
5.1 由JSON文件生成所需的DataFrame对象
5.2 DataFrame上的行动操作
5.3 DataFrame上的转化操作
5.3.1 where条件相关
5.3.2 查询指定列
5.3.3 思维开拓：Column的巧妙应用
5.3.4 limit操作
5.3.5 排序操作：order by和sort
5.3.6 group by操作
5.3.7 distinct、dropDuplicates去重操作
5.3.8 聚合操作
5.3.9 union合并操作
5.3.10 join操作
5.3.11 获取指定字段统计信息
5.3.12 获取两个DataFrame中共有的记录
5.3.13 获取一个DataFrame中有另一个DataFrame中没有的记录
5.3.14 操作字段名
5.3.15 处理空值列
第6章 Spark SQL支持的多种数据源
6.1 概述
6.1.1 通用load/save 函数
6.1.2 手动指定选项
6.1.3 在文件上直接进行SQL查询
6.1.4 存储模式
6.1.5 持久化到表
6.1.6 bucket、排序、分区操作
6.2 典型结构化数据源
6.2.1 Parquet 文件
6.2.2 JSON 数据集
6.2.3 Hive表
6.2.4 其他数据库中的数据表
第三部分实践篇
第7章 Spark SQL 工程实战之基于WiFi探针的商业大数据分析技术
7.1 功能需求
7.1.1 数据收集
7.1.2 数据清洗
7.1.3 客流数据分析
7.1.4 数据导出
7.2 系统架构
7.3 功能设计
7.4 数据库结构
7.5 本章小结
第8章第一个Spark SQL应用程序
8.1 完全分布式环境搭建
8.1.1 Java 环境配置
8.1.2 Hadoop 安装配置
8.1.3 Spark安装配置
8.2 数据清洗
8.3 数据处理流程
8.4 Spark程序远程调试
8.4.1 导出jar包
8.4.2 IDEA配置
8.4.3 服务端配置
8.5 Spark的Web界面
8.6 本章小结
第四部分优化篇
第9章让Spark程序再快一点
9.1 Spark执行流程
9.2 Spark内存简介
9.3 Spark的一些概念
9.4 Spark编程四大守则
9.5 Spark调优七式
9.6 解决数据倾斜问题
9.7 Spark 执行引擎 Tungsten 简介
9.8 Spark SQL解析引擎Catalyst 简介
9.9 本章小结

展开