搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
出版时间 :
无库存
云数据平台:设计、实现与管理
0.00     定价 ¥ 139.00
泸西县图书馆
此书还可采购1本,持证读者免费借回家
  • ISBN:
    9787111712046
  • 作      者:
    [加]丹尼尔·兹布里夫斯基(Danil Zburivsky),等
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2022-09-01
收藏
荐购
目录

前言<br>致谢<br>引言<br>第1章 数据平台介绍1<br>1.1 从数据仓库向数据平台转变背后的趋势2<br>1.2 数据仓库与数据的多样性、规模和速度3<br>1.2.1 多样性3<br>1.2.2 规模4<br>1.2.3 速度5<br>1.2.4 所有的V同时出现5<br>1.3 数据湖6<br>1.4 云来了7<br>1.5 云、数据湖、数据仓库:云数据平台的出现9<br>1.6 云数据平台的构建块9<br>1.6.1 摄取层10<br>1.6.2 存储层10<br>1.6.3 处理层11<br>1.6.4 服务层13<br>1.7 云数据平台如何处理这三个V14<br>1.7.1 多样性14<br>1.7.2 规模14<br>1.7.3 速度15<br>1.7.4 另外两个V15<br>1.8 常见用例16<br>第2章 为什么是数据平台而不仅仅是数据仓库18<br>2.1 云数据平台和云数据仓库的实践19<br>2.1.1 近距离观察数据源20<br>2.1.2 云数据仓库—纯架构示例21<br>2.1.3 云数据平台架构示例22<br>2.2 摄取数据24<br>2.2.1 将数据直接摄取到Azure Synapse24<br>2.2.2 将数据摄取到Azure数据平台25<br>2.2.3 管理上游数据源的变化26<br>2.3 处理数据28<br>2.3.1 处理数据仓库中的数据29<br>2.3.2 处理数据平台上的数据31<br>2.4 访问数据32<br>2.5 云成本方面的考虑34<br>2.6 练习答案36<br>第3章 不断壮大并利用三巨头:Amazon、Microsoft Azure和Google37<br>3.1 云数据平台分层架构38<br>3.1.1 数据摄取层40<br>3.1.2 快存储和慢存储43<br>3.1.3 处理层45<br>3.1.4 技术元数据层47<br>3.1.5 服务层和数据消费者48<br>3.1.6 编排层和ETL覆盖层52<br>3.2 数据平台架构中层的重要性57<br>3.3 将云数据平台层映射到特定工具59<br>3.3.1 AWS61<br>3.3.2 Google Cloud65<br>3.3.3 Azure70<br>3.4 开源和商业替代方案73<br>3.4.1 批量数据摄取74<br>3.4.2 流数据摄取和实时分析74<br>3.4.3 编排层75<br>3.5 练习答案77<br>第4章 将数据导入平台78<br>4.1 数据库、文件、API和流79<br>4.1.1 关系型数据库80<br>4.1.2 文件81<br>4.1.3 通过API的SaaS数据81<br>4.1.4 流82<br>4.2 从关系型数据库中摄取数据83<br>4.2.1 使用SQL接口从RDBMS摄取数据83<br>4.2.2 全表摄取85<br>4.2.3 增量表摄取90<br>4.2.4 变更数据捕获94<br>4.2.5 CDC供应商概述98<br>4.2.6 数据类型转换100<br>4.2.7 从NoSQL数据库摄取数据102<br>4.2.8 为RDBMS或NoSQL摄取管道捕获重要的元数据104<br>4.3 从文件中摄取数据107<br>4.3.1 跟踪已摄取的文件109<br>4.3.2 捕获文件摄取元数据112<br>4.4 从流中摄取数据113<br>4.4.1 批量摄取和流摄取的区别117<br>4.4.2 捕获流管道元数据118<br>4.5 从SaaS应用程序摄取数据119<br>4.5.1 没有标准的API设计方法121<br>4.5.2 没有标准的方法来处理全数据导出和增量数据导出121<br>4.5.3 结果数据通常是高度嵌套的JSON122<br>4.6 将数据摄取到云中需要考虑的网络和安全问题122<br>4.7 练习答案125<br>第5章 组织和处理数据126<br>5.1 在数据平台中作为单独的层进行处理127<br>5.2 数据处理阶段129<br>5.3 组织你的云存储130<br>5.4 通用数据处理步骤137<br>5.4.1 文件格式转换137<br>5.4.2 重复数据清除142<br>5.4.3 数据质量检查147<br>5.5 可配置的管道149<br>5.6 练习答案152<br>第6章 实时数据处理和分析153<br>6.1 实时摄取与实时处理154<br>6.2 实时数据处理用例156<br>6.2.1 零售用例:实时摄取156<br>6.2.2 线上游戏用例:实时摄取和实时处理158<br>6.2.3 实时摄取与实时处理的总结160<br>6.3 什么时候应该使用实时摄取或实时处理161<br>6.4 为实时使用组织数据163<br>6.4.1 对快存储的解剖163<br>6.4.2 快存储是如何扩展的166<br>6.4.3 在实时存储中组织数据168<br>6.5 通用的实时数据转换173<br>6.5.1 实时系统中数据重复的原因173<br>6.5.2 实时系统中的数据重复清除176<br>6.5.3 在实时管道中转换消息格式181<br>6.5.4 实时数据质量检查182<br>6.5.5 将批量数据与实时数据相结合183<br>6.6 用于实时数据处理的云服务184<br>6.6.1 AWS实时处理服务185<br>6.6.2 Google Cloud实时处理服务186<br>6.6.3 Azure实时处理服务188<br>6.7 练习答案190<br>第7章 元数据层架构191<br>7.1 元数据是什么192<br>7.1.1 业务元数据192<br>7.1.2 数据平台内部元数据或管道元数据193<br>7.2 利用管道元数据193<br>7.3 元数据模型197<br>7.4 元数据层实现选项207<br>7.4.1 元数据层作为配置文件的集合207<br>7.4.2 元数据数据库210<br>7.4.3 元数据API212<br>7.5 现有的解决方案概述214<br>7.5.1 云元数据服务214<br>7.5.2 开源元数据层实现216<br>7.6 练习答案220<br>第8章 模式管理221<br>8.1 为什么要进行模式管理222<br>8.1.1 传统数据仓库架构中的模式变化222<br>8.1.2 读时模式方法223<br>8.2 模式管理方法225<br>8.2.1 模式即契约226<br>8.2.2 数据平台中的模式管理228<br>8.2.3 监控模式变化234<br>8.3 模式注册表实现235<br>8.3.1 Apache Avro模式236<br>8.3.2 现有的模式注册表实现237<br>8.3.3 模式注册表作为元数据层的一部分238<br>8.4 模式演化场景240<br>8.4.1 模式兼容性规则242<br>8.4.2 模式演化和数据转换管道244<br>8.5 模式演化和数据仓库247<br>8.6 练习答案252<br>第9章 数据访问和安全253<br>9.1 不同类型的数据消费者254<br>9.2 云数据仓库255<br>9.2.1 AWS Redshift256<br>9.2.2 Azure Synapse259<br>9.2.3 Go

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录

点击获取验证码
登录