本书系统讲述Apache Spark大数据计算平台的原理,以及如何将Apache Spark应用于大数据的实时流处理、批处理、图计算等各个场景。通过深入学习原理和对实践示例、案例的综合应用,使读者了解并掌握Apache Spark大数据计算平台的基本原理和技能,接近理论与实践的距离。
全书共分为13章,主要内容包括Spark架构原理与集群搭建、开发和部署Spark应用程序、Spark核心编程、Spark SQL、Spark SQL高级分析、Spark Streaming流处理、Spark结构化流、Spark结构化流高级处理、Spark图处理库Graph Frame、下一代大数据技术(Delta Lake数据湖、leeberg数据湖和Hudi数据湖)、Spark大数据处理综合案例。本书源码全部在Apache Spark 3.1.2上调试成功,所有示例和案例均基于Scala语言。
为降低读者学习大数据技术的门槛,本书除了提供丰富的上机实践操作和范例程序详解外,还为购买和使用本书的读者提供了搭建好的Hadoop、Hive数据仓库和Spark大数据开发及学习环境。读者既可参照本书的讲解自行搭建Hadoop和Spark环境,也可直接使用作者提供的开发和学习环境,快速开始大数据和Spark、数据湖的学习。
本书适合大数据学习爱好者、想要入门Apache Spark的读者作为入门和提高的技术参考书,也适合用作高等院校大数据专业相关的学生和老师的教材或教学参考书。