本书是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、Spark Streaming等大量内部模块和周边模块的原理与使用。除此之外,还从管理和性能优化的角度对Spark进行了深入探索。
本书分为四大部分,共计20章:
基础篇(第1~10章),详细说明什么是Spark、Spark的重要扩展、Spark的部署和运行、Spark程序开发、Spark编程模型,以及Spark作业执行解析。通过阅读本篇,读者可以构建更加清晰的Spark基础知识体系,进一步加深对大数据核心技术的理解。
实战篇(第11~14章),本书重点篇章,重点讲解Spark SQL与DataFrame、Spark Streaming、Spark MLlib与Spark ML、GraphX,以及基于以上内容在大数据分析、系统资源统计、LR模型、二级邻居关系图获取方面的实例。通过体察本篇的内容,读者可以掌握如何在实践中应用Spark,优化自身的应用场景,完善相应的解决方案。
高级篇(第15~18章),深入讲解Spark调度管理、存储管理、监控管理、性能调优。本篇的内容,为合理利用资源、有效进行资源监控、保障运行环境的稳定、平台性能调优、推进企业级的大数据平台管理提供了参考依据。
扩展篇(第19~20章),介绍Jobserver和Tachyon在Spark上的使用情况。通过本篇,延续基础、实战、高级等环节,并进一步扩展,更好地管理好Job、更有效地利用内存,为读者拓展出更深入、更全面的思路。
为了让读者从更高的角度认识与应用大数据,从《道德经》和《庄子》各精选10句,引导大家以老庄哲学的思考方式来认识大数据的内涵。本书不只是一本技术书,更是一本大数据哲学的思考之作。