本书由世界著名大数据专家亲笔撰写,深入剖析Hadoop系统及其重要组件,不仅详细介绍Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用,包含大量真实案例和数据,可以帮助你从架构、开发、应用和运维等多方面全面地掌握Hadoop系统,成为名副其实的Hadoop专家。
全书共17章,主要内容包括:第1章从整体上介绍大数据的由来及Hadoop项目;第2章讲解Hadoop系统的核心概念、使用及其解决问题的方法和技巧;第3章讲解Hadoop系统的安装以及如何编写和执行MapReduce程序;第4章讲解Hadoop系统的底层细节,着重讲解HDFS;第5章~第7章深入分析MapReduce框架,讲述如何在MapReduce程序中实现各种数据密集型编程模式,不仅包括MapReduce框架的API,还介绍MapReduce框架的更复杂概念及其设计理念;第8章介绍Hadoop作业的测试方法;第9章讲解如何监控Hadoop集群;第10章~第12章分别介绍Hive、Pig和Crunch、HCatalog框架;第13章讲解Hadoop日志流处理技术及应用;第14章介绍HBase;第15章~第17章介绍数据科学基本概念及应用、云计算实例、分布式下载服务实例等。