本书基于作者多年的研究成果,详细介绍了跨数据中心机器学习的训练系统设计和通信优化技术。本书面向多数据中心间的分布式机器学习系统,针对多数据中心间有限的传输带宽、动态异构资源,以及异构数据分布三重挑战,自底向上讨论梯度传输协议、流量传送调度、高效通信架构、压缩传输机制、同步优化算法、异构数据优化算法六个层次的优化技术,旨在提升分布式机器学习系统的训练效率和模型性能,突破跨数据中心机器学习的通信瓶颈和数据壁垒,实现多数据中心算力和数据资源的高效整合。本书可作为跨数据中心机器学习的参考资料,供人工智能及分布式计算领域的科研和工程人员阅读。