《科学计算与企业级应用的并行优化》是“并行计算与性能优化”系列的第3本,此书的重点在于介绍如何利用目前主流的、基于C语言的各种特定硬件或平台的向量化扩展、并行化库来优化科学计算和企业级应用的代码性能。而本系列的《并行算法设计与代码优化》关注并行优化和并行计算相关的理论、算法设计及高层次的实践经验;本系列的《并行编程方法与优化实践》关注于C程序设计语言的向量化和并行化扩展及算法到硬件的映射,以及如何在不同的硬件平台上优化代码以获得更好的性能。这些内容被许多顶级开发人员视为“不传之秘”。
《科学计算与企业级应用的并行优化》作者是国内顶尖的并行计算专家,曾任英伟达并行计算工程师和百度在线高级研发工程师,在该领域的经验和修为极为深厚,他毫不吝啬地将自己多年的积累呈现在了这3本书中,得到了深度学习杰出科学家吴韧的高度评价和强烈推荐。
《科学计算与企业级应用的并行优化》共5章。第1章介绍了常见的并行编程基于的多核/众核向量处理器的架构,OpenCL程序到平台的映射与运行差异。第2章介绍了如何在X86、ARM和GPU上优化常见的线性代数运算,如计算稀疏矩阵向量乘法,求解下三角线性方程组,计算矩阵乘法等。第3章以如何求解热传递问题和三维Stencil问题为例介绍了如何在X86和GPU处理器上优化偏微分方程的求解。第4章介绍了如何在X86处理器和GPU上优化常见的分子动力学算法,如邻居搜索、范德华力计算、键长伸缩力计算和径向分布函数计算。第5章详细介绍了如何在X86、ARM和GPU上优化常见的机器学习算法(如k-means、KNN、二维卷积和四维卷积)性能,最后给出利用多GPU并行卷积神经网络的常见方法,及如何基于数据并行、使用多GPU来优化Caffe的性能。