内容简介
大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。 全书总计13章。第1章讲解AI与大模型时代对基础架构的需求;第2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练;第3章剖析GPU的硬件架构,涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU;第4章讲解GPU服务器的设计与实现;第5章讲解机器学习所依托的I/O框架体系;第6章讲解GPU集群的网络设计与实现;第7章讲解GPU板卡算力调度技术;第8章讲解GPU虚拟化调度方案;第9章讲解GPU集群的网络虚拟化设计与实现;第10章讲解GPU集群的存储设计与实现;第11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台;第12章讲解基于云平台的GPU集群的管理与运营,涉及云运维平台、云运营平台和云审计平台;第13章基于一个服务机器学习的GPU计算平台落地案例,展示如何针对机器学习应用进行需求分析、设计与实现。
AI简介
这是一本全面解析大模型时代对基础架构需求的著作。本书深入讲解了如何为大模型构建基础架构,并基于TOGAF方法论,剖析业界知名案例的设计方案。全书总计13章,涵盖了从AI与大模型技术兴起,到机器学习算法的数学模型,再到GPU的硬件架构与服务器设计,以及GPU集群的网络设计与实现等多个方面。
书中详细探究了一元线性回归算法,揭示了机器学习算法的核心运算特征,并探讨了实现机器学习算法的硬件需求,包括CPU、GPU和TPU等。同时,本书还分析了机器学习算法对计算机硬件的特殊需求,包括计算能力、存储能力和数据通信能力的需求。
在GPU的硬件架构与服务器设计方面,本书详细介绍了Nvidia DGX的设计与实现,展示了如何通过精心设计和优化,实现强大的计算能力,为机器学习应用提供了强大的支持。此外,本书还探讨了GPU集群的网络虚拟化需求与设计,包括GPU集群内部的网络设计,GPU集群与外部网络的连接,以及GPU集群内部的网络虚拟化等方面。
在并行运算硬件的优化设计方面,本书讲解了如何通过软件程序有效地调用并行运算硬件,如GPU和TPU等,来提升机器学习算法的运行效率。同时,本书还介绍了分布式计