ChatGPT原理与架构:大模型的预训练、迁移和中间件编程

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程

评分

★★★★★

ISBN

9787111739562

出版社

机械工业出版社 2023-12-01出版

作者

程戈

分类

编程设计

内容简介
内容简介 这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。 第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识; 第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进; 6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现; 第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程; 第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大语言模型时代具身智能的可行路线。
AI简介
这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。 这本书从大模型的发展历程开始,详细讲解了ChatGPT等大模型的技术演化和技术栈等基础知识。接着,书中深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进。 书中从底层技术实现的角度讲解了大模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现。例如,书中详细介绍了人类反馈强化学习的概念,解释了如何通过人类反馈来优化模型性能。 在介绍大模型在垂直领域的低算力迁移方法时,书中详细讲解了Meta LLaMA在司法、医疗等领域的迁移案例。此外,书中还讲解了多模态融合中间件的概念和作用,解释了如何利用大语言模型来整合企业工作流,提高工作效率。
阅读/下载地址