AI简介
这是一本全面介绍大语言模型的基本概念、算法、研究前沿以及应用的著作。本书首先介绍了人工智能领域的进展和趋势,然后深入探讨了语言模型的基本概念和架构,包括Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容。
在探讨Transformer时,本书详细解释了Transformer编码器模块、编码器-解码器架构、位置嵌入、更长的上下文、外部记忆、更快的Transformer、推理优化等内容。此外,本书还详细介绍了预训练目标和解码策略,包括模型架构、预训练目标、具有代表性的语言模型、解码策略等。
在探讨上下文学习时,本书阐述了上下文学习的方法与应用,包括示范样本选择、样本排序、指令生成、思维链、递归提示、为什么ICL有效、评估等内容。此外,本书还介绍了轻量级微调,包括基于添加的方法、基于规范的方法、基于重新参数化的方法、混合方法等。
在探讨稀疏专家模型时,本书详细解释了稀疏专家模型的概念和特点,包括为什么采用稀疏专家模型、路由算法、其他改进措施等。此外,本书还介绍了检索增强型