内容简介
全书分为三个部分:
?第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。
?第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,对于深度强化学习算法还给出了基于TensorFlow 2和PyTorch 1的对照实现。
?第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型,半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。
AI简介
这是一本专注于强化学习的教材,内容覆盖了强化学习的背景知识、主干理论与算法、其他强化学习模型等多个方面。全书分为三个部分,第1章从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。第2~15章基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。第16章介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型,半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。
在内容方面,Gym环境库使用指南主要介绍了如何使用Gym库进行强化学习实验。Gym库是OpenAI推出的强化学习实验环境库,提供了上百种环境,包括简单文本环境、经典控制环境、二维方块(Box2D)环境和Atari游戏环境等。这些环境不仅内置在Gym库中,还支持自定义环境的扩展。
强化学习主干理论与算法主要涵盖了强化学习的分类、学习路线、学习资源、环境库的使用、性能指标、无模型强化学习、基于价值的强化学习方法、基于策略梯度的强化学习算法、并行扩展性、深度强化学习、基于概率分布的算法、人工神经网络以及表格法等内容。
离散时间Markov决策过程定义,简称为DTMDP,是