强化学习：原理与Python实战

评分

★★★★★

ISBN

9787111728917

出版社

机械工业出版社 2023-07-21出版

作者

肖智清

分类

编程设计

内容简介

全书分为三个部分： ?第1章：从零开始介绍强化学习的背景知识，介绍环境库Gym的使用。 ?第2～15章：基于折扣奖励离散时间Markov决策过程模型，介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论，进而在理论的基础上讲解算法，并为算法提供配套代码实现。基础理论的讲解突出主干部分，算法讲解全面覆盖主流的强化学习算法，包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应，对于深度强化学习算法还给出了基于TensorFlow 2和PyTorch 1的对照实现。 ?第16章：介绍其他强化学习模型，包括平均奖励模型、连续时间模型、非齐次模型，半Markov模型、部分可观测模型等，以便更好了解强化学习研究的全貌。

AI简介

这是一本专注于强化学习的教材，内容覆盖了强化学习的背景知识、主干理论与算法、其他强化学习模型等多个方面。全书分为三个部分，第1章从零开始介绍强化学习的背景知识，介绍环境库Gym的使用。第2～15章基于折扣奖励离散时间Markov决策过程模型，介绍强化学习的主干理论和常见算法。第16章介绍其他强化学习模型，包括平均奖励模型、连续时间模型、非齐次模型，半Markov模型、部分可观测模型等，以便更好了解强化学习研究的全貌。在内容方面，Gym环境库使用指南主要介绍了如何使用Gym库进行强化学习实验。Gym库是OpenAI推出的强化学习实验环境库，提供了上百种环境，包括简单文本环境、经典控制环境、二维方块(Box2D)环境和Atari游戏环境等。这些环境不仅内置在Gym库中，还支持自定义环境的扩展。强化学习主干理论与算法主要涵盖了强化学习的分类、学习路线、学习资源、环境库的使用、性能指标、无模型强化学习、基于价值的强化学习方法、基于策略梯度的强化学习算法、并行扩展性、深度强化学习、基于概率分布的算法、人工神经网络以及表格法等内容。离散时间Markov决策过程定义，简称为DTMDP，是

推荐影视

阅读/下载地址

微信读书