内容简介
本书将从强化学习最基本的概念开始介绍,将介绍基础的分析工具包括贝尔曼公式和贝尔曼最优公式,之后会推广到基于模型的和无模型的强化学习算法,最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现,因为目前已经有很多这方面的书籍,本书将不再重复造轮子。
本书面向对强化学习感兴趣的本科生、研究生、研究人员和企业研究所从业者。
它不需要读者有任何关于强化学习的背景,因为它会从最基本的概念开始介绍。如果读者已经有一些 强化学习的背景,这本书也可以帮助他们更深入地理解一些问题或者带来新的视角。
本书要求读者具备一定的概率论和线性代数知识。本书的附录中包含了一些必需的数学基础知识。
前言/序言
本书旨在成为一本数学但是友好的教材,能帮助读者“从零开始”实现对强化学习原理的“透彻理解”。本书的特点如下所述。
. 第一,从数学的角度讲故事,让读者不仅了解算法的流程,更能理解为什么一个算法最初设计成这个样子、为什么它能有效地工作等基本问题。
. 第二,数学的深度被控制在恰当的水平,数学内容也以精心设计的方式呈现,从而确保本书的易读性。读者可以根据自己的兴趣选择性地阅读灰色方框中的数学材料。
. 第三,提供了大量例子,能够帮助读者更好地理解概念和算法。特别是本书广泛使用了网格世界的例子,这个例子非常直观,对理解概念和算法非常有帮助。
. 第四,在介绍算法时尽可能将其核心思想与一些不太重要但是可能让算法看起来很复杂的东西分离开来。通过这种方式,读者可以更好地把握算法的核心思想。
. 第五,本书采用了新的内容组织架构,脉络清晰,易于建立宏观理解,内容层层递进,每一章都依赖于前一章且为后续章节奠定基础。
本书适合对强化学习感兴趣的高年级本科生、研究生、科研人员和工程技术人员阅读。由于本书会从最基本的概念开始介绍,因此不要求读者有任何强化学习的背景。当然,如果读者已经有一些强化学习的背景,我相信本书可以帮助大家更深入地理解一些问题或者提供不同的视角。此外,本书要求读者具备一些概率论和线性代数的知识,这些知识在本书附录中已经给出。
自 2019年以来,我一直在教授研究生的强化学习课程,我要感谢课程中的学生对我的教学提出的反馈建议。自 2022年 8月把这本书的草稿在线发布在 GitHub,到目前为止我收到了许多读者的宝贵反馈,在此对这些读者表示衷心感谢。此外,我还要感谢我的团队成员吕嘉玲在编辑书稿和课程视频方面所做的大量琐碎但是重要的工作;感谢助教李佳楠和米轶泽在我的教学中的勤恳工作;感谢我的博士生郑灿伦在设计书
中图片方面的帮助,以及我的家人的大力支持。
最后,我要感谢清华大学出版社的郭赛编辑和施普林格自然出版社的常兰兰博士,他们对于书稿的顺利出版给予了大力支持。我真诚地希望这本书能够帮助读者顺利进入强化学习这一激动人心的领域。
赵世钰