书名:强化学习的数学原理
作者:赵世钰

为什么要学习强化学习?
说起强化学习,我们对它的了解还停留在用强化学习控制倒立摆,或者训练智能体玩Atari游戏这样的认知上面。然而,当前强化学习与AI大模型的深度融合正在重塑大模型的推理格局,这样的技术突破已为快速提高大模型能力注入新动能。当初Deepseek R1的论文公开,在AI行业引起很大轰动,因为它不仅公开的描述了如何使用强化学习来训练大语言模型,还介绍了一种全新方式:不采用监督微调训练,直接进行强化学习。DeepSeek-R1-Zero 的出现开辟了一条新的训练模型的方法,因为它让模型可以纯粹通过练习和反馈,自己学会复杂的推理能力,而不需要完全依赖人类事先准备好的“标准答案”。这就好比不让模型看例题和标准答案,直接做题,从实践中发现更优解。综上,强化学习已经成为大模型发展和优化链路中不可或缺的一环,学习强化学习,是非常核心和非常必要的。
如何学习强化学习?
近些年强化学习在与深度学习结合之后,它的工程性和实验性越来越强,但是理解强化学习的基础原理始终是入门的关键一步。强化学习具有两个特点:数学性和系统性,因此数学原理不可回避,不仅如此,这本书的作者基于对系统性的理解,也建议大家放弃“速成”想法,回到脚踏实地一步一步的学习上来。
用什么教材学习强化学习?
什么教材适合这样的一步一步的学习呢?就用这本书。这本教材在github上已经有7000+个星星,足见它受认可的程度。这本书的特色至少有:从0开始介绍,不需要读者有强化学习的背景知识;从数学角度解读,帮助读者透彻理解;内在逻辑清晰,帮助读者建立宏观理解。这本书有几页非常诚恳的序言,作者描述了他花时间花精力动脑筋,去一点一滴把这本书的内容做好的过程。我看了也是很有感触,我自己偶尔看了个资料写点总结,都觉得是在“肝”,更何况这么硬核的书,还要写成0基础,娓娓道来,真的是硬“肝”,属于一个人把硬骨头啃下来造福其他人的举动。最近一些影响力大的IP,比如电影和游戏,大多都是制作精良,细节突出,才会获得那么多人的认可。如果做类比的话,那么这本书也是,在讲述数学内容的时候,作者生怕读者不懂,那些非常小心翼翼讲数学细节的文字读来真的很贴心。当然,因为讲述的是强化学习的数学原理,读者还是需要有高等数学、线性代数、概率统计方面的基础知识。
最后,总结一下,这本书帮助读者基于数学性和系统性,完成从零开始到透彻理解强化学习,知其然并知其所以然。因为只有这一本书,我们也要跟着学习,就不再抽奖赠送了,大家觉得好,可以直接点击链接购买,谢谢~