🐬
足式深度强化学习笔记

用户921

5月9日修改

前言

先打个广告，欢迎大家购买达妙电机，可以收获喵老板亲自发的贺电，小电机、大电机和大大电机都有，主营是适用于人形、机械臂、四足等机器人的关节电机​

深度学习与计算机视觉笔记仓库如下，约有40万字内容，主体参考CS231、EECS498等计算机视觉优质课程，欢迎Star​

https://github.com/Michael-Jetson/ML_DL_CV_with_pytorch

规划决策与控制方面的笔记，涉及自动驾驶车辆、无人机和足式机器人等​

https://github.com/Michael-Jetson/Planning_Decision_and_Control_Note

2026.01目录更新

把机器人与RL相关的内容进行了整理，做成了一个知识库，并且将足式机器人传统运动控制、RL运动控制、Isaac系列实战等内容进行单独整理，知识库首页为​

首页

RL基础

RL大家不会陌生，即使对RL理论并不了解，但是大家仍然听说过深蓝机器人打败国际象棋大师、柯洁被围棋AI打败等新闻，对于这种决策类游戏，如果想在其中实现大师级甚至超越大师级的表现就需要使用强化学习算法，如果拓宽到决策类任务，也需要强化学习方法而不是完全的有监督、无监督学习​

当然，随着强化学习算法的发展和计算机算力的提高，现在的强化学习已经不局限于决策类游戏了，开始应用在真实机器人的运动控制上，如训练人形机器人学会走路、训练机械臂学会抓取等等，甚至应用在大模型上训练其学会与人类更好地对话​

实际上强化学习与标准机器学习（或者说是监督学习、深度学习）是两种不同的范式，机器学习强调的是监督，也就是学会如何根据输入预测输出，学习的是这个映射函数，并且通常有两大假设：数据是独立同分布的，也就是产生不同数据的真实函数是同一个，并且需要知道输出的真实标签（哪怕这个标签是人为给出的）​

但是强化学习是不一样的，其中的数据认为是可以相互影响的，并且是无法知道标准答案的，只知道是否成功或失败，因为行为通常是一系列的，我们无法确定其中的哪一个行为会造成什么结果，一般情况下只能知道不同动作带来的奖励，也就是是通过与环境进行交互来进行试错学习，或者说这是一个序贯决策（Sequential Decision），也就是智能体序贯地做出一个个决策，并且持续接受新的观测，直到任务结束​

基础概念

奖励

是一个反馈信号，是一个标量

•
反映智能体（Agent）在时间步 
 工作得如何​

•
智能体的工作就是最大化累计奖励​
◦
所有问题的目标都可以被描述成最大化期望的累积奖励。​
◦
累计的意思就是可以放弃当前的一些奖励来换取最终的奖励，如果只在某一时刻奖励高但是其他时刻奖励都低，那么策略也是不好的​

•
强化学习主要基于奖励假设（Reward Hypothesis），在绝大多数强化学习应用中，奖励函数 
 确实是人为定义的。它是任务设计者与智能体沟通的唯一渠道，代表了我们希望智能体完成的“目标”或者说人为期望的愿望，而价值则是环境基于这个目标，在策略给定的情况下计算出的一种平均长期回报，一般使用数学期望表示​

•
奖励按照稀疏程度可以分为稀疏奖励和稠密奖励​
◦
稀疏奖励：只有少数关键时刻有奖励，比如说棋类游戏中可能只有赢的时候才有奖励，优点是目标对齐清晰，但是探索难和学习慢​
◦
稠密奖励：过程中的每一步都有指导信号，优点是学习快，但是缺点是可能出现钻奖励漏洞的投机行为（这种行为可能在真实世界中是不可行的）​

序列决策、历史与状态

智能体的行为可能是一个很长的动作序列，并且要选择一定的动作序列以最大化未来的总体奖励，其中大多数时候奖励是延迟的，所以需要学会策略，宁愿牺牲即时（短期）奖励以获取更多的长期奖励​

而历史是观测、行动和奖励的序列，或者说一段时间的交互中所有的可观测信息，定义为：​

因为智能体的决策是与历史相关的，也就是说根据这个历史可以决定接下来会发生什么，智能体根据历史选择行动，但是在强化学习中一般不使用历史的概念，而是使用状态​

状态是一种用于确定接下来会发生的事情（行动、观察、奖励）的信息，是关于历史的函数，可以理解为状态是对世界的一个简洁但是完整的物理描述  ​

通过这个函数来概括历史的信息（当然也会概括了观测的东西），也就是智能体只需要根据状态进行决策即可，实际上状态这个概念在强化学习中包含了所有的有用信息，不论是对环境的观测还是对智能体自身状态的记忆​

此外就是环境状态 
 的概念，其是环境的内部状态，用来确定下一个观测/奖励​

•
环境状态通常对智能体是不可见的，就比如说游戏底层代码对玩游戏的人是不可见的一样​

•
即使 
 可见，大都包含大量不相关的信息。​