- 统计策略搜索强化学习方法及应用
- 赵婷婷
- 940字
- 2021-10-29 12:05:23
1.4 本书贡献
本书致力于从机器学习及统计学的角度介绍强化学习领域中策略搜索算法的基本概念和不同场景下的实用算法。本书内容有助于发展统计强化学习策略搜索算法,从而使智能系统能够自主地发现未知环境中的最优行为。在本节中,我们将概述本书的主要贡献。
策略梯度是一种有效的无模型强化学习方法,但它存在梯度估计不稳定性。在这个场景中,一个常见的挑战是如何降低可靠策略更新的策略梯度估计的方差。本书首先在无模型框架下,对策略梯度法的稳定性进行了分析和改进。
在较弱的假设条件下,我们首次证明基于参数探索的策略梯度算法(PGPE 算法)中的梯度估计方差比传统策略梯度算法(REINFORCE 算法)小。然后,我们对 PGPE 算法提出了最优基线,从而进一步降低方差。我们也从理论层面上展示了在梯度估计的方差方面,最优基线的 PGPE 算法比最优基线的 REINFORCE算法更可取。
PGPE 算法和最优基线的结合在一定程度上稳定了策略更新的效果,但都没有在目标中直接考虑到梯度估计的方差。因此,我们通过直接采用策略梯度的方差作为正则化项,探索一种更明确的方法来进一步减小方差。我们通过将策略梯度的方差直接纳入目标函数中,为 PGPE 算法设计了一个新的框架。提出的方差正则化框架可以自然地提高期望累积奖励,同时降低梯度估计的方差。
将策略搜索应用于关于智能系统的实际问题时,减少训练样本的数量是必要的,因为采样成本往往比计算成本高得多。因此,我们提出了一种新型有效样本再利用的策略梯度方法,该方法系统地将可靠的策略梯度 PGPE 算法、重要采样和最优常数基线相结合。我们从理论上展示了在合理条件下,引入最优常数基线可以缓解重要权重方差较大的问题。
最优基线可以使梯度估计的方差最小化,并保持其无偏性,这可以提供更稳定的梯度估计。然而,最优基线无法避免在不对称奖励分配问题中产生误导性奖励。对此,我们提出了基于 PGPE 算法的对称采样技术,它使用了两个假设左右对称的样本来规避使用常规基线方法收集的非对称奖励分配问题中的误导性奖励。通过数值示例,说明对称采样技术不仅在复杂的搜索空间中对所需样本更高效,而且在更不稳定的搜索空间中显示出了更强的鲁棒性。
最终,为了探索本书所述的策略搜索算法在智能控制领域的实用性,我们将正则化策略搜索算法应用到数字艺术渲染领域,将样本重复使用的策略搜索算法应用到人形机器人 CB-i中。