众力资讯网

[LG]《Average-reward reinforcement learni

[LG]《Average-reward reinforcement learning in semi-Markov decision processes via relative value iteration》H Yu, Y Wan, R S. Sutton [University of Alberta] (2025) 本文针对平均回报强化学习中的半马尔可夫决策过程(SMDPs),提出并分析了一种广义的相对值迭代(RVI)Q学习算法。该算法基于作者先前在异步随机逼近(SA)理论中取得的最新进展,特别是利用Borkar–Meyn框架下的稳定性与收敛性结果,实现了对于有限状态空间、弱连通SMDPs的几乎必然收敛性保证。主要贡献包括:1. 算法框架拓展 引入了一组新的严格单调性条件(SISTr),极大地拓宽了RVI Q学习中估计最优回报率函数的形式,允许函数具备更丰富的非线性结构,而不再局限于先前文献中的仿射或简单最大/最小形式。2. 收敛性理论保障 证明该广义算法在弱连通SMDPs中,迭代的Q值估计几乎必然收敛到满足平均回报最优性方程(AOE)的紧致连通解集。通过动态系统中阴影轨迹理论,进一步在附加步长和异步更新条件下保证迭代序列收敛到一个唯一的样本路径相关解。3. 异步随机逼近技术应用 细致验证了算法满足Borkar–Meyn稳定性条件,利用伴随ODE方法和非自治ODE理论,从根本上解决了以往RVI Q学习算法中存在的稳定性证明空白和错误,提升了理论基础的严谨性和适用范围。4. 模型自由且实用 算法不依赖于SMDP模型的具体参数,适用于实际中基于数据的在线学习,且通过估计状态-动作对的期望停留时间实现了对半马尔可夫过程特性的有效利用。5. 未来方向 建议将该理论框架推广至分布式计算环境,处理通信延迟等复杂情况,提升算法在大规模、多智能体系统中的应用潜力。总结而言,本文不仅丰富了平均回报强化学习的理论工具箱,也为设计更灵活、鲁棒的RVI Q学习算法奠定了坚实的数学基础。其采用的系统动力学视角和严格的单调性假设,可能启发后续针对更广泛决策过程的强化学习算法设计。全文及详细证明见:arxiv.org/abs/2512.06218