贝尔曼最优性方程:在动态规划与马尔可夫决策过程(MDP)中,用来刻画“最优价值函数”的递推关系。它表达了:某状态(或状态-动作)的最优价值等于在所有可选动作中,立即回报与未来最优价值(折扣后期望)的最大值之和。(常见形式有状态价值 (V^) 与动作价值 (Q^) 两类;在强化学习中非常核心。)
/ˈbɛlmən ˌɑːptəˈmælɪti ɪˈkweɪʒən/
The Bellman optimality equation defines the best possible value function.
贝尔曼最优性方程定义了可能达到的最优价值函数。
In a discounted MDP, we can compute (V^) by applying the Bellman optimality equation repeatedly until it converges.
在折扣型的马尔可夫决策过程中,我们可以反复应用贝尔曼最优性方程来计算 (V^),直到它收敛为止。
“Bellman”来自美国数学家 Richard Bellman(理查德·贝尔曼),他在20世纪中期系统发展了动态规划(Dynamic Programming);“optimality equation”直译为“最优性方程”,指用递推(recursion)方式表达最优决策结构的方程。该术语因此可理解为“贝尔曼提出/刻画的最优递推方程”。