Bellman Optimality Equation

定义（Definition）

贝尔曼最优性方程：在动态规划与马尔可夫决策过程（MDP）中，用来刻画“最优价值函数”的递推关系。它表达了：某状态（或状态-动作）的最优价值等于在所有可选动作中，立即回报与未来最优价值（折扣后期望）的最大值之和。（常见形式有状态价值 (V^) 与动作价值 (Q^) 两类；在强化学习中非常核心。）

发音（IPA）

/ˈbɛlmən ˌɑːptəˈmælɪti ɪˈkweɪʒən/

例句（Examples）

The Bellman optimality equation defines the best possible value function.
贝尔曼最优性方程定义了可能达到的最优价值函数。

In a discounted MDP, we can compute (V^) by applying the Bellman optimality equation repeatedly until it converges.
在折扣型的马尔可夫决策过程中，我们可以反复应用贝尔曼最优性方程来计算 (V^)，直到它收敛为止。

词源（Etymology）

“Bellman”来自美国数学家 Richard Bellman（理查德·贝尔曼），他在20世纪中期系统发展了动态规划（Dynamic Programming）；“optimality equation”直译为“最优性方程”，指用递推（recursion）方式表达最优决策结构的方程。该术语因此可理解为“贝尔曼提出/刻画的最优递推方程”。

文学/著作中的出现（Literary Works）

Richard Bellman, Dynamic Programming（1957）
Martin L. Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming（1994）
Dimitri P. Bertsekas, Dynamic Programming and Optimal Control（多版）
Richard S. Sutton & Andrew G. Barto, Reinforcement Learning: An Introduction（多版）

Bellman Optimality Equation

定义（Definition）

发音（IPA）

例句（Examples）

词源（Etymology）

相关词（Related Words）

文学/著作中的出现（Literary Works）