A2C
Definition / 释义
A2C 是 Advantage Actor-Critic 的缩写,指一种强化学习算法:用“演员(Actor)”产生动作策略,用“评论家(Critic)”估计价值,并利用“优势函数(Advantage)”来更稳定、低方差地更新策略。(在不同领域里也可能有其他含义,但最常见于强化学习。)
Pronunciation / 发音
/ˌeɪ tuː ˈsiː/
Examples / 例句
I trained an agent with A2C on a simple grid world.
我用 A2C 在一个简单的网格世界里训练了一个智能体。
Compared with basic policy gradients, A2C often learns faster because the critic provides a value-based baseline.
与基础的策略梯度方法相比,A2C 往往学得更快,因为评论家提供了基于价值的基线来降低更新的方差。
Etymology / 词源
A2C 来自算法名称 Advantage Actor-Critic 的首字母缩写:
- Actor-Critic:一类“策略(Actor)+价值评估(Critic)”的强化学习框架
- Advantage:用 A(s,a)=Q(s,a)-V(s) 的“优势”来衡量动作相对平均水平的好坏,从而让训练更稳定
Related Words / 相关词
Notable Works / 文学与著作举例
- Reinforcement Learning: An Introduction(Sutton & Barto)——讲解 Actor-Critic、优势函数等核心概念,为理解 A2C 提供基础框架
- Asynchronous Methods for Deep Reinforcement Learning(Mnih 等)——提出 A3C;A2C 常被视为其同步版本/相关变体,在论文与实现中经常与之对照出现
- OpenAI Baselines / Stable Baselines 的算法文档与实现说明中常收录 A2C(作为工程实践中常见的基线算法之一)