LSTM 是 Long Short-Term Memory(长短期记忆) 的缩写,一种循环神经网络(RNN)结构,通过“门控机制”在序列数据中更好地记住长期信息、缓解梯度消失,常用于语言建模、机器翻译、语音识别、时间序列预测等。(除该技术含义外,个别语境中也可能有其他缩写用法。)
/ˌɛl ˌɛs ˌtiː ˈɛm/
LSTM models are widely used for text prediction.
LSTM 模型被广泛用于文本预测。
By using an LSTM with attention, the system captured long-range context and improved translation quality.
通过使用带注意力机制的 LSTM,系统捕捉到了更长距离的上下文信息,从而提升了翻译质量。
LSTM 来自短语 Long Short-Term Memory,意在表达模型既能保留“长时”信息,又能处理“短时”动态。该结构最早由 Sepp Hochreiter 与 Jürgen Schmidhuber 在 1997 年的经典论文中系统提出,后来成为深度学习序列建模的重要基础之一。