字节对编码(BPE):一种常用的子词切分(subword tokenization)方法,最初源于数据压缩思想。在自然语言处理里,它通过反复合并语料中最常见的相邻符号对(起初可为字符/字节),学习出一套子词单位,用于把文本切成更稳定的“词片段”,从而减少生僻词带来的未知词问题。
We use byte-pair encoding to split rare words into smaller pieces.
我们用字节对编码把罕见词拆成更小的片段。
Byte-pair encoding helps neural machine translation handle unseen words by learning frequent subword units from a large corpus.
字节对编码通过从大规模语料中学习高频子词单元,帮助神经机器翻译更好地处理未见过的词。
/ˈbaɪt peər ˌɛŋˈkoʊdɪŋ/
“byte-pair”原指“字节对”,来自早期压缩领域的Byte Pair Encoding算法思路:不断把最常见的相邻符号对合并成新符号,以达到更紧凑的表示。后来该思想被迁移到文本处理中,把字符/字节序列逐步合并成更常见的子词单元,用于语言模型与机器翻译等任务。