V2EX  ›  英汉词典

Byte-pair Encoding

释义 Definition

字节对编码(BPE):一种常用的子词切分(subword tokenization)方法,最初源于数据压缩思想。在自然语言处理里,它通过反复合并语料中最常见的相邻符号对(起初可为字符/字节),学习出一套子词单位,用于把文本切成更稳定的“词片段”,从而减少生僻词带来的未知词问题。

例句 Examples

We use byte-pair encoding to split rare words into smaller pieces.
我们用字节对编码把罕见词拆成更小的片段。

Byte-pair encoding helps neural machine translation handle unseen words by learning frequent subword units from a large corpus.
字节对编码通过从大规模语料中学习高频子词单元,帮助神经机器翻译更好地处理未见过的词。

发音 Pronunciation (IPA)

/ˈbaɪt peər ˌɛŋˈkoʊdɪŋ/

词源 Etymology

byte-pair”原指“字节对”,来自早期压缩领域的Byte Pair Encoding算法思路:不断把最常见的相邻符号对合并成新符号,以达到更紧凑的表示。后来该思想被迁移到文本处理中,把字符/字节序列逐步合并成更常见的子词单元,用于语言模型与机器翻译等任务。

相关词 Related Words

文献与作品 Literary / Notable Works

  • A New Algorithm for Data Compression(Philip Gage,1994)——提出BPE压缩算法的经典来源之一。
  • Neural Machine Translation of Rare Words with Subword Units(Sennrich, Haddow & Birch,2016)——将BPE作为子词方法广泛推广到NMT。
  • Attention Is All You Need(Vaswani et al.,2017)——Transformer相关实验中常见到BPE/子词分词设置与讨论。
  • Speech and Language Processing(Jurafsky & Martin,多版)——教材中系统介绍分词、子词建模与相关方法(常提及BPE)。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1176 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 8ms · UTC 16:44 · PVG 00:44 · LAX 08:44 · JFK 11:44
♥ Do have faith in what you're doing.