自然语言模型通常必须解决两个问题:将句子前缀映射到固定大小的表示,并使用这些表示来预测文本中的下一个单词。在最近的一篇论文中,脸书人工智能研究所的研究人员断言,第一个问题——映射问题——可能比预测问题更容易,这是他们基于“最近邻”检索机制扩展语言模型的假设。他们说,人工智能可以记住罕见的模式,并且不需要额外的训练就可以获得最新的复杂性分数(衡量词汇和语法的多样性)。
正如研究人员所解释的那样,语言模型为单词序列分配概率,因此它们可以根据标签(如单词)的上下文序列来估计目标标签的分布(不同可能结果的概率)。该方法将上下文映射到由预先训练的语言模型计算的固定长度的数学表示。给定一个训练示例,定义一个键值对,其中键是上下文的数学表示,值是目标词。
在测试过程中,kNN-LM获取输入上下文,并生成下一个单词的输出分布和上下文表示。它根据距离函数检索最近的邻居,此时它计算邻居上的分布,同时汇总检索到的目标中每个词汇项所有出现的概率。
研究人员指出,kNN-LM兼容任何产生固定大小上下文表示的语言模型。在这项研究中,这使我们能够在基于维基百科文章的1.03亿个令牌的数据集上训练基于Transformer的模型,其中25万个令牌保留用于开发和测试。
在实验中,kNN-LM在测试中“显著”优于基线,该团队将其归因于其倾向于学习内隐相似性概念的语境表征功能。KNN-LM增加了一些计算开销——在单个处理器上为1.03亿个条目构建缓存大约需要两个小时,而运行验证集大约需要25分钟。不过,该团队指出,并行化模型“简单”,不需要基于GPU的训练。
标签: