Hugface本周发布了1000多个模型,向机器翻译迈出了第一步。研究人员使用无监督学习和开放并行语料库(OPUS)来训练模型。OPUS是赫尔辛基大学和全球合作伙伴联合开展的一个项目。其目的是收集和开放各种语言的源数据集,特别是资源稀缺的语言。低资源语言是指那些训练数据少于通用语言(如英语)的语言。
自2010年以来,OPUS项目已经集成了JW300等流行数据集。耶和华见证人的写作可以得到380种语言的支持,这些资源已被许多资源稀缺的语言开源项目使用,如Masahane,用于创建从英语到2000种非洲语言的机器翻译。翻译可以让说不同语言的人相互交流,让全世界的人都能参与到线上和面对面的商务活动中,这在可预见的未来尤为重要。
周四的发布意味着,用OPUS数据训练的模型现在构成了Hugging Face和最大贡献组织赫尔辛基大学语言技术与研究组提供的大部分模型。在本周之前,“拥抱脸”最出名的是它可以轻松访问最新的语言模型和语言生成模型,比如谷歌的BERT,它可以预测文本中的下一个字符、单词或句子。
Python的拥抱脸变形金刚库已经安装了超过50万个pip,包括高级和最新NLP模型的预训练版本,例如谷歌AI的BERT和XLNet,脸书AI的RoBERTa和OpenAI的GPT-2。
Hugface首席执行官ClmentDelangue在接受VentureBeat采访时表示,机器翻译业务是一个社区驱动的计划。公司在2019年底完成1500万美元融资后,致力于围绕前沿NLP建设更多社区。
“因为我们是开源的,很多人都在使用我们的库,所以我们开始看到越来越多来自不同语言的人聚在一起,用不同的语言(尤其是低资源语言)预训练我们的一些模型。就像许多NLP社区的人已经忘记了一样,”他说。“这让我们意识到,在实现NLP民主化的目标中,实现这一目标的很大一部分不仅仅是我们一直在英语方面取得最好的成绩,也是越来越多的人可以在这种模式下使用其他语言并提供翻译。”
Delangue还表示,这一决定是由于机器翻译和序列到序列(Seq2Seq)模型的最新发展。德兰格说,在过去的几个月里,拥抱脸首次开始使用Seq2Seq模型。最近著名的机器翻译模型包括谷歌的T5和脸书人工智能研究公司的BART。BART是用于训练Seq2Seq模型的自动编码器。
“即使在一年前,我们可能也不能只说纯机器翻译的结果不够好。现在,它已经达到了一个有意义的水平,并开始发挥作用。”他说。德兰格补充说,拥抱脸将继续探索翻译的数据增强技术。
该消息是在本周早些时候发布的,此前它与权重和偏差集成,以增强跟踪、记录和比较训练实验的可视化。拥抱脸去年秋天将其变形金刚库带到了TensorFlow。
标签: