公司新闻

Press Releases

一种新的神经机器翻译方法,其中翻译模型只使用单语言数据集学习

作者:瑞科翻译 时间:2023-12-25 14:09:26 来源:瑞科翻译官网 标签: 上海翻译公司翻译公司上海十大翻译公司

瑞科译牛:

“一种新的神经机器翻译方法,其中翻译模型只使用单语言数据集学习,句子或文档之间没有对齐”。看完这个描述,机器变得越来越聪明,就像AlphaGo一样 Zero在围棋方面“自学成才”,不使用任何人类围棋数据, 如果机器从单语开始, 绕过人类的双语语料库, 又要开辟一个新天地了。

论文下载链接:https://arxiv.org/pdf/1711.00043.pdf

原文来源:arxiv

作者:Guillaume Lample、Ludovic Denoyer、Marc’Aurelio Ranzato

「雷克世界」编译:嗯~阿童木啊,多啦a亮

我相信我们都知道,最近在机器翻译领域取得了令人印象深刻的成就,这主要是由于最近在深度学习和大规模平行语料库方面的巨大进步(large-scale parallel corpora)的可用性。我们已经尝试了无数次,试图将这些成功扩展到低资源语言,但这需要成千上万的平行句子。在这项研究中,我们实现了先进的研究方向,并研究了在没有任何平行数据的情况下是否有可能学习翻译?我们建议用两种不同的语言从单语语料库中构建一个模型(monolingual corpora)提取句子,然后映射到相同的潜在空间。通过学习从这个共享的特征空间中重构两种语言,该模型有效地学习了翻译,而不使用任何标记数据。我们在两个广泛使用的数据集和两种语言中演示了模型,结果表明BLEU得分高达32.8分,甚至在训练期间没有使用平行句。

由于近期深度学习的进展和大规模平行语料库的可用性,机器翻译在多种语言中取得了令人印象深刻的表现。然而,这些模型只有提供大量的并行数据,即大约数百万个并行句子才能很好地运行。不幸的是,并行语料库的建设成本非常高,因为它需要特殊的专业知识,通常不可能使用低资源语言。相反,单语数据更容易找到,许多并行数据有限的语言仍然有大量的单语数据。

在半监督环境中,我们多次尝试使用单语数据来提高机器翻译系统的质量。值得注意的是,值得注意的是,Sennrich 等人在2015年提出了一个非常有效的数据增强计划,我们称之为“回译”(back-translation)“也就是说,从目标语言到源语言的辅助翻译系统首先在可用的并行数据上进行训练,然后在大目标端的单语料库中生成翻译。然后对这些翻译的组成和相应的参考目标(ground truth targets)附加训练数据用作原始翻译系统。

另一种在目标端使用单语数据的方法是使用语言模型来增强解码器(Gulcehre等人于2015年提出)。然后,Cheng等人(2016年)、He等人(2016年)提出在单语数据上增加辅助自动编码任务,确保翻译后的句子再次翻译成原文。然而,所有这些研究仍然依赖于成千上万的平行句子。

以前关于零资源(zero-resource)对机器翻译的研究也依赖于标记信息,它们不是来自有用的语言,但其他相关语言对(Firat和其他人在2016年提出,Johnson和其他人在2016年提出,Chen和其他人在2017年提出)或其他形式的语言对(Nakayama 和 2017年,Nishida、Lee等人于2017年提出)。Ravi和Knight(2011年)是先进的例外、 PourdamghaniKnight(2017年)研究将机器翻译问题简化为解密问题。Ravi和Knight(2011年)是先进的例外、 PourdamghaniKnight(2017年)研究将机器翻译问题简化为解密问题。不幸的是,他们的方法局限性在于只适用于相当短的句子,只能在非常简单的环境中证明,包括常见的短句或非常接近的语言。

图1:指导我们设计目标函数的原理简笔图。左(自动编码):为了根据其噪声版本重建一个句子,训练模型。x是目标,C(x)噪声输入,x^是重建。右(翻译):训练模型翻译另一个领域的句子。其中,输入是前一次迭代(t),y = M(t)(x)模型本身M产生的噪声翻译(在这种情况下,翻译顺序是从源到目标(from source-to-target))。该模型是对称的,我们将在其他语言中重复相同的过程。

在本文中,我们研究是否可以在没有任何形式监督的情况下培养一个通用的机器翻译系统。我们的先进假设是每种语言都有一个单语语料库。这个假设有两个有趣的原因。 首先,当我们遇到一种没有注释的新语言时,我们可以使用它。其次,它预计任何好的半监督方法都会产生强大的下行性能。

关键是在两种语言(或领域)之间建立一个共同的潜在空间,并根据两个原则学习翻译:(1)模型必须能够从噪声版本中用给定的语言重建句子,如在标准的噪声自动编码器中。(2)该模型还学会了在翻译目标域中有噪音的同一句子时重构任何源语句,反之亦然。对于(2),通过使用回译程序获得翻译句子,即通过使用学习模型将源句翻译成目标域获得翻译句子。除了这些重建目标外,我们还使用对抗正则术语将源句子和目标句子的潜在表达限制为相同的分布,因此模型试图欺骗识别器,同时训练识别给定的潜在句子的语言。然后迭代重复这个过程,从而产生高质量的翻译模型。为了保持我们的方法完全不受监督,我们初始化算法,使用基于同一单语数据的句子逐字翻译的无监督翻译模型。

虽然我们无法与使用大量平行资源的监督方法竞争,但我们在第四部分展示了我们的模型可以实现卓越的性能。例如,在WMT数据集中,在完全监督1万个句子的机器翻译系统中,我们可以达到相同的翻译质量。在Multi30k-Task1数据集中,我们在所有语言中实现了超过22的BLEU值,英翻法BLEU值达到32.76。

接下来,在第二部分,我们将描述模型和训练算法。然后我们在第四部分给出了实验结果。然后,我们将在第五部分进一步讨论相关工作,并在第六部分总结我们的发现。

结论

我们提出了一种新的神经机器翻译方法,只使用单语言数据集学习,句子或文档之间没有对齐。该方法的原理是从一个简单的无监督逐字翻译模型开始,基于重构损失迭代改进模型,并使用识别器对齐源语言和目标语言的潜在分布。我们的实验表明,我们的方法可以在没有任何监督的情况下学习有效的翻译模型。

新智元(微信微信官方账号ID):AI_era),欢迎订阅!

上海瑞科翻译公司是一家具有二十年行业经验的专业翻译公司公司位居“亚太地区语言服务提供商前列是一家通过iso质量管理体系认证的知名的翻译公司.专注于文档翻译、网站翻译,认证翻译、本地化翻译、口译、软件本地化翻译、桌面排版(dtp)、母语审校、创译、语言资产管理以及翻译技术研发和培训等专业语言服务是专业的英语翻译公司,瑞科上海翻译公司可以提供中文、英语、日语、韩语、德语、法语、泰语、俄语等全球多语种的翻译,瑞科翻译机构是中国翻译协会(tac)理事单位,美国翻译协会(ata)会员,全球化与本地化协会(gala)会员欧洲语言行业协会会员上海瑞科翻译公司翻译服务热线:021-63760188