公司新闻

Press Releases

BLEU对机器翻译质量进行评估的问题与对策

作者:瑞科翻译 时间:2023-08-17 14:54:49 来源:瑞科翻译官网 标签:



在机器翻译(MT)在世界上,人工评估仍然是评估翻译质量的黄金标准。然而,对于数百个MT系统迭代中的研究人员和开发人员来说,人工评估过于缓慢和昂贵,不能用于每次增量调整。解决方案:自动化指标使研究人员能够计算表示翻译质量的数字分数。 自2002年引入语言学以来,双语评估计划(又称BLEU)已成为MT应用最广泛的指标。它激发了许多衍生产品,如METEOR和ROUGE。BLEU和其他基于精度的指标通过将MT输出与参考翻译进行比较来操作。 根据约翰·Mattttt,霍普金斯大学研究科学家 在Post于2018年9月发表的一篇论文中,BLEU因其语言独立性、易计算性和与人类判断的合理相关性而成为MT研究的主要指标。 然而,BLEU与人类判断力的相关性最近受到质疑。 苏黎世博士生大学马蒂亚斯穆勒在接受采访时解释说,自信BLEU的得分已经从MT系统的质量中动摇。 Müller说:“目前有性能最高的系统,被人类评为最佳翻译,但这些系统的BLEU分数并不是最好的。” 这一趋势在2019年机器翻译大会(WMT19)上通过其年度新闻翻译任务变得明显,但只适用于一些语言:汉语翻译成英语,英语翻译成Geman,德语翻译成英语,俄语翻译成英语。 “ WMT19上最好的系统使BLEU多余” –MathiasMasMathias,苏黎世大学博士候选人üller “与WMT翻译任务中的其他语言相比,它们是相对充足的语言指导资源。与立陶宛语言英语、哈萨克语言英语等相比,它们都有更多的数据,”穆勒指出。一些语言对(如英语-德语)已经包含在新闻翻译任务中很多年了,而另一些是最近添加的。 尽管如此,穆勒还是有足够的信心在2019年10月在苏黎世举行的一次MT会议上说:“ WMT19上最好的系统使BLEU成为最佳系统“冗余”。” BLEU缺陷 Müller并不是唯一发现BLEU缺乏的专家。NLP首席科学家Marcin,微软机器翻译团队 Junczys-Dowmunt将自己描述为BLEU“超级用户”,他使用该指标来决定如何更改模型。Junczys-Dowmunt告诉Slator,在过去的两年里,盲目信任BLEU是一个问题。 他说:“我认为这种情况通常是我们在行业内的大型机器翻译提供商所看到的,在学术界的程度也很小。” Junczys-Dowmunt解释说,微软等行业巨头往往会建立并试图保持更高的水平。质量体系已经有很多年了,学术研究人员通常会建立功能薄弱的临时体系,重点是特定现象的实验。 众所周知,布拉格查理大学副教授和MT研究员Ondrejbojar同意BLEU的缺点。 “任何成功发表机器翻译论文的人都对问题有所了解,” Bojar告诉Slator。 WMT19的新闻翻译任务强调了BLEU与MT系统质量相关的局限性,但BLEU的一些缺点是测量标准本身固有的。 像BLEU这样的精度指标会对他们在翻译输出中看到的所有内容进行评分,并通过参考翻译进行确认,但不会对参考翻译中未包含的输出给予任何荣誉。这意味着大多数潜在的MT输出——Bojar和他的同事估计多达三分之一——没有评分和计算。 BLEU对不同形式的单词也非常敏感,导致对丰富语言中正确翻译的惩罚性评分,并根据情况改变单词的末尾。 到目前为止,Bojar说:“一般来说,这些问题还不足以让社区完全拒绝BLEU。”但MT可能很快就会达到质量改进要求的新指标。 还没死…还 Junczys-特别指出了导致MT质量突然显著提高的两个因素:Transformer的到来和规模的指数级增长。 他说:“我们从BERT中获得了有趣的投资,直接教会了如何从大型MT模型中构建更好的系统。”“这一点在今年的WMT表现中得到了体现。大型模型的表现远远好于竞争对手。” 多年来,专家们一直在设计替代指标,但并不像BLEU那么受欢迎。为什么要对BLEU及其变体做出持久的承诺? Müller指出,WMT19新闻翻译任务中观察到的一些语言对的下降趋势并不是所有语言对或指标都普遍存在的。此外,并非所有的研究都集中在开发性能最好的系统上,因此BLEU得分与人工判断在许多研究场景中有很好的相关性。 新指标的可用性也可能是一个障碍。 “总会有权衡的。BLEU很容易计算,结果可以在几毫秒内得到。”Müller解释说。“假如一个指标比BLEU好,但是使用起来很麻烦,那么人们可能会避免这个指标。” “ BLEU变得毫无用处的观点其实并没有那么可怕。这是由于质量的提高。” —Marcin,微软机器翻译团队的首席自然语言处理科学家 Junczys-Dowmunt Müller一直在探索一些新的指标,包括比较评估。比较评估的重点是MT系统如何处理代词或名词动词一致等特定的语言现象,并补充BLEU和其他能够给整体翻译质量印象的测量标准。 Bojar认为Chrf和BLEU一样简单,可以克服BLEU的一些局限性。和BLEU一样,Chrf会逐句处理,将MT输出与参考翻译进行比较,但会查看字符序列,有助于识别不同的单词形式。 和其他专家一样,Bojar认为下一个突破性指标需要在文档级别上运行。他说:“为绝对放弃BLEU,[我们]需要一些文件评估。” 没有人能确定什么时候可以更换BLEU或者为什么可以更换BLEU——或者根本不能用另一个指标替换BLEU。 “ BLEU变得毫无用处的观点其实并没有那么可怕。这是因为质量提高了。” Junczys-Dowmunt说。“这可能只是因为我们的系统变得很好,我们不需要自动测量它们。”

上海瑞科翻译公司是一家具有二十年行业经验的专业翻译公司公司位居“亚太地区语言服务提供商前列是一家通过iso质量管理体系认证的知名的翻译公司.专注于文档翻译、网站翻译,认证翻译、本地化翻译、口译、软件本地化翻译、桌面排版(dtp)、母语审校、创译、语言资产管理以及翻译技术研发和培训等专业语言服务是专业的英语翻译公司,瑞科上海翻译公司可以提供中文、英语、日语、韩语、德语、法语、泰语、俄语等全球多语种的翻译,瑞科翻译机构是中国翻译协会(tac)理事单位,美国翻译协会(ata)会员,全球化与本地化协会(gala)会员欧洲语言行业协会会员上海瑞科翻译公司翻译服务热线:021-63760188