机器翻译技术面临的挑战和发展方向
与人们对于翻译的理想化追求相比,机器翻译技术仍然任重道远,需要在以下五方面加强研究,持续突破。
1.机器翻译译文质量仍需持续提升
随着机器翻译技术的发展以及大规模应用,人们对于翻译质量有更高的要求和期待。目前机器翻译系统主要的翻译方式是以句子作为翻译单元,较少考虑上下文以及篇章信息。此外,在翻译文 学性较强的内容时,通常需要结合背景知识、历史文化知识等,甚至要进行“二次创作”,而目前的机器翻译技术还无法做到。加强对机器翻译结合上下文信息、融合丰富知识等方面能力的训练将 有助于进一步提升机器翻译译文质量。
2. 机器翻译鲁棒性和容错能力需进一步加强
机器翻译对于输入内容比较敏感,有时在表意不变的情况下稍微改动原文,就可能导致整个译文发生很大变化。此外,训练数据中的噪声、领域分布对于机器翻译模型都会产生较大影响。面对复杂丰富的应用场景,提升机器翻译的鲁棒性和容错能力,将有助于其在实际应用中发挥更大作用。
3. 低资源语言机器翻译能力仍有待突破
神经网络机器翻译技术的本质是数据驱动型技术,依赖于大量高质量的训练数据。然而,在多语言翻译、垂直领域翻译中常常面临数据稀缺的问题。尽管技术方已提出多种解决方案并应用于实际系统,但受到资源和现有技术限制,低资源语言机器翻译仍难以满足高质量译文需求。探索面向低资源语言、少样本量的神经网络机器翻译学习机制,是机器翻译的发展方向之一。
4. 多模态融合的机器翻译技术需进一步探索
近年来,机器翻译技术与语音、视觉处理技术的结合取得了较大进步,诸如机器同传、图片翻译等技术已被广泛应用。此外,多模态统一建模也取得较大进展。多模态的深度融合将有助于进一步提升译文质量、拓展应用场景。例如,在同声传译中,演讲者的幻灯片材料、语音语调、肢体语 言等多模态信息都有助于提升机器同传质量。2023 年,中国外文局翻译院智能翻译实验室发布 了《语言服务行业的机器翻译使用情况调研问卷》,根据问卷收集到的反馈数据,目前语言服务行 业对多模态融合的机器翻译技术有较大需求。如图 1 所示,超过 70% 的受访者表示有图片转文字功 能的需求,超过 65% 的受访者有语音转写功能的需求。
您希望能增加哪些附加功能搭配机器翻译使用?
图 1:对机器翻译附加功能的需求
5.机器翻译相关标准建设需继续加强
在质量评价体系、人机协作模式、语料库建设等方面,需结合技术发展形势和市场需求,加快相关标准的研制工作。
如对机器翻译质量的评价,目前仍主要基于 BLEU (Bilingual Evaluation Understudy) 等自动评价指标以及面向通用场景的流利度、准确度等人工评价指标。在具体应用时,应结合具体需 求制定合适的评价流程和评价标准。此外,也应针对系统性能、硬件要求等制定相应规范。
在人机协作模式方面,同样亟需制定相关行业标准,明确人与机器的关系、在翻译过程中发挥 的不同作用以及承担的不同责任,以此更好促进新技术应用发展,推动形成健康的行业生态。
根据《语言服务行业的机器翻译使用情况调研问卷》收集到的反馈数据,如图 2、图 3 所示,仅有不到 30% 的受访企业表示会区分轻度和深度译后编辑,并制定不同规范标准。在日常进行“机器翻译+译后编辑”的人机结合服务模式时,语言服务提供方会面临客户对译后编辑程度的要求不明确、译后编辑的工作量难以预估及如何定价等问题。
如果不能直接采用,机器翻译结果需要进行编辑,是否会针对修改程度
区分轻度译后编辑和深度译后编辑,并就此制定不同的规范标准?
图2:轻度和深度译后编辑区分
相比常规的人工翻译任务,您认为译后编辑任务常存在哪些问题?
图 3:相比人工翻译任务,译后编辑任务存在的问题
本文来源:《2023 机器翻译技术及产业应用蓝皮书》