行业洞见

Our Insights

机器翻译技术的发展历程

2025-06-10

1954 年,美国乔治敦大学在国际商业机器公司 (IBM) 协同下,用 IBM-701 计算机首次完成 了俄英机器翻译试验,展示了机器翻译设想的可行性,拉开了机器翻译走进现实的序幕。我国在机器翻译领域的研究几乎也同时起步。1956 年,全国科学发展工作规划中就设立了名为“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”的研究课题,并在 1957 年由中国科学院语言研究 所和计算技术研究所合作开展了俄汉机器翻译的研究

机器翻译发展历程中涌现出三种具有代表性的方法:基于规则的机器翻译、统计机器翻译,以及现阶段主流的神经网络机器翻译。

基于规则的机器翻译:从机器翻译设想提出到二十世纪八十年代,基于规则的机器翻译方法处于主导。其基本思想是由语言专家总结不同语言间的翻译规律并撰写翻译规则,计算机工程师将这些规则转换为机器语言,实现自动翻译。基于规则的机器翻译打开了机器翻译从设想走向实践的大门,在机器翻译发展初期立下了汗马功劳。不过此方法存在撰写规则成本高、系统开发周期长、翻译质量低、难以快速进行多语言扩展等问题,制约了其规模化应用。

统计机器翻译:上世纪八十年代末、九十年代初,受到统计方法在语音识别任务上取得的进展的鼓舞,国际商业机器公司研究人员提出了统计机器翻译方法。统计机器翻译利用噪声信道模型对翻译过程进行建模,基于大规模语料自动训练模型参数,突破了基于规则的方法依靠人工构建翻译规则的限制,大幅降低了系统开发成本、提升了翻译质量。这一时期,互联网的迅速普及使获得大规模训练数据成为可能,统计机器翻译逐渐进入发展的快车道。2006 年,谷歌 (Google) 推出了 基于统计方法的互联网机器翻译系统。在此后近 10 年的时间里,统计机器翻译是机器翻译舞台的主角。 但由于统计机器翻译较难处理译文全局调序等问题,致使译文流畅度受限,逐渐遇到发展瓶颈。

推理模型:发挥推理模型在消除语义歧义、文化适应性和风格化翻译等方面的优势,通过思维链(Chain of Thought)等技术,使翻译结果更具逻辑性和可解释性。

神经网络机器翻译: 近年来,深度学习的迅速发展推动了机器翻译的技术变革,神经网络机器翻译成为现阶段主流的机器翻译方法。神经网络机器翻译通过建立深度神经网络模拟人类的翻译过程,将源语言映射(编码)到高维向量空间,并通过神经网络转换(解码)为目标语言。相比统计机器翻译,神经网络机器翻译在语言表示、语义理解、译文生成等方面均有显著进步,翻译质 量明显提升。2015 年百度发布了全球首个互联网神经网络机器翻译系统,标志着神经网络机器翻译系统开始登上大规模产业应用的舞台。2016年谷歌也将其统计机器翻译系统升级为神经网络机器翻 译系统,随后国内外行业巨头公司纷纷研发并推出神经网络机器翻译系统。

我国一直高度重视机器翻译的研究和应用,在机器翻译发展初期就开展相关技术研究,在新的发展机遇期,国务院发布的《新一代人工智能发展规划》以及工信部发布的《促进新一代人工智能产业发展三年行动计划(2018-2020 年)》均将机器翻译列为重要发展方向。随着我国综合国力的增强,中文在世界话语体系占据越来越重要的地位。研究以中文为核心的大规模、高质量机器翻译 系统,服务于新时期国际传播能力和国家翻译能力建设,是新时代赋予我们的重要任务。

本文来源:《2023 机器翻译技术及产业应用蓝皮书》