产业级机器翻译系统架构
一个成熟的产业级机器翻译系统除了对翻译结果(译文质量)有所要求,还应在翻译过程中充分考虑到系统性能、硬件要求、系统部署、数据安全等诸多因素。图4展示了一个面向产业的机器 翻译系统的流程图,主要包含以下四部分:
1.模型训练
收集大规模训练数据(包括双语平行语料、单语语料、词典等),并根据应用需求基于深度学习平台训练机器翻译模型,如多语言翻译模型、领域自适应模型、多模态翻译模型等。
2. 部署发布
部署发布包含两个子模块,质量评价与系统部署。在机器翻译模型训练完成后,需要进行翻译质量评价,评估新版本模型的翻译质量是否优于上一版本、是否满足用户需求、是否能解决某一类问题等。如达到要求,则进行系统部署,否则还需进一步迭代优化模型,直至满足各项要求。在系统部署阶段,需考虑多种因素。 一个成熟的机器翻译系统除了能够高效完成翻译任务外,还应具备动态调度能力,即根据流量变化实时调整各个机器的负载,最大程度提升机器利用率、响应海量翻译需求;如出现流量异常、重要内容翻译错误等突发情况,应能够及时检测并预警。同时,系统还应具备实时干预能力,即在不影响系统服务的前提下,及时采取系统动态扩容、错误译文实时修正等措施 。
3. 产品及应用
机器翻译最终通过丰富的产品形态为用户提供服务,常见的机器翻译产品有面向用户的网页端翻译服务、桌面客户端翻译应用、移动端翻译应用、翻译插件(包括但不限于浏览器翻译插件、计 算机辅助翻译软件插件、办公软件翻译插件等)、智能翻译硬件,以及面向开发者二次开发集成的 应用程序接口(API)、软件开发工具包(SDK) 等。这些产品集成了文本翻译、文档翻译以及融合了语音、图像处理的多模态翻译等丰富功能,极大地满足了人们生产生活中的翻译需求。
4. 数据及系统安全
安全策略是人工智能系统的一个重要组成部分,机器翻译也不例外。 一个实用的机器翻译系统应该构建全生命周期的安全策略,包括认证和授权机制、数据隔离、数据加密、监控审计等方面,保障在存储和传输过程中语料、模型和用户相关信息的数据安全。此外,在具体应用场景中,可根据需求灵活设计和开发安全策略,例如针对不同硬件和系统环境进行模型适配调整,针对高时空开销的场景进行模型压缩等。
图4:产业级机器翻译系统流程图
本文来源:《2023 机器翻译技术及产业应用蓝皮书》