1
2
3
4
 关于我们
公司简介
公司信息
组织结构
公司团队
网站公告
翻译资讯
常见问题
专业词汇
行业规范
质量保证
合作流程
隐私保密
实习基地
人才招聘
联系信息
  翻译语种(笔译)
  英语翻译  德语翻译
  日语翻译  法语翻译
  韩语翻译  俄语翻译
  英语口译  德语口译
  日语口译  法语口译
  韩语口译  俄语口译
  泰语翻译  越南语翻译
  意大利翻译  西班牙翻译
  葡萄牙翻译  印度语翻译
  马来语翻译  波斯语翻译
  冰岛语翻译  老挝语翻译
  丹麦语翻译  瑞典语翻译
  荷兰语翻译  藏族语翻译
  挪威语翻译  蒙古语翻译
  拉丁语翻译  捷克语翻译
  缅甸语翻译  印尼语翻译
  希腊语翻译  匈牙利语翻译
  波兰语翻译   乌克兰语翻译
  芬兰语翻译  土耳其语翻译
更多翻译语种
     首页 >>  关于我们>>  翻译资讯
 


人工智能驱动下的众包翻译技术架构展望

发布者:上海翻译公司     发布时间:2019-10-28

  摘要:众包翻译作为数字化、全球化时代诞生的一种全新线上翻译协作模式,在互联网、人工智能技术的推动下迅猛发展。它跨越国家与地域之边界,有效整合大众智慧与社会零散资源,促进翻译产业化、社会化的同时提升其效率。近年来,众包翻译在社会、语言、政治、伦理等领域影响深远,从翻译伦理、翻译定义、翻译评估、翻译技术等多个维度挑战了传统翻译模式。本文结合 AI 时代背景,探讨众包对传统翻译实践和理论带来的冲击,从译前、译中、译后三个阶段,以架构图的形式系统地勾勒了人工智能技术与众包翻译有机结合的可能方式及潜在机遇,并围绕每个技术切入点分析其具体实施策略,以期对翻译跨学科研究作出有益探索。


  关键词:众包翻译;人工智能;认知科学;翻译模型
  中图分类号:H059 文献标识码:A 文章编号:1000-873X (2019) 04-0126-09


  在信息互联时代, 翻译已不仅限于传统意义上的语内翻译、语际翻译、符际翻译等,数字化扩大了翻译内涵和外延,即 GILT= Globalisation(全球化)+ Internationalisation(国际化)+Localisation(本地化)+Translation(翻译)。正如 Cronin(2013)所揭示的:“翻译正经历一场革命性剧变。数字技术与互联网对翻译的影响持续、广泛且深刻。从自动在线翻译服务到众包翻译的兴起,以及智能手机上翻译应用程序的普及,翻译变革无处不在。”①毋庸置疑, 信息科学、 人工智能(Artificial Intelligence,AI) 与翻译结合, 已经对语言、社会、文化等产生深远影响。众包(crowdsourcing) 是网上协作翻译(Online Collaborative Translation)的一种形式,是数字化时代最新,也是覆盖面最广、发展最快的翻译模式。众包翻译作为跨越边界的网络协作翻译模式,极大影响了翻译伦理、翻译定义、翻译评估等多个方面。近年来,在深度学习、大数据、高性能计算的协同推动下,人工智能技术取得了长足进步。神经网络机器翻译(neuralmachine translation,NMT)成为技术主流,翻译质量逐年提升。2018 年,微软研究院 AI 课题组机器翻译团队在国际数据集 WMT-17 的新闻数据集 newstest2017 上首次超越了人类专业 水 平(Hassan et al.,2018)。WMT 是机器翻译领域国际顶级评测比赛之一,其数据集为机器翻译研究领域公认的主流数据集。其中,newstest2017 新闻报道测试集由产业界和学术界的合作伙伴共同开发,包括来自新闻评论语料库、联合国平行语料库、CWMT 语料库的共计近 2500 万测试句对。微软在此数据集上取得的成绩对于人工智能技术在翻译领域的应用具有标志意义。AI 时代的到来将深刻改变人类的生活与工作方式,众包翻译协作模式亦不再限于人与人的范畴,更将延伸至人与机器,甚至机器与机器的维度。本文将在这一背景下探讨众包翻译当前所面临的挑战,并对未来与 AI 可能结合的技术架构进行展望。


  一、众包与 AI 对传统翻译实践和理论的挑战
  “众包”一词由美国记者 Howe 在《连线》(Wired)杂志首先提出,他将其定义为“传统上交给指定代理的工作任务,以自愿形式外包给非特定的、通常是大众网络群体来做。可采用大众生产的形式,也常由个人担纲”(Howe,2006)②。众包翻译由非职业译员群体完成,最典型的案例就是对 Facebook和 Wikipedia 的翻译。众包翻译模式的出现,引起对翻译质量、合理报酬、译者地位等翻译伦理问题的讨论。与此同时,人工智能技术作为当今一项关键生产力要素,正不断地驱动着各行各业生产方式和生产关系的重构。
  众包与 AI 相结合,将对传统翻译理论和实践形成巨大冲击。其一,在翻译的定义方面,在当代翻译理论中,翻译被视作交际、认知、文本生成过程(Hurtado Albir,2017),这个过程可以是社会性的(Wolf,2010)、文化性的(Bassnet & Lefevere,1990)、 技 术 性 的(Jiménez-Crespo,2013)或包容性的(Shao,2010;2017)。尽管这些传统定义已很好呈现了经典视域下的翻译,但众包与 AI 时代的到来引入了三个新的特点:碎片性、数据性和智能性。
  就碎片性而言,语言学派的翻译观通常认为,在宏观层面上的文本处理对产生连贯且衔接良好的目标文本至关重要,它能保证翻译质量,且能达到预期交际目的。然而,众包翻译将全球任务分解为众多微型任务,随后由大量翻译爱好者来完成,要求源文本本身可以被分解为多个离散微型任务,交由不同译者承担,这种微型任务处理方法可能会缺乏连贯性、风格一致性以及宏观上的把握,从而颠覆了传统语言学派翻译观。就数据性而言,大数据已成为驱动现代文明发展的一种战略资源,它具有大量、多维度、完备性和及时性等特点。依托海量语料大数据(特别是双语 / 多语平行语料)的翻译研究和应用逐步形成趋势。这些数据在维度上包含:文本、语音、图像 / 视频(例如手语、肢体语言、表情语言)等。在完备性上覆盖:不同语种、不同专业领域、不同地域、不同人群等。在及时性上不断更新迭代,将新的概念、新的语言(如:互联网语言、程序设计语言等)融入其中。在可以预见的未来,大数据的使用将成为翻译的一个重要属性。
  就智能性而言,大数据、高性能计算、深度学习的结合为 AI 发展注入了前所未有的活力,推动着整个社会各行业的升级与变革。AI 领域的各个研究分支:机器翻译、语音识别、字符识别、语音合成、手语识别、姿态识别、表情识别等正逐步应用于翻译行业。字符识别→机器翻译→译后编辑→人工审校的模式大幅度提升了笔译行业的生产效率。语音识别→机器翻译→语音合成的模式开始胜任一些简单的口译任务。谷歌、百度、腾讯等许多科技公司也推出基于手机拍照→字符识别→机器翻译模式的 APP 应用,帮助人们在日常生活中实现便捷的翻译。智能技术将更加深入地渗透到不同翻译应用场景中,在提升工作效率、降低劳动强度、改善服务体验、规范行业标准等许多方面对翻译进行重塑。
  其二,就源文本交付方式而言,Bowker(2006:180)认为:“若要翻译文本的全部信息,译者通常需跨越句的边界,因此翻译记忆所使用的以句为单位的方法可能不利于全文本消息的有效翻译”③。然而,众包翻译为了将源文本交付社区译者,需要将其拆分为更小单位。两种最常见的情况如下:一是,一本书的若干章节,通过某种方式由社区译者认领,译者利用传统方式或现代方式处理。二是,一本书在众包平台上,通过众包平台后台文本管理系统将篇章拆分为段落或者句子,由社区用户认领,或者系统推荐给水平相当的注册用户做翻译,至于是否使用翻译记忆(Translation Memory,TM)技术,由译者决定。此外,随着机器翻译技术水平的不断提升,是否采用机器翻译对源文本进行预处理,再将机翻结果与源文本推送给译者参考以提高效率、降低劳动强度,是翻译实践层面需考虑的问题。
  其三,在数字化和 AI 时代,源文本与目标文本都可能以多种形式呈现。文本不仅包含文字,而且还可由非语言形式形成,如图形、图像、动画、格式标记符排版、视觉,多媒体元素(cf. Remael,2010)以及数字文本 互 动 性(cf. Jiménez-Crespo,2013)。 例如,Nord 将文本定义为“在交际互动中使用的交际信号的总和”(1991:14)。因此,文本不仅可用语言手段表达,也是一种可以通过口头和非语言手段相结合实现的交际行为(同上:15)。 同 理,G?pferich 把科技翻译中的文本定义为“由语言或图形语言构成的连贯整体”(1995:57)。众包翻译涵盖了从将任务缩小到处理孤立句子的语言层次,到让任务“所得即所见”(YGWYS)环境中目标文本的多模态性(Jiménez-Crespo,2017:168)。采用众包模式的译后编辑网站已经比较多,例如微软协作翻译框架(Aikawa et al.,2012)、Smartling 网络协作翻译平台④、多邻国(Duolingo)语言学习平台⑤、Amara开源实时协同字幕翻译平台⑥(又称字幕在线编辑器)等。
  其四,就文本的动态性而言,在传统译论中,文本是稳定且完整的翻译单位,只根据具体翻译活动的要求而改变。在众包和协作翻译模式中,文本内容可能会经常更新( 例 如, 著 名 软 件 开 发 平 台 GitHub ⑦ 上的大量开源软件库的开发教程、应用程序接口都随软件库版本的不断迭代而快速更新,Wikipedia 上的各种词条也有类似情况),通常以碎片化、分批次、微任务的方式传递、翻译、交付、验收,因此基于众包的网络协作翻译模式与传统翻译模式有所不同,众包根据微型任务(micro-task)的需求,将源文本进行必要的分割与分解,而源文本本身可能动态地不断更新。


  二、AI 技术赋予众包翻译的机遇展望
  1950 年英国数学家艾伦 · 麦席森 · 图灵(Alan Mathison Turing) 提出著名的图灵测试(Turing,1950)设想之后,机器是否能够模仿人类智能这一问题受到越来越多学者关注。1956 年 8 月,在美国汉诺斯小镇的达特茅斯学院汇聚了约翰 · 麦卡锡(John McCarthy)、马文 · 明斯基(Marvin Minsky,人工智能与认知科学专家 )、 克劳 德· 香农(Claude Shannon, 信息论创始人 )、 艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特 · 西蒙(Herbert Simon,诺贝尔经济学奖得主)约 20 位科学家,共同探讨用机器来模仿人类学习以及其他方面的智能,并正式提出人工智能(Artificial Intelligence)的概念(McCarthy et al.,2006)。随后的近 60 年间,人工智能技术持续发展, 新的思想不断涌现(cf. Russell & Norvig,2016)。1956 年至 70 年代中后期代表性研究包括:命题逻辑、谓词逻辑、启发式搜索等,研究者从初期抱有过于乐观的预期到逐渐意识到现实问题的复杂性和多样性;随后的 80 年代初期,人工智能技术开始步入工业应用领域,专家系统、知识工程、医疗诊断等为该阶段的主要代表;80 年代末期出现了一个短暂的神经网络研究热潮,此后人工智能开始围绕计算机视觉、自然语言理解、认 知 科 学、 机 器 学 习、机器人学(Robotics)等独立发展。2012 年 Hinton 研究团队提出了深度神经网络模型 AlexNet(Krizhevsky et al.,2012), 将 ImageNet LSVRC-2010 图片识别测 试 top-1、top-5 错误率从之前最好记录47.1%、28.2% 分别降至 37.5%、17.0%, 至此深度学习开始成为人工智能研究热点。人们在大数据和高性能计算的驱动下利用神经网络逐步构建出稳定、可靠的特征提取机制,推动人工智能技术在人脸识别、目标检测、语音识别、机器翻译等众多复杂应用场景取得长足进步。这一趋势延伸至今,计算机视觉、自然语言理解与交流、认知与推理、机器人学、博弈与伦理、机器学习成为当前人工智能技术六大主要研究领域。其中,自然语言理解与交流、计算机视觉、机器学习与众包翻译关系密切。为了系统地展望人工智能技术在众包翻译领域的潜在应用价值,笔者将整个众包翻译过程划分为:译前、译中、译后三个阶段,针对每阶段所面临的关键问题列出了具体的结合方式。图 1 展示了人工智能技术与众包翻译的结合构想框架。
  (一)译前阶段的人工智能应用展望
  在译前阶段,用户向众包翻译平台提供需要翻译的文件,此阶段要解决的关键问题为:如何从用户文件中提取待翻译的源文本信息,如何将源文本分割为具体的翻译任务推送给不同译者,如何对源文本进行预处理以提升后续译者翻译的质量和效率,如何为不同的翻译任务找到合适的译者。
  1)以源文本提取为切入点的人工智能技术应用
  众包翻译源文件除常见的 Office 文档、RTF、TXT、HTML、可解析 PDF 等可直接通过解码获得源文本的格式外,还存在如:不可解析的 PDF(通常由扫描或拍照获得)、图片(JPEG、PNG、TIFF 等 )、 语音文件(WAV、MP3、WMA、APE、AAC 等 )、 视频(MOV、AVI、MPEG、MP4 等 )。人工智能领域的光学字符识别(Optical Character Recognition,OCR)技术和自动语音识别技术(Automatic Speech Recognition,ASR)便可在此发挥作用。OCR 旨在利用计算机识别出图像中的文字,ASR 可自动识别语音文件并将其转写为文字。当源文本无法从文件中直接解析获取时,这两项技术可起到重要辅助作用,大幅度降低众包翻译的劳动强度、提高其工作效率。
  2)以源文本分割为切入点的人工智能技术应用
  众包翻译由大量译者网上协作完成,每个译者仅负责部分内容。其完成翻译工作的模式主要可分为四种:其一,仅依靠人工对所分配的源文本进行翻译。其二,利用 CAT系统协助人工进行翻译。其三,首先采用机器翻译系统对源文本进行预翻译,然后在此基础上由人工进行校审和编辑。其四,采用机器翻译系统对源文本进行预翻译,然后在此基础上进行计算机辅助翻译,最后由人工进行校审和编辑。无论何种模式,如何将源文本有效分割成合适的语义单元,对于翻译的质量与效率都极为重要。直接按照句子进行分割的方式,易产生上下文语义损失从而导致误译和漏译,例如:源文本中可能大量存在的小句复合体,小句之间存在的复杂逻辑关系被分割后可能产生损失或歧义。然而,若将大段文本作为一个翻译单元则将延迟译者完成单个翻译单元的速度,降低众包翻译的并发性和及时性;此外,将大段文本提交给 CAT 翻译系统,可能会导致语料匹配率和翻译效果的下降。采用自然语言处理(Natural Language Processing,NLP)技术,对源文本语义结构进行分析以实现可靠分割,是人工智能应用于翻译众包的一个重要的切入点。
  3)以译前文本预处理为切入点的人工智能技术应用
  在对源文本进行翻译之前,适当的预处理工作可以有效提升翻译的质量和效率。笔者认为译前文本预处理阶段,人工智能技术可从三个方面切入:(1)非译元素 / 专业术语的智能识别与标记。当源文本来自特定专业领域或语境时,其中大量专业术语、非译元素很难被通用的机器翻译引擎有效处理。若能在译前阶段对非译元素进行识别和标记,对于提升翻译质量,适应不同翻译项目需求具有重要的潜在价值。(2)小句复合体简化。小句复合体(clause complex)又称复句,是目前机器翻译领域面临的难点,利用 AI 技术对小句复合体进行简化,降低后续机器翻译的难度,对于避免误译和漏译的产生具有良好的研究价值。(3)源文本噪声滤除。在源文本提取过程中,特别是利用 OCR 技术从图像中获取源文本的情况下,可能产生一定的噪声,例如:字符乱码、错误识别、错误标点符号等。智能地识别和滤除噪声,纠正源文本中的错误,对提升众包翻译质量意义重大。
  4)以译者推荐为切入点的人工智能技术应用
  随着众包翻译规模的不断扩大,如何根据众包翻译任务的具体内容,将其推荐给感兴趣并具有相应能力的译者成为提升众包翻译运营效率、提高翻译质量的关键。AI 领域推荐系统已被广泛地应用于电子商务、在线视频、社交网络等商业场景,帮助企业更好地理解用户需求以提供卓越服务。在众包翻译项目管理中,根据译者基础信息(例如,教育背景、从业经验、擅长语种、熟悉领域、文化背景等)、译者动态信息(例如,在线时间、译文质量、响应速度等)构建一套译者推荐系统将不同领域、类型的源文本在特定时间推送给合适译者,提升任务匹配率和用户体验的同时让众包平台译者自身特长得到充分发挥。
  (二)译中阶段的人工智能应用展望
  在译中阶段,待翻译的源文本被分割为不同任务由众包翻译平台分配给不同的译者,此阶段要解决的关键问题为:如何提升译者的翻译质量和效率,如何降低译者劳动强度,如何有效管理大量译者,如何及时了解译者状态和项目进展并根据译者的实时表现水平动态调整任务分配策略。
  1)以机器翻译为切入点的人工智能技术应用
  机器翻译是人工智能技术与众包翻译相结合最重要的切入点之一,它隶属于计算语言学(Computational Linguistics),旨在利用计算机将文本或语音从一种自然语言(源语言)转换为另一种自然语言(目标语言)。作为当今 AI 领域热点问题,其研究跨越计算机科学、认知科学、语言学、信息论等多个学科。机器翻译的研究可追溯至 1933 年的两个标志事件(Hutchins,2004):其一,1933年 7 月 22 日,法国工程师 Georges Artsrouni获 得 一 项 名 为“mechanical brain”( 法 语:cerveau mécanique) 的 专 利 授 权, 在 其 中他首次提出了用机器来进行翻译的构想。其二,同年,前苏联科学家 Peter Troyanskii 向苏联科学院介绍了一种能将一种语言翻译成另一种语言的机器模型,并于 9 月 5 日提交了专利申请。在随后的发展中机器翻译大致经历了:第一次热潮时期(1956-1966);基于规则的机器翻译(Rule-Based Machine Translation,RBMT)(1967-2007); 统计机 器 翻 译(Statistical Machine Translation,SMT)(1993-2016); 神经 网 络 机 器 翻 译(Neural Machine Translation,NMT)(2013-至今);目前,神经网络机器翻译取代统计机器翻译成为学术界研究主流,在工业界基于Transformer、ConvS2S 等神经网络模型的机器翻译系统被广泛应用。开源社区为机器翻译的发展注入蓬勃动力,tf-seq2seq(Google),fairseq(Facebook)、Sockeye(Amazon)、OpenNMT(哈佛大学)等开源神经网络机器翻译框架的发布和不断更新让越来越多企业与个人能够快速分享机器翻译领域最新研究成 果。随着注意力机制(Attention Mechanism)、 对偶学习(Dual Learning)、推敲网络(Deliberation Networks)、联合训练(Joint Training)、 端到端训练(End to End Training)等一系列新思想的提出,机器翻译的精度被不断刷新。2018 年,微软研究院 AI 课题组机器翻译团队在国际数据集WMT-17 的新闻数据集 newstest2017 上取得了超过人类专业水平的效果,这一事件进一步印证了机器翻译的巨大潜力。在可以预见的未来,机器翻译→众包译后编辑→众包人工审校的模式,将大幅度提升众包翻译的效率和质量。
  2)以计算机辅助翻译为切入点的人工智能技术应用
  CAT 与机器翻译不同,它不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程。在众包翻译过程中,计算机辅助翻译可使繁重的人工翻译流程自动化,并大幅度提高翻译效率和翻译质量。代表性产品包括:Trados( 英 国 )、 memoQ(匈牙利 )、Déjà vu( 法 国 ), 以 及 国 内 的 iCAT、Transmate 等。人工智能领域关于自然语言处理的研究,对提升现有 CAT 系统的记忆库模糊匹配、术语识别、自动修正等方面有着广泛的应用前景。
  3)以译者管理为切入点的人工智能技术应用
  如何有效管理大量译者,在保证翻译质量的同时,提升翻译效率,是众包翻译研究的一个核心问题。人工智能技术在此具有良好的潜在应用价值,例如,众包中采用对译者付费的方式时,不同经验、能力、资历的译者其单位工作量所获报酬不同,为了避免第三者顶替的情况发生,可引入人脸识别技术、指纹识别技术、虹膜识别技术等对译者进行身份验证。翻译作为一种跨语言的理解、重构行为,与译者的认知心理状态紧密联系。现代认知心理学的发展经历了从“身心二元”(离身认知,disembodied cognition)到“身心 一 体 ”( 具 身 认 知,embodied cognition)范式的转变。具身认知强调人类生理状态在其认知心理过程发挥重要影响,这一观点被大量的科学研究所支持(Wells & Petty,1980;Steppe & Strack,1993;Rizzolatti & Craighero,2004;Williams & Bargh,2008)。在工作过程中,译者各种生理状态:疲劳程度、面部表情、体征表现,都会对其心理认知过程造成干扰,进而影响其译文质量和翻译效率。人工智能领域的疲劳检测技术和表情识别技术等非常适合这一应用场景,当发现译者处于疲劳状态或情绪剧烈波动时,系统可提醒其适当休息并减少其任务的分配量,以免将过多的任务发送给疲劳或情绪不佳的译者;而对于精力充沛、情绪良好的译者则适当配予更多翻译任务,提升众包翻译平台综合管理水平。
  (三)译后阶段的人工智能应用展望
  在译后阶段,译者完成众包翻译平台分配的任务并将译文反馈给平台,此阶段要解决的关键问题为:如何有效检测译者的误译、漏译等偶然因素造成的错误,如何对不同译者的翻译工作进行评估以便绩效管理,如何获取译者的工作效率、业务能力、擅长语种、擅长领域、工作细致程度等多方面特征以便精准地分配任务。
  1)以译后编辑为切入点的人工智能技术应用
  无论译中阶段采用人工翻译还是机器翻译,译文中均可能存在误译、漏译以及其它偶然因素造成的错误。译后编辑成为众包翻译质量保障一个关键环节。此阶段,可引入自然语言处理技术对译文的逻辑性、语法、选词、拼写和语义完整性等方面进行全面分析,实现译文自动校对,修复常见语法、逻辑错误等,再由众包翻译的译后编辑人员进一步人工处理。此外,还可以引入计算机视觉技术,根据原始文档对译文排版进行自动调整,使其与原始文件的视觉效果保持一致,以进一步提高目标文本质量。
  2)以翻译评估为切入点的人工智能技术应用
  翻译评估可让管理者及时了解译文质量并在众包翻译过程中做出适当干预和调整。传统翻译评估采用人工方式进行,效率低、成本高,而机器翻译采用的自动度量标准,例如:BLEU、NIST、 错词率(Word Error Rate)、METEOR 等需要预先设置目标文本作为参考(通常众包翻译中并无预先设置的目标文本)。此处可利用翻译大数据对译文错误进行预测,利用译后编辑过程中所产生的反馈数据,结合自然语言处理技术、模式识别技术等实现自动翻译评估,及时反馈译文质量。
  3)以译者画像为切入点的人工智能技术应用
  众包翻译在译中阶段若采用人工进行翻译,可获取各类译者行为数据,如:译者提交译文的速度、接单量、接单时间、主动选择的译文类型以及译后编辑产生的反馈数据可反映出译者的工作效率、业务能力、擅长语种、擅长领域、工作细致程度等多方面特征。此阶段可引入人工智能领域的用户画像技术,分析译者特点,建立并不断完善译者模型,动态了解译者工作状况、专业领域优势、翻译水平等,为众包翻译的译者考核管理、翻译任务调度等提供支撑。
  (四)基于众包翻译数据的人工智能系统迭代
  现代人工智能技术的发展对数据的质与量都有极强依赖,众包翻译作为一种跨语言、跨地域的语料数据加工方式,其中间环节和最终输出均可为人工智能的模型训练、优化以及人工智能技术研究提供海量优质数据资源。笔者认为可从以下三个方面切入,充分运用众包翻译所产生的数据对人工智能系统进行迭代,不断优化其智能水平以适应不同应用场景需求:
  1)利用众包翻译所产生的平行语料数据迭代机器翻译系统
  众包翻译的最终输出可加工为平行语料数据(通常为双语平行语料,当源文本被同时翻译为两个以上语种目标文本时则可输出多语平行语料),这些语料数据通过进一步加工和完善,可反馈给机器翻译系统以用于训练、改进现有机器翻译模型或用于新的机器翻译技术研究。
  2)利用译后编辑数据构建译者画像模型迭代译者推荐系统
  译后阶段所产生的译后编辑数据可反映出译者对特定文本的翻译水平、工作细致程度。在此基础之上,结合译者行为数据构建译者画像模型,将其反馈给译前阶段的译者推荐系统,可提升推荐系统的精准度或用于研究新的推荐模型。
  3)利用译后编辑数据迭代源文本提取系统
  当译前阶段源文件为图片或无法直接解析出文本的 PDF 格式等情况时,若源文本提取系统基于 OCR 技术对图像进行文字识别,其识别结果可能存在一定错误输出。针对这一问题,在译前阶段或译后编辑中可适当人工校对,对源文本和译文进行检查、修正其中字符识别错误或排版格式识别错误。这些被识别错误的图片,可作为新标注的困难样本反馈给源文本提取系统,用于改进现有模型或研究新的 OCR 算法,通过不断迭代让人工智能技术适应不同实际应用场景文本提取需要。


  三、结语
  数字化技术和互联网带来的众包翻译模式,通过有效整合社会零散翻译资源和大众智慧,提升翻译效率、促进翻译产业化和社会化。随着 AI 时代的到来,在大数据、高性能计算、深度学习技术的驱动下,机器翻译、文字识别、语音识别等许多应用领域取得突破进展,显现出巨大社会效应和商业价值。如何将人工智能技术有机地融入众包翻译的理论与实践之中,提高翻译效率、改善译文水平、促进译员分工协作、推动行业进步成为翻译学科一个新的课题。本文分析了当前众包翻译所面临的机遇与挑战,并结合 AI 时代背景,对人工智能技术与众包翻译协同发展的蓝图进行展望。从众包翻译的译前、译中、译后三个阶段,系统探讨了人工智能技术在众包翻译领域的切入点、结合方式、潜在价值、技术难点及应对策略。针对人工智能技术发展的数据依赖性,提出了一种利用众包翻译过程加工与生成数据以改进现有人工智能技术的构想。众包与AI 时代的到来,必然导致社会分工协作方式和产业结构的调整,也将对翻译学科发展产生深刻与长期的影响。
  基金项目:本文是国家社会科学基金青年项目“认知文体学视域下阿来小说地域特征性及汉英平行文本对比研究 ”( 批准号:14CYY002)、西南交通大学美国研究中心 2019 年年度项目(ARC2019001)的阶段性成果。


  注释
  ① Translation is living through a period of revolutionary upheaval. The effects of digital technology and the internet on translation are continuous, widespread and profound. From automatic online translation services to the rise of crowdsourced translation and the proliferation of translation apps for smartphones, the translation revolution is everywhere.
  ② [T]he act of taking a job traditionally performed by a designated agent […] and outsourcing it to an undefined, generally large group of people in the form of an open call. This can take the form of peer-production, but it is also often undertaken by a sole individual.
  ③ [T]o translate the overall message of the text, translators often need to
work outside the artificial boundaries of sentences, so the sentence-bysentence approach imposed by TMs may not be conducive to effective
  translation of the text’s message as a whole.
  ④ https://www.smartling.com
  ⑤ https://www.duolingo.com
  ⑥ https://amara.org
  ⑦ https://www.github.com


  参考文献
  [1]  Aikawa, Takako, Yamamoto, Kentaro and Hitoshi Isahara. The Impact of Crowdsourcing Post-editing with the Collaborative Translation Framework [A]. In Hitoshi Isahara and Kyoko Kanzaki (eds.). Advances in Natural Language Processing [C]. Berlin and Heidelberg: Springer, 2012: 1-10.
  [2]  Bassnett, Susan and André Lefevere. Translation, History and Culture [C]. London and New York: Pinter, 1990.
  [3]  Bowker, Lynn. Translation Memory and Text [A]. In Lynn Bowker (ed.). Lexicography, Terminology and Translation [C]. Ottawa: University of Ottawa Press, 2006: 174-187.
  [4]  Cronin, Michael. Translation in the Digital Age [M]. New York & London: Routledge, 2013.
  [5]  Göpferich, Susanne. Textsorten in Naturwissenschaften und Technik, Pragmatische Typologie-Kontrastierung-Translation [M]. Tubinga: Gunter Narr, 1995.
  [6]  Hassan, Hany, et al. Achieving Human Parity on Automatic Chinese to English News Translation [Z]. arXiv preprint arXiv:1803.05567. 15 March 2018.
  [7]  Howe, Jeff. Crowdsourcing: A Definition [EB/OL]. (2006-06-02) [2018-02-19]. http://crowdsourcing.typepad.com/cs/2006/06/crowdsourcing_a.html. The Rise of Crowdsourcing [EB/OL]. Wired. (2006-06-01)[2018-11-04]https://www.wired.com/2006/06/crowds/
  [8]  Hurtado Albir, Amparo. Researching Translation Competence by PACTE Group [C]. Amsterdam and Philadelphia: John Benjamins, 2017.
  [9]  Hutchins, John. Two Precursors of Machine Translation: Artsrouni and Trojanskij [J]. International Journal of Translation, 2004, 16(1): 11-31.
  [10] Jiménez-Crespo, Miguel A. Translation and Web Localization [M]. New York and London: Routledge, 2013.
  [11] Jiménez-Crespo, Miguel A. Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [M]. Amsterdam and Philadelphia: John Benjamins, 2017.
  [12] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks [A]. In F. Pereira, C.J.C. Burges, L. Bottou and K.Q. Weinberger (eds.). NIPS’12 Proceedings of the 25th International Conference on Neural Information Processing Systems [C]. Vol. 1. 2012: 1097-1105.
  [13] McCarthy, John, Marvin L. Minsky, Nathaniel Rochester, and Claude E. Shannon. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence [J]. AI Magazine, 2006, 27(4): 12-14.
  [14] Nord, Christiane. Text Analysis in Translation: Theory, Methodology and Didactic Application of a Model for TranslationOriented Text Analysis [M]. Amsterdam and Atlanta: Rodopi, 1991.
  [15] Remael, Aline. Audiovisual Translation [A]. In Yves Gambier and Luc van Doorslaer (eds.). Handbook of Translation Studies [C]. Vol. 1. Amsterdam and Philadelphia: John Benjamins, 2010: 12-17.
  [16] Rizzolatti, Giacomo and Laila Craighero. The Mirror-Neuron System [J]. Annual Review of Neuroscience, 2004, 27(1): 169-192.
  [17] Russell, Stuart J. and Peter Norvig. Artificial Intelligence: A Modern Approach [M]. 3rd ed. Upper Saddle River, New Jersey: Pearson Education, 2010.
  [18] Shao, Lu. Reconceptualizing Translation: Tymoczko and the Radical Inclusive Approaches to Translation [J]. Translation Quarterly, 2010 (57): 99-107.
  [19] Shao, Lu. Review of Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [J]. Babel, 2017, 63 (6): 901-906.
  [20] Stepper, Sabine and Fritz Strack. Proprioceptive Determinants of Emotional and Nonemotional Feelings [J]. Journal of Personality and Social Psychology, 1993, 64 (2): 211-220.
  [21] Turing, Alan Mathison. Computing Machinery and Intelligence [J]. Mind, 1950 (49): 433-460.
  [22] Wells, Gary L. and Richard E. Petty. The Effects of Over Head Movements on Persuasion: Compatibility and Incompatibility of Responses [J]. Basic and Applied Social Psychology, 1980, 1(3): 219-230.
  [23] Williams, Lawrence E. and John A. Bargh. Experiencing Physical
  Warmth Promotes Interpersonal Warmth [J]. Science, 2008, 322(5901): 606-607.
  [24] Wolf, Michaela. Translation “Going Social”? Challenges to the (Ivory) Tower of Babel [J]. MonTI, 2010 (2): 29-46.


  作者简介 邵璐,香港浸会大学翻译学哲学博士,中山大学外国语学院教授、博士生导师、博士后合作导师,天津外国语大学中央文献翻译研究基地兼
  职研究员。研究方向:文学翻译、翻译技术、翻译批评。

 
返 回
翻译公司相关翻译资讯信息:
中国文学译介与影响因素——作家看中国当代文学外译  

如何建立口译笔记?  

瑞科翻译公司董事长刘克超受邀担任“艺果杯”翻译技术大赛评委   

如何练习翻译基本功?  

翻译过程中数字的使用技巧  

机器翻译会取代人工翻译吗?  

瑞科翻译公司
翻译咨询
点击在线咨询
瑞科上海翻译公司
电话:021-63760188
021-63760109
电邮:nj@locatran.com
地址:上海市中山南路969号谷泰滨江大厦12层
瑞科南京翻译公司
电话:025-83602926
025-83602369
电邮:info@locatran.com
地址:南京市红山路88号常发广场3号楼825-829室
 南京翻译公司 | 招聘英才 | 友情链接 | 服务区域 | 网站地图 | 瑞科翻译(新版)
瑞科翻译公司专注翻译16年,是一家专业的人工翻译公司,潜心打造优质翻译服务品牌!
©2004-2019 LocaTran Inc. All Rights Reserved.      版权归瑞科(上海、南京)翻译公司所有        沪ICP备09017879号-4