摘要:随着依托深度学习的神经网络翻译技术不断完善,构建全自动机器同声传译系统已具备了基础的现实条件,然而至今机器同声传译系统仍处在纸面阶段,鲜有基于机器同声传译的商业化产品问世。通过比较同传译员与机器翻译的工作模型、现有机器翻译的技术瓶颈等角度探讨机器同声传译系统的现实可能性,并从计算机辅助口译的角度出发提出解决对策。
Abstract: The evolution of the artificial neural network has paved a way for establishing an automated simultaneous interpreting system. Based on the working model of the simultaneous interpreter, the machine translation system and its limitations, this paper explores the realistic condition for establishing an automated SI system, and its alternative scheme from the perspective of computer-aided interpreting.

同传译员的工作模型

同声传译是大型正式会议或国际商务活动等场合中广泛采用的传译方式,译员在接受原语输入的同时进行理解、分析、转换、目标语表达等一系列过程。同传译员需要在接受原语信息后在极短时间内将信息以目的语传达,并需要承担同时进行听说状态下的多任务分解处理和突发状况的高度应变能力(肖晓燕,2001:33)。相较于交替传译和视译,同声传译接受的语流更为碎片化和随机化,讲者通常会在无意识情况下反复陈述前文内容,产出内容不完整、句式不合语法的残碎句,并不断进行自我更正,上述因素使同声传译普遍认为是机器翻译最难以实现的翻译类型。
1988年,法布罗和格兰(Fabbro,1988:23;Gran,1988:23)对口译教学中的大脑活动进行了初步考察,着重研究口译译员工作及第二语言习得过程中大脑的活跃程度(taps)是否发生明显变化。法布罗和格兰(1991:28)在之后又对同传译员的大脑半球活动进行了脑电图扫描,试图研究同传译员的脑半球对比未经口译训练的常人是否更加活跃,即大脑偏侧性。奥布莱恩(O’Brien,2006:88)提出利用眼球侦测技术监测译员的眼球运动轨迹,通过分析译员在特定内容的眼球停留时间分析翻译记忆库与译员思考时间的关系。于文婷(Wenting Yu,2017:58)运用声学分析软件Praat对口译译员的译文波形进行可视化量化分析,通过判断译员的停顿、犹豫及无意义言语等因素对口译译文的流畅度进行了定义。诸多学者的研究结果将口译研究从单纯的语言学层面过渡为结合神经科学、认知心理学、计算语言学等应用科学层面。在跨学科研究基础上,吉尔(Gile)提出的同传译员精力分配模型(interpreter’s effort models)与希伯(Seeber)提出的同传译员认知负担(cognitive load in simultaneous interpreting)很好地解释了同传译员基于理解后产出的工作模型:
吉尔(Gile,1997:169)在其著作《口笔译训练的基本概念与模型》中指出,同传译员的译文处理不可能是毫不费力的,译员必然要消耗某种有限度的“精神能力”以完成翻译活动,该类精神能力涵盖了译员的听力与分析(L)、短期记忆(M)、译文产出(P)和综合协调(C),即SIM=L+M+P+C。进行同声传译所需要的总负荷不能超过译员的综合处理能力(availability),即SIM ≤ A。若出现信息密集度大幅增加、出现高频率人名或数字等情况时,译者必须采用翻译策略压缩或省略部分信息以减少精神负载,否则便极有可能出现状态下降(quality deterioration),影响译文产出。
西比尔(Seeber,2011:231)在论文《同声传译中的认知负荷:旧理论与新模型》中提出的“认知负荷”理论同样将同声传译归结为基于理解与产出的工作模型。西比尔引用了奥斯特豪特(Osterhout)对语言处理的定义,即“语言处理过程包含了语言层面、词汇层面、句法层面、语义层面和语用层面的处理,分别负责语音识别、语法分析、信息提取、语义理解、语段分析即模糊信息的处理。”(Osterhout ,1994;沈茜,2014译)。希伯尔将同声传译定义为结合语言理解与语言产出同时进行的任务,口译员需要承担五个层面的精神负荷,即记忆负荷(storage)、感知任务(perceptual auditory verbal processing)、认知负荷(cognitive verbal processing)、语言响应(verbal Response processing)和多任务干扰(interference)。同传活动中,口译员除了需要进行原语译码与目的语编码的任务外,还需要处理转换信息时认知任务之间产生的相互干扰,因而同声传译的性质除了进行宏观层面的语言转换外,还需要实时采取各种微观层面策略,以防止认知负荷过重导致语言处理过程的崩溃。


吉尔与西比尔均肯定了同声传译是一种基于“听力理解”的口译活动,即精力分配模型中的听力与分析(LA)与认知负荷理论中的感知任务(P),因而我们可以将同声传译的工作模型定义为:以同传活动背景知识为宏观框架、以语流瞬时记忆为译码主体,通过断句切割为编码方式,运用翻译策略压缩码率并完成目的语输出的实时翻译活动。译员需要事先准备会议内容以扩充双语语料库,在口译活动的单位时间(t1-t2)内完成从听力理解到译文输出的五个工作环节,并实时协调处理好不同环节的资源分配,若其中有环节在协调时间内受到影响超出译员自身统筹能力,则容易拉长译员的听译时差(ear-voice-span),最终形成溢出效应。

 机器同传系统的工作模型

与人类同声传译活动类似,机器同声传译也需要完成语音转码、自动翻译、语音合成三个主要任务。上世纪八十年代隐马尔科夫模型(HMM)的提出 (吴军,2006)使同等资源占用的语音识别与机器翻译准确率获得了大幅提升,构建全自动同声传译系统的可行性从概念落到了实处。卡尔斯鲁厄理工学院的福根(Fügen,2008:17)通过收集语音数据构建语音识别系统、训练统计翻译模型等方式构建了英-德实时语音转文字翻译系统,并完成了基本的端对端自动评估;日本国家情报通信研究机构王小林(Wang,2016:31)等通过训练开源语音识别引擎Kaldi,整合语音识别、在线英文分句器、符号预测器、机器翻译与语音合成的方式搭建了TED演讲的英-日同步机器口译原型;同济大学宋全德(2011:166)等通过调用微软语音SAPI、谷歌翻译、微软语音(Microsoft TTS)接口服务聚合,也搭建了基本的同声传译平台。
尽管机器口译能通过特定流程模仿同传译员进行译文产出,如微软研究院在第十四届“二十一世纪的计算”国际学术研讨会上实现了自动化交替传译 ,然而基于概率推算的机器口译系统与基于深层语义理解与策略翻译的同传译员工作模型存在着本质区别。现有机器翻译引擎的面向对象多为整段带断句符的书面文本,有翻译基础的用户在使用机器翻译前会进行预编辑以提高机翻译文质量(萧世昌,2005),而机器同声传译系统的面向对象则更为复杂,输入文本多为强噪音环境下实时语流,并含有大量语法错误及发言人自我更正的碎片式文本。因而机器同声传译系统在单位时间(t1-t2)内需要完成从语音识别、机器翻译到语音合成的三个主要步骤,如图2所示:


图2:自动机器口译系统的工作流程

讲话人语流经过硬件降噪(如远场麦克风数组降噪)及软件降噪(如前端处理算法)等方式处理为波形信号,波形信号随即进行语音识别处理,通过匹配原语发音字典及原语字符字典后为转换文字字符流,之后根据句间停顿、语义概率分析等算法切割为长度不等的字符串;切割下的字符串提交机器翻译引擎翻译为目的语,最后匹配目标语发音词典合成为目标语流并进行输出。
语音识别由声学模型(发音字典)和语言模型(字符字典)两个核心模块构成(张增良,2017:4)。传统的语音识别系统普遍采用基于高斯混合模型(GMM)和隐马尔科夫模型的声学模型和n-gram语言模型,实现了从孤立词汇识别向大量词汇连续语音识别的系统发展。近年来,使用反向传播演算法的深度神经网络(DNN)相对传统的高斯混合模型-隐马尔科夫模型获得了显著的质量提升。通过集中扩展深度学习应用技术、改进基于神经网络的听觉和语言模型,IBM和微软分别使词错率(WER)降至5.5%和5.1%,谷歌在2017年12月发布的端对端识别模型(end-to-end models)使输入端到输出端直接用一个神经网络承担,实现了基于注意力机制(LAS)的更少训练时间与更高精准度。根据赵全成和特里帕西(Chiu,2017:1; Tripathi,2017:1),在医患对话等特定场合下,端对端神经网络取得了高达92%的语音识别精度,并具备了对背景噪音和讲话人口音的较强抗性。
深度神经网络对机器翻译质量也实现了大幅度提升。机器翻译经历了从句法规则翻译(RBMT)、统计翻译(SMT)到神经网络翻译(NMT)的四个阶段。早期的句法规则翻译通过对切割原语语块、词性分类、替换对等译文、调整语序的方式进行翻译,通过句法规则重组句式生成译文。句法规则翻译难以胜任句式复杂的长难句,而统计翻译规则通过统计分析大量的平行语料库构建基于概率的统计翻译模型,实现了以短语为单位的自动翻译。相对于统计翻译规则,神经网络模拟了生物神经元中的树突、细胞体、细胞核、轴突、轴突末端等结构 ,实现了以句为单位的自动翻译,因而超越了统计翻译规则并被沿用至今。
然而,神经网络语音识别和机器翻译技术基础仍是“概率演算”而非“语义理解”,语音识别和翻译引擎的“智能”,仍是基于数学模型对语料库中的大量候选词句进行概率演算——它只能将发言人无意识反复强调或自我更正的无意义语句巨细无遗地传达给听众,而无法实现人类同传译员所具备的“翻译策略运用”。钟义信(2004:2)早前指出,“要求机器达到人一样的水平来理解人类的语言,更是遥不可及”,直至今日对自然语言理解(NLU)的探索依然进展寥寥。今年1月,在香港浸会大学《从“X”实现数据分析与人工智能》讲座上,加州大学伯克利分校首席人工智能科学家西德胡(Sidhu)表示:“自然语言处理在2018年仍有很大完善空间” 。

构建计算器辅助口译系统

若将机器同声传译系统分解为语音识别、断句切割、机器翻译与语音合成四个聚合的系统加以分离,便可在很大程度上协助同传译员。以语音识别为例,语音识别系统面向的对象是强耦合的单词或短语,即声音波形录入后有唯一的标准产出答案。正如前文所述,语音识别系统相对人类译员能“听懂”某些译员听不懂或易听错的专有名词或行业术语,若译员在译前将专有名词及对应译文制作为术语库,同传过程中语音识别系统侦测到相应关键词并实时显示出对应译文,此时译员便与计算机达成了人机互动,形成了简易的计算机辅助口译(Computer-aided interpreting)系统:

图3:人机协作口译系统工作流程图

基于该构想,笔者在前述系统的基础上舍弃了机器断句与翻译系统,并构建了基于实时语音识别和双语术语实时释义的计算机辅助口译系统。双语术语库基于tbx(TermBase eXchange)格式构建。基于笔者提出的人机协作口译系统工作流程,断句与翻译的主导权将交还给同传译员,由语音识别系统辅助同传译员进行专有名词、行业术语、数字与口音听解。试验过程中,工作状态下识别内容与对应中文内容分别以深灰色和深蓝色在屏幕下方实时显示,剩余内容变淡并向上推移,溢出屏幕的部分整合进第二屏识别历史框内。

结语

通过对比人类同传译员与机器同传系统的工作模型,结合实证分析主流机器系统的实时翻译表现,我们可以得出结论:基于大数据与深度学习的人工智能目前在断句处理、基于语篇的语义理解与容错能力上依然有待提高,结合同声传译语流的复杂性与随机性特点,短期内构建从语音识别到译文输出的自动化机器同声传译系统仍不具备现实性。然而,现有的语音识别技术已经实现了在有背景噪音与回声、较快语速下的实时语音识别,并能精准辨认出行业术语与专有名词。经过笔者实证研究,构建基于实时语音识别与实时双语术语显示的计算机辅助口译系统已具备可行性。因此,即自动断句技术完善前构建基于术语库的计算机辅助口译系统,在自动断句技术完善后构建基于语料库的定制化半自动机器口译系统,是人工智能背景下可行性较高的发展方向

参考文献

[1] Chiu C C, Sainath T N, Wu Y, et al. State-of-the-art Speech Recognition With Sequence-to-Sequence Models[J]. 2017.
[2] Chiu C C, Tripathi A, Chou K, et al. Speech recognition for medical conversations[J]. 2017.
[3] Fügen C. A system for simultaneous translation of lectures and speeches[J]. 2008.
[4] Gile D. Basic concepts and models for interpreter and translator training /[M]. 上海外语教育出版社, 2011.
[5] Fabbro F, Gran L, Basso G, et al. Cerebral lateralization in simultaneous interpretation[J]. Brain & Language, 1990, 39(1):69-89.
[6] Müller M, Nguyen T S, Niehues J, et al. Lecture Translator – Speech translation framework for simultaneous lecture translation[C]// Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. 2016:82-86.
[7] O’Brien Sharon. Eye‐tracking and Translation Memory Matches [J]. Perspectives, 2007, 14(3):185-205.
[8] SIU Sai-cheong. Automated Pre-editing and Post-editing: A Hybrid Approach to the Computerized Translation of Initial Public Offering(IPO) Prospectuses [J].Journal of Translation Technology(1),2015.
[9] Seeber K G, Kerzel D. Cognitive load in simultaneous interpreting: Model meets data[J]. International Journal of Bilingualism Interdisciplinary Studies of Multilingual Behaviour, 2012, 16(2):228-242.
[10] Seeber K G. Cognitive load in simultaneous interpreting: Measures and methods[J]. Target, 2013, 25(1):18-32.
[11] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[J]. 2017.
[12] Wang X, Finch A, Utiyama M, et al. A Prototype Automatic Simultaneous Interpretation System[C]//Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: System Demonstrations. 2016: 30-34.
[13] 柴明颎. 互联网大数据的语言服务——从AlphaGo说起[J]. 东方翻译, 2016(3):4-9.
[14] 刘和平, 雷中华. 对口译职业化+专业化趋势的思考:挑战与对策[J]. 中国翻译, 2017(4):77-83.
[15] 沈旦. 语音识别辅助同声传译仿真研究[D]. 厦门大学, 2014.
[16] 宋全德, 褚晓圆, 白杰,等. 基于服务聚合的同声传译平台的设计与实现[J]. 计算机应用与软件, 2011, 28(10):163-166.
[17] 肖晓燕. 同声传译的多任务处理模式[J]. 中国翻译, 2001(2):33-36.
[18] 徐琦璐. 人工智能背景下的专业口译教学系统的创新研究[J]. 外语电化教学, 2017(5).
[19] 张增良. 语音自动断句及外语视听教学资源的同步整合[J]. 计算机时代, 2014(6):4-7.
[20] 钟义信. 自然语言理解的全信息方法论[J]. 北京邮电大学学报, 2004, 27(4):1-12.
[21] 仲伟合. 口译训练:模式、内容、方法[J]. 中国翻译, 2001, 22(2):30-33.