基本信息
- 项目名称:
- “谷歌翻译”英译汉偏误分析与对策
- 来源:
- 第十一届“挑战杯”国赛作品
- 小类:
- 教育
- 简介:
- 机器翻译是语言学领域唯一被列入当代科学技术十大难题的研究项目,是语言学和计算机科学结合的交叉学科。通过自动翻译克服语言障碍、实现信息共享有重大的意义。“谷歌”公司开发的系统——“谷歌翻译”拥有着庞大的用户群,其译文却不尽人意。本文发挥语言类专业学生的专业优势,将第二语言习得领域的偏误分析法引入到了机器翻译的译文评测当中,并以“谷歌翻译”为研究对象进行了实践分析,对纠正偏误、改进译文质量提出了设想。
- 详细介绍:
- 21世纪以来,随着互联网的普及和跨语言交流的日益频繁,克服语言障碍,实现信息共享的需求日益凸显。利用计算机实现廉价、快捷、高质量的自动翻译一直是人类的梦想。从上世纪五十年代开始,语言学、计算机科学、数学等相关领域的专家学者就一直在努力探索,力图攻克这一难题。然而,经过六十多年的研究,机器翻译的译文质量仍远远不能满足用户的需求。 本课题组成员均为语言专业大学生。我们将第二语言习得(Second Language Acquisition)中的偏误分析法(Error Analysis)引入到了机器翻译测评(Machine Translation Evaluation)当中,提出了“机器翻译偏误”的概念及其研究方法。 我们选取《新概念英语》第二册1-48课课文作为源语言语料;采用“谷歌(Google)”公司开发的在线翻译系统“谷歌翻译”作为测评系统。通过对500多例翻译语料的筛选、标注,得到824条偏误语料。 在对大量偏误语料进行分析过程中,本课题组还提出了两大视角(源语言视角和目标语言视角)来拓宽偏误的涵盖面;同时又通过优先顺序和经济性原则的规定,尽可能地减少了重复分析。最后,我们在统计数据的基础上,归纳出了“谷歌翻译”英译汉8种常见的偏误类型。 “谷歌翻译”系统在技术实现上过多地依赖于统计的方法,重技术、轻语言,这一缺陷严重阻碍了其译文质量的提高。为了纠正偏误、提高译文质量,除了要加强大规模真实语料的统计、训练,更要注重语言学规则的算法化与实现研究。
作品专业信息
撰写目的和基本思路
- 本课题组在使用“谷歌翻译”的过程中,发现了该系统译文存在“偏误”现象。因此,我们将第二语言习得领域的偏误分析法引入机器翻译译文评测中,提出了“机器翻译偏误”及其研究方法。我们以“谷歌翻译”系统为研究对象,对824条英译汉偏误语料进行了筛选、标注、统计,以统计数据为基础,归纳出该英译汉系统8种常见的偏误类型及其分布,初步分析了产生偏误的原因,并提出了纠正偏误、改进译文质量的设想。
科学性、先进性及独特之处
- 本研究利用语言类学生的专业优势、关注学术前沿,理论联系实际,将第二语言习得领域的偏误分析法引入到机器翻译译文评测当中,提出了“机器翻译偏误”概念并对其进行系统研究,包括偏误视角、偏误类型、偏误分布和成因分析。与传统的做法不同,我们在偏误分析的视角上,既关注源语言视角,又关注目标语视角;在偏误类型归纳方面,通过规定优先级尽可能避免交叉分类现象。因此可以说本课题在理论和方法两方面均具有创新性。
应用价值和现实意义
- “谷歌翻译”等系统在技术实现上过于依赖数理统计、重技术轻语言,阻碍了其译文质量的提高。本课题发挥语言类学生的专业优势,理论联系实际,提出了“机器翻译偏误”概念及其研究方法,为机器翻译译文质量测评提供了新的研究思路;所总结出的“谷歌翻译”英译汉的8种偏误类型可以通过补充规则的方式运用到机器翻译系统的设计中,从而有效提高译文水平;该研究方法对改进其他翻译系统也有积极的参考价值。
作品摘要
- 机器翻译是语言学和计算机科学相结合的交叉学科。利用计算机实现自然语言之间的高质量自动翻译对于促进国际交流、实现信息资源共享具有重要的意义。对机器翻译译文进行合理的评测,有助于机器翻译系统的改进。本课题将第二语言习得研究中的偏误概念和偏误分析理论引入机器翻译的译文评测,提出“机器翻译偏误”的概念并探索其研究方法。从源语言和目标语两个视角对“谷歌翻译”英译汉语料进行分析,归纳出了八种常见偏误类型及其分布比例。这一结果有望通过补充规则的方式运用到机器翻译系统的设计中,从而有效提高译文水平;这一研究方法对改进其他翻译系统也有积极的参考价值。
获奖情况及评定结果
- 2009年首都“挑战杯”学术科技竞赛一等奖。
参考文献
- [1] 叶蜚声,徐通锵.语言学纲要[M].北京.北京大学出版社,1997. [2] 张政. 计算机翻译研究[M]. 北京:清华大学出版社,2006. [3] 冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004. [4] 俞士汶.计算语言学概论[M].北京:商务印书馆,2003. [5] 刘珣.对外汉语课堂教学引论[M].北京:北京语言大学出版社,2000. [6] 朱德熙.语法讲义[M].北京:商务印书馆,1982. [7] 黄伯荣,廖序东.现代汉语(下册)[M].北京:高等教育出版社,2002. [8] 刘颖.计算语言学[M].北京:清华大学出版社,2002. [9] (英)亚历山大,何其莘. 新概念英语(2)(新版)实践与进步[M].北京: 外语教学与研究出版社,2007. [10] S. Pit Corder.1981, Error Analysis and Interlanguage, Oxford: Oxford University Press.
调查方式
- 本文采用了语料调查的方法。首先选取真实的源语言语料,通过机器翻译系统取得目标语语料;对目标语语料进行筛选、标注、统计,在统计数据的基础上,进行理论分析。
同类课题研究水平概述
- 机器翻译译文的评价有人工测评和自动测评两种方式。 在国外,人工评测方面,广泛采用的美国科学院语言自动处理咨询委员会(简称ALPAC)报告中对机器翻译译文的评价标准,包括:可懂度(Intelligibility)和忠实度(Fidelity)、语体风格(Genre)和语法(Grammar),主要从目标语的角度来对译文进行分级评测。欧洲共同体采用的是另外一套评估标准,从识别、经济、语言、使用难易度四个方面对机器译文进行测评。此外,日本科学技术厅将可懂度和忠实度进行了分级,力图将人工评测标准量化。自动评测方面,广泛使用的BLEU(Bilingual Evaluation Understudy)和NIST(National Institute of Standards and Technology)两种指标,均通过计算机程序,测试机器翻译译文和参考译文相似度。 在国内,对机器翻译的测评的研究主要由北京大学计算语言所进行。在20世纪90年代即开发了基于分类评估法的机器翻译评测系统,并建立了机器翻译评测大纲。从2003年到现在,在人工评测方面,采用可理解率、忠实度、流利度等指标;在自动评测方面,大多采用国际通行的一些指标。 国内外各种机器翻译评测都主要是以目标语视角进行的——以译文质量为核心、而译文评价的标准也都最后落在了忠实度和可懂度上。 本课题所引入的机器翻译偏误分析法采用了源语言、目标语两大视角,关注语言现象,力图通过语言学的解释为译文质量提高、系统改进提供思路。不仅关注译文质量的忠实度、可懂度,更关注由于工程实现的规则缺失而造成的偏误。