2024年5月4日发(作者:)

龙源期刊网

翻译记忆与小型英汉双语语料库的构建

作者:宋忱忱 张月辉

来源:《大东方》2018年第04期

摘 要:自建的小型双语语料库在翻译教学和研究领域中应用广泛,近年来各学者也开始

重视这方面的研究。但目前,我国的广大翻译研究者中,只有部分学者较为深入此领域,而大

多数人只是浅略了解,缺乏相应的操作经验。事实上语料库技术是一项实用类技术,作为使用

者的个人应该把主要精力放在内容的选取和呈现方面。本文旨在以翻译记忆为基础,尝试以现

有的常见机辅手段构建小型英汉双语语料库。

关键词:翻译记忆;小型英汉双语语料库

一、记忆库

(1)定义。翻译记忆库(TM)是一种存储原文和译文的数据库系统,所存储的数据可供

在将来重复使用。在翻译过程中,当出现相同或相似的句子或短语时,记忆模块会搜索与原文

相同或相似的实例,自动输出译文部分,以供译员参考和修改。使用机辅软件翻译的材料越

多,记忆库(TM)存储的内容就越多,因此译者的翻译工作效率也会随之提高。

(2)应用。共享在线翻译记忆库,使译者间自由选用和参考其他译员的工作成果成为了

可能。使用各类翻译软件时,译员一般要先行建立一个记忆库以及术语库(表)。在初次使用

且没有现成记忆库的情况下,记忆库则有待慢慢积累,一般规模较小且只能够提供有限的参考

数据。那么,则可以利用双语对齐工具来初步收集可用语料。其原理就是将原文句段和相应的

译文句段以翻译单元进行自动配对。若效果偏差过大,则需要手工对齐,译员可将句段分割开

或将句段合并,在自动对齐以后再使用菜单检查文件检查对齐结果。最后将这些连好的翻译单

元导出生成相应文件,并最终导入到翻译记忆库中。

(3)术语。另一个重要工具就是术语管理系统,译员可以将术语及相关信息储存于特定

的数据库中,即术语库(termbase)。译员可建立术语库,添加和编辑术语,在术语库中进行

浏览,搜索,设置筛选条件,并且导出数据。在制作术语库时,不能做得太大,否则运行速度

会有所下降;也不宜太小,一方面不方便使用,另一方面,术语库切换十分消耗时间。鉴于术

语库能够为译员提供更一致、更有效的术语管理,此项内容和技术的参考价值并不可忽视。

二、小型翻译语料库的构建

在创建自己的语料库前,首先应根据该语料库的用途确定一些基本原则。在实际翻译作业

中,各译员多多少少都接触过术语库,也使用过一些综合性翻译软件,且对翻译记忆也有一定

了解。但小型语料库的建立迄今未有明确的标准和规范,其一般包括语料采集、标注和赋码的

过程。

龙源期刊网

(1)语料采集和格式转换。在数十人参与同一个翻译项目的情况下,每位译员之间的交

流沟通不仅不够便利,另一方面也会影响作业效率。这时就可以在翻译记忆和术语库的基础

上,临时建立小型语料库以满足项目的进程要求。尤其对于长期项目来说,此操作可以达到一

举多得事半功倍的效果。

构建语料库所需语言材料的采集不是随意的。对小型语料库建设者来说,语料需要便于搜

集、格式统一、内容要根据实际情况,有针对性地进行筛选。目前,因特网和各种大型电子文

库无疑为我们提供了方便可靠的机读数据来源,然而把网页内容逐页下载的做法费时费力,可

行性不高。在实际工作中可使用一些免费的小型工具软件来辅助语料搜集,先进行关键词搜

寻,然后将含有关键词的网页的文字性内容一次性下载。语料库工具软件的相应辅助工具,能

够进行关键词网页搜索并可就网页内容的语料语言、网页的最小字数、语料的最小字数等条件

进行定制,定制完成后就可一次性多线程下载相关网页。

然而在网页上采集语料虽然简单易行,但是要特别注意语料版权的问题。版权问题有时要

比语料收集更为复杂。美国版权法中有“合理使用”的条款,指用于非商业性的研究工作时,可

以使用受版权保护文章的部分或全部内容。然而,该“合理使用”也不可以将受版权保护文章节

选2000字以上,并私自用于语料库发行。所以,对于个人制作的小型翻译语料库要严格限定

其使用范围,最好仅供建库者个人使用,以避免版权纠纷。

(2)语料的赋码。以上述方式获得的语料还要清除杂质和多余符号,并统一语料的格式

和存放方式。语料最好是每一个文本作为一个独立文件单独存放,这样,研究时就可得出每个

文本的统计特征及整个语料库的总体统计特征。如果语料库是一个文件,那么就只能检测出整

个语料库的总体统计特征。语料赋码工作的第一步通常是加注篇头(header),即给语料标注

篇名、作者、文本、领域、语体、时代、出版信息、文本字数文本、领域、语体、时代、出版

信息、文本字数等。一般做法是将上述信息分别填入尖括号中并放置在文本第一句前面。加注

篇头目前还没有自动工具软件,在建立个人小型语料库的过程中加注篇头会耗费相当的时间和

精力。考虑到小型翻译语料库的用途,笔者建议不进行篇头加注,一般情况下只进行词性赋码

即可。

(3)语料的整合。语料赋码完成后,要用语料库工具软件将所有语料整合起来。以

Transmate为研究对象,译员可以在语料管理选项下面新建相应的记忆库,并结合事先导入的

可用语料参考资源,不断丰富和校正新构建的小型语料存储单元。随着项目的进展和众多译员

的添砖加瓦,其翻译效率也亦可随之得到提升。

结语:语料库的建立在全国范围方兴未艾,语料库及其应用软件为翻译教学和科研提供了

一个全新的思路和方法。通过个人建立小型翻译语料库,广大翻译课教师和研究人员可以加深

对语料库这一新的研究领域和科研方法的认识,方便自己的教学和科研工作并能有效克服所谓

的“技术恐惧症”。“在语料库研究的许多领域,情势仍很不稳定,难以制定和实施明确、严谨

的标准”。小型翻译语料库作为一个全新的领域,有太多有待解决的问题,即便是小型语料库

龙源期刊网

的定义目前语料库语言学界也尚未达成一致意见。以上建立小型翻译语料库的方法仍有不成

熟、不完备的地方,在此仅供学界参考。

此篇论文为华北理工大学校级创新项目——《医学英语机辅汉译及其语料库的构建研究》

的研究成果之一,项目编号:2018S44

参考文献

[1]管新潮,胡开宝,张冠男.英汉医学平行语料库的创建与初始应用研究[J].当代外语研

究,2011(09):36-41+61.

[2]赖康生,陈京明.浅议小型翻译语料库的创建[J].才智,2017(30):146-147.

[3]渠新峰.小型英汉双语语料库的建设和应用研究[J].学周刊,2013(28):18.

[4]赵宏展.小型翻译语料库的DIY[J].中国科技翻译,2007(02):31-35.

[5]赵宏展.对小型语料库的初步研究[J].辽宁行政学院学报,2006(12):214-215.