2024年5月4日发(作者:)

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等

领域都有重要的作用。语料库研究与应用是以语料库建设为前提,语料库建设是所有环节

中最为重要的一个环节。语料库在商业领域与科研教学领域的应用与研究的快速发展,得

益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。本文通

过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及

平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。

标签:语料库建设;语料库应用;双语平行语料库

语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中

产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是

形成语料库的基本语料材料。

目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及

数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料

库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。

语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就

是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。

高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应

用效果。

一、研究意义

语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网

络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、

有道以及必应等机器翻译引擎的质量。不仅如此,商业领域的巨头包括强生、中石化、微

软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器

翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向

全球市场提供了翻译支持。

不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利

用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库

在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料

库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的

语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。教师也可以利用高

质量的语料库面向学生开放,利用语料库学生进行日常的翻译学习和模拟训练,不断提升

自身的语言能力和翻译水平。

二、语料库建设

语料对齐是语料库制作尤为关键的一环,目前市面上语料对齐软件工具层出不穷,各

有千秋,每一款语料对齐软件工具都有自个的语料对齐算法、效率以及表现较为突出的一

面,需要根据不同的语料素材来判断应使用何种语料对齐软件工具。

市面上目前语料对齐软件工具主要有TRANSMATE软件、TMXMALL对齐软件、雪

人软件对齐工具以及各类CAT软件自带的对齐组件。独立的语料对齐软件工具在语料对齐