2024年5月2日发(作者:)

摘要文章分析了大数据时代词典编纂可用或可参考数据的特点,探索如何从海量数据中

挖掘汉英语际对应词等词汇知识,还简要探讨了与数据或语料使用相关的问题。挖掘实践表

明: 充分利用可用资源,从纷杂的大数据中可以挖掘出所需的词汇知识,但目前仍需专业

人员进行筛选、认定和解读。词典要保持生命力必须及时修订和收录新词。对于汉英词典来

说,提供汉语词语的地道英语对应词会提升其实用价值。研究语际对应词挖掘不仅有助于编

纂出符合用户需求的双语词典,对构建大数据语言资源库和开发挖掘分析软件也有参考价

值。

关键词大数据时代对应词新词挖掘汉英词典

一、 研究背景

移动互联网的飞速发展加快了媒体融合的进程,也使传统的词典学研究和词典编纂实践

面临挑战。不仅纸质词典,就连掌上型电子词典也遭到了前所未有的冷遇。人们更喜欢通过

智能手机或计算机查询在线网络词典或离线电子词典。

大数据的应用前景广阔。但是,词典学研究和词典编纂可用的数据是大数据吗?词典学

研究和词典编纂真的需要大数据吗?我们尝试从大数据时代词典学研究和编纂实践可用数

据的特点出发回答第一个问题,结合汉英语际对应词的挖掘实例分析回答第二个问题,还简

要探讨与数据或语料使用相关的问题。

二、 大数据与编纂词典的可用数据

1. 大数据的特点

传统意义上的“数据”指的是“有根据的数字”。现在,“数据”不仅指“数字”,还统

称一切保存在电脑中的信息(包括文本、声音、视频等)。(赵勇,徐轲2014)在这个信息

爆炸的时代,经过一定时间的积累就会出现海量或巨量的数据。过去,计算机存储信息或数

据的计量单位用gb/gigabytes(1gb=1024mb)就已经很大了。现在用到tb/terabytes

(1tb=1024gb),pb/petabytes(1pb=1024tb=1048576gb),甚至更大的计量单位。

但是,不能简单地认为数量大就是大数据。大数据的体量巨大,不仅存储量大,计算量也大,

超出了传统数据处理方法所能管理和处理的能力。

现在具有代表性的观点是大数据具备4v特征: (1) 数据量庞大(volume)。(2) 数

据呈现多样性(variety),不但类型多(如文本、网页、图片、音频、视频和位置信息等),

而且来自多种数据源,不仅有结构化数据,更多的是半结构化数据和非结构化数据。(3) 时

效性(velocity),即数据增长速度快、变化速度快,处理速度也要求快,包括大量的在线

或实时数据分析处理。例如电子商务对销售数据的实时快速分析就意味着能及时抓住商机。

(4) 数据价值高(value),但价值密度低,即价值与数据总量之比很低,需要对海量的

数据进行挖掘分析才能形成用户价值。如在长时间连续的监控视频中查找犯罪线索,有用的

数据可能只有短短几秒钟。(赵勇,徐轲2014;严霄凤,张德馨2013;宗威,吴锋2013)

2. 大数据的定义

信息时代的“数据”概念是明确的,但是对于“大数据”至今还没有一个公认的标准定

义。

美国国家科学基金会(nsf)将大数据定义为:“由科学仪器、传感设备、互联网交易、

电子邮件、音频视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的

分布式数据集。”(黄南霞,谢辉,王学东2013)