2024年5月29日发(作者:)

大数据是什么意思

大数据(Big Data)

大数据,官方定义是指那些数据量特别大、数据类别特别复杂

的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。

大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),

数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称

为4V。

大数据中的数据量非常巨大,达到了PB级别。而且这庞大的

数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括

非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据

的存储,管理和处理很难利用传统的关系型数据库去完成。在大数据

之中,有价值的信息往往深藏其中。这就需要对大数据的处理速度要

非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的

信息。在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,

一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数

据剔除,利用真实的数据来分析得出真实的结果。

大数据分析(Big Data Analysis)

大数据,表面上看就是大量复杂的数据,这些数据本身的价值

并不高,但是对这些大量复杂的数据进行分析处理后,却能从中提炼

出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分

析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、

预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic

Engines)和数据质量管理(Data Quality Management)。

可视化分析是普通消费者常常可以见到的一种大数据分析结

果的表现形式,比如说百度制作的“百度地图春节人口迁徙大数据”

就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观

形象的图表,使其能够更加容易的被普通消费者所接受和理解。

数据挖掘算法是大数据分析的理论核心,其本质是一组根据算

法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,

从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和

尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿

布购买数据的分析,挖掘出以前未知的两者间的联系,并利用这种联

系,提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量

使用了数据挖掘算法。

预测性分析能力是大数据分析最重要的应用领域。从大量复杂

的数据中挖掘出规律,建立起科学的事件模型,通过将新的数据带入

模型,就可以预测未来的事件走向。预测性分析能力常常被应用在金

融分析和科学研究领域,用于股票预测或气象预测等。

语义引擎是机器学习的成果之一。过去,计算机对用户输入内

容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因

此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分

析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户