2024年5月29日发(作者:)
大数据是什么意思
大数据(Big Data)
大数据,官方定义是指那些数据量特别大、数据类别特别复杂
的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。
大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),
数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称
为4V。
大数据中的数据量非常巨大,达到了PB级别。而且这庞大的
数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括
非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据
的存储,管理和处理很难利用传统的关系型数据库去完成。在大数据
之中,有价值的信息往往深藏其中。这就需要对大数据的处理速度要
非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的
信息。在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,
一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数
据剔除,利用真实的数据来分析得出真实的结果。
大数据分析(Big Data Analysis)
大数据,表面上看就是大量复杂的数据,这些数据本身的价值
并不高,但是对这些大量复杂的数据进行分析处理后,却能从中提炼
出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分
析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、
预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic
Engines)和数据质量管理(Data Quality Management)。
可视化分析是普通消费者常常可以见到的一种大数据分析结
果的表现形式,比如说百度制作的“百度地图春节人口迁徙大数据”
就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观
形象的图表,使其能够更加容易的被普通消费者所接受和理解。
数据挖掘算法是大数据分析的理论核心,其本质是一组根据算
法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,
从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和
尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿
布购买数据的分析,挖掘出以前未知的两者间的联系,并利用这种联
系,提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量
使用了数据挖掘算法。
预测性分析能力是大数据分析最重要的应用领域。从大量复杂
的数据中挖掘出规律,建立起科学的事件模型,通过将新的数据带入
模型,就可以预测未来的事件走向。预测性分析能力常常被应用在金
融分析和科学研究领域,用于股票预测或气象预测等。
语义引擎是机器学习的成果之一。过去,计算机对用户输入内
容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因
此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分
析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户


发布评论