2024年3月24日发(作者:)
统计学 大数据简介
1、什么是大数据
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主
流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极
目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需
要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多
样化的信息资产。
大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大
数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌
MapReduce和GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,
还涵盖了处理数据的速度。
从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,
快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使
该技术具备走向众多企业的潜力。
大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们
谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数
据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和
验证大数据的规律及其与自然和社会活动之间的关系。
2、大数据的特征
大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃
升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息
等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有
一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质
的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。
3、大数据的常见处理流程及方法
具体的大数据处理方法其实有很多,整个处理流程可以概括为四步,分别是采集、导
入和预处理、统计和分析,以及挖掘。
(1)采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)
的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用
传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和
MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上
万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达
到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行
负载均衡和分片的确是需要深入的思考和设计。


发布评论