2024年5月29日发(作者:)

大数据在农业中的应用

摘要:结合大数据系统的一般结构,介绍和对比了当前大数据领域在文件存储、

数据处理和数据库领域的关键技术。分析了大数据的产生背景,简述了大数据的

基木概念、典型的4“V”特征以及重点应用领域.通过各种技术的对比,得到了

一些分析结果。农业数据具有容量大、关联性强、复杂多变等特点。大数据技术

能从庞大的数据集合中寻找有价值的数据和知识。推动大数据技术在农业领域的

实践和应用,对把握农业信息内在联系和规律意义重大。

关键词:大数据;数据分析;关键技术;农业;应用

随着移动互联网、物联网和云计算技术的迅速发展,开启了移动云时代的序幕,

大数据(BigData)也越来越吸引人们的视线。人们通过网络无障碍交流、交换

信息和协同工作,互联网的出现缩短了人与人、人与世界之间的距离,整个世界

连成一个“地球村”。与此同时,借助互联网的高速发展、高内存高性能的存储

设备和存储介质的出现、数据库技术的成熟和普及,人类在日常学习、生活、工

作中产生的数据量正以指数形式增长,呈现“爆炸”状态

[1]

。“大数据问题”(Big

DataProblem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热

门话题,吸引着越来越多的科学家研究大数据带来的相关问题。

大数据的“大”不仅仅体现在数据的海量性,还在于其数据类型的复杂性。随着

报表、账单、影像、办公文档等在商业公司中得到普遍使用,互联网上视频、音

乐、网络游戏不断发展,越来越多的非结构化数据进一步推动数字宇宙爆炸。数

据海量而复杂,这是对大数据的诠释。与传统的数据相比,大数据具有

规模性(Volume)、多样性(Variety)、高速性(Velocity)和低价值密度

(Value)的4V特点

[2]

。规模性和高速性是数据处理一直以来研究和探讨的问题,

多样性和价值密度低是当前数据处理发展中不断显现出来的问题,而且在可以预

见的未来,随着智慧城市、智慧地球等各种新设想的不断成为现实,上面的4

种问题将会变得更加凸显,而且是不得不面对的问题。

处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联

网“十二五”规划中,把信息处理技术作为四项关键技术创新工程之一提出,其

中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组

成部分。还有另外3项:信息感知技术、信息传输技术、信息安全技术,也与大

数据密切相关。

1大数据关键技术

从大数据的纵向应用过程(获取、存储、挖掘、分析)来看,文件系统提供

了对最底层存储能力的支持。文件系统之上的数据库系统可通过构建索引等功能,

对外提供高效的数据查询等常用功能。最后,数据分析技术从数据库中的大数据

中提取出有益的知识,提供面向对象的服务。从横向来看,大数据的每层应用既

需要进行软件算法等的开发,也需要硬件设备支持

[3]

。云计算与物联网技术毫无

疑义地成为影响大数据发展的首要因素。

1.1大数据系统架构

大数据处理系统不管结构如何复杂,采用的技术千差万别,但是总体上总可

以分为以下的几个重要部分。大数据系统结构如图1所示。

从数据处理的一般流程可以看到,在大数据环境下需要的关键技术主要针对

海量数据的存储和海量数据的运算。传统的关系数据库经过.近40年的发展已

经成为了一门成熟同时仍在不断演进的数据管理和分析技术,结构化查询语言

(SQL)作为存取关系数据库的语言得到了标准化,其功能和表达能力也得到的

不断增强。但是,关系数据管理系统的扩展性在互联网环境下遇到了前所未有的

障碍,不能胜任大数据分析的要求。关系数据管理模型追求的是高度的一致性和

正确性。纵向扩展系统,通过增加或者更换CPU、内存、硬盘以扩展单个节点

的能力,终会遇到“瓶颈”。

1.2分布式文件系统

对数据存储,文件系统需要考虑3个问题:高性能共享性、文件的管理和保

护、重复数据的处理。尤其是在面对海量文件时,上述问题更加凸显。文件系统

是支持大数据应用的基础。Google是有史以来唯一需要处理如此海量数据的大

公司。对于Google而言,现有的方案已经难以满足其如此大的数据量的存储,

为此Google提出了一种分布式的文件管理系统——GFS(Googlefilesystem)。

GFS是构建在大量廉价服务器之上的可扩展的分布式文件系统,主要针对文件较

大、且读远大于写的应用场景,采用主从(Master-Slave)结构,通过数据分块、

追加更新(append-only)等方式实现了海量数据的高效存储。同时,谷歌公司

选择电价较低的地点建立存储库,从而降低了运行成本。

GFS与传统的分布式文件系统有很多相同的目标,比如,性能、可伸缩性、

可靠性以及可用性。但是,GFS的成功之处在于其与传统文件系统的不同。GFS的

设计思路主要基于以下的假设:对于系统而言,组件失败是一种常态而不是异常。

GFS是构建于大量廉价的服务器之上的可扩展的分布式文件系统,采用主从结构。

通过数据分块、追加更新等方式实现了海量数据的高效存储。

1.3分布式数据处理系统

传统的针对结构化数据进行挖掘的理论已日臻成熟,但是针对大数据时代的

数据类型,则需要开发新的数据处理与挖掘技术。大数据的处理模式分为流处理

和批处理两种。流处理是直接处理,批处理采用先存储再处理。流处理将数据视

为流,源源不断的数据形成数据流。当新的数据到来即立即处理并返回所需的结

果。大数据的实时处理是一个极具挑战性的工作,数据具有大规模、持续到达的

特点。因此,如果要求实时的处理大数据,必然要求采用分布式的方式,在这种

情况下,除了应该考虑分布式系统的一致性问题,还将涉及到分布式系统网络时

延的影响,这都增加了大数据流处理的复杂性。目前比较有代表性的开源流处理

系统主要有:Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。

目前,大数据的分析与处理尚没有绝对合适的工具。Hadoop是当前最为流

行的大数据处理平台。Hadoop最先是模仿GFS和Mapreduce实现的云计算开源

平台。对Hadoop改进并将其应用于各种场景的大数据处理已经成为业界新的研

究热点,主要的研究成果集中在Hadoop平台性能改进、高效查询处理、索引构

建和使用、基于Hadoop的数据仓库构建、Hadoop与数据库系统的连接、数据

挖掘、推荐系统等方面。

1.4分布式数据库系统

大数据的特点决定了数据库系统需解决的问题

[4]

第一,数据量规模巨大。大数据时代的数据量远远超过单机所能容纳的数据

量,因此,必须采用分布式存储方式。这就需要系统具有很好的扩展性,即适应

大数据的数据库系统应当具有良好的横向扩展(scale-out)能力。

第二,数据异构性。结构化数据、半结构化数据、非结构化数据均是大数据

的重要组成部分。高效地处理多种数据类型是大数据时代数据库技术面临的重要

挑战之一。

第三,设计理念要不断创新。面对多种类型的数据,不可能存在统一的数据

处理方式,这就要求新型的数据库系统以不断变化的角度对待数据。

面对这些挑战,Google公司提出了Bigtable的解决方案。Bigtable的设计目

的是可靠的处理拍字节级别的数据,并且能够部署到千台机器上。Bigtable已经

实现了以下几个目标:适用性广泛、可扩展、高性能和高可靠性。Bigtable已经

在超过60个Google的产品和项目上得到了应用。这些产品在性能要求和集群

的配置上都提出了迥异的需求,Bigtable都能够很好地满足。

2大数据技术在农业中的应用

农业大数据类别复杂。从领域来看,以农业领域为核心(涵盖种植业、林业、

畜牧水产养殖业、产品加工业等子行业),逐步拓展到相关上下游产业(饲料、

化肥、农药、农机,仓贮、屠宰业,肉类加工业等),并需整合宏观经济背景数

据,包括统计数据、进出口数据、价格数据、生产数据、气象、灾害数据等;从

地域来看,以国内区域数据为核心,借鉴国际农业数据作为有效参考;不仅包括

全国层面数据,还应涵盖省市数据,甚至地市级数据,为区域农业发展研究提供

基础;从广度来看,不仅包括统计数据,还包括涉农经济主体基本信息、投资信

息、股东信息、专利信息、进出口信息、招聘信息、媒体信息、地理空间坐标信

息等;从专业性来看,应分步构建农业领域的专业数据资源,进而应逐步有序规

划专业的子领域数据资源

[5]

应用指的是农业大数据各应用系统、应用平台的开发,为上层管理和服务提

供应用支撑。根据目前农业大数据的主要来源,可以将其应用领域归纳为以下几

个方面:

(1)农业生产过程管理方面应用

运用大数据的先进技术对农业各主要生产领域在生产过程中采集的大量数据进

行分析处理,进而提供“精准化”的农资配方、“智慧化”的管理决策和设施控

[6]

,达到农业增产、农民增收的目的。

(2)农业资源管理方面应用

农业资源除了土地、水等自然资源之外,还包括各种农业生物资源和农业生

产资料等。我国虽然地大物博,但可以进行农业生产的资源已越来越少。从目前

农业基础实际状况来看,有必要运用物联网、大数据等先进技术对农业资源进一

步优化配置、合理开发,从而实现农业的高产优质和节能高效。

(3)农业生态环境管理方面应用

农业生态环境具体包括土壤、大气、水质、气象、污染、灾害等,需要对这

些农业环境影响因子实现全而监测、精准化管理。

(4)农产品和食品安全管理方面应用

农产品安全管理涉及产地环境、产前产中产后、产业链管理、储藏加工、市

场流通、物流、供应链与溯源系统等食品链的各个环节,通过对农产品质量安全

监管信息的分析处理,实现食品安全风险的预测预警及质量安全突发事件的应急

管理。

(5)农业装备与设施监控方面应用

可以提供农业装备和设施在工作运作情况下状态的监控、远程诊断以及服务

调度等方而的智能化管理和应用。

(6)提供各种农业科研活动产生的大数据应用

农业科研产生的大数据有包括空间与地而的遥感数据,还有如基因图谱、大

规模测序、农业基因组数据、大分子与药物设计等大量的生物实验数据:利用科

研试验大数据的分析,能够更好地指导农业生产和生活

[7]

在上述各类应用中,农业生产过程、农业资源与生态环境、农产品质量安全、

农产品市场流通各环节的监测和预测是重点应用方向。农业作为中国的基础产业,

面临着农产品需求不断增加"资源紧缺"气候变化导致灾害频发"生态安全脆弱"生

物多样性持续下降等严峻挑战,夯实以农业物联网"云计算技术为核心的农业信

息化基础,提升以大数据为支撑的农业信息化服务,开拓智慧农业新局面,实现

农业现代化和信息化的跨越式发展

[8]

3结论与展望

在大数据时代发展农业,可以将数据、技术、思维比作大数据时代的生产资

料、生产工具与生产者

[9]

。三者互为条件,协调发展,才能保证大数据在农业领

域能得到充分的应用。今后的研究可以遵循该研究提出的整合农业数据,构建多

元团队,建立农业大数据平台的3个农业大数据发展思路和方法,融合来自农业

中不同领域的数据,结合各领域专家知识和大数据分析工具,提高农业信息化和

智能化水平。

参考文献:

[1]

刘智慧

,

张泉灵

.

大数据技术研究综述

[J].

浙江大学学报

(

工学版

),2014,06:957-972.

[2]

王秀磊

,

刘鹏

.

大数据关键技术

[J].

中兴通讯技术

,2013,04:17-21.

[3]

刘海滨

,

刘佳明

,

纪文强

.

大数据基础理论与关键技术新观察

[J].

军民两用技术与产

,2014,04:8-11.

[4]

韩晶

.

大数据服务若干关键技术研究

[D].

北京邮电大学

,2013.

大数据应用大有可为

[N].

粮油市场

[5]

彭科峰

.

汪懋华:铺设现代农业高速路

,2014-05-09001.

[6]BauckhageC,ningandpatternrecognitioninagriculture[J].KI-Künstliche

Intelligenz,2013,27(4):313-324.

[7]Ludena,D.A.,Ahrary,A.,&Ieee.(2013).ABigDataapproachforanewICTAgriculture

ApplicationDevelopment.2013InternationalConferenceonCyber-EnabledDistributed

ComputingAndKnowledgeDiscovery(Cyberc),:10.1109/CyberC.2013.30

[8]

孙忠富

,

杜克明

,

郑飞翔

,

尹首一

.

大数据在智慧农业中研究与应用展望

[J].

中国农业科技导

,2013,06:63-71.

[9]郭承坤,刘延忠,陈英义,孙敏,屠星月.发展农业大数据的主要问题及主要任务[J].安徽农

业科学,2014,27:9642-9645.