2024年5月5日发(作者:)

信息技术

西藏科技

)

2020

12

期(总第

333

期)

基于大数据的网络舆情分析系统设计与实现

袁志远

1

徐怀超

2

郭金顺

2

冯盼

3

(1.

西安交通大学管理学院

陕西

西安

710049

.西藏党委网信办网络舆情研究中

西藏

拉萨

850000

.云南农业大学人文社会科学学院

云南

昆明

650000)

为加强网络舆情管理

实现对互联网舆情可视化多维度智能分析

智能生成报告

文章针对网络舆

,

构建大数据网络舆情采集和数据挖掘体系

基于境内外海量互联网文本

图片

音视频等数据

,

运用静态计

算和流式计算引擎和文本无关的声纹识别等技术

,

设计开发基于大数据的网络舆情分析系统

研究网络观点

话题及其发展态势

传播路径

实现了网络舆情可视化多维度智能分析

智能生成报告,提高了网络舆情预警

和分析能力

关键词

大数据网络舆情云计算科学决策

0

引言

根据中国互联网络信息中心发布的第

45

中国

构特征

丰富了对网络舆情传播规律的共性认识

劲松

(2019)

⑷根据互联网上民族相关信息

对其进行

情感分析,为监测预警体系制定相应的引导策略提供

互联网络发展状况统计报告

截至

2020

3

我国

网民规模达

9.04

亿

手机网民规模达&

97

亿,使用手

帮助

Oduwa

Edo-Osagie

(2020)

[5

]

利用

Twitter

机上网的比例达

99.3%

网络新闻用户规模达

7.3

1

亿,

网络视频用户规模达

8.5

亿

在线政务服务用户规模

数据对公共卫生进行了研究

Arash

Barfar(2019)

[6

]

Facebook

上数据对政治虚假信息的认知和情感反

6.94

亿

互联网已成为人们生活

工作

学习

娱乐

等不可分割的重要组成部分,

已经成为各种话题

应进行了研究

上述研究第一类是针对大数据时代网络舆情危

机治理策略研究

第二类是利用互联网数据针对某一

信息传播的国际舞台

,

人民群众反映社会舆情的

重要渠道,人民群众监督党政机关施政方略成效的考

核平台

,

网络舆情在一定程度上反映着现实生活中人

类网络舆情或社会行为的研究

第三类是针对网络舆

情监测系统的分析与设计的研究

这些研究画像分

析维度少

很少涉及网络音视频的监测和分析研究

民意愿和诉求

如何利用互联网上海量的数据为政

企业或社会机构提供决策支持成为互联网舆情研

究的重要问题

如何有效利用互联网海量数据分析舆情

掌握舆

,

成为国际专家学者研究的内容

部分学者对此问

题进行了研究

如祁泉淞

(2020)

[I

]

针对当前网络舆情

对网络舆情智能分析研究的更少

文章针对网络舆

情,构建大数据网络舆情采集和数据挖掘体系

基于

境内外海量互联网文本

图片

音视频等数据

,

设计开

发基于大数据的网络舆情分析系统

研究网络观点

话题及其发展态势

传播路径

实现对互联网舆情可

视化多维度智能分析

智能生成报告

为网络舆情预

危机治理中存在的问题,构建了网络舆情预警和分析

体系

,

为政府和社会有效应对网络舆情提供了帮助

王晰巍等

(2020)

[2

]

构建了大数据驱动的社交网络舆情

用户情感主题分类模型,为跨语言的社交网络舆情用

户情感主题图谱的可视化分析提供了前期的研究框

警和分析提供了技术支持

1

基于大数据的网络舆情分析系统设计

1.1

系统总体框架

基于大数据的网络舆情分析系统整体由四层组

王超

(2019)

对我国突发性网络舆情事件的要素

进行内容归纳和关联分析

发现了网络舆情演化的结

分别为数据采集层

数据层

协助层和应用层构

主要功能模块由数据采集

数据存储

数据分析

76

西藏科技

2020

12

期(总第

333

)

数据应用等四部分组成

数据采集层主要功能是通过反屏蔽

网络爬虫

网站匹配和智能添加技术等实现多源异构数据的采

获取境内外新闻

博客

论坛

微博

微信

APP

视频

Twitter

F

acebook

评论等通道数据

数据层主要由数据处理模块

数据标签模块组

成,其中数据处理模块主要功能是对采集到的数据进

行数据规范化

过滤去重

格式转换

元数据提取和多

语种互译等智能数据处理

数据标签模块主要功能

是对采集到的数据按照数据类型分类

数据协助层从数据采集模块中获取实时数据

,

成数据流

,

为数据存储系统

数据分析系统提供流数

数据存储模块采用分布式存储

分类存储不同类

型的数据

为数据计算和数据分析提供海量数据

据分析模块采用微服务架构

,

从数据总线及数据存储

平台中获取数据

^

-11

应用层模块依托数据采集

数据处理

数据标签

云计算

数据分析模块

采用人机交互的方式,为系统

使用人员提供简洁

友好

灵活的功能模块

1.2

系统业务流程图

基于大数据的网络舆情分析系统根据网络舆情

事件发展规律

,

为更好的掌控网络舆情

,

从监测

、发

分析研判

搜索

追踪到处理

针对各阶段的特点

对网络舆情事件从诞生到终结进行周期布控

立体处

如图

1

所示

在舆情发现阶段

全网关键词

图片

声纹布控

媒体和账号布控相结合

舆情预警

专项监测

综合搜

索,人机辅助确保及时发现热点

敏感

负面

突发网

上舆情

在舆情预警阶段

根据网上舆情特点定制预警方

及时捕捉预警信息

通过微信

短信

、邮件、

电话等

多种方式实现预警推送

舆情分析阶段

根据舆情智能预警提供的线索和

信息技术

现阶段网络舆情信息

通过系统智能分析手段根据

网络舆情数据对事件

人物

媒体报道进行画像展示

分析

舆情专项监测阶段

,

持续实时跟踪重点舆情的动

向和发展态势

分时

分级

按地域标注事件状态

通过主题画像

群体画像

地域画像进行实时展示

舆情处理阶段

,

根据舆情态势

,

线上线下进行协

同处理

事后根据舆情总结发展特点

自定义舆情分

析报告模板

自动生成舆情分析报告

按时

按类

主题输入案例库

为以后的舆情分析研究提供参考

2

基于大数据的网络舆情分析系统关键技术

研究

2.1

文本无关的声纹识别系统

为提高系统的稳定性

增加噪音的处理能力

文把人工神经网络学习能力和对非线性复杂问题的

建模能力应用在声纹识别中

DNN(Deep

neural

net

­

work

)

是一种前馈人工神经网络,在输入与输岀层之间

包含了多于一层的隐含层

,DNN

可以理解为有很多隐

藏层的神经网络

DNN

按不同层的位置划分

神经网

络层可以分为三类,输入层

隐藏层和输岀层,层与层

之间是全连接的

也就是说

i

层的任意一个神经元

一定与第

i+1

层的任意一个神经元相连

,DNN

的优点

是基于

DNN

建模的声纹识别系统性能远优于分类模

y

本系统充分结合了

DBN

DBN

的优点设计了

DBN-DBN

声纹识别系统

[

14-15

]

,

基于

DBN-DNN

的声纹

识别系统框图如图

2o

2

基于DBN-DNN

的声纹识别系统框图

2.2

静态计算和流式计算引擎相结合

静态计算就是首先采用多通道采集各类数据

,

后把数据存储在数据库中

,根据设置的关键词

图片

或声纹对存储的静态数据进行集中计算

得到相关的

数据

,

然后进行多维度分析

,也就是所谓的批处理或

批量计算

Hadoop

是典型的大数据批量计算架构

77

信息技术

HDFS

分布式文件系统负责静态数据的存储,并通过

映射规约将计算逻辑分配到各数据节点进行数据计

算和价值发现

。该功能适用于周度

月度

季度

年度

舆情分析或更长时间的数据挖掘分析

,

这些网络舆情

分析时间跨度大

数据量大

流式计算由于受内存和

缓存空间的限制很难实现海量数据的计算分析

,

但静

态计算占用大量的存储空间

,

计算速度相对比较慢

,

不能及时掌握网络舆情态势

流式计算就是对内存中流动的数据直接进行实

时计算和分析

,

不需要把全部数据存储起来

,

然后把

计算和分析结果进行推送

由于流式计算是对实时

数据的计算

互联网舆情动态可以实时通过监控平台

进行展现,有利于互联网研究机构及时掌握网络舆情

动态

及时发现互联网上苗头性

预警性舆情事件

为及时处理网络舆情争取时间

对互联网舆情监控

工作具有很大的帮助

由于互联网上数据种类多

数量大

流式计算对计算机处理速度和内存有较高

的要求

基于大数据的网络舆情分析系统充分利用静态

计算和流式计算各自特点

,针对不同的业务需要使用

不同计算技术

有效解决了网络舆情工作中存在数据

分析跨度短和信息发现滞后问题

有效提升了网络舆

情管控能力和分析能力

2.3

文章

图片

音视频聚类分析引擎

目前的研究大都是针对文本

图片的研究

,

针对

音视频的研究较少

基于大数据的网络舆情分析系统

中对图片

音视频的监测分析是系统功能模块的重要

组成部分

,

为实现对文章

图片

音视频聚类分析我们

对音视频聚类算法进行了研究,把信息熵理论引入到

算法中用来判文章

图片

音视频相似度

16-17

以往的网络舆情分析系统也有运用了层次化话

题发现技术

,

但该技术仍然是针对文章聚类分析引擎

的应用较多

图片

音视频聚类分析应用较少

为实现

对文章

图片

音视频聚类分析我们对该技术进行了

改进

把信息熵理论引入到算法中用来判文章

图片

音视频相似度

假设有

N

个待聚类的文章

图片

音视频样本

本步骤就是

1

首先根据样本的属性进行归群

相同

属性的样本归为一个群

如文本类群

图片类群

音视

78

西藏科技

2020

12

总第

333

频类群

在一个类群内

每个样本归为一类

再计算

每两个类之间的相似度,也就是样本与样本之间的相

似度

;

2

在一个类群内

,寻找各个类之间相似度最大

的两个类

,

把他们归为一类

这样类的总数就少了

3

重新计算新生产的类与各个旧类之间的相似

4

重复

2

3

直到所有相似度较高的文章

图片

音视频样本点都归为一类,结束

在实际工作中我们发现一些延续时间比较长的

话题

,

在传播的过程中

其核心内容会逐渐发生一些

变化

所以该话题的特征也会随着发生改变

为解决

此类问题

我们综合时间权重

、文章

图片

音视频等

特征进行判断

在时间相隔较长的情况下从新产生的

聚类结果

3

基于大数据的网络舆情分析系统实现与

应用

根据智能预警功能提供的热点舆情

文章选择涉

西藏旅游相关话题作为系统测试主体,分别从网络舆

情趋势分析

声量统计分析

事件热词分析

倾向性分

地域热度分析等五个维度进行网络舆情研究和分

实现

2020

年对涉西藏旅游敏感舆情的预警

重点

舆情的处理

网络舆情发展态势掌控

舆情报告智能

生成

首先布控关键词和时间

关键词我们选定为

西

and

旅游

自定义监控时间段

2020

5

1

日至

5

31

第二步数据处理

数据处理包括提取

清洗

换格式

过滤去重数据等

从系统显示的数据我们可

5

1

日至

5

31

日期间涉西藏旅游相关信息

98012

其中

相关报道

评论信息等有

54087

条次

音视频类信息有

43925

境内有

88210

余条

,

境外有

9800

余条次

,

微博

10217

微信

17235

,

APP25690

,

电子报

2789

论坛

3672

贴吧

5241

条等

第三步网络舆情多维度分析

从网络舆情趋势

分析、

声量统计分析

事件热词分析

倾向性分析

域热度分析等五个维度进行网络舆情研究和分析

现对涉西藏旅游敏感舆情的预警

重点舆情的处理和

网络舆情发展态势掌控

如图

3

所示

西藏科技

2020

12

期(总第

333

)

从网络舆情发展趋势和声量统计分析我们可以

看出

5

月份境内涉西藏旅游相关信息量较大占网络舆

情总量

90%

以上,境外涉西藏旅游相关信息量较少占

网络舆情总量不到

10%,

微博

微信和

APP

涉西藏旅

游信息量较大分别占网络舆情总量

20%,25%

30%

左右

提醒网络舆情研究机构需加强对微博

微信和

APP

的监测力度

从热词排行我们可以看出疫情

病例

风险等热

词比较靠前

,

这说明了新冠肺炎疫情对西藏旅游的影

响持续存在

游客比较关注当地的疫情防控工作

从媒体倾向分析和

APP

倾向性分析走势图我们

可以发现二者有所差别

,

从媒体倾向分析图我们发现

负面信息量较大占

55%

左右

正面信息量较少不到

10%

,

从信息内容我们可知由于全球新冠肺炎疫情持

续蔓延

,

为有效防范疫情蔓延

,

西藏各大旅游景点暂

停接待游客

,

导致来藏游客锐减

与此相关产业受到

了影响

APP

倾向性分析图我们发现正面信息量

55%

左右,负面信息量占

10%

左右

APP

发布的

内容和主办方我们可知社会性

APP

占大部分,他们主

要关注旅游景点各地疫情情况

,

西藏到目前为止新冠

肺炎确诊病例只有一个

并且已经成功治愈

无疑似

病例

西藏应对疫情的科学举措和良好结果受到广大

网民的高度赞扬

从地域热度分析图我们可以发现林芝市和日喀

则市地域热度较高

,

从信息内容我们可知

5

月份是西

藏旅游的旺季

林芝市是西藏的小江南

五一小长假

林芝市各自然景区迎来了部分游客

,

涉林芝市自然景

区的图片

音视频增多

而日喀则市则不同

从涉日

喀则市的信息内容我们发现

2020

5

月我国第八次

信息技术

测量珠峰高度

,

著名的喜马拉雅山主峰就在日喀则市

管辖的区域内

5

6

日开始到

27

日登顶各大媒体

直播平台等都进行了实时跟踪报道

,

网上涉日喀则市

信息

5

月迅速攀升

第四步网络舆情态势掌控和处理

根据分析结

果我们可得出五月份网上涉西藏旅游舆情态势整体

平稳

无重大突发网络舆情

第五步智能生成报告

根据网上涉西藏旅游网

络舆情相关数据

智能生成

5

月份涉西藏旅游网络舆

情分析报告

,

存入案例分析库

,

为以后相关网络舆情

研究提供借鉴

4

结论

本文针对网络舆情,构建大数据网络舆情采集和

数据挖掘体系

基于境内外海量互联网文本

图片

视频等数据

设计开发了基于大数据的网络舆情分析

系统,研究网络观点

话题及其发展态势

传播路径

实现了对互联网舆情可视化智能分析

智能生成报

为网络舆情预警与分析提供技术支持

。今后的研

究工作将继续拓展数据智能采集渠道

,

增加网络舆情

分析维度

,

提升网络舆情分析的智能水平

为国家治

社会和谐贡献力量

参考文献

[1]

祁泉淞.大数据时代网络舆情危机治理策略研究

[

J

].

人民论坛•学术前沿

2020(1):88-91.

[2]

王晰巍

邢云菲,韦雅楠

等.大数据驱动的社交网

络舆情用户情感主题分类模型构建研究一以"移民"

主题为例

[

J

].

信息资源管理学报

,2020,10(1)

:29-38,48.

[3]

王超.我国突发性网络舆情事件的关联网络结构

分析

[

J

]

现代情报

,2019,39(12):121

130.

[

4]

张劲松

黄华

章凤君•基于网络舆情情感分析的民族

关系监测预警研究

[

J

].

青海社会科学

,2019,(4):169-174.

[

5

]

Oduwa

E

O,

Beatriz

D

L

I,

Iain

L,et

al.

A

scoping

re

­

view

of

the

use

of

Twitter

for

public

health

research

[j

]

Elsevier

Ltd,

2020,122.

[6]

Arash

B.

Cognitive

and

affective

responses

to

political

disinformation

in

Facebook

[

j

]

Elsevier

Ltd,

2019,101.

[7]

陈海郎•基于网络大数据的舆情监测设计与实现

[J].

电子技术与软件工程

,2019(14):7-9.

79

信息技术

[8]

梁永春

焦文强,田立勤.基于大数据新闻网站文本

挖掘的网络舆情监测设计与实现

[

J]

.

华北科技学院

学报

,2018,

15(04):82-87+92.

西藏科技

)

2020

12

期(总第

333

期)

[13]

邱子璇.基于神经网络的声纹识别研究

[D].

电子

科技大学,

2019.

[14]

郭华.基于神经网络的声纹识别系统设计与实现

[9]

赵丽梅.网络舆情分析与监测系统的设计与实现

[D].

上海交通大学

,200

8.

[15]

张少华

胡成辉

黄琳.基于改进的

Single-pass

法的新闻热点的发现

[

J

].

电子产品可靠性与环境试

,2017,35(z1):41-46.

[D].

兰州大学

,2017.

[10]

Paramita

R

,

Amlan

C.

A

Mixed

approach

of

Deep

Learning

method

and

Rule-Based

method

to

improve

As

­

pect

Level

Sentiment

Analysis

[J

]

.Elsevier

B.V.

2019.

[16]

孙红光

高星

孙铁利

等.基于改进

Single-Pass

法的网络新闻话题发现

[

J]

.

吉林大学学报(理学版),

[11]

魏莲芳.基于

互联网

+

的声纹识别技术在刑事

案件侦破中的应用研究

[J]

现代电子技术

,2020,43(7):

2018,56(1):114-118.

[17]

张帆,潘亚雄

胡勇.基于改进

Single-Pass

的新闻

话题检测与追踪技术研究

[J].

信息安全研究,

2020,6

34-38.

[12]

刘镇,吕超,范远超.基于深度学习的多声源并行

化声纹辨别方法

[

J]

.

江苏科技大学学报(自然科学

(5):396-403.

编校

陈莎莎

)

,2018,

32(1):106-111.

(上接

68

页)

定量检测对高原地区妊娠期高血压疾病

产后出血的预测价值较高

可以通过对产前

D-

二聚

体和

FDP

进行定量检测

,

有效的预测妊娠期高血压疾

病产后出血的发生风险

以提前做好预防治疗措施

减少围产期母婴不良结局的发生

参考文献

[1]

杨孜,张为远.妊娠期高血压疾病诊治指南

(

2015)

解读

[J]

中国实用妇科与产科杂志

,2015,31

(10)

:

886-893.

[2]

Say

L,

Chou

D

,

Gemmill

A

,

et

al.

Global

causes

of

maternal

death

:

a

WHO

systematic

analysis

[j].

Lancet

Glob

Health,

2014,2(6

)

:

e323-333.

[3]

李力.子痫前期研究现状与思考

[

J

]

中国计划生

育和妇产科,

2014,6

(1):

32-34.

[4]

冯燕,徐军娟.妊娠期高血压疾病患者凝血功能及

血小板参数变化与疾病严重程度的相关性分析

[J

]

.

中国妇幼保健

,2016,31(5):947-948.

[5]

廖丹.

D

-

二聚体

凝血指标

血小板参数检测对妊

娠高血压疾病的应用价值分析

[

J]

.

中国实验诊断学,

2014(4):621-624.

[6]

谢幸,孔北华.妇产科学(第

9

版)]

M

].北京:人民卫

生出版社

,201

8.

[7]

李力,顾焱,陈建坤

.

妊娠期高血压疾病与产后出血

[

J

]

中国计划生育和妇产科,

2016(04):10-12.

80

[8]

刘晶

孟涛.妊娠期高血压疾病并发产后出血的防

[

J

]

中国实用妇科与产科杂志,

2012(04):253-255.

[9]

朱大年

王庭槐.生理学(第

9

版)]

M

].

北京:人民卫

生出版社

,201

8.

[10]

周希亚

刘俊涛.妊娠期凝血机能的调节

[

J

]

用妇产科杂志

,2016(09):643-645.

[11]

蒋萌

林建华.妊娠期血液系统生理变化

[

J

].

用妇产科杂志

,2016,32(9)

:

641-643.

[12]

陈絮

黄映贞

黄雪惠

.

凝血功能联合胎儿脐血流

监测在妊娠期高血压疾病中的价值研究

[

J]

.

中国计

划生育和妇产科,

2019(03):53-56.

[13]

宋佳伦.妊娠期高血压疾病患者凝血相关指标与

围产结局关系的临床研究

[D].

山东大学

,2007.

[14]

王莉敏.妊娠晚期孕妇凝血四项

FDP

D-

二聚

体的变化及临床意义

[J

]

中华全科医学

,2013(12):

1951-1952.

[

15

].

Hansen

AT

,

Andreasen

BH

,

Salvig

JD

,

et

al.

Changes

in

fibrin

D

dimer,

fibrinogen

,

and

protein

S

during

pregnant

[

J

].

Scand

J

Clin

Lab

Invest,201

1,71

(

2)

:

173-176.

[16]

Chan

WS,

Lee

A

,

Spence

FA,

et

al.

D

dimer

test

-

ing

in

pregnant

patients:

Towards

determining

the

next

level

in

the

diagnosis

of

deep

vein

thrombosis

[J

].

JTH

,

2010,8

1004-1011.

编校

陈莎莎