2024年5月5日发(作者:)
信息技术
《
西藏科技
)
2020
年
12
期(总第
333
期)
基于大数据的网络舆情分析系统设计与实现
袁志远
1
徐怀超
2
郭金顺
2
冯盼
3
(1.
西安交通大学管理学院
,
陕西
西安
710049
;
.西藏党委网信办网络舆情研究中
心
,
西藏
拉萨
850000
;
.云南农业大学人文社会科学学院
,
云南
昆明
650000)
摘
要
:
为加强网络舆情管理
,
实现对互联网舆情可视化多维度智能分析
,
智能生成报告
。
文章针对网络舆
情
,
构建大数据网络舆情采集和数据挖掘体系
,
基于境内外海量互联网文本
、
图片
、
音视频等数据
,
运用静态计
算和流式计算引擎和文本无关的声纹识别等技术
,
设计开发基于大数据的网络舆情分析系统
,
研究网络观点
、
话题及其发展态势
、
传播路径
。
实现了网络舆情可视化多维度智能分析
,
智能生成报告,提高了网络舆情预警
和分析能力
。
关键词
:
大数据网络舆情云计算科学决策
0
引言
根据中国互联网络信息中心发布的第
45
次
《
中国
构特征
,
丰富了对网络舆情传播规律的共性认识
。
张
劲松
(2019)
⑷根据互联网上民族相关信息
,
对其进行
情感分析,为监测预警体系制定相应的引导策略提供
互联网络发展状况统计报告
》
,
截至
2020
年
3
月
,
我国
网民规模达
9.04
亿
,
手机网民规模达&
97
亿,使用手
了
帮助
。
Oduwa
Edo-Osagie
等
(2020)
[5
]
利用
上
机上网的比例达
99.3%
,
网络新闻用户规模达
7.3
1
亿,
网络视频用户规模达
8.5
亿
,
在线政务服务用户规模
数据对公共卫生进行了研究
。
Arash
Barfar(2019)
[6
]
利
用
上数据对政治虚假信息的认知和情感反
达
6.94
亿
。
互联网已成为人们生活
、
工作
、
学习
、
娱乐
等不可分割的重要组成部分,
已经成为各种话题
、
言
应进行了研究
。
上述研究第一类是针对大数据时代网络舆情危
机治理策略研究
;
第二类是利用互联网数据针对某一
论
、
信息传播的国际舞台
,
人民群众反映社会舆情的
重要渠道,人民群众监督党政机关施政方略成效的考
核平台
,
网络舆情在一定程度上反映着现实生活中人
类网络舆情或社会行为的研究
;
第三类是针对网络舆
情监测系统的分析与设计的研究
。
这些研究画像分
析维度少
、
很少涉及网络音视频的监测和分析研究
,
民意愿和诉求
,
如何利用互联网上海量的数据为政
府
、
企业或社会机构提供决策支持成为互联网舆情研
究的重要问题
。
如何有效利用互联网海量数据分析舆情
、
掌握舆
情
,
成为国际专家学者研究的内容
,
部分学者对此问
题进行了研究
,
如祁泉淞
(2020)
[I
]
针对当前网络舆情
对网络舆情智能分析研究的更少
。
文章针对网络舆
情,构建大数据网络舆情采集和数据挖掘体系
,
基于
境内外海量互联网文本
、
图片
、
音视频等数据
,
设计开
发基于大数据的网络舆情分析系统
,
研究网络观点
、
话题及其发展态势
、
传播路径
,
实现对互联网舆情可
视化多维度智能分析
,
智能生成报告
,
为网络舆情预
危机治理中存在的问题,构建了网络舆情预警和分析
体系
,
为政府和社会有效应对网络舆情提供了帮助
。
王晰巍等
(2020)
[2
]
构建了大数据驱动的社交网络舆情
用户情感主题分类模型,为跨语言的社交网络舆情用
户情感主题图谱的可视化分析提供了前期的研究框
警和分析提供了技术支持
。
1
基于大数据的网络舆情分析系统设计
1.1
系统总体框架
基于大数据的网络舆情分析系统整体由四层组
架
。
王超
(2019)
⑶
对我国突发性网络舆情事件的要素
进行内容归纳和关联分析
,
发现了网络舆情演化的结
成
,
分别为数据采集层
、
数据层
、
协助层和应用层构
成
。
主要功能模块由数据采集
、
数据存储
、
数据分析
、
76
《
西藏科技
》
2020
年
12
期(总第
333
期
)
数据应用等四部分组成
。
数据采集层主要功能是通过反屏蔽
、
网络爬虫
、
网站匹配和智能添加技术等实现多源异构数据的采
集
,
获取境内外新闻
、
博客
、
论坛
、
微博
、
微信
、
APP
、
短
视频
、
、
F
acebook
、
评论等通道数据
。
数据层主要由数据处理模块
、
数据标签模块组
成,其中数据处理模块主要功能是对采集到的数据进
行数据规范化
、
过滤去重
、
格式转换
、
元数据提取和多
语种互译等智能数据处理
。
数据标签模块主要功能
是对采集到的数据按照数据类型分类
。
数据协助层从数据采集模块中获取实时数据
,
形
成数据流
,
为数据存储系统
、
数据分析系统提供流数
据
。
数据存储模块采用分布式存储
,
分类存储不同类
型的数据
,
为数据计算和数据分析提供海量数据
。
数
据分析模块采用微服务架构
,
从数据总线及数据存储
平台中获取数据
^
-11
〕
。
应用层模块依托数据采集
、
数据处理
、
数据标签
、
云计算
、
数据分析模块
,
采用人机交互的方式,为系统
使用人员提供简洁
、
友好
、
灵活的功能模块
。
1.2
系统业务流程图
基于大数据的网络舆情分析系统根据网络舆情
事件发展规律
,
为更好的掌控网络舆情
,
从监测
、发
现
、
分析研判
、
搜索
、
追踪到处理
,
针对各阶段的特点
对网络舆情事件从诞生到终结进行周期布控
、
立体处
理
。
如图
1
所示
。
在舆情发现阶段
,
全网关键词
、
图片
、
声纹布控
,
媒体和账号布控相结合
,
舆情预警
、
专项监测
、
综合搜
索,人机辅助确保及时发现热点
、
敏感
、
负面
、
突发网
上舆情
。
在舆情预警阶段
,
根据网上舆情特点定制预警方
案
,
及时捕捉预警信息
,
通过微信
、
短信
、邮件、
电话等
多种方式实现预警推送
。
舆情分析阶段
,
根据舆情智能预警提供的线索和
信息技术
现阶段网络舆情信息
,
通过系统智能分析手段根据
网络舆情数据对事件
、
人物
、
媒体报道进行画像展示
分析
。
舆情专项监测阶段
,
持续实时跟踪重点舆情的动
向和发展态势
,
分时
、
分级
、
按地域标注事件状态
,
并
通过主题画像
、
群体画像
、
地域画像进行实时展示
。
舆情处理阶段
,
根据舆情态势
,
线上线下进行协
同处理
。
事后根据舆情总结发展特点
,
自定义舆情分
析报告模板
,
自动生成舆情分析报告
,
按时
、
按类
、
按
主题输入案例库
,
为以后的舆情分析研究提供参考
。
2
基于大数据的网络舆情分析系统关键技术
研究
2.1
文本无关的声纹识别系统
为提高系统的稳定性
、
增加噪音的处理能力
,
本
文把人工神经网络学习能力和对非线性复杂问题的
建模能力应用在声纹识别中
。
DNN(Deep
neural
net
work
)
是一种前馈人工神经网络,在输入与输岀层之间
包含了多于一层的隐含层
,DNN
可以理解为有很多隐
藏层的神经网络
。
DNN
按不同层的位置划分
,
神经网
络层可以分为三类,输入层
、
隐藏层和输岀层,层与层
之间是全连接的
,
也就是说
,
第
i
层的任意一个神经元
一定与第
i+1
层的任意一个神经元相连
,DNN
的优点
是基于
DNN
建模的声纹识别系统性能远优于分类模
型
y
本系统充分结合了
DBN
和
DBN
的优点设计了
DBN-DBN
声纹识别系统
[
14-15
]
,
基于
DBN-DNN
的声纹
识别系统框图如图
2o
图
2
基于DBN-DNN
的声纹识别系统框图
2.2
静态计算和流式计算引擎相结合
静态计算就是首先采用多通道采集各类数据
,
然
后把数据存储在数据库中
,根据设置的关键词
、
图片
或声纹对存储的静态数据进行集中计算
,
得到相关的
数据
,
然后进行多维度分析
,也就是所谓的批处理或
批量计算
。
Hadoop
是典型的大数据批量计算架构
,
由
77
信息技术
HDFS
分布式文件系统负责静态数据的存储,并通过
映射规约将计算逻辑分配到各数据节点进行数据计
算和价值发现
。该功能适用于周度
、
月度
、
季度
,
年度
舆情分析或更长时间的数据挖掘分析
,
这些网络舆情
分析时间跨度大
,
数据量大
,
流式计算由于受内存和
缓存空间的限制很难实现海量数据的计算分析
,
但静
态计算占用大量的存储空间
,
计算速度相对比较慢
,
不能及时掌握网络舆情态势
。
流式计算就是对内存中流动的数据直接进行实
时计算和分析
,
不需要把全部数据存储起来
,
然后把
计算和分析结果进行推送
。
由于流式计算是对实时
数据的计算
,
互联网舆情动态可以实时通过监控平台
进行展现,有利于互联网研究机构及时掌握网络舆情
动态
,
及时发现互联网上苗头性
、
预警性舆情事件
,
能
为及时处理网络舆情争取时间
,
对互联网舆情监控
工作具有很大的帮助
。
由于互联网上数据种类多
、
数量大
,
流式计算对计算机处理速度和内存有较高
的要求
。
基于大数据的网络舆情分析系统充分利用静态
计算和流式计算各自特点
,针对不同的业务需要使用
不同计算技术
,
有效解决了网络舆情工作中存在数据
分析跨度短和信息发现滞后问题
,
有效提升了网络舆
情管控能力和分析能力
。
2.3
文章
、
图片
、
音视频聚类分析引擎
目前的研究大都是针对文本
、
图片的研究
,
针对
音视频的研究较少
,
基于大数据的网络舆情分析系统
中对图片
、
音视频的监测分析是系统功能模块的重要
组成部分
,
为实现对文章
、
图片
、
音视频聚类分析我们
对音视频聚类算法进行了研究,把信息熵理论引入到
算法中用来判文章
、
图片
、
音视频相似度
[
16-17
]
。
以往的网络舆情分析系统也有运用了层次化话
题发现技术
,
但该技术仍然是针对文章聚类分析引擎
的应用较多
,
图片
、
音视频聚类分析应用较少
,
为实现
对文章
、
图片
、
音视频聚类分析我们对该技术进行了
改进
,
把信息熵理论引入到算法中用来判文章
、
图片
、
音视频相似度
。
假设有
N
个待聚类的文章
、
图片
、
音视频样本
,
基
本步骤就是
:
(
1
)
首先根据样本的属性进行归群
,
相同
属性的样本归为一个群
(
如文本类群
、
图片类群
、
音视
78
《
西藏科技
)
2020
年
12
期
(
总第
333
期
)
频类群
)
,
在一个类群内
,
每个样本归为一类
,
再计算
每两个类之间的相似度,也就是样本与样本之间的相
似度
;
(
2
)
在一个类群内
,寻找各个类之间相似度最大
的两个类
,
把他们归为一类
(
这样类的总数就少了
一
个
)
;
(
3
)
重新计算新生产的类与各个旧类之间的相似
度
;
(
4
)
重复
2
和
3
直到所有相似度较高的文章
、
图片
、
音视频样本点都归为一类,结束
。
在实际工作中我们发现一些延续时间比较长的
话题
,
在传播的过程中
,
其核心内容会逐渐发生一些
变化
,
所以该话题的特征也会随着发生改变
。
为解决
此类问题
,
我们综合时间权重
、文章
、
图片
、
音视频等
特征进行判断
,
在时间相隔较长的情况下从新产生的
聚类结果
。
3
基于大数据的网络舆情分析系统实现与
应用
根据智能预警功能提供的热点舆情
,
文章选择涉
西藏旅游相关话题作为系统测试主体,分别从网络舆
情趋势分析
、
声量统计分析
、
事件热词分析
、
倾向性分
析
、
地域热度分析等五个维度进行网络舆情研究和分
析
,
实现
2020
年对涉西藏旅游敏感舆情的预警
、
重点
舆情的处理
,
网络舆情发展态势掌控
,
舆情报告智能
生成
。
首先布控关键词和时间
。
关键词我们选定为
“
西
藏
and
旅游
”
,
自定义监控时间段
2020
年
5
月
1
日至
5
月
31
日
。
第二步数据处理
。
数据处理包括提取
、
清洗
、
转
换格式
、
过滤去重数据等
。
从系统显示的数据我们可
知
,
5
月
1
日至
5
月
31
日期间涉西藏旅游相关信息
98012
篇
(
条
)
次
,
其中
,
相关报道
、
评论信息等有
54087
条次
,
音视频类信息有
43925
条
,
境内有
88210
余条
次
,
境外有
9800
余条次
,
微博
10217
条
,
微信
17235
条
,
APP25690
条
,
电子报
2789
条
,
论坛
3672
条
,
贴吧
5241
条等
。
第三步网络舆情多维度分析
。
从网络舆情趋势
分析、
声量统计分析
、
事件热词分析
、
倾向性分析
、
地
域热度分析等五个维度进行网络舆情研究和分析
,
实
现对涉西藏旅游敏感舆情的预警
、
重点舆情的处理和
网络舆情发展态势掌控
。
如图
3
所示
。
《
西藏科技
》
2020
年
12
期(总第
333
期
)
从网络舆情发展趋势和声量统计分析我们可以
看出
5
月份境内涉西藏旅游相关信息量较大占网络舆
情总量
90%
以上,境外涉西藏旅游相关信息量较少占
网络舆情总量不到
10%,
微博
、
微信和
APP
涉西藏旅
游信息量较大分别占网络舆情总量
20%,25%
和
30%
左右
,
提醒网络舆情研究机构需加强对微博
、
微信和
APP
的监测力度
。
从热词排行我们可以看出疫情
、
病例
、
风险等热
词比较靠前
,
这说明了新冠肺炎疫情对西藏旅游的影
响持续存在
,
游客比较关注当地的疫情防控工作
。
从媒体倾向分析和
APP
倾向性分析走势图我们
可以发现二者有所差别
,
从媒体倾向分析图我们发现
负面信息量较大占
55%
左右
,
正面信息量较少不到
10%
,
从信息内容我们可知由于全球新冠肺炎疫情持
续蔓延
,
为有效防范疫情蔓延
,
西藏各大旅游景点暂
停接待游客
,
导致来藏游客锐减
,
与此相关产业受到
了影响
。
从
APP
倾向性分析图我们发现正面信息量
占
55%
左右,负面信息量占
10%
左右
。
从
APP
发布的
内容和主办方我们可知社会性
APP
占大部分,他们主
要关注旅游景点各地疫情情况
,
西藏到目前为止新冠
肺炎确诊病例只有一个
,
并且已经成功治愈
,
无疑似
病例
,
西藏应对疫情的科学举措和良好结果受到广大
网民的高度赞扬
。
从地域热度分析图我们可以发现林芝市和日喀
则市地域热度较高
,
从信息内容我们可知
5
月份是西
藏旅游的旺季
,
林芝市是西藏的小江南
,
五一小长假
林芝市各自然景区迎来了部分游客
,
涉林芝市自然景
区的图片
、
音视频增多
。
而日喀则市则不同
,
从涉日
喀则市的信息内容我们发现
2020
年
5
月我国第八次
信息技术
测量珠峰高度
,
著名的喜马拉雅山主峰就在日喀则市
管辖的区域内
,
从
5
月
6
日开始到
27
日登顶各大媒体
、
直播平台等都进行了实时跟踪报道
,
网上涉日喀则市
信息
5
月迅速攀升
。
第四步网络舆情态势掌控和处理
。
根据分析结
果我们可得出五月份网上涉西藏旅游舆情态势整体
平稳
,
无重大突发网络舆情
。
第五步智能生成报告
。
根据网上涉西藏旅游网
络舆情相关数据
,
智能生成
5
月份涉西藏旅游网络舆
情分析报告
,
存入案例分析库
,
为以后相关网络舆情
研究提供借鉴
。
4
结论
本文针对网络舆情,构建大数据网络舆情采集和
数据挖掘体系
,
基于境内外海量互联网文本
、
图片
、
音
视频等数据
,
设计开发了基于大数据的网络舆情分析
系统,研究网络观点
、
话题及其发展态势
、
传播路径
,
实现了对互联网舆情可视化智能分析
、
智能生成报
告
,
为网络舆情预警与分析提供技术支持
。今后的研
究工作将继续拓展数据智能采集渠道
,
增加网络舆情
分析维度
,
提升网络舆情分析的智能水平
,
为国家治
理
、
社会和谐贡献力量
。
参考文献
[1]
祁泉淞.大数据时代网络舆情危机治理策略研究
[
J
].
人民论坛•学术前沿
,
2020(1):88-91.
[2]
王晰巍
,
邢云菲,韦雅楠
,
等.大数据驱动的社交网
络舆情用户情感主题分类模型构建研究一以"移民"
主题为例
[
J
].
信息资源管理学报
,2020,10(1)
:29-38,48.
[3]
王超.我国突发性网络舆情事件的关联网络结构
分析
[
J
]
现代情报
,2019,39(12):121
—
130.
[
4]
张劲松
,
黄华
,
章凤君•基于网络舆情情感分析的民族
关系监测预警研究
[
J
].
青海社会科学
,2019,(4):169-174.
[
5
]
Oduwa
E
O,
Beatriz
D
L
I,
Iain
L,et
al.
A
scoping
re
view
of
the
use
of
for
public
health
research
[j
]
Elsevier
Ltd,
2020,122.
[6]
Arash
B.
Cognitive
and
affective
responses
to
political
disinformation
in
[
j
]
Elsevier
Ltd,
2019,101.
[7]
陈海郎•基于网络大数据的舆情监测设计与实现
[J].
电子技术与软件工程
,2019(14):7-9.
79
信息技术
[8]
梁永春
,
焦文强,田立勤.基于大数据新闻网站文本
挖掘的网络舆情监测设计与实现
[
J]
.
华北科技学院
学报
,2018,
15(04):82-87+92.
《
西藏科技
)
2020
年
12
期(总第
333
期)
[13]
邱子璇.基于神经网络的声纹识别研究
[D].
电子
科技大学,
2019.
[14]
郭华.基于神经网络的声纹识别系统设计与实现
[9]
赵丽梅.网络舆情分析与监测系统的设计与实现
[D].
上海交通大学
,200
8.
[15]
张少华
,
胡成辉
,
黄琳.基于改进的
Single-pass
算
法的新闻热点的发现
[
J
].
电子产品可靠性与环境试
验
,2017,35(z1):41-46.
[D].
兰州大学
,2017.
[10]
Paramita
R
,
Amlan
C.
A
Mixed
approach
of
Deep
Learning
method
and
Rule-Based
method
to
improve
As
pect
Level
Sentiment
Analysis
[J
]
.Elsevier
B.V.
2019.
[16]
孙红光
,
高星
,
孙铁利
,
等.基于改进
Single-Pass
算
法的网络新闻话题发现
[
J]
.
吉林大学学报(理学版),
[11]
魏莲芳.基于
“
互联网
+
”
的声纹识别技术在刑事
案件侦破中的应用研究
[J]
现代电子技术
,2020,43(7):
2018,56(1):114-118.
[17]
张帆,潘亚雄
,
胡勇.基于改进
Single-Pass
的新闻
话题检测与追踪技术研究
[J].
信息安全研究,
2020,6
34-38.
[12]
刘镇,吕超,范远超.基于深度学习的多声源并行
化声纹辨别方法
[
J]
.
江苏科技大学学报(自然科学
(5):396-403.
编校
陈莎莎
版
)
,2018,
32(1):106-111.
(上接
68
页)
定量检测对高原地区妊娠期高血压疾病
产后出血的预测价值较高
。
可以通过对产前
D-
二聚
体和
FDP
进行定量检测
,
有效的预测妊娠期高血压疾
病产后出血的发生风险
,
以提前做好预防治疗措施
,
减少围产期母婴不良结局的发生
。
参考文献
[1]
杨孜,张为远.妊娠期高血压疾病诊治指南
(
2015)
解读
[J]
中国实用妇科与产科杂志
,2015,31
(10)
:
886-893.
[2]
Say
L,
Chou
D
,
Gemmill
A
,
et
al.
Global
causes
of
maternal
death
:
a
WHO
systematic
analysis
[j].
Lancet
Glob
Health,
2014,2(6
)
:
e323-333.
[3]
李力.子痫前期研究现状与思考
[
J
]
中国计划生
育和妇产科,
2014,6
(1):
32-34.
[4]
冯燕,徐军娟.妊娠期高血压疾病患者凝血功能及
血小板参数变化与疾病严重程度的相关性分析
[J
]
.
中国妇幼保健
,2016,31(5):947-948.
[5]
廖丹.
D
-
二聚体
、
凝血指标
、
血小板参数检测对妊
娠高血压疾病的应用价值分析
[
J]
.
中国实验诊断学,
2014(4):621-624.
[6]
谢幸,孔北华.妇产科学(第
9
版)]
M
].北京:人民卫
生出版社
,201
8.
[7]
李力,顾焱,陈建坤
.
妊娠期高血压疾病与产后出血
[
J
]
中国计划生育和妇产科,
2016(04):10-12.
80
[8]
刘晶
,
孟涛.妊娠期高血压疾病并发产后出血的防
治
[
J
]
中国实用妇科与产科杂志,
2012(04):253-255.
[9]
朱大年
,
王庭槐.生理学(第
9
版)]
M
].
北京:人民卫
生出版社
,201
8.
[10]
周希亚
,
刘俊涛.妊娠期凝血机能的调节
[
J
]
实
用妇产科杂志
,2016(09):643-645.
[11]
蒋萌
,
林建华.妊娠期血液系统生理变化
[
J
].
实
用妇产科杂志
,2016,32(9)
:
641-643.
[12]
陈絮
,
黄映贞
,
黄雪惠
.
凝血功能联合胎儿脐血流
监测在妊娠期高血压疾病中的价值研究
[
J]
.
中国计
划生育和妇产科,
2019(03):53-56.
[13]
宋佳伦.妊娠期高血压疾病患者凝血相关指标与
围产结局关系的临床研究
[D].
山东大学
,2007.
[14]
王莉敏.妊娠晚期孕妇凝血四项
、
FDP
、
D-
二聚
体的变化及临床意义
[J
]
中华全科医学
,2013(12):
1951-1952.
[
15
].
Hansen
AT
,
Andreasen
BH
,
Salvig
JD
,
et
al.
Changes
in
fibrin
D
—
dimer,
fibrinogen
,
and
protein
S
during
pregnant
[
J
].
Scand
J
Clin
Lab
Invest,201
1,71
(
2)
:
173-176.
[16]
Chan
WS,
Lee
A
,
Spence
FA,
et
al.
D
—
dimer
test
-
ing
in
pregnant
patients:
Towards
determining
the
next
level
in
the
diagnosis
of
deep
vein
thrombosis
[J
].
JTH
,
2010,8
⑸
:
1004-1011.
编校
陈莎莎
发布评论