2024年5月5日发(作者:)

2021

年第

3

China

Computer

&

Communication

敬件卄农与京用

基于爬虫的高校网络舆情分析系统设计与实现

王展赵征鹏

云南大学信息学院

云南昆明

650091

随着网络技术的发展

网络舆情已经成为高校思政工作的重要阵地.高校网络舆情具有变化快速

内容多

元等特点

增加了思政工作的难度.笔者针对高校网络舆情分析的实际需求

结合网络爬虫以及现代自然语言处理的相

关技术

设计了一个网络舆情分析系统

对高校舆情管理和引导具有一定的实用价值和探索意义.

关键词

网络舆情

高校思政工作

爬虫

文本分析

中图分类号

G647

TP311.

13

文献标识码

A

文章编号

1003-9767

(2021

03-137-03

Design

and

Realization

of

University

Network

Public

Opinion

Analysis

System

Based

on

Crawler

WANG

Zhan,

ZHAO

Zhengpeng

(School

of

Information,

Yunnan

University,

Kunming

Yunnan

650091,

China)

Abstract

With

the

development

of

network

technology,

network

public

opinion

has

become

an

important

position

for

ideological

and

political

work

in

colleges

and

universities.

The

network

public

opinion

of

colleges

and

universities

has

the

characteristics

of

rapid

change

and

diversified

content,

which

increase

the

difficulty

of

ideological

and

political

work.

The

author

designed

a

network

public

opinion

analysis

system

based

on

the

actual

needs

of

colleges

and

universities

network

public

opinion

analysis,

combined

with

web

crawlers

and

modern

natural

language

processing

technology,

which

has

certain

practical

value

and

exploratory

significance

for

the

management

and

guidance

of

public

opinion

in

colleges

and

universities.

Keywords:

internet

public

opinion;

ideological

and

political

work

in

colleges

and

universities;

crawlers;

text

analysis

0

引言

随着计算机网络技术的飞速发展和网络媒体的多样化

人们开始使用微博

微信

Facebook

Twitter

等社交平台

络舆情数据

结合文本分析和自然语言处理技术了解学生的

思想动态

能够为学校做好舆情管理和引导工作提供参考

1

爬虫相关技术

在互联网时代

获取信息的手段越来越多

,可以获取的

表现自我

传递思潮

网络舆情是网络用户面对热点事件

特定议题与社会现象

所表达的认知

态度

情绪

意愿

意见

观点和行为倾向等的总和⑴。

网络舆情是网络用户的

主观性表达

,没有得到确认或包装便直接发布在互联网上

信息也越来越多

面对浩瀚的数据资源

可以利用爬虫技术

快速获取大量用户所需的数据

[4]

o

爬虫模块是舆情分析系统

的基础

合理使用爬虫技术可以更快

更有效地获得精确的

高校师生的思想活跃,

与互联网有着极强的黏连性

们喜欢关注社会热点

喜欢评论与自身利益相关的事件或校

数据

爬虫系统选取指定网页获取网页源代码

再利用自然

园突发事件

由此带来的网络负面舆情⑷影响不容忽视

,针

对高校的网络舆情分析也就显得愈发重要。

国内高校开展校

园网络舆情研究起步较晚

再加上校园内从事舆情处置的工

语言处理技术对数据进行去噪

从而得到想要的数据

通用

的网络爬虫架构如图

1

所示

爬虫系统工作的基本流程包括

3

个部分

_,

发送请求

爬虫程序通过网络协议向目标网站发送请求

等待网站服务

器的响应

第二

获取信息

这一步是爬虫非常重要的一环,

作人员又缺乏专业的数据分析知识

舆情处理观念滞后

、方

法落后

不符合现阶段的网络传播规律冈

本文基于爬虫技

术设计高校网络舆情的分析系统

利用爬虫技术获取相关网

方便后续处理数据

服务器响应后会得到网页源代码

利用

构造正则表达式或页面解析库解析源代码就可以获取所需数

基金项目

云南省高校辅导员发展研究中心

云南大学

资助

高校网络舆情分析方法研究

项目编号

19FDYB26

作者简介

王展

1988-

,

男,河南内乡人

硕士研究生

助教

研究方向

:人工智能

信号处理

思想政治

137

後件卄发与龛用

IB

与电

IE

China

Computer

&

Communication

2021

年第

3

第三

存储数据

获取信息后可以将数据保存在本地或

典进行匹配

遇到词典里有的词就标记出来

如果要处理的

远程数据库中

方便后续使用

存储格式可以根据实际情况

进行选择。

文本中有太多的歧义词或者未登录词时

需要使用经过改进

的基于词典的分词方法

如正向最大匹配法

逆向最大匹配

法和全切分路径选择方法等

基于统计语言模型的分词方法

就是通过汇总数据的统计特征去估计相邻字词的关联性

进行分词

一般选用的统计特征是互信息量

基于互信息量

的统计分词方法

就是假设一个句子有几种不同的分词方法,

如果使用某一种方法后这个句子出现的概率是所有方法中最

大的

那么就可以确定该方法为最好的分词方法卩役基于统

计语言模型的分词方法使用的模型有很多种

如隐马尔可夫

模型

N

元语言模型和条件随机场模型等

一般的分词工具

有现成的

Python

库,

在此不再赘述

2

原始数据处理与文本分析

原始数据的处理分析流程如图

2

所示

3

分词方法示意图

2.2.2

文本特征

舆情数据

文本由字

词、

短语

句子以及段落等元素构成

这些

元素都可以作为文本特征。

选取特征时

需要考虑选取的特

征怎么赋予权重

选取不同的文本特征对文本分析的结果有

2.1

信息提取

爬虫获取的

_

般都是

HTML

页面

整个页面由成对的标

签构成

标签层层嵌套

形成一个

D0M

树状结构的文档

什么影响等

目前

常见的特征选取方法包括基于文档频率

的特征、

信息增益法和互信息法等

互信息法的原理如下

假设右表示特征

q

表示类别

如果互信息越大

那么特征

页面信息提取就是从

HTML

页面中提取出需要的数据

并且

保存为方便后续分析处理的标准格式

该模块采取正则匹配

t,

和类别

Cj

共现的程度就越大

假设

a

表示属于

Cj

类且包含

特征项右的文档频数

,

b

表示不属于

q

类但包含

t

t

的文档频数

,

方式

根据提取信息的规律制定信息匹配规则

,对整个文档

c

表示属于

q

类但不包含

t,

的文档频数,

n

表示总的文本数量

特征

z,.

和类别

q

的互信息可由式

(

1)

计算

=

log

进行正则匹配

把匹配到的信息保存下来

这种方法对正则

表达式的写法有很高的要求

要足够熟悉页面内容格式

多第三方的库可以帮忙完成这一任务

在具体提取过程中

Pg)

AXN

(A

+

C)x(A

+

B)

pgp

(

c

)

(1)

要结合页面内容制定规则

保证获取足够的分析数据

如果特征

t

t和类别

Cj

无关

P(t

Cj)=P(t)

x

P(Cj)

,

i(t

q)=o

为了选出对多类文档识别有用的特征

采用最

大值法和平均值法

表达式如下:

M

2.2

文本分析

2.2.1

文本分词

标准格式的数据文本分析首先就要进行分词

输入的分

f

)

=

n^[P(Cj)x/(g)]

M

(2)

(

3

)

词是一连串的字符

但词与词的间隔并不清晰

分词就要把

词与词的间隔信息表示出来

比如

输入

九项约束性指标

超额完成

蓝天碧水净土保卫战取得重要成效

输出应该

7=1

2.2.3

文本分类

常用的分类方法包括贝叶斯分类法

(

Naive

Bayesian

九项

/

约束性

/

指标

/

超额

/

完成

蓝天

/

碧水

/

净土

/

卫战

/

取得

/

重要

/

成效

分词方法如图

3

所示

Classifier

)

基于支持向量机的分类器

(

Support

Vector

Machines

,

SVM

)

K-

最近邻法

(

K-Nearest

Neighbor

,

分词方法大致分为基于词典的机械切分方法和基于统计

语言模型的分词方法

基于词典的方法就是利用查字典进行

KNN)

决策树

(

Decision

Tree

)

和神经网络法

(

Neural

Network,

NNet)

等⑺

。下面主要介绍

K-

最近邻法

KNN

的原理是假设一个文本与数据集中的几个样本最相似

而这

字符串匹配

该方法首先要构建词典

可以选用现有的中文

词典

也可以构建用户特定内容的词典

然后再用句子和词

138

2021

年第

3

China

Computer

&

Communication

敬件卄农与京用

几个样本都属于某一类

,则该文本也属于这一类

通俗地讲,

就是看该文本与周围哪几个样本最相似

文本分类采用余弦

来计算文本相似度

该方法的基本步骤是:

先用向量表示训

练集和待分类文本

再计算待分类文本和训练集文本的相似

-

接着计算几个最相似的文本的所属类别

最后判定待分

类文本的类别冋

3

舆情分析系统设计与实现

3.1

舆情分析系统设计

舆情分析系统的主要功能有数据采集

预处理和数据分

析,

系统流程如图

4

所示

1020

889

836

807

777

744

731

638

589

管虎

580

牧野

562

回归

500

护航

492

葛优

477

你好

476

七个

459

小人物

429

喜欢

415

6

我和我的祖国

短评分析

陈凯歌

宁浩

夺冠

祖国

流星

白昼

徐峥

张一白

北护腔

F

r

/

巒齡

4

结语

随着信息技术的不断发展

互联网与人类的生活密切相关

高校师生作为先进技术的受益者

与网络之间的联系更加紧密

高校网络舆情的压力也越来越大

这就要求高校相关部门要重

视舆情管理

不但要提高思想认识

还要不断更新技术手段

本文针对网络舆情分析的实际需求

结合网络爬虫以及现代自

然语言处理的相关技术

设计了

_

个高校网络舆情分析系统

4

輿情分析系统流程

对高校舆情管理和应对具有一定的参考意义

[10]

o

虽然该系统的

基本功能已经实现

但还是有几点不足

«

■棒性不高

只能

该系统使用互联网爬虫技术获取舆情数据

使用现代自

然语言处理技术对获取的数据进行分析

为舆情管理提供支

该系统的整体设计如图

5

所示

舆情分析系统

爬虫采集舆情数据

;②不支持对定制化内容进行舆情分析

集和分析的效率还不够

不支持实时分析响应

在后续的研究

工作中

要结合当下热门的人工智能技术

采用深度学习方法

训练文本模型

让数据更好地为高校思政工作服务

W

参考文献

数据采集模块

数据预处理模块

数据分析模块

前端展示模块

5

奥情分析系统

舆情分析系统主要包括

4

个模块数据采集

数据预处理

数据分析和前端展示

其中

数据采集模块主要利用正则匹

配提取技术

结合页面内容制定规则提取

HTML

页面信息

为获取足够的分析数据提供保证

数据预处理模块主要对所

提取的页面信息进行数据查看

缺失值处理

特征规范化以

及去噪处理

将有效的数据存储至舆情数据库中

为下一步

的数据分析做准备

数据分析模块是整个系统的核心模块

在舆情分析系统性能评估中起决定性作用

此模块主要完成

对文本信息的分词

、文本特征提取以及文本聚类

前端展示

模块是将数据分析的结果经过可视化处理后呈现给用户

,能

让用户更迅速

有效地搜集到网络舆情关键信息

3.2

获取结果展示

本文将豆瓣上所有关于电影

我和我的祖国

的短评作

为数据进行分析

,结果如图

6

所示

该电影共有

168

454

评论

从词云图中可以很清晰地看出评论的关键词和评论的

变化趋势

[1]

中共中央宣传部.网络舆情信息工作理论与实务

[M].

北京:

学习出版社

,2009.

[2]

周蔚华

徐发波.网络舆情概论

[M].

北京

中国人民大学

出版社

,2016.

⑶冯源.加强高校突发事件网络舆情管理

[N],

人民日

,2017-04-17(2).

[4]

崔庆才

.Python

3

网络爬虫开发实战

[M],

北京

人民邮电

出版社

,201&

[5]

吴军.数学之美

[M].

北京

人民邮电出版社

2012.

[6]

巫黄旭.基于统计学习的中文分词改进及其在面向应用分

词中的应用

[D].

杭州

浙江大学

,2012.

[7]

[

以色列]

Yoav

Goldberg.

基于深度学习的自然语言处理

[M],

车万翔

郭江

张伟男

译.北京

机械工业出版社

,2018.

[8]

宗成庆.统计自然语言处理

[M],

北京

人民邮电出版

,2013.

[9]

彭君睿.面向文本分类的特征提取算法研究

[D],

北京

京邮电大学

,2014.

[10]

北京大学党委政策研究室

.

大数据时代的舆情管理

[M],

北京

北京大学出版社

,2019.

[11]

[

]Jiawei

Han,Micheling

Pei,et

al.

数据挖掘

概念与技术

[M].

范明

孟小峰

译.北京

机械工业出版

,2012.

139