基于爬虫的高校网络舆情分析系统设计与实现编程频道|福州电脑网

2024年5月5日发(作者：)

信

2021

年第

期

China

Computer

Communication

敬件卄农与京用

基于爬虫的高校网络舆情分析系统设计与实现

王展赵征鹏

（

云南大学信息学院

，

云南昆明

650091

）

摘

要

：

随着网络技术的发展

，

网络舆情已经成为高校思政工作的重要阵地.高校网络舆情具有变化快速

、

内容多

元等特点

，

增加了思政工作的难度.笔者针对高校网络舆情分析的实际需求

，

结合网络爬虫以及现代自然语言处理的相

关技术

，

设计了一个网络舆情分析系统

，

对高校舆情管理和引导具有一定的实用价值和探索意义.

关键词

：

网络舆情

；

高校思政工作

；

爬虫

；

文本分析

中图分类号

：

G647

；

TP311.

文献标识码

：

文章编号

：

1003-9767

（2021

）

03-137-03

Design

and

Realization

University

Network

Public

Opinion

Analysis

System

Based

Crawler

WANG

Zhan,

ZHAO

Zhengpeng

(School

Information,

Yunnan

University,

Kunming

Yunnan

650091,

China)

Abstract

：

With

the

development

network

technology,

network

public

opinion

has

become

important

position

for

ideological

and

political

work

colleges

and

universities.

The

network

public

opinion

colleges

and

universities

has

the

characteristics

rapid

change

and

diversified

content,

which

increase

the

difficulty

ideological

and

political

work.

The

author

designed

network

public

opinion

analysis

system

based

the

actual

needs

colleges

and

universities

network

public

opinion

analysis,

combined

with

web

crawlers

and

modern

natural

language

processing

technology,

which

has

certain

practical

value

and

exploratory

significance

for

the

management

and

guidance

public

opinion

colleges

and

universities.

Keywords:

internet

public

opinion;

ideological

and

political

work

colleges

and

universities;

crawlers;

text

analysis

引言

随着计算机网络技术的飞速发展和网络媒体的多样化

，

人们开始使用微博

、

微信

、

Facebook

及

Twitter

等社交平台

络舆情数据

，

结合文本分析和自然语言处理技术了解学生的

思想动态

，

能够为学校做好舆情管理和引导工作提供参考

。

爬虫相关技术

在互联网时代

，

获取信息的手段越来越多

，可以获取的

表现自我

、

传递思潮

。

网络舆情是网络用户面对热点事件

、

特定议题与社会现象

，

所表达的认知

、

态度

、

情绪

、

意愿

、

意见

、

观点和行为倾向等的总和⑴。

网络舆情是网络用户的

主观性表达

，没有得到确认或包装便直接发布在互联网上

。

信息也越来越多

。

面对浩瀚的数据资源

，

可以利用爬虫技术

快速获取大量用户所需的数据

[4]

爬虫模块是舆情分析系统

的基础

，

合理使用爬虫技术可以更快

、

更有效地获得精确的

高校师生的思想活跃，

与互联网有着极强的黏连性

。

他

们喜欢关注社会热点

，

喜欢评论与自身利益相关的事件或校

数据

。

爬虫系统选取指定网页获取网页源代码

，

再利用自然

园突发事件

，

由此带来的网络负面舆情⑷影响不容忽视

，针

对高校的网络舆情分析也就显得愈发重要。

国内高校开展校

园网络舆情研究起步较晚

，

再加上校园内从事舆情处置的工

语言处理技术对数据进行去噪

，

从而得到想要的数据

。

通用

的网络爬虫架构如图

所示

。

爬虫系统工作的基本流程包括

个部分

。

第

发送请求

。

爬虫程序通过网络协议向目标网站发送请求

，

等待网站服务

器的响应

。

第二

，

获取信息

。

这一步是爬虫非常重要的一环,

作人员又缺乏专业的数据分析知识

，

舆情处理观念滞后

、方

法落后

，

不符合现阶段的网络传播规律冈

。

本文基于爬虫技

术设计高校网络舆情的分析系统

，

利用爬虫技术获取相关网

方便后续处理数据

。

服务器响应后会得到网页源代码

，

利用

构造正则表达式或页面解析库解析源代码就可以获取所需数

基金项目

：

云南省高校辅导员发展研究中心

（

云南大学

）

资助

“

高校网络舆情分析方法研究

”

（

项目编号

：

19FDYB26

）

作者简介

：

王展

（

1988-

）

男，河南内乡人

，

硕士研究生

，

助教

。

研究方向

：人工智能

、

信号处理

、

思想政治

。

137

後件卄发与龛用

信

与电

China

Computer

Communication

2021

年第

期

据

；

第三

，

存储数据

。

获取信息后可以将数据保存在本地或

典进行匹配

，

遇到词典里有的词就标记出来

。

如果要处理的

远程数据库中

，

方便后续使用

，

存储格式可以根据实际情况

进行选择。

文本中有太多的歧义词或者未登录词时

，

需要使用经过改进

的基于词典的分词方法

，

如正向最大匹配法

、

逆向最大匹配

法和全切分路径选择方法等

。

基于统计语言模型的分词方法

就是通过汇总数据的统计特征去估计相邻字词的关联性

，

再

进行分词

。

一般选用的统计特征是互信息量

。

基于互信息量

的统计分词方法

，

就是假设一个句子有几种不同的分词方法，

如果使用某一种方法后这个句子出现的概率是所有方法中最

大的

，

那么就可以确定该方法为最好的分词方法卩役基于统

计语言模型的分词方法使用的模型有很多种

，

如隐马尔可夫

模型

、

元语言模型和条件随机场模型等

。

一般的分词工具

有现成的

Python

库，

在此不再赘述

。

原始数据处理与文本分析

原始数据的处理分析流程如图

所示

。

图

分词方法示意图

2.2.2

文本特征

舆情数据

文本由字

、

词、

短语

、

句子以及段落等元素构成

，

这些

元素都可以作为文本特征。

选取特征时

，

需要考虑选取的特

征怎么赋予权重

，

选取不同的文本特征对文本分析的结果有

2.1

信息提取

爬虫获取的

般都是

HTML

页面

，

整个页面由成对的标

签构成

，

标签层层嵌套

，

形成一个

D0M

树状结构的文档

。

什么影响等

。

目前

，

常见的特征选取方法包括基于文档频率

的特征、

信息增益法和互信息法等

。

互信息法的原理如下

：

假设右表示特征

，

表示类别

，

如果互信息越大

，

那么特征

页面信息提取就是从

HTML

页面中提取出需要的数据

，

并且

保存为方便后续分析处理的标准格式

。

该模块采取正则匹配

和类别

共现的程度就越大

。

假设

表示属于

类且包含

特征项右的文档频数

表示不属于

类但包含

的文档频数

方式

，

根据提取信息的规律制定信息匹配规则

，对整个文档

表示属于

类但不包含

的文档频数,

表示总的文本数量

。

特征

z,.

和类别

的互信息可由式

(

计算

：

log

进行正则匹配

，

把匹配到的信息保存下来

。

这种方法对正则

表达式的写法有很高的要求

，

要足够熟悉页面内容格式

，

很

多第三方的库可以帮忙完成这一任务

。

在具体提取过程中

，

Pg)

沁

AXN

C)x(A

pgp

(

)

(1)

要结合页面内容制定规则

，

保证获取足够的分析数据

。

如果特征

t和类别

无关

，

则

P(t

”

Cj)=P(t)

P(Cj)

那

么

i(t

”

q)=o

。

为了选出对多类文档识别有用的特征

，

采用最

大值法和平均值法

，

表达式如下:

2.2

文本分析

2.2.1

文本分词

标准格式的数据文本分析首先就要进行分词

，

输入的分

)

n^[P(Cj)x/(g)]

(2)

(

)

词是一连串的字符

，

但词与词的间隔并不清晰

。

分词就要把

词与词的间隔信息表示出来

。

比如

，

输入

“

九项约束性指标

超额完成

，

蓝天碧水净土保卫战取得重要成效

”

，

输出应该

7=1

2.2.3

文本分类

常用的分类方法包括贝叶斯分类法

(

Naive

Bayesian

是

“

九项

约束性

指标

超额

完成

，

蓝天

碧水

净土

保

卫战

取得

重要

成效

”

□

分词方法如图

所示

。

Classifier

)

、

基于支持向量机的分类器

(

Support

Vector

Machines

SVM

)

、

K-

基于爬虫的高校网络舆情分析系统设计与实现

发布评论取消回复

最近发表

相关推荐

标签列表

基于爬虫的高校网络舆情分析系统设计与实现

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复