2023年11月28日发(作者:)

獻据戽技术

信■与电圈

China Computer & Communication

202024

基于的网页数据爬虫设计分析

Python

李传科

(,海571400)

:在+”时代,面对冗杂的数据需要通过构建模型得出准确的结论。基,本文首先阐述了网络爬

虫的相关概念,进而分析了网络爬虫的案例,比如根据网页的基本结构对其进行分析,使用不同的分析工具获取更准确

的信息。

:互联网网络肢虫;数据整理

中图分类号:TP393. 092 文献标识码A 文章编号:1003-9767 (2020) 24-130-03

Design and Analysis of Web Data Crawler Based on Python

LI Chuanke

(HainanCollegeofSoftwareTechnologyQionghaiHainanChina

, 571400, )

Abstract +,?, ,

Intheeraof^Internetinthefaceoftheredundantdataweneedtobuildaccurateconclusionsthroughbuilding

modelsBasedonthisthispaperfirstexpoundstherelatedconceptsofwebcrawlerandthenanalyzesthecasesofwebcrawlersuch

. , , ,

asanalyzingitaccordingtothebasicstructureofthewebpageusingdifferentanalysistoolstoobtainmoreaccurateinformation

, .

Keywords ; ;

Internetwebcrawlerdatasorting

引言

用来编写自动化脚本,随着不断的发展现在多被用于开发独

它可以应用在网页开发、人工智能、软件开发、 立的大型项目。

随着大数据时代的到来,人们使用网络的频率越来越高,

人们在查询资料、观看视频时都需要用到网页,网页中包含

后端开发、网络爬虫等领域,具有简洁性、易读性和可扩展

的数据有很多人们看不到的内容。以往人们查不到的信息,

现在只需要输人关键词就可以找到,搜索引擎成为人们获取

信息的一个工具,能够满足人们的数据需求[1_4]

网络爬虫是一个自动收集定向网络信息的程序,可以

通过编写程序的方式采集所需要的信息。在收集信息后,要

对这些数据都进行划分整理,并把整理出的数据都存储到电

脑中。本文主要阐述了网络爬虫的相关内容,并把收集到的

信息全部录入相应的数据库中。在,要对

Python的相关内容进行了解,根Python在爬虫方面的特

设计一个完整的框架,保证可以获取有用的内容。为了

解决爬虫程序中的问题,可以采用反爬虫结构保证数据的准

确性。

,在国外很多人用它来做科学计算研究,用来教授程序

课程。

1.2网络爬虫的原理

在搜索引擎中,网络爬虫是一个重要组成部分,它的主

要作用就是把网络中的网页下载到本地电脑中,可以对相关

的内容进行备份。在传统的爬虫设计中,多是通过获取一个

或若干个初始网页的URL开始,在进行抓取时需要对页

URL进行不断更新,直到满足人们的需求为止。在

整个系统中,重要的组成部分是待抓取URL队列,因为这

与抓取的具体步骤相关,可以明确抓取的页面情况。在完成

抓取任务后这些页面会被保存到系统中,人们再对其进行相

应的分析和整理,通过建立索引的方式进行后续查询。

网络爬虫的基本工作流程如下:,在爬取前选择合

URL;,把URL放人待抓取URL队列中;

1.1 Python 简介

Python是一个跨平台的计算机程序设计语言,最开始是

,从这些队列中选择合适的URL,IPURL

应的网页下载到网页库中;第,通过分析抓取相关队列中

1网络爬虫概述

1988—),男,海南万宁人,硕士研宄生,讲师。研宄方向:软件技术、人工智能、

Linux

130

信篇与电H

202024China Computer & Communication

獻据戽技术

URL,分析相关内容,再把它放入待抓取的队列中,如此

循环往复进行下个抓取。

1.3网络爬虫的分类

网络爬虫的主要作用就是可以顺着网页追踪人们所需的

,根据相关的规则自动抓取网络中的程序或者脚本。随

着网络的快速发展,出现了越来越多的信息,为了进一步提

取有效的信息可以把网页中的相关资源集中在一起。网络爬

虫主要分为4个类型:一是通用网络爬虫,是由初始URL

URL队列、页面爬行模块、页面分析模块、数据库等构

;二是聚焦网络爬虫,主要应用在特定信息的爬取中,可

包括两部分的内容:一是基础信息,二是其他信息。对于不

同的信息来说有不同的小标题,在提取内容时,要对这些小

标题进行判断,当发现有小标题时就需要对内容进行赋值,

反之就把小标题赋为空值,这样可以降低找不到小标题的

,不fullJudgement下面都是基

,可以对其进行提取存放到相应的列表中。其他信

full Judgementparagraphs,可以运用相

方式把信息提取出来,再把每个小标题放入相应的列

表中。

(6)加强分析与整理。对获取的信息通过列表的方式

进行相应的分析与整理,把它们汇总到Excel中。为了更好

以为某一特定的人群提供相应的服务;三是增量式网络爬虫,

地对数据的进行分析,可以把爬取的内容放入Excel中,当

只爬取内容发生变化的网页或新产生的网页;四是深层网络

数据比较多的时候,可以把它们放置到MongoDB中。

,可以隐藏在表单后,不能通过直接的方式来获取,需

要输入一些关键词后才能获取。

2.1.2使selenium自动获取K面爬取

进人网页数据库中,通过模式的方式进人网页中。

,通过登录的方式进人页面。第,通过模仿的方式点

击页面,每个步骤都不能少,要不然就会停滞不前,使整个

。第,在使webdrivefind_element_

by_xpath find_element_by_css_selector ,找到相应的

位置后进行点击。第,登录账号。在进入网站时需要登录

2.1爬取流程和运行结果

Spyder可以根据所要查询的内容进人相关网页进行

,通过该方法对结果进行相应的转换并存储,本文主要

运用两种方式进行爬取,现将鹏取过程和运行结果列出来。

2.1_1结合数据存取方式进行爬取

(1) 注意程序伪装问题。通过浏览器进行请求时,当

程序不能兼容浏览器时,人们便没有办法获取相关内容。所

,在爬取过程中需要对程序进行伪装。这样在运用request

,可递相关内容加人指定的headers目前,大部

分网站要想看到详细的内容就需要进行登录,才能获取更

,所使cookie值时要注意在登录后才会产生

cookie

(2) for循环来翻页。在运用浏览器搜索网页时可

才能获取更详细的信息,要根据页面提示进行登录,然后再

进行相应的搜索。第,在进行登录时,需要输入相应的账

号和密码,再send_keys的方法做好输人工作,再次进行

点击才能完成登录工作。第输人关键词进行爬取。在进

行这一步骤时,可以通find_elements_by_css_selector用法

进入相应的页面后,可以根据关键词获取相应的信息,

这样可以保证在爬取的过程中可以尽可能多获取相关的信

,最后把收集上来的信息都整合在一起。运Selenium

法进行翻页,在爬取时可以进人详细页面中。步骤都是一样

的,完成一页爬取后再跳转到下一页。首先,进人详细信息

2网络爬虫的案例分析

为了让人们可以更加便利地在网页中查找数据,本文主

要运用爬虫方式获取网页中的数据,对收集到的数据进行储

从而方便人们对数据进行分析。

获取关键词的具体位置,再输人关键词进行搜索。

页。点击相关标题进行跳转,运witch_to_window

保证可以进入相关页面中。其爬取详细信息。在电脑中

找到每个部分对应的标签,当它们相同时,才可以通过get_

attribute找到具体的位置。对于小标签来说要进行赋空值,

通过搜索关键词来查看。在输人不同关键词时可 (3)

。再find_elements_by_css_

selector,根据所需内容进行爬取,对其进行赋予变量

。最,对变量进行集中并放人到列表中,这样方便存人

Excel中。为了更好地对数据进行相应的处理和分析,把爬

以发现,一页中显示的数据量是有限的,在查看的过程中,

要想查询更多的数据就可以通过翻页来查看。

以发现,searchWord有所改变。关键词的数值是固定不变

,需URL中,有时会出现错误的情况,所以要

把后面的部分进行单独赋值,把数据都整理后再进行传递,

从而才能保证正常运行。

(4) 搜索页面中获得相应的数据编号,再进人详细页面。

取的内容可以存到Excel,对于数据比较多的内容可以存

MongoDB中。

2.2设计过程中遇到的问题

在设计的过程中,主要遇到了两个问题。第,代码问

。在运用常规的方法时可能会遇到代码问题,此时便需要

根据内容对其进行修改。第,在设计代码的过程中,如果

遇到翻页的问题,便无法设置固定数据。为了解决相关问题,

,通,在面对不URL只有

judgementID=丨丨是有变化的,也就是每个信息在网站上都有

属于自己的ID。其,在页面搜索的过程中需要找到相应的

ID。最formatIDURL中,这样就可以完

成对搜索页的工作,再进人更加详细的页面中。

(5) 进人详细页面后查看具体的内容。这个页面主要

131

獻据專技术

信■与田腰

China Computer & Communication

202024

需要把网页中的数据放置到文件中的一个特定位置,再输人

相关的词语才能完成爬取页面的工作。

[1] 晰.基python的网络爬虫技

参考文献

从网络爬虫看平台数 [2] 丁晓东.数据到底属于谁?

[J].信息技术与信息化,2019(12):143-145.

[3] 聪.浅Python爬虫技术的网页数据抓取与分

[4] 曾健荣,张仰森,等.面向多数据源的网络爬虫

据权属与数据保护[J].华东政法大学学报,2019,22(5):69-83.

[J]•计算机时代,2〇19(8):94_96.

3

随着互联网,网络走入千家万户,对企业

的发展产生了很大的影响。企业经营需要用到大量的数据,

为了更好地在众多信息中获取准确的数据,可以通过爬虫程

序获取既定目标,有选择性地访问网址获取所需的信息,帮

助企业对数据进行抓取和分析,为企业进行决策提供正确的

数据。

实现技术及应用[J].计算机科学,2019,46(5):304-309.

132