首页 > 系统教程 python实训心得_python网络爬虫——入门基础

python实训心得_python网络爬虫——入门基础

系统教程90 更新时间：2024-06-13 18:06:13

2024年4月20日发(作者：)

python实训心得_python网络爬虫——入门基础

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐

者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的

名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

Python学习网络爬虫主要分3个大的版块：明确目标，抓取，分析，存储

明确目标(要知道你准备在哪个范围或者网站去搜索)

爬(将所有的网站的内容全部爬下来)

取(去掉对我们没用处的数据)

处理数据（按照我们想要的方式存储和使用）

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需

要的数据，而不需要一步步人工去操纵浏览器获取。

1.通用爬虫VS聚焦爬虫

1.通用爬虫：搜索引擎使用的爬虫系统

实施：将网页以快照的形式保存在服务器上，进行关键字提取和垃圾数据剔除，提供用户

一个访问的方式

3.操作：爬取网页-》存储数据-》内容处理-》提供检索

4.搜索引擎排名——PageRank值——根据网站的流量进行顺序排名

1.1.爬取流程

1.选择已有的url地址，将url地址添加到爬取队列

2.从提取url，DNS解析主机IP，将目标主机IP添加到爬取队列

3.分析网页内容，提取链接，继续执行上一步操作

1.2.搜索引擎获取新网站URL地址

1.主动推送URL地址-》提交URL地址给搜索引擎-》百度站长平台

2.其他网站的外链

3.搜索引擎和DNS服务商共同处理，收录新的网站信息

1.3.通用爬虫限制：Robot协议【约定协议robot.t某t】

robot协议：协议指明通用爬虫可以爬取网页的权限

robot协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守

本文发布于:2024-04-20，感谢您对本站的认可！

本文链接:http://www.fzithome.com/xitong/1713625985a482708.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

爬虫搜索引擎网页网站数据

发布评论取消回复

评论列表（有0条评论）

相关推荐