2024年4月20日发(作者:)

python实训心得_python网络爬虫——入门基础

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐

者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的

名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

Python学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储

明确目标(要知道你准备在哪个范围或者网站去搜索)

爬(将所有的网站的内容全部爬下来)

取(去掉对我们没用处的数据)

处理数据(按照我们想要的方式存储和使用)

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需

要的数据,而不需要一步步人工去操纵浏览器获取。

1.通用爬虫VS聚焦爬虫

1.通用爬虫:搜索引擎使用的爬虫系统

实施:将网页以快照的形式保存在服务器上,进行关键字提取和垃圾数据剔除,提供用户

一个访问的方式

3.操作:爬取网页-》存储数据-》内容处理-》提供检索

4.搜索引擎排名——PageRank值——根据网站的流量进行顺序排名

1.1.爬取流程

1.选择已有的url地址,将url地址添加到爬取队列

2.从提取url,DNS解析主机IP,将目标主机IP添加到爬取队列

3.分析网页内容,提取链接,继续执行上一步操作

1.2.搜索引擎获取新网站URL地址

1.主动推送URL地址-》提交URL地址给搜索引擎-》百度站长平台

2.其他网站的外链

3.搜索引擎和DNS服务商共同处理,收录新的网站信息

1.3.通用爬虫限制:Robot协议【约定协议robot.t某t】

robot协议:协议指明通用爬虫可以爬取网页的权限

robot协议是一种约定,一般是大型公司的程序或者搜索引擎等遵守