2024年4月20日发(作者:)
python实训心得_python网络爬虫——入门基础
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐
者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的
名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
Python学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储
明确目标(要知道你准备在哪个范围或者网站去搜索)
爬(将所有的网站的内容全部爬下来)
取(去掉对我们没用处的数据)
处理数据(按照我们想要的方式存储和使用)
网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需
要的数据,而不需要一步步人工去操纵浏览器获取。
1.通用爬虫VS聚焦爬虫
1.通用爬虫:搜索引擎使用的爬虫系统
实施:将网页以快照的形式保存在服务器上,进行关键字提取和垃圾数据剔除,提供用户
一个访问的方式
3.操作:爬取网页-》存储数据-》内容处理-》提供检索
4.搜索引擎排名——PageRank值——根据网站的流量进行顺序排名
1.1.爬取流程
1.选择已有的url地址,将url地址添加到爬取队列
2.从提取url,DNS解析主机IP,将目标主机IP添加到爬取队列
3.分析网页内容,提取链接,继续执行上一步操作
1.2.搜索引擎获取新网站URL地址
1.主动推送URL地址-》提交URL地址给搜索引擎-》百度站长平台
2.其他网站的外链
3.搜索引擎和DNS服务商共同处理,收录新的网站信息
1.3.通用爬虫限制:Robot协议【约定协议robot.t某t】
robot协议:协议指明通用爬虫可以爬取网页的权限
robot协议是一种约定,一般是大型公司的程序或者搜索引擎等遵守
发布评论