2023年11月25日发(作者:)

爬⾍中常见的问题,常见的反爬机制

原⽂来源:

1.请求头之User-agent

如果不带的话,你的⽬标⽹站服务端是可以检测到是浏览器还是爬⾍⼯具在访问数据的,就看你的⽬标⽹站的友好度了,如果反爬机制做的

很⾼效,到这⾥你就被ban了。

2.调试⼯具之痛

5.请求头之特殊字段

有的⽹站就是因为有这个验证,所以返回的数据不正常,带上就OK了。还有的⽹站更奇怪,你不带上也不会报错,返回的数据也是希望的

数据,但是⽆法和页码匹配,⽐如你请求的是第⼀页的数据,它有可能返回的是第5页的数据

这个字段字⾯意思就是http连接嘛,http链接最根本的就是tcp/ip连接了,什么三次握⼿,四次握⼿之类的,这些就不展开了,要说就占篇

gzip的意思就是这个⽹站的数据是做呀gzip压缩的,在浏览器(客户端)访问之后,会⾃动处理这类格式的数据。但是使⽤Python的标准

13.登录验证+token

有的⽹站在⽤户登录之后感觉还不够安全,就会再对token验证,如果登录验证和token都通过了说明是正常登录操作,才放⾏。当然也有

这种⽹站怎么爬取呢,requests会⾃动处理重定向的问题,没错,requests就是这么抗打

16.触发跳转到新的标签页

var check = (function () {

var callbacks = [], timeLimit = 50, open = false;

setInterval(loop, 1);

return {

addListener: function (fn) {

之痛

嘿嘿,⼜是requests库的问题,准确说其实不是requests的问题,⽽是跟上⾯的quote⼀样,我们平常遇到的⽹站基本都是不会出现这个

情况,当出现的时候我们就傻眼了,requests库的粉丝们,放下你们⼿上的菜⼑,我是友军啊,我也⼀直在⽤requests,只是发现了这⼀

两个情况⽽已

直接就可以把简单的验证码的数据提取出来,更多的操作就不说了,⽹上⼀⼤堆

24.滑动验证码