bt种子抓取

    • 1. 抓取你想要的数据
    • 2. 爬取bt种子
    • 3. 抓取磁力链

迷上了追番.. . bt种子+xunlei来解决。

推荐一个网站https://mikanani.me。可以搜索你想要的动漫… 以bt的形式下载,或者复制磁力链。

1. 抓取你想要的数据

  1. 需要了解requests, etree库,etree用来解析html页面的。
  2. 需要了解html页面结构。能够分析页面,获取数据存放在dom中的规则。etree是以页面标签为一个个的对象的。需要etree的规则来匹配html元素结点。
  3. 爬虫为了解放手工,自动化收集数据。

2. 爬取bt种子

爬取斗罗大陆。

https://mikanani.me/Home/Search?searchstr=%E6%96%97%E7%BD%97%E5%A4%A7%E9%99%86

它应该是个单体项目,没看到有xhr请求。无需转包,发送请求,就响应整个页面。

分析网页

不难发现,是个表格,每个tr下的第四个td,为什么不是第三个,etree就是第四个,td下的第一个a标签中的href属性就是想要的数据了。

https://mikanani.me/Download/20210529/e20a447ed38b85b0e2717336d8980240e600ff46.torrent

完整代码

设置请求头。

import requests as req
from lxml import etree

import urllib
import os

resp = req.get('https://mikanani.me/Home/Search?searchstr=%E6%96%97%E7%BD%97%E5%A4%A7%E9%99%86')

## print(resp.text)

html = etree.HTML(resp.text)

print(type(html), html)

# 获取a标签, 放下载链接。
res = html.xpath