2024年6月1日发(作者:)

火车头采集教程

火车头采集基本流程:

系统设置新建站点新建任务采集网址采集内容发布内容抓数据。

1.新建站点:

据你自己的需求为任务建立统一的站点,以方便管理。

点击菜单上:站点新建站点 打开如下图:

可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。1,代表根据

地址采内容地址,然后根据内容地址采内容。2,代表根据地址采列表地址,然后根据列表

地址采内容地址,再根据内容地址采内容。),站点描述。

2.新建任务:

任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。采集器通过运

行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容,发内容。

一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务(默认设置是同

时最多运行3个任务)。

选择站点 点击右键选择“从该站点新建任务” 。任务的编辑界面如图:

采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步,第一步是:采

网址,第二步:采内容。

3.采集网址:

采网址,就是从列表页中提取出内容页的地址。

从页面自动分析得到地址连接:以/sbzhz/index_页面

为例。我们来采集这个网址上的书信息。这个页面中有很多书信息的链接,要采集每个链接

中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。