关关采集规则编辑教程

系统教程4890 更新时间：2026-04-04 09:29:27

2023年12月17日发(作者：)

第一步: 我们先复制一份原来的规则做模板比如说我今天演示的采集站点是 feiku 这个小说站点

那么我就把我复制的那份做模板的规则命名为这个主要是便于记忆

第二步: 我们运行采集器里的规则管理工具打开后加载刚刚我们命名为的这个XML文件

第三步: 开始正式编写规则了

1. RULEID(规则编号) 这个任意

2. GetSiteName(站点名称) 这里我们写 8E小说

3. GetSiteCharset(站点编码) 这里我们打开查找 charset= 这个 =号后面的就是我们需要的站点编码

我们查到的编码是 gb2312

4. GetSiteUrl(站点地址) 这个就不用我说了吧写入 /

5. NovelSearchUrl(站点搜索地址) 这个地址的获得得按照每个网站程序的不同而言

不过呢有个通用的方法就是通过抓包来获得自己想要的内容

虽然说是通过抓包来获得但是怎么就知道获得的就是我们想要的呢

看我操作首先我们运行封包工具选择这个进程最好是你只开一个网站也就是你只打开了你要想编写规则的那个网站确保进程里只有一个这个进程

这里我们我们可以看到提交的地址是 /book/ 我们来组合一下得到的地址是

/book/

而提交内容的代码是SearchKey=%C1%AB%BB%A8&SearchClass=1&SeaButton.x=26&SeaButton.y=10 但是对于我们有用的是 SearchKey=%C1%AB%BB%A8&SearchClass=1 这一段这里获得的这段将在NovelSearchData(搜索提交内容) 这里用到把这段改成我们想要的代码就是把这一段%C1%AB%BB%A8 替换成 {SearchKey} 这个表示搜索提交的内容完整的代码是

SearchKey={SearchKey}&SearchClass=1

然后我们测试下是否正确经过测试我们获得的内容是正确的

6. NovelListUrl(站点最新列表地址) 这个我就不说了因为这些每个站点的不同这个就需

要自己去找了 FEIKU 的是 /Book/

7. NovelList_GetNovelKey(从最新列表中获得小说编号此规则中可以同时获得书名获得书名是在手动模式的时候用到如果你要用手动模式那么必须获得书名否则手动模式将会无法使用)

我们打开 /book/ 这个地址查看源文件

我们编写这个规则的时候找到想要获得的内容所在的地方比如我们打开地址看到想要获得的内容的第一本小说的名字是立地成魔我们在源文件里面找到莫伦特传

奇幻

color="#006699">[目录]
target="_blank">莫伦特传

第一卷第八章黑暗崛起

11月27日

巨龙之瞳

连载

我们编写规则用到的代码其实也不是很多我编写规则的原则是能省则省也就是说代码越短越好除非万不得已一般精短一些比较好

好了不废话了在这个规则里面我们需要用到的是

href="/Book/149539/" target="_blank">立地成魔

我们将这段改下

color="#006633">(.+?) 其中 (d*) 表示编号 (.+?) 表示小说名经过测试正确

8. NovelUrl(小说信息页地址) 这个很容易我们随便点开一本小说就能知道了比如说

/Book/150557/ 这本小说我们可以看到的我们改下将里面的 150557 换成 {NovelKey} 一般情况表示小说编号

/Book/{NovelKey}/

9. NovelErr(小说信息页错误识别标记) 这个一般是

/Book/149539/ 吧中间的那个编号随意改变下比如

/Book/15055799/ 这样我们获得的错误标记就是未找到该编号的书籍信息!

10. NovelName(获得小说名称正则) 我们随便打开一本小说

/Book/149539/ 查看源代码获得小说名称这个我们可以从固定模式着手比如我们刚才打开的立地成魔这本小说我们看到他的固定小说名格式是

《立地成魔》那我们在源代码里找到《立地成魔》这个我们得到的内容是

id="CrBookTitle">《立地成魔》

这一段我们改下

id="CrBookTitle">《(.+?)》

下面的 NovelAuthor(获得小说作者) LagerSort(获得小说大类) SmallSort(获得小说大类)

NovelIntro(获得小说简介) NovelKeyword(获得小说主角(关键字)) NovelDegree(获得写作进程)

NovelCover(获得小说封面) 这些呢我就不演示了这些跟上面的那个获得小说名方法是一样的也就所谓的一通百通

这里有些时候获得的内容里面有些不想用到的因为格式不固定有些内容只能先获得然后在用过滤功能过滤掉过滤的用法在后面有说

11. NovelInfo_GetNovelPubKey(获得小说公众目录页地址)

这个的地址获得跟上面的一样的方法这里我就不说明了

12 PubIndexUrl(公众目录页地址) 这个我说明一下这个的用法这个一般是在知道采集目标站的动态地址的时候用到如果不知道对方动态地址的话就在这个里面写入{NovelPubKey} 如果知道动态路径

比如说这个站的没本小说的章节目录的动态地址是

/Book/149539/ 那么 PubIndexUrl 这个的规则就是

/Book/{NovelKey}/

13. PubVolumeSplit(分割分卷) 这个分割分卷有写地方需要注意到如果分割分卷的正则没对那么有可能对于下面的获得章节名那些有很大的影响这里我们获得分割部分的代码呢按我的经验呢是找到第一个分卷跟下面的分卷查看他们的共同处在我们分析

/html/book/130/149539/ 这个目录章节里面的源代码可以看出他们有个共同点拿这一段来说明下

力量的追求

从这里我们可以看到他的共同点是

我们吧他改下改成正则格式 s*

id="feiku_e_n_d">

其中的s* 表示匹配与任何白字符匹配，包括空格、制表符、分页符等也就是说在

与

之间不管有多少个空格都可以用 s* 来表示

14 . PubVolumeName(获得分卷名) 想要获得准确的分卷名必须在上面的分割部分的正则必须正确

一般情况下分割部分跟分卷名是在一块的上面我们说明分割部分用到的

力量的追求

我们改下代码

(.+?)

这些我们一般在过滤规则里面过滤掉就行了

15. PubChapterName(获得章节名) 这个我们拿一段来说明

更:3264" href="">强悍的驯服方法

对于这种里面有时间日期更新字数什么的我们直接忽略因为这些不是我们要获得的内容这个我们可以用 .+? 来表示有些人就问了为什么我这里没用() 括起来呢这里我跟大家说下我们获得的内容是()里面的内容如果不是你想要的内容但是写规则的时候又必须用到的我们可以吧表达式稍微改下就可以了好了我们吧上面的那一段改下改成表达式