首先用火车头添加一个任务,起个名就叫采集奇书网吧~
添加网址采集规则
然后我们需要选择采集的小说分类,这里以采集玄幻奇幻小说为例,点击右上角的 more 进入分类页面
老样子,先查看一下分页规则,比较明显奥,都是 http://www.qishus.com/xuanhuan/list1_xxxx.html 这样的地址,xxx就是页码,一共570页。
接下来添加网址采集规则,按照图示添加就行,xxx我们就替换成分页的地址参数
这样分页网址就搞定了,接下来我们需要获取每一页里的小说网址,也就是火车头网址采集对应的采集内容网址。
首先来确定我们要采集的内容的范围,就是为了能采集得更加准确,可以用开发者工具一级一级看一下,找到包裹住小说内容的那一级,这里看也就是

那么结束字符串可以选择下面的,反正就是要把我们中间采集的包裹着就行

所以获取内容网址这里可以这样填写,填写完了可以点击右下角的采集网址测试,看是否采集成功

采集成功了是这样

采集内容规则
刚刚把网址采集成功了之后就可以开始采集内容了,我们点进一个小说去看看
打开火车头的采集内容规则,标题由于比较大众所以已经采集好了,接下来采集内容,这里介绍一个懒人秘诀,首先还是在开发者工具左上角有个鼠标点一下,然后在网页里小说简介那里点一下,就可以快速定位网页内容。
当选定的html节点刚刚好,也就是网页上这一块显示刚好包裹住,那就是我们要的内容了
接下来在节点这里右键,看图选择,也就是复制这个节点的 full xpath
然后在火车头采集内容下面输入一个我们要采集内容的网址做测试,双击左边的内容,看着图选择,xpath 那里粘贴我们刚刚 复制的 xpath 代码,右边节点属性选 innerText(英文翻译就是里面的文字.....)
然后点击右下角测试,查看我们的采集内容,发现已经采集好啦~~~
当然,这里也可以采用我们前面的前后字符截取的方法,这里不再赘述
但是呢就和采集的标题一样,有些原网站的信息 奇书网(www.qishu.cc) 这样的段,所以我们来过滤一下
还是双击内容,下面数据处理那里点击 + 号,添加一个内容替换,将 奇书网(www.qishu.cc) 替换为你想替换的内容,然后点击下面的保存,在测试一下。
是不是已经替换成了你想要内容了? D: 同样的,标题需要替换的也可以同样处理,如果想去除信息,就把替换为那里空着就好了。
接下来采集小说类型,在采集内容规则左边标签新建一个标签起名叫 类型吧 ,这次我们用前后字符截取的方式来采集。
找到对应部分,看图 比较简单,相信你秒懂~~~~
然后测试一下,奇怪,为什么没有输出,我们换一种方式试试
然后我们发现原来是 Y 的网页写的不标准,根本就是不是
只是被高级浏览器自动修复了。
所以采集到之后我们添加一个字符串替换,把
替换成空就好了
然后来采集下载地址,还是添加一个标签叫 rar 下载,一样的方法,开发者工具找到真正的下载地址,也就是带链接的那个节点,邮件复制->复制 full xpath ,然后看图。我们要的地址在 <a href="下载地址" 。所以找到节点后我们选择属性就选href 就好啦。然后保存测试一下是不是地址也采集到了?同样下面采集txt地址也一样就不介绍了。
但是如果想要下载文件的话。就把下载这里打钩就好了,然后去测试一下,看文件是不是在下载那里了,邮件打开下载目录就可以找到。