排行榜 统计
  • 建站日期:2017-05-20
  • 文章总数:139 篇
  • 评论总数:482 条
  • 分类总数:26 个
  • 最后更新:昨天 21:08

火车头V9采集奇书网小说教程

本文阅读 6 分钟
广告

首先用火车头添加一个任务,起个名就叫采集奇书网吧~

添加网址采集规则

然后我们需要选择采集的小说分类,这里以采集玄幻奇幻小说为例,点击右上角的 more 进入分类页面

老样子,先查看一下分页规则,比较明显奥,都是 http://www.qishus.com/xuanhuan/list1_xxxx.html 这样的地址,xxx就是页码,一共570页。

接下来添加网址采集规则,按照图示添加就行,xxx我们就替换成分页的地址参数

这样分页网址就搞定了,接下来我们需要获取每一页里的小说网址,也就是火车头网址采集对应的采集内容网址。
首先来确定我们要采集的内容的范围,就是为了能采集得更加准确,可以用开发者工具一级一级看一下,找到包裹住小说内容的那一级,这里看也就是

这一级,同时小说的网址格式也有看到,格式就是 http://www.qishus.com/txt/xxx.html

那么结束字符串可以选择下面的,反正就是要把我们中间采集的包裹着就行

所以获取内容网址这里可以这样填写,填写完了可以点击右下角的采集网址测试,看是否采集成功

采集成功了是这样

采集内容规则

刚刚把网址采集成功了之后就可以开始采集内容了,我们点进一个小说去看看

打开火车头的采集内容规则,标题由于比较大众所以已经采集好了,接下来采集内容,这里介绍一个懒人秘诀,首先还是在开发者工具左上角有个鼠标点一下,然后在网页里小说简介那里点一下,就可以快速定位网页内容。

当选定的html节点刚刚好,也就是网页上这一块显示刚好包裹住,那就是我们要的内容了

接下来在节点这里右键,看图选择,也就是复制这个节点的 full xpath

然后在火车头采集内容下面输入一个我们要采集内容的网址做测试,双击左边的内容,看着图选择,xpath 那里粘贴我们刚刚 复制的 xpath 代码,右边节点属性选 innerText(英文翻译就是里面的文字.....)

然后点击右下角测试,查看我们的采集内容,发现已经采集好啦~~~
当然,这里也可以采用我们前面的前后字符截取的方法,这里不再赘述

但是呢就和采集的标题一样,有些原网站的信息 奇书网(www.qishu.cc) 这样的段,所以我们来过滤一下

还是双击内容,下面数据处理那里点击 + 号,添加一个内容替换,将 奇书网(www.qishu.cc) 替换为你想替换的内容,然后点击下面的保存,在测试一下。

是不是已经替换成了你想要内容了? D: 同样的,标题需要替换的也可以同样处理,如果想去除信息,就把替换为那里空着就好了。

接下来采集小说类型,在采集内容规则左边标签新建一个标签起名叫 类型吧 ,这次我们用前后字符截取的方式来采集。

找到对应部分,看图 比较简单,相信你秒懂~~~~

然后测试一下,奇怪,为什么没有输出,我们换一种方式试试

然后我们发现原来是 Y 的网页写的不标准,根本就是不是
只是被高级浏览器自动修复了。

所以采集到之后我们添加一个字符串替换,把
替换成空就好了

然后来采集下载地址,还是添加一个标签叫 rar 下载,一样的方法,开发者工具找到真正的下载地址,也就是带链接的那个节点,邮件复制->复制 full xpath ,然后看图。我们要的地址在 <a href="下载地址" 。所以找到节点后我们选择属性就选href 就好啦。然后保存测试一下是不是地址也采集到了?同样下面采集txt地址也一样就不介绍了。

但是如果想要下载文件的话。就把下载这里打钩就好了,然后去测试一下,看文件是不是在下载那里了,邮件打开下载目录就可以找到。

您的大名:
万水千山总是情,给个打赏行不行。 打赏
原创文章,作者:gogobody ,如若转载,请注明出处:https://www.ijkxs.com/401.html
-- 展开阅读全文 --
Joe 主题 6.xx 底部增强,显示标签及二维码分享
« 上一篇 03-29
火车头v9采集发布到Typecho
下一篇 » 03-30
广告

发表评论

成为第一个评论的人
作者信息
热门文章
标签TAG
热评文章