应会员要求。写一篇火车头采集 qqdie 文章的教程。
首先找到我们要采集的文章页,也就是 https://qqdie.com/archives/ 。
1. 采集网址及分页网址
首先来看一下分页结构
可以清楚看到分页格式为:https://qqdie.com/archives/list_xx.html xx 就是第几页。
弄清楚之后我们打开火车头,没有的可以在我博客搜索下载,新建一个任务,添加一个采集网址规则,如下图填入。一共39页,所以项数39。注意因为这里的第一页指向有点问题,所以这里首项填2。点击添加,在点击完成。
接下来我们要抓取分级列表,也就是每一页的每个 item 的网址,先去看看网址长啥样,可以看到结构都是 /archives/xxx.html。
同时为了锁定我们要选择的 item 的范围,我们可以看看这些 item 前后有什么唯一性的节点,也就是找怎么来定位 这些 item 的代码,我们可以看到,前面有一个
<div class="news-conten-list">
后面有一个 <div class="page">
,都是唯一性的节点,搜不出来第二个,所以我们就用这两段代码去定位我们要的 item。
接下来点击第一步中的多级网址获取--->添加,按照如下规则填写,选定区域就是我们刚刚分析的那两个节点,结果网址格式也按照我们刚刚分析的填写。填完了记得保存一下。
然后点击测试网址采集,如果你跟我一样采集到下面这些网址,那么就成功了。有些同学如果采集不了,可以尝试装一下火车头采集HTTPS的修复插件。
2. 采集内容
先去看一下内容在哪,分析发现内容在这个叫 <div class="art_show_bd">
包裹着的标签里面,而且有多个。
找到了就可以直接来填写火车头。点击第二步,采集内容规则,默认的标题已经采集好了,不用管,我们点击内容,前后截取,把我们刚刚找到的标签填进去,因为有多个,所以吧标签循环匹配打钩。然后添加数据处理,把换行空格什么的去掉,先点数据处理的确定,再点下面的确定。
如果需要下载图片的,数据处理右边,文件下载选项的下载图片打钩。
接下来采集作者时间等信息。还是先分析,一看这个结构,很简单,我们直接上火车头。
相信聪明的你一看就明白,那么时间和来源也可以按照这种方式来写。
最后测试一下采集的数据:
’
第三部发布内容,因平台不同,不多做介绍,发布到 typecho 的可以参考我的 ijkdata插件 相关配置。