火车头采集 QQdie 实例教程

火车头采集 QQdie 实例教程-即刻学术

应会员要求。写一篇火车头采集 qqdie 文章的教程。

首先找到我们要采集的文章页,也就是 https://qqdie.com/archives/

1. 采集网址及分页网址

首先来看一下分页结构

火车头采集 QQdie 实例教程-即刻学术

可以清楚看到分页格式为:https://qqdie.com/archives/list_xx.html xx 就是第几页。

弄清楚之后我们打开火车头,没有的可以在我博客搜索下载,新建一个任务,添加一个采集网址规则,如下图填入。一共39页,所以项数39。注意因为这里的第一页指向有点问题,所以这里首项填2。点击添加,在点击完成。

火车头采集 QQdie 实例教程-即刻学术

接下来我们要抓取分级列表,也就是每一页的每个 item 的网址,先去看看网址长啥样,可以看到结构都是 /archives/xxx.html。

火车头采集 QQdie 实例教程-即刻学术

同时为了锁定我们要选择的 item 的范围,我们可以看看这些 item 前后有什么唯一性的节点,也就是找怎么来定位 这些 item 的代码,我们可以看到,前面有一个

<div class="news-conten-list">后面有一个 <div class="page"> ,都是唯一性的节点,搜不出来第二个,所以我们就用这两段代码去定位我们要的 item。

火车头采集 QQdie 实例教程-即刻学术

接下来点击第一步中的多级网址获取--->添加,按照如下规则填写,选定区域就是我们刚刚分析的那两个节点,结果网址格式也按照我们刚刚分析的填写。填完了记得保存一下。

火车头采集 QQdie 实例教程-即刻学术

然后点击测试网址采集,如果你跟我一样采集到下面这些网址,那么就成功了。有些同学如果采集不了,可以尝试装一下火车头采集HTTPS的修复插件。

解决火车头采集器无法采集HTTPS的办法

火车头采集 QQdie 实例教程-即刻学术

2. 采集内容

先去看一下内容在哪,分析发现内容在这个叫 <div class="art_show_bd"> 包裹着的标签里面,而且有多个。

火车头采集 QQdie 实例教程-即刻学术

找到了就可以直接来填写火车头。点击第二步,采集内容规则,默认的标题已经采集好了,不用管,我们点击内容,前后截取,把我们刚刚找到的标签填进去,因为有多个,所以吧标签循环匹配打钩。然后添加数据处理,把换行空格什么的去掉,先点数据处理的确定,再点下面的确定。

如果需要下载图片的,数据处理右边,文件下载选项的下载图片打钩。

火车头采集 QQdie 实例教程-即刻学术

接下来采集作者时间等信息。还是先分析,一看这个结构,很简单,我们直接上火车头。

火车头采集 QQdie 实例教程-即刻学术

相信聪明的你一看就明白,那么时间和来源也可以按照这种方式来写。

火车头采集 QQdie 实例教程-即刻学术

最后测试一下采集的数据:

火车头采集 QQdie 实例教程-即刻学术

第三部发布内容,因平台不同,不多做介绍,发布到 typecho 的可以参考我的 ijkdata插件 相关配置。

给TA买糖
共{{data.count}}人
人已赞赏
建站教程技术活

Typecho博客支持emoji表情设置

2021-3-8 13:31:22

建站教程技术活

Joe 主题 6.xx 底部增强,显示标签及二维码分享

2021-3-29 16:26:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索