排行榜 统计
  • 建站日期:2017-05-20
  • 文章总数:139 篇
  • 评论总数:482 条
  • 分类总数:26 个
  • 最后更新:昨天 21:08

火车头v9采集发布到Typecho

本文阅读 5 分钟
广告

这里以采集 https://www.jiubooks.com/31686.html 这个页面的内容为例,关于采集的整个过程请看我前面的博文:
采集小说网教程

那么采集面临的一个问题是图片的处理,我们采集的内容通常是过滤掉或者替换掉一些东西,内容的图片也可以下载,但是如果我们想要把图片下载下来,并且把内容的图片缓存我们自己的应该怎么做呢?

大家都知道typecho的图片一般保存在 typecho 的文件夹里的 /usr/uploads 里,那么假设

|--/usr/uploads
|--/usr/uploads/a.jpg
|--/usr/uploads/bbb/a.jpg

那么我们的文章中可以通过 http://域名/usr/uploads/a.jpg 或者 http://域名/usr/uploads/bbb/a.jpg 来访问这两张图片。

那么同理,我们采集某一类文章的时候,可以把文章的图片下载到一个文件夹里,然后把这个文件夹上传到 /usr/uplaods/里,在把我们文章里的链接替换成我们的域名加/usr/uplaods/,就行了。

举例:

打开 https://www.jiubooks.com/31686.html 这个页面,我们通过 xpath 采集法很容易就能采集到页面内容,并下载图片。观察图片路径是 https://www.jiubooks.com/wp-content/uploads/xxx/xxx/图片名.jpg。那么按照我们刚刚分析的,我们直接把这张图下载到一个文件夹里,比如叫 test,然后把图片路径替换为 http(s)://域名/usr/uploads/test/图片名.jpg ,然后在把这个 test 文件夹放到 /usr/uploads/ 里就大工告成。

xpath 大法采集内容就不多说了,不会的看我以前的文章,这里数据处理替换图片前缀为我的要存图的路径。因为原图片路径 /uploads/ 后面这里明显是时间,是变量,所以替换的时候不写死,用 (*) 替代就行了。

这样测试一下发现图片路径已经变成替换的了

接下来是图片下载的问题,这里需要注意,我们刚刚把内容的图片地址换了,所以下载图片的话肯定下载不到了。所以我们复制一下标签里的内容,在粘贴一下,随便起个名字,把图片地址替换删除,专门用来下载图片。

我想把图片保存在相对路径的 test 目录下,这样写了之后,我们发现,有些字母变成了绿色,这是因为,有些字母是系统变量,冲突了,比如t就表示时间嘛。所以正确的做法是对于变绿的字母加个 反斜杠转义一下。比如:test 其中t,s都是绿色,应该写成 test 。这样的话采集的图片就会下载到test 目录里。

内容采集完成之后就到发布环节啦~~~

这里建议安装站长自己写的发布插件:typecho发布插件

要提醒的是:如果采集的是 html 则要把插件的 markdown 前缀去掉。

然后火车头这里也需要对应配置 typeho 发布,我配置了一份,可以直接下载使用,下载后解压到火车头安装目录的 Module 文件夹里面。

https://ijkxs.lanzous.com/iKuz6nhj1vg
密码:6yth


在内容发布规则这里添加发布模块就能看到。双击这个模块,在内容发布参数也可以额外添加一些其他参数,我这里只配置了常用的一些选项。

这里网页编码填 utf-8,全局变量就是插件配置的发布密码,登录操作的网站地址,插件配置里也给出了。登录方式选择不登录。然后在线点击获取列表,就可以选择要发布到的哪个分类了。然后可以在线测试配置发布,先测试发布看看能不能发布成功。

然后起个配置名,保存一下。记得勾选。

最后就可以正常采集了,你也可以先不勾选发布,先邮件查看本地数据是否正常,然后记得把图片下载的文件夹传上去~~~

您的大名:
万水千山总是情,给个打赏行不行。 打赏
原创文章,作者:gogobody ,如若转载,请注明出处:https://www.ijkxs.com/406.html
-- 展开阅读全文 --
火车头V9采集奇书网小说教程
« 上一篇 03-29
火车头采集器采集获取文章链接URL地址
下一篇 » 04-01
广告

发表评论

成为第一个评论的人
作者信息
热门文章
标签TAG
热评文章