用火车头采集追踪跳转型短网址文章列表

编辑:祝先生

如果你看一个网站上的文章非常好,想做火车头采集,但却发现根本就采不到什么内容,这时你就要考虑站长是不是用了短链跳转,如果是,再看看它是不是同一个短网址程序生成的(因为不同的程序生成的原文件不一样),如果是,恭喜你,有方法了。

下面我以百度短网址为例,示范一下怎样用火车头采集跳转型文章列表。

我先把我的博客地址http://blog.sina.com.cn/fish74531生成短网址http://dwz.cn/aOLvj,然后在火车头里测试一下,看会不会有内容,如图:

看一下,是不是什么内容都没有,怎么办呢?

方法是有的,多数的短网址程序都是自动在他们的网站上生成一个跳转页面,这个页面其中就包含了真实的网址。所以我们只要找到这个跳转页面的源文件,也就找到了真实的内容网址。

那么怎样查看这个跳转页面的源文件呢?是不是也用浏览器?这当然不行,因为它包含了跳转代码,你还没有打开他就跑了。那怎么办呢?

首先启动火车头,建立一个任务,再找到“采集内容规则”这项,在右边找到“测试”按钮,在它前面有个三角形,点击拖出菜单“查看网页源代码”。如图:

你也可以从火车头软件“工具”中找到“获取源代码、模拟查看、提交工具”,如图:

打开“获取源代码、模拟查看、提交工具”后,就可以软件你要查看的跳转链接了。

先在“请求信息”调整好编码,不知道也没关系,看到乱码后再调也不迟,但有一个关键点:必须先勾选上“自动跳转”,否则什么也看不到。

看到没有?在第51行有个“加载中”,往下第64中就找到了我的博客地址。

找到了真实地址要怎样采集呢?

首先回到“采集内容规则”这个界面,点击左边的“同时采集多页面?”。

弹出该窗口后,在“页面名称”中输入一个你认为好记的名字,然后勾选上“在默认页源代码内采集得到地址”,把第64行的代码<h1 id="blogname" class="blogtitle"><a href="http://blog.sina.com.cn/fish74531">复制到“正则匹配内容”下的窗口中,去掉网址,点击下面的[参数]就把网址替换掉,在组合结果中点击[参数1]。要知道你弄得对不对,点击下“测试得到多页地址↓”,在“默认文章页地址:”中输入短网址,测试下,如果“测试结果:”中能正常显示真实地址,就说明你的规则弄对了。

最后保存下关掉这个窗口,回到“页面内容标签定义”,定义一下要采集真实地址的文章标签。

查看下源文件,找到标题代码,我的是空城过客_新浪博客,标题是“空城过客”,其他都是不要的,我们就在“开始字符串”中输入“空城过客”以前的代码,在“结束字符串”中输入“空城过客”以后的代码_新浪博客。下面是至关重要的一点,在“所属页面(多页)”中找到我们刚才建的那个规则,“确定”一下。其他标签的规则也是一样。如图:

喜欢这篇文章的读者还看了以下文章!
说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!