火车采集器帮助文档 --> 手动填写链接地址规则
火车采集器  帮助文档

上一个教程从页面自动分析得到地址链接(http://v7.help.locoy.com/Function/NextLevelUrl.htm),我们知道获取起始网址下面的网址的方式有很多种。本教程来说明如何用“手动填写链接地址规则”这个方式来获取新闻页地址的。

我们先打开“手动填写链接地址规则”的界面如下图:

我们这里依然用采集腾讯新闻为例来说明地址是:

http://news.qq.com/newsgn/gdxw/gedixinwen.htm,这里我们只采集页面左侧的新闻列表如下图:

 

 

大家都知道采集器的工作原理是从页面的源代码里采集数据,所以我们首先打开页面的源文件,来找下我们要采集的新闻页面地址都有什么规律,打开源文件的方式还记得吧 这里再说下:在页面任意处鼠标右击=》选择查看页面源代码,就打开了。

打开的页面源代码是下图所示:

 

 

这里我只截取部分来说明,大家可以看到每一篇新闻的格式都是:

<li>·<a target="_blank" href="这里是新闻地址">

我们把这种格式起名叫做“脚本规则”,href=””,里面的地址叫做“参数”,下面我们用图来说明是如何把这些添加到采集器里面的,这里大家看到重点是找规律,采集器根据规律来采集网址。

这里只是简单的用法,大家在使用过程中可以深入学习。实际链接那里和可以加入任意字符,大家可以动手试试。这里的参数只要一个,其实可以有很多只要像图中 脚本规则和实际规则里的参数一样对应就可以了。如下图

这个简单的使用就说到这里,遇到复杂的可以咨询在线qq800019423

 

上一篇   下一篇