火车采集器帮助文档 --> 添加起始网址
火车采集器  帮助文档

 

采集器的工作原理大家都知道是先采集网址然后采集网址下的内容,所以首要任务是采集网址。比如我们要采集腾讯新闻中的各地新闻,新闻列表地址是http://news.qq.com/newsgn/gdxw/gedixinwen.htm,那么就要把这个列表页地址填写到采集器里起始网址那里,告诉采集器从这个地址做为入口,先采集下面内容页的地址,进而采集里面的新闻内容。

我们现在就那 腾讯新闻中的各地新闻为例说说如何添加起始地址。我们可以发现下面的规律:

第一页地址是:http://news.qq.com/newsgn/gdxw/gedixinwen.htm

第二页地址是:http://news.qq.com/newsgn/gdxw/gedixinwen_2.htm

第三页地址是:http://news.qq.com/newsgn/gdxw/gedixinwen_3.htm

大家看到规律吧,不同的页码是有对应的数字确定的,数字之间是递增的关系,之间差数字1,这个点很重要。下面我们会用到。说明下这里添加的起始网址一般都是信息列表的地址。

添加起始地址的界面如下:

大家可以看到网址添加有很多种方式:单条网址添加,批量/多页,文本导入,Rss地址,其他网址格式,现在就腾讯新闻中的各地新闻地址列表为例来说明下这个几种方式如何使用。

1,单条网址

就是一条一条的添加遗憾一个,随意添加多少条,比如我们就添加腾讯新闻各地新闻的前5页为例来说明如果添加的如下图:

2,批量/多页方式添加网址

我们通过批量/多页方式同样是添加添加腾讯新闻各地新闻的前5页,上面说的页码之间的规律这里就要用到了,页码之间相差1,就是等差数列这个大家读书代数上都学过的如果不知道就翻翻课本吧o(∩_∩)o 。

如上图有几点说明的:

地址格式那里我们是把变化的数字用(*)表示,这里就代表是个变化的数字,这个变化的数字是根据下面等差数列选项决定的,首项是从那个数字开始,项数是代表要几个数字,公差是代表相邻数字之间的差值是多少。

补零勾选会在生成的数字前面加个数字0,大家可以动手试试,倒序就是生成的数字从大到小,默认是从小大点,这些大家动手试试就明白了。

大家看到下面还有等比数列,字母变化 都是一样的道理,不再做一一说明了。

 

3,文本导入

文本导入就是把列表页地址先写到一个txt文本里,地址是一行一个。然后导入到采集器里面,我们还是采集各地新闻前5页为例说明下。

 

4,Rss格式

 

5,其他网址格式

假如遇到地址里面有时间比如常见的报纸http://epaper.bjnews.com.cn/html/2013-02/20/node_1.htm ,地址是按照日期确定的。遇到这样的情况我们就可以用其他网址格式来添加这样的地址。

 

时间格式那里有个铅笔一样的图标点开下就可以选择年月日时分秒了,都有对应的字母代表的这里要注意下

这个几种添加起始网址的方式是可以同时使用的,按照具体情况来选择使用。大家多做练习慢慢熟悉。

上一篇   下一篇