火车采集器帮助文档 --> 网址获取选项
火车采集器  帮助文档

从起始网址生成的地址,经过多次的多级网址采集处理,生成更多的内容页地址。

网址获取方式包括“从页面自动分析得到的地址链接”,“手动填写链接地址规则”,“使用Xpath方式获取地址”。

本选项可以设置采集网址要提取的区域,采集到的网址的过滤,同时定义了如何提供网址。

从页面自动获取地址链接(#Auto)

采集器会自动从采集的内容里分析地址链接,默认选择此种获取方式。

手动填写链接地址规则(#Hand)

对于有些由脚本生成的网址,采集器不能自动识别,此时就要填写脚本规则了。脚本规则里可用“[参数]”或“[标签:XXX]”提取相关信息,然后实际链接地址用指定的字符串和上面提取到的信息组合即可。

使用XPath方式获取地址(#Xpath))

若自己会Xpath表达式,可自己填写;若不会或写Xpath表达式不方便,可以使用采集器自带的Xpath浏览器进行获取。

上一篇   下一篇