火车采集器帮助文档 --> 网址库管理
火车采集器  帮助文档

任务网址库主要用于检测重复网址。采集网址时,当出现重复的网址时,采集器会根据用户是否“检测重复网址“操作进行重复的检测处理,当网址库里的数据积累的很多时,检测网址重复的过程也将会慢下来,这会影响采集的采集效率,所以在长期运行一段时间后需要对网址库中的网址进行清理。

网址库管理包括网址库列表、清空网址库、合并网址库、删除无任务关联网址库、自动清理这几个操作:

1.网址库列表:

一般的每个任务对应一个网址库,也有多个任务对应一个网址库的情况,网址库列表显示的格式为:网址库Id(当前网址库所包含的任务Id,以逗号间隔),如10(11,12),表示Id为10的网址库中包含Id为11和12的任务,也就是说Id为11和12的任务公用一个Id为10的网址库;若网址库中没有包含的任务,则以单独的网址库Id显示。当勾选某一网址库的复选框时,管理工具会自动的将此网址库Id添加到“合并到“列表框,当去掉某一网址库时,管理工具会自动将此网址库的Id从”合并到“列表框移除。

2.清空网址库:

当点击清空网址库按钮时,管理工具会将网址库列表里选中的网址库所有数据进行清空操作。

3.合并网址库:

当点击合并网址库按钮时,会显示“合并到“列表框和”合并“按钮,在列表框中选中要合并到的网址库,然后点击合并按钮,工具会自动将列表框中的所有网址库合并到选中的网址库。

4.删除无任务关联网址库:

点击此按钮时,顾名思义,工具将网址库列表中所有无任务关联的网址库删除。

5.自动清理:

若使用此功能,勾选“开启自动清理功能”复选框即可,程序在每次启动后会自动执行此操作。清理包括:每个任务、每个网址库、保存。

I)、每个任务:除保留最新的记录数外,任务的其他记录都将删除。

II)、每个网址库:除保留最新的记录数外,网址库的其他记录都将删除。

III)、保存:将自动清理功能的参数保存到配置文件。

上一篇   下一篇