火车采集器帮助文档 --> 采集腾讯新闻发布DedeCMS
火车采集器  帮助文档

该采集实例是采集腾讯国内新闻,然后将采集的结果Web发布到DedeCMS 5.7上去。目录起始网址http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm,我们要采集5个列表的新闻,采集新闻的标题,内容,作者,时间,出处。我们按采网址,采内容,发内容的步骤依次操作,以下是具体操作过程。

首先我们新建任务,出现了任务窗口,我们点击起始网址中的添加

在出现的起始网址,添加单条网址,并点击”添加“按钮。

我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址

添加完成后,我们点击完成,就可以看到效果了。

我们按图中点击添加,出现“添加多级网址采集规则”,我们选择了新闻列表的区域代码。区域代码设置熟悉火狐的朋友可以使用Firebug扩展快速定位。

我们填写一下获取的代码的起始和结束部分,点击保存。

现在多级网址就是如下界面了,我们点击"测试网址采集“按钮.“

最终我们获取了所有正确的网址。这里的例子是比较简单,实际中可能要设置不得包含等条件,使用POST等方式获取网址。

我们双击某个网址,即可以进行内容采集规则设置。注意,下图中的使用提示部分新手是必看的,不然一些操作就不会知道。

采内容部分,页面内容标签定义是非常重要的,我们首先点击测试,查看默认规则下获取的结果如下

对于标题标签,最后 _新闻_腾讯网 这几个字是不需要的,要过滤掉,我们双击标题那一行,可以打开标题采集规则的设置界面。

我们点击数据处理那部分的添加按钮,然后选择内容替换

填写要替换的字符串,可以替换为空

保存以后,数据处理列表就有一条记录。如果我们要做多次数据处理,可以依次的添加处理的动作。也可以对处理的次序点击上图中的下下按钮进行调整。双击数据处理列表,可以对选中的记录进行编辑。添加成功的结果如下

我们点击 标签编辑 右下角的确定,就可以保存该设置了。我们点击测试,可以看到那几个字符已经没有了。我们继续设置内容的标签。在测试按钮上右键,选择获取网页源代码

可以打开源码查看器,点击开始查看按钮就可以下载网页源代码,我们查找这条新闻的开始和结束区域代码。查找方法很简单,就是找开始的字符串和结束的字符串,然后在源代码中查找分析。

在内容的前边的代码是 <div id="Cnt-Main-Article-QQ" bossZone="content"><P style="TEXT-INDENT: 2em"> ,我们再找一下后边的结束字符串。然后就可以利用前后截取的方式来采集数据了。结束字符串我们找到的是 </P></div>

经测试,获取的内容正确。现在我们再提取一下其它的标签内容。

注意时间标签我们要将年月换成-,日替换为空。

处理过程

最后的采集结果是

以上只是完成了一个页面的测试,我们需要对多个典型页面进行测试,直到认为规则没有问题。以上是默认的编辑页面,我们点击切换到无限级多页规则编辑模式看一下。测试结果如下:

我们可以看到结果的显示方式不一样的。这里每个标签的结果都是以列表形式列出,如果您有某个标签使用了循环匹配采集,则采集的多个结果会在这里。比如我们添加一个相关阅读,获取和该新闻有关联的几个新闻的标题。

测试结果如下,我们可以看到相关阅读是有三个值的。

这里需要说明的是,火车采集器的规则编辑是基于这个无限级多页规则编辑模式的。只是增加了一些额外的处理,比如刚才的相关阅读,我们要将其在一个记录中合并,应这样设置。

如果多个标签是循环的并要每个循环记录添加为新记录,可以选择添加为新记录。

以上为规则制作,现在我们设置发布内容。我们最常用的方式是Web发布,所以本次教程只使用Web发布。Web发布配置我们在Web发布模块制作部分已经讲过了,所以我们现在调用已经制作好的模块发布。我们点击“添加Web发布配置"

点击确定,则该发布配置就会添加,默认的是默认的栏目,如果我们要修改发布的栏目,需点击 ”修改栏目“。注意,记得选上"启用".

在弹出的界面中刷新并选择一个新的栏目

Web发布这块就算是完成。现在我们看“文件保存及部分高级设置”这块,如果我们在标签中设置了下载文件,则可以在这里设置ftp上传和本地文件保存目录。比如我们设置内容标签要下载图片。其中,我们将文件保存在一个按年月日这样结构的目录中去。程序会自动的去建这些目录的。

然后我们设置文本本地保存目录

按上面的设置,最后图片会下载成形如 E:\upload\2012\05\29\原文件名 这样的格式。在采集完的结果中显示的效果为

如果我们使用ftp上传图片到服务器上,可以启用ftp上传将文件上传上去。

现在采集的设置都已经完成,我们开始采集

采集完网址采内容

采完内容开始发布内容

发布完成了。我们打开网站后台,可以看到发布成功的文章列表

我们点击某个文件,可以看到其文章内容

我们在看一下该内容的前台显示效果。

我们找一张有图片的文章,可以看到图片都是已经上传到相应目录前正确显示的。

到此,我们就成功的设置并运行了一次采集发布任务。本次教程中我们只使用了最常用的一些功能,更多功能还需要用户在使用中按需使用。请新手用户按此教程流程操作以加快学习理解过程。

上一篇   下一篇