火车采集器V7.6之标签循环采集的使用方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V7.6之标签循环采集的使用方法,我们要采集一个页面上面同样格式的多条数据的时候,就可以针对一条信息设置好规则,勾选下标签循环匹配,就可以把满足这个规则的所有数据采集到如下图:

火车采集器V7.6之标签循环采集的使用方法教程1

比如采集这个网站:http://www.smct.com.cn/wat/controllerServlet.do?queryid=0002001&method=doquery&querysid=g0002&showpage=1

火车采集器V7.6之标签循环采集的使用方法教程2

我们查看页面源代码,我把源代码复制到txt里面做了些简单的处理,让大家看的更明白如下图:

火车采集器V7.6之标签循环采集的使用方法教程3

上图看到船名都是“<tr><td >”开始“</td>”结束,我们建立一个规则分别是以“<tr><td >”开始和以“</td>”结束。

规则设置如下图:

火车采集器V7.6之标签循环采集的使用方法教程4

采集结果如下:

火车采集器V7.6之标签循环采集的使用方法教程5

左侧标签循环处理那里选了“添加为新记录”,右侧看到了船名都已经采集到了,并且每个船名都是一条独立的信息,

看到上图左侧有个选项“循环不足的记录以第一条记录补全”勾选上这个,如果在循环过程中有的信息没有采集到,就会用采集到的第一条数据填充。

假如左侧标签循环处理那里选了“用分隔符链接在上条的记录后” 然后在下面的“分隔符”哪一项设置分隔符,如下图:

火车采集器V7.6之标签循环采集的使用方法教程6

测试结果如下:

火车采集器V7.6之标签循环采集的使用方法教程7

上图可以看到每次循环采集到的结果都是用我们设置的分隔符连接起来做为一条信息,注意和上面选择“添加为新记录”,采集结果的不同。

我们通过页面源代码,知道这个是个表格,那么我们就多说些,表格如何采集。如果我们还要继续采集更多信息如下图的“英文船名”,“航次”等等。

火车采集器V7.6之标签循环采集的使用方法教程8

我们打开页面源代码看到这些信息的开始都是以“<td >”开始以“</td>”结束,我们设置规则的时候就会很困难,如下图

火车采集器V7.6之标签循环采集的使用方法教程9

那么看下我是如何采集到“英文船名”的规则如下:

火车采集器V7.6之标签循环采集的使用方法

在看下我采集“航次”规则是如何设置的:

火车采集器V7.6之标签循环采集的使用方法教程10

设置完后测试采集如下图:

火车采集器V7.6之标签循环采集的使用方法教程11

成功采集了!

原理就是都是以“<td >”开始那么我们就通过这个字符出现的次数来界定,结束字符全部都是“</td>”。

上面设置的规则正好说明了这个一点,船名是在第一次出现<td >的后面,英文船名是在第二次出现“<td >”的后面,航次是在第三次出现“<td >”的后面。。。。。。。

后面以此类推,中间不需要的东西我们就用“(*)”代替,表示任意。可以自己尝试写写。这个是经常采集表格要用的。

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号