火车采集器V9智联招聘信息采集规则制作截图教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9智联招聘信息采集规则制作截图教程案例讲解

第一步:设置火车采集器起始网址

火车采集器V9智联招聘信息采集规则制作截图教程截图1

打开网址:http://sou.zhaopin.com/ 同时这也是火车采集器的入口网址,将此网址输入在火车采集器的起始网址中

打开网站我们可以看到,这上面都是招聘信息的职位类别,我们要采集到这些类别的链接,我们查看源码,如下图:

火车采集器V9智联招聘信息采集规则制作截图教程截图2

第二步:获取类别链接及类别名称

这里我们除了将类别网址链接获取到,同时将类别名称获取到,所以这里使用了列表页标签功能

通过源码找到获取链接的规则如下:

onclick="javascript(*)href="[参数]"(*)_blank"></a>

火车采集器V9智联招聘信息采集规则制作截图教程截图3

参照上图进行设置,这样类别链接获取就设置好了,然后我们点开任意类别页面,进入招聘信息列表页,如下图:

火车采集器V9智联招聘信息采集规则制作截图教程截图4

第三步:内容页网址获取设置

我们要获取列表页上的招聘信息网址,也就是内容页网址,同样我们查询源码,分析规则,如下图:

这里已经是属于第二级网址,我们将网址设置切换为高级模式,然后添加2级列表页,然后设置如下:

火车采集器V9智联招聘信息采集规则制作截图教程截图6

这样内容页的网址链接采集就设置好了,但我们发现列表页下方还有分页,所以我们还要设置分页

第四步:设置分页

获取如下图中的分页

火车采集器V9智联招聘信息采集规则制作截图教程截图7

同样是查询源码寻找规则,

火车采集器V9智联招聘信息采集规则制作截图教程截图8

然后火车采集器,选择分页设置,设置好分页范围,以及分页链接的规则,上一页(*)class="current"(*)参照下图:

火车采集器V9智联招聘信息采集规则制作截图教程截图9

设置好后,我们进行网址测试,如下图:

火车采集器V9智联招聘信息采集规则制作截图教程截图10

这样所有网址采集就设置好了

第五步:招聘信息内容采集设置

我们打开任意招聘信息内容页,采集页面上的信息,如下图:

火车采集器V9智联招聘信息采集规则制作截图教程截图11

采集器切换到内容采集规则,内容的采集就不一个一个讲,这里没有什么难点,还是查看网页源码,分析规则进行设置即可,大家可自行查看每个字段的规则设置,来学习规则原理,参照下图:

火车采集器V9智联招聘信息采集规则制作截图教程截图12

第六步:测试火车采集规则

所有的内容字段采集设置好,我们进行测试,可以多测试几个页面,以确保规则能够没问题。

当然我们在设置每个字段的时候也可以进行测试来检验规则。

火车采集器V9智联招聘信息采集规则制作截图教程截图13

确保没问题后就可以进行采集了,看这速度,是不是很爽爽!!赶紧去试试吧!

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号