火车采集器采集东方财富网股票业绩信息规则教程_爬虫软件技术与爬虫软件网页数据采集器门户

今天主要讲解火车采集器采集东方财富网股票业绩预告信息规则教程,起始网址页即为内容页和标签循环采集功能,其他略过!

我们要采集的网址:http://data.eastmoney.com/bbsj/201703/yjyg.html

火车采集器采集东方财富网股票业绩预告信息规则教程

如上图,我们需要采集表格中的信息。

火车采集器采集东方财富网股票业绩预告信息规则教程

底部有分页,总共29页,发现点击分页,网址并无变化,那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址,如下图:

火车采集器采集东方财富网股票业绩预告信息规则教程

通过抓包我们找到了有我们需要的数据的页面地址,我们将网址复制出来,参照下图:

火车采集器采集东方财富网股票业绩预告信息规则教程

通过火车采集器网址规则分析到分页的参数变量,一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了,找到变量规则后,我就可可以通过网址分页规则进行设置,共29页,如下图:

火车采集器采集东方财富网股票业绩预告信息规则教程

通过抓包软件,我们看到我们所要采的数据就在抓取的分页中,就并不需要再采集内容页,我们要的内容就在起始网址页中,那么我们就需要使用火车采集器的起始网址就是内容页网址,我们点击“点击设置”,如下图:

火车采集器采集东方财富网股票业绩预告信息规则教程

点击出现下图,是灰色的,不能进行任何设置,因为我们不需要设置采集内容页网址了,所以这里不操作。

火车采集器采集东方财富网股票业绩预告信息规则教程

直接进入内容采集规则设置界面,如下图,因为我们需要采的内容是表格内容并且都在一个页面上,所以我们需要使用循环采集,所以设置标签的时候,每个标签都要将循环匹配√选上。(每个标签的内容采集规则这里不多说,大家可以下载规则自行测试学习,其实还是有一定的小技巧的)

火车采集器采集东方财富网股票业绩预告信息规则教程

网页上的表格数据,一行一条信息,所以我们采集下来也是需要一行一条信息,那在左侧下方的循环设置中我们要进行设置,改为“添加新记录”,这样我们采集的信息就会一行一条,否则所有信息将堆积在一起,只有一条信息。参照下图:

火车采集器采集东方财富网股票业绩预告信息规则教程

设置好火车采集器采集规则后我们进行测试,出现下图即为设置成功

火车采集器采集东方财富网股票业绩预告信息规则教程

另外讲下,在采集该页面信息进行循环时,发现第一条信息和其他信息的规则不一样,经过分析,只能循环采集每页的除第一条的其他信息。那这应该怎么办?这个没有更好的方法,页面数据规则太过简单,无法找到一个能够匹配所有信息的规则,解决方法只有一个笨方法,但是也是唯一可以解决此问题的。那就是先循环采集所有信息,然后再设一个规则只针对第一条信息,再采一次最后合并。这里分享的规则不能采集到第一条信息,大家可以按照我的思路去尝试采集第一条信息。

火车采集器采集东方财富网股票业绩预告信息规则教程

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号