很多网站的数据结构用到了Json格式,那么遇到这种格式的数据,用正常的采集规则是很难完美采集的,所以火车采集器V9也提供了Json采集的功能,今天这里给大家介绍下Json功能,如何去通过Json工具采集数据。
在这里主要介绍Json 所以我找了一个,Json格式的网页,仅对Json格式采集功能作介绍,其他略过,所以我也直接拿Json格式数据的网址作为内容页,下面请看详解。
我们要采的数据在网页中显示是这样的,如下图:
我们要采集表格中的数据,发现在网页源码中并没有这些数据
通过抓包获得数据网址:https://baoxian.taobao.com/json/item/insuredProject.do?callback=jsonp333&item_id=43464493792
打开网址我们发现数据是这样的,如下图:
通过上图,老司机可能觉得这也可以通过正常规则采集,是的上面的部分内容,确实可以通过正常规则采集,但大家注意看,保障说明、保障金额等是没办法正常采集的,其实懂的人一眼能看出来这是一个Json格式的数据。不懂得人怎么办呢?没关系,如果你遇到与这个类似格式的数据,我们先假设他就是Json,然后使用火车采集器的Json工具看能不能读取出数据。下面介绍火车采集器如何使用Json工具来采集。
先看上图,在内容标签采集设置这里,我们选择JSON提取,可以看到JSON工具,我们点击,出现下图:
参照上图,点击选择按钮,然后选择URL网址(这里先只介绍URL这一类型),然后把我们上面的网址输入进去,点击确定,如果能出现下图,这样的目录型结构,那就一定是Json格式了
我们继续,默认所有的都闭合的,需要我们点开,那就一个一个点看,只到发现你要的数据,数据一般都在data中,如上图中,desc中的文字信息是我们要的数据,总共16条,每条都需要,上图的右下角提示按Ctrl选多个节点,获取多条数据,在这里告诉大家,不管有多少条,如果你要获取多条数据不需要每个都点,只需点两条即可,可以看到上图中的JSON表达式中最后一个[]中的数值变成*号那就是代表采集多条数据。就这样,我们保存即可,然后以此类推,设置其他的标签,就是这么简单,使用JSON工具点点选选即可。
经测试,完美采集到了,对了如果是多条数据要设置循环哦。赶紧去试试火车采集器Json工具吧.。
RSS