火车采集器V9知乎网站关键词搜索信息采集教程_爬虫软件技术与爬虫软件网页数据采集器门户

今天给大家分享知乎网站问题及第一条回答内容的采集采集,通过搜索关键词采集相应的内容,本案例需要用到抓包工具来获取入口网址,以及获得UA。下面的案例讲解给大家简单作讲解!

本规则采集知乎网站问题信息为例,本规则以通过关键词搜索问题,采集相应文章及第一条回答等内容。

【案例讲解】

第一步:打开网址 https://www.zhihu.com/ 然后登录账号,然后搜索你想要的guanjianci,如“一带一路”,参照下图:

火车采集器V9知乎网站关键词搜索信息采集教程截图1

第二步:使用Fiddler 抓包软件(关于Fiddler软件介绍请查看:http://faq.locoy.com/search.html?&keyword=Fiddler 之前介绍过,这里不再讲解,也可以查看之前的东哥福利)打开软件,然后点击网页上的更多,参照下图:

火车采集器V9知乎网站关键词搜索信息采集教程截图2

然后回到抓包软件,寻找抓到的网址,参照下图

火车采集器V9知乎网站关键词搜索信息采集教程截图3

然后通过获取到的网址:https://www.zhihu.com/r/search?q … e=content&offset=10

发现网址中的10为分页参数,并且1-20任意值代表第一个分页,11-20任意值代表第2个分页,依此类推,那换到规律,我可以从1开始,然后每次递增10,这样就是1、11、21、31……等,我们按照这样的规则设置分页参数,这里仅设置5页,如下图:

火车采集器V9知乎网站关键词搜索信息采集教程截图4

第三步:采集内容网址,通过源码分析,发现网址是这样的“\/question\/49185959\”,如下图:

火车采集器V9知乎网站关键词搜索信息采集教程截图5

因网址中间有特殊符号,不能直接采集,我们可以这样设置规则,只采集其中的数字,前面是固定值,变化的只有数字,然后进行网址拼接,如下图:

火车采集器V9知乎网站关键词搜索信息采集教程截图6

第四步:内容采集设置,在这里要注意的是,知乎需要设置下UA,才能进行采集,否则将采不到内容,如何获得UA,首先打开抓包软件,然后找开要采集的内容网址页,然后抓包获得UA值,参照以下三个图:

火车采集器V9知乎网站关键词搜索信息采集教程截图7

先找到内容网址

火车采集器V9知乎网站关键词搜索信息采集教程截图8

然后右侧点击 RAW 再点击右下解的按钮

火车采集器V9知乎网站关键词搜索信息采集教程截图9

然后在记事本中复制UA值 ,然后我们在采集器中打开其他设置,将UA值粘贴到UA里面,如下图:

火车采集器V9知乎网站关键词搜索信息采集教程截图10

然后回到内容采集设置,进行内容规则设置,这里没有什么特别的难点,就不再细讲,设置好后,进行测试,如下图:

火车采集器V9知乎网站关键词搜索信息采集教程截图11

显示上图这样,就表示 设置OK了,我们可以进行采集啦! 你学会了吗?

火车采集器V9知乎网站关键词搜索信息采集教程截图12

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号