fiddler使用教程实例之如何抓包查找隐藏的真实地址_爬虫软件技术与爬虫软件网页数据采集器门户

fiddler使用实例之采集新浪滚动新闻

这个教程讲解下如何用fddler 找到页面的真是地址次教程属于高级、功能了,所以你要已经知道fiddler的使用和简单的采集,如果这2点都不会的话,建议不要看下去了,新手还是看看教程。

正如大家所知,采集器是根据页面源代码采集的,但是呢有的时候呀就是那么的烦人呀,在浏览器明明可以看到的,却在页面源代找不到信息呢,如这个新浪的滚动新闻:http://roll.news.sina.com.cn

假如你要采集这个怎么办,打开看下是不是页面源代码里面找不到新闻内容的地址呀,是不是,这样的是什么情况呢,能不能采集呢???

这样的情况的话,大部分情况我们看到的都不是我们要采集的真是地址,我们要用fiddler去找下,这些新闻地址的页面到底在那个页面呢。

第一步,我们把fiidler软件打开,下图我会把fiddler重要的一个地方用红色标志出来,你们就按照图上的设置下fiddler

没有抓到任何数据的fiddler工具界面如下图

fiddler使用教程实例之如何抓包查找隐藏的真实地址教程截图1

不要问为什么就按照上图设置下采集器吧

第二步,抓包,就是刷新下我们要抓包的页面地址http://roll.news.sina.com.cn/s/c … amp;asc=&page=1

第三步,停止抓包,为了防止抓到很多无用的东西我们可以让fiddler 暂停抓包

fiddler使用教程实例之如何抓包查找隐藏的真实地址教程截图2

点击下上图的位置就可以了,就是在fiddler左下角,点击下那个单词消失了就停止抓包了,再点击空白处就会又出现

就会从新抓包

第四步,查找页面真是地址

现在是我们知道内容地址来查找他在那个页面,

我们在列表页那里顺便访问一个内容地址找到他的地址是什么如下图

fiddler使用教程实例之如何抓包查找隐藏的真实地址教程截图3

这个地址是http://tech.sina.com.cn/t/2013-04-01/16548201408.shtml 这个是吧,我把复制然后到fiddler抓包的结果里面去查找我们一般不要选择域名,因为很多情况下在页面源代码里看到的地址都是相对地址,所以我们选择一些特殊的字符去查找,我们就选择后面的数字吧 “16548201408”

fiddler使用教程实例之如何抓包查找隐藏的真实地址教程截图4

那么下面我们就来说说查找到的这个页面里面是什么内容呢是不是我们要的呢

fiddler使用教程实例之如何抓包查找隐藏的真实地址教程截图5

我们把这个地址复制过来看看:http://roll.news.sina.com.cn/int … 0.46109949907658204

地址是不是很奇怪,奇怪不奇怪我们不管他放到采集器里面用就好了 大家也看到了这个页面源代码的地址呀不是那种

好吧 下面把规则上传下大家可以下载参考下
http://www.youxiuziliao.com/uploads/fujian/xinlang-guize.rar

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号