火车采集器才代理https类型网址设置二级代理时需注意事项_爬虫软件技术与爬虫软件网页数据采集器门户

https类型网址,因为https协议中规定,https类型的网址是加密网址,采用的是长连接请求方式,所以在使用代理时,多次请求不会自动更换代理IP。

我们为了实现更换代理IP的最终目的,那我们需要在http请求头设置中添加 Connection 请求头的值为Closed。如下图红线处

火车采集器才代理https类型网址设置二级代理时需注意事项教程截图1

代理设置

此项包含不使用代理,使用IE浏览器代理,使用指定代理三种模式。

其中指定代理模式可以设置固定的一个代理或者二级代理随机切换IP采集。

火车采集器才代理https类型网址设置二级代理时需注意事项教程截图2

接下来,我们来了解下二级随机代理的设置

开始菜单–http二级代理

火车采集器才代理https类型网址设置二级代理时需注意事项教程截图3

①二级代理设置界面

②页面缓存:使用二级代理采集时,同一个网址,多次的请求中,原页面可能并不存在任何的更新,所以直接调用缓存页面节约代理资源,提高了访问速度。通过设置网址必须包含和内容必须包含,则符合条件的内容会缓存在本地

③选项设置:二级代理验证设置或自动拨号设置

④运行日志

⑤添加

⑥编辑

⑦删除选中

⑧删除失效

⑨批量验证:验证IP是否有效

⑩全部设置为未验证

⑪批量导入

(1)先准备好一个有IP地址的TXT文件导入

格式为:ip:端口,一行一个

火车采集器才代理https类型网址设置二级代理时需注意事项教程截图4

点击⑪批量导入–浏览–选中 代理.txt 文件。 这样,代理IP 就导入进来了,如图:

火车采集器才代理https类型网址设置二级代理时需注意事项教程截图5

(2)设置端口/设置选项设置

设置端口,默认是8888

根据采集的网站地址来设置验证

查看此网页源代码,找个在正常访问时含有的某个字符串做标识(注意:当不正常访问时,比如封IP时,就不含有此字符),在这里可以根据

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号