任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

火车头采集器的DedeCMS5.7文章免登陆发布接口_爬虫软件技术与爬虫软件网页数据采集器门户

火车头采集器DedeCMS5.6免登陆文章发布接口使用说明 一、火车头采集器DedeCMS5.6免登陆文章发布接口功能特性 1、免登陆,用户可以设置验证密码来防止未授权的访问. 2、多用户随机发布文章. 3、可以达到和手工发布文章完全一样的效果,包括是否生成静态,去掉外链,下载远程图片等功能. 二、火车头采集器DedeCMS5.6免登陆文章发布接口使用教程 1、文字教程 1.1、选择您网站对应的接口文件.如您网站是gbk编码,请选择 jiekou_gbk.php. 1.2、打开接口文件,修改验证密码,然后保存. 1.3、修改接口文件名并上传至网站的管理目录.如默认的dede目录. 1.4、修改发布模块 DedeCMS 5.6 免登陆接口文章发布模块.cwr ,将发布模块里的发布文件地址后缀及刷新列表文件地址后缀中的文件名修改为您刚才修改的接口文件名. 1.5、设置发布配置,采集并开始发布. 三、火车头采集器DedeCMS5.6免登陆文章发布接口注意事项 1、该接口仅适用于发布文章到DEDECMS频道内容模型为普通文章的栏目; 2、该接口基于DedeCMS 5.6 GBK版制作,适用于dedecms5.6 GBK/utf-8/BIG5等版本,请在使用时接口选择不同的版本. 3、分页代码 4. 默认接口以id为1的管理员发文章,如果要修改,请修改插件中的userID的值为新的管理员的id $cuserLogin = new userLogin(); $cuserLogin->userID = 1; 四.火车头采集器DedeCMS5.6免登陆文章发布接口参数说明 1、必选参数 title       标题 body        内容 typeid       主栏目ID,必填,可在后台网站栏目管理处查看该id username 用户名,必须使用网站上已存在的用户名,默认是随机用户名,用户需要在模块中设置 pw 验证密码.在刷新列表和post发布时使用,需要模块和接口中的验证密码一致. 2、可选参数 ishtml=1      是否生成HTML,1为是,0为否; remote=1     是否下载远程图片和资源,1为是,0为否 dellink=0 是否删除非站内链接,1为是,0或空为否; shorttitle    简略标题 […]

火车头采集器如何把浏览器里面的cookie到火车头采集器里面_爬虫软件技术与爬虫软件网页数据采集器门户

有的时候 我们发现在浏览器里能看到的内容, 或者某个浏览器能看到 比如火狐能看到但是ie看不到 再或者 要把浏览器的语言设置为英文才可以看到 内容, 我们采集器是默认调用本地ie的 遇到以上的情况我们如果修改采集器的默认浏览器信息呢 下面做下说明: 这里用到抓包工具 抓到浏览器的信息 参考教程http://www.youxiuziliao.com/huochetoucaijiqijiaocheng/20.html 这里 假设你已经成功获取到浏览器信息了 这里重点说明下 如何把浏览器信息填写到采集器里面 第一步:如图,在第二步里面     第二步 填写浏览器信息     填写好后 点击右下角的保存按钮 就可以了 第三步 上面看到没有填写cookie的地方是吧 cookie是在这里填写的如图 在第一步 设置    

火车采集器如何设置自动采集发布计划任务定时功能设置_爬虫软件技术与爬虫软件网页数据采集器门户

1.首先打开火车采集器的自动运行设置工具!在采集器的菜单栏>>高级>>任务计划管理器 2.添加一个计划任务分组 3.添加需要自动运行的任务规则。 4.设置好运行的时间,保存设置就可以了 v7版本的计划任务基于cron表达式。因此,某些设置可能会无法直接达到,如每间隔120分钟无法在分钟里设置,可以设置成每间隔两小时。不能设置每间隔25个小时,可以设置每间隔一天。等等。下次更新中,计划任务将增加最近的几次运行时间,方便用户查看。以下附件就是基于此的小工具。

火车采集器V7版本二级随机代理的使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

1.火车采集器V7版本二级随机代理的使用教程,先打开二级随机代理工具,添加好代理的IP地址,然后验证一下是否可用 2.打开火车采集器,设置好端口号(不能与其他端口号冲突),然后保存。(注意不要退出代理工具,否则不可用) 3.在任务规则里设置需要代理。代理的IP填写本地的回路地址127.0.0.1.端口填写第二步设置的端口号即可 4.然后保存任务规则,运行任务就可以了,打开代理工具可以看到代理日志

火车采集器发布模块如何设置ubb设置发布图片教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器发布模块如何设置ubb设置发布图片教程 ubb发布隐藏太深了,令很多位用户困解,本人也是找了半天。 今天写了点图文教程与大家分享~ 共同学习 1、 打开火车采集器发布模块配置 2、 以火车采集器里自带的dz2.0论坛发布模块为例 3、 我们要对 [标签:内容] 这个参数ubb转换设置如下: 4、 保存后出现黄色框的设置也就是[标签:内容]值可以用引用值 {0} 表示。也就是 黄色框内值替换成{0} 然后保存模块即可。 以上就是火车采集器发布模块如何设置ubb设置发布图片教程,希望可以帮助到有需要的朋友。

火车采集器php插件编写视频教程下载_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器的PHP插件和2010的插件是一样的。还是只处理列表页,内容页,多页的网页源代码,保存时的标签。 火车采集器php插件编写视频教程中用一个简单的例子对所有可用到插件的地方进行了演示。 在压缩包中包含了所有教程中使用到的文件。需要注意的一点是,用户使用的采集器版本需要是3.27及以后的版本。如果您的版本低于这个时间,请下载最新手动更新包更新。.注意,请先更新,再导入规则进行测试。 附件下载: PHP插件的使用.7z 4.21MB 火车采集器分类和分类id新思路20180814   对数据里面的信息进行设置。   <?php header("Content-type: text/html; charset=gb2312");  $server = 'localhost'; $user =   'aaabbb'; $pass = 'aaabbb12345'; $dbname = 'aaabbb';   $conn = mysql_connect($server,$user,$pass); mysql_select_db($dbname);  mysql_query("set names 'gb2312'");   $result = mysql_query("select * from `jieqi_article_article` where articlename='".iconv('utf-8','gb2312',$_GET['title'])."'");  $row = mysql_fetch_array($result);   if(!$row){ echo 0; }else{ echo $row['articleid']; }   […]

火车采集器里面的字符编码解码功能介绍使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

我们在使用火车采集器采集的结果被转义了,那么如何获得我们要的结果呢? 比如下图采集的结果中文都被转义成特殊的字符了 这样我们就可以使用采集器里面的 编码/解码 功能了 如下图2个步骤找到次功能, 第一步: 火车采集器里面的字符编码解码功能介绍使用教程,界面如下图:  

fiddler使用教程实例之如何抓包查找隐藏的真实地址_爬虫软件技术与爬虫软件网页数据采集器门户

fiddler使用实例之采集新浪滚动新闻 这个教程讲解下如何用fddler 找到页面的真是地址次教程属于高级、功能了,所以你要已经知道fiddler的使用和简单的采集,如果这2点都不会的话,建议不要看下去了,新手还是看看教程。 正如大家所知,采集器是根据页面源代码采集的,但是呢有的时候呀就是那么的烦人呀,在浏览器明明可以看到的,却在页面源代找不到信息呢,如这个新浪的滚动新闻:http://roll.news.sina.com.cn 假如你要采集这个怎么办,打开看下是不是页面源代码里面找不到新闻内容的地址呀,是不是,这样的是什么情况呢,能不能采集呢??? 这样的情况的话,大部分情况我们看到的都不是我们要采集的真是地址,我们要用fiddler去找下,这些新闻地址的页面到底在那个页面呢。 第一步,我们把fiidler软件打开,下图我会把fiddler重要的一个地方用红色标志出来,你们就按照图上的设置下fiddler 没有抓到任何数据的fiddler工具界面如下图 不要问为什么就按照上图设置下采集器吧 第二步,抓包,就是刷新下我们要抓包的页面地址http://roll.news.sina.com.cn/s/c … amp;asc=&page=1 第三步,停止抓包,为了防止抓到很多无用的东西我们可以让fiddler 暂停抓包 点击下上图的位置就可以了,就是在fiddler左下角,点击下那个单词消失了就停止抓包了,再点击空白处就会又出现 就会从新抓包 第四步,查找页面真是地址 现在是我们知道内容地址来查找他在那个页面, 我们在列表页那里顺便访问一个内容地址找到他的地址是什么如下图 这个地址是http://tech.sina.com.cn/t/2013-04-01/16548201408.shtml 这个是吧,我把复制然后到fiddler抓包的结果里面去查找我们一般不要选择域名,因为很多情况下在页面源代码里看到的地址都是相对地址,所以我们选择一些特殊的字符去查找,我们就选择后面的数字吧 “16548201408” 那么下面我们就来说说查找到的这个页面里面是什么内容呢是不是我们要的呢 我们把这个地址复制过来看看:http://roll.news.sina.com.cn/int … 0.46109949907658204 地址是不是很奇怪,奇怪不奇怪我们不管他放到采集器里面用就好了 大家也看到了这个页面源代码的地址呀不是那种 好吧 下面把规则上传下大家可以下载参考下 http://www.youxiuziliao.com/uploads/fujian/xinlang-guize.rar

火车浏览器百度地图商家信息采集详细讲解_爬虫软件技术与爬虫软件网页数据采集器门户

1、打开百度地图,以推拿为关键词采集一个城市的所有推拿店的信息,包括名称、地址、电话、坐标。 2、进入火车浏览器的操作界面,开始脚本的编写。 3、新建百度推拿脚本并逐一添加步骤。 ①首先是打开百度地图网页 网址输入:http://api.map.baidu.com/lbsapi/getpoint/index.html ②然后输入城市 (1)这里注意,复杂的提取可能会用到xpath,(对xpath感兴趣的话可以看看这个深入学习一下,http://www.w3school.com.cn/ )对于一些简单的直接用浏览器的点选按钮在页面上点击选取即可拾取对应的xpath了。 (2)另外需要注意对变量的管理。我们找到输入框,接下来就是添加变量,写入城市、关键词。 ③设置变量的值——北京(可单步测试运行,测试能否输入城市名称) ④点击“百度一下”,及右键点击暂停等待——元素操作——点击 ⑤同理,输入城市后,我们需要输入推拿并再次点击百度,就可以找到有关推拿的商家了。 4、上面是模拟访问,接下来是采集:把页面右方出现的信息采集下来,由于右方的信息有很多页,所以我们要进行分页采集。 ⑥先来采集首页,设置一个循环并对页面进行一个条件判断,即判断有无数据:如有,则判断为真,单次取值;如判断为假,结束当前循环。 ⑦这是采集其他页(分页),加了一个点击。 ⑧最后一步,就是把采集的数据进行处理,如果有本地运行环境的话是可以导入数据库,没有的话,可以直接导入到本地。 完成后,可查看运行日志,检查每一步骤有没有成功。 火车浏览器的功能还是比较强大的,除了采集之外,群发、批量注册、自动打码等一系列复杂的网页操作都可以轻松实现。

火车采集器V9知乎网站关键词搜索信息采集教程_爬虫软件技术与爬虫软件网页数据采集器门户

今天给大家分享知乎网站问题及第一条回答内容的采集采集,通过搜索关键词采集相应的内容,本案例需要用到抓包工具来获取入口网址,以及获得UA。下面的案例讲解给大家简单作讲解! 本规则采集知乎网站问题信息为例,本规则以通过关键词搜索问题,采集相应文章及第一条回答等内容。 【案例讲解】 第一步:打开网址 https://www.zhihu.com/ 然后登录账号,然后搜索你想要的guanjianci,如“一带一路”,参照下图: 第二步:使用Fiddler 抓包软件(关于Fiddler软件介绍请查看:http://faq.locoy.com/search.html?&keyword=Fiddler 之前介绍过,这里不再讲解,也可以查看之前的东哥福利)打开软件,然后点击网页上的更多,参照下图: 然后回到抓包软件,寻找抓到的网址,参照下图 然后通过获取到的网址:https://www.zhihu.com/r/search?q … e=content&offset=10 发现网址中的10为分页参数,并且1-20任意值代表第一个分页,11-20任意值代表第2个分页,依此类推,那换到规律,我可以从1开始,然后每次递增10,这样就是1、11、21、31……等,我们按照这样的规则设置分页参数,这里仅设置5页,如下图: 第三步:采集内容网址,通过源码分析,发现网址是这样的“\/question\/49185959\”,如下图: 因网址中间有特殊符号,不能直接采集,我们可以这样设置规则,只采集其中的数字,前面是固定值,变化的只有数字,然后进行网址拼接,如下图: 第四步:内容采集设置,在这里要注意的是,知乎需要设置下UA,才能进行采集,否则将采不到内容,如何获得UA,首先打开抓包软件,然后找开要采集的内容网址页,然后抓包获得UA值,参照以下三个图: 先找到内容网址 然后右侧点击 RAW 再点击右下解的按钮 然后在记事本中复制UA值 ,然后我们在采集器中打开其他设置,将UA值粘贴到UA里面,如下图: 然后回到内容采集设置,进行内容规则设置,这里没有什么特别的难点,就不再细讲,设置好后,进行测试,如下图: 显示上图这样,就表示 设置OK了,我们可以进行采集啦! 你学会了吗?

火车采集器V9微信公众号文章采集规则制作教程分享_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9微信公众号文章采集规则制作教程分享 如何通过搜狗微信 http://weixin.sogou.com/ 采集微信公众号文章,今天这里讲解通过关键词搜索微信内容进行采集。 首页打开上面的网址,输入你要关键词,如“金融”,如下图: 然后下方点击分页,然后复制地址栏中的网址,到采集器 打开火车采集器的网址中的page=2为分页规则,在采集器设置如下: 将2设为[地址参数],确定后设置内容网址获取规则,通过分析源码,进行如下设置,如图: 设置好后,可以进行网址测试,看能否采集到网址,测试正常,如下图: 然后我们进行内容采集规则设置,因没有什么特别难的地方,就不详细说明,仅提下微信中图片的下载,微信的图片下载,仅选择下载图片是不能下载的,必须将“探测文件并下载”√选上,参照下图: 设置好规则好,我们进行测试采集,都获取到内容了

火车采集器采集东方财富网股票业绩信息规则教程_爬虫软件技术与爬虫软件网页数据采集器门户

今天主要讲解火车采集器采集东方财富网股票业绩预告信息规则教程,起始网址页即为内容页和标签循环采集功能,其他略过! 我们要采集的网址:http://data.eastmoney.com/bbsj/201703/yjyg.html 如上图,我们需要采集表格中的信息。 底部有分页,总共29页,发现点击分页,网址并无变化,那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址,如下图: 通过抓包我们找到了有我们需要的数据的页面地址,我们将网址复制出来,参照下图: 通过火车采集器网址规则分析到分页的参数变量,一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了,找到变量规则后,我就可可以通过网址分页规则进行设置,共29页,如下图: 通过抓包软件,我们看到我们所要采的数据就在抓取的分页中,就并不需要再采集内容页,我们要的内容就在起始网址页中,那么我们就需要使用火车采集器的起始网址就是内容页网址,我们点击“点击设置”,如下图: 点击出现下图,是灰色的,不能进行任何设置,因为我们不需要设置采集内容页网址了,所以这里不操作。 直接进入内容采集规则设置界面,如下图,因为我们需要采的内容是表格内容并且都在一个页面上,所以我们需要使用循环采集,所以设置标签的时候,每个标签都要将循环匹配√选上。(每个标签的内容采集规则这里不多说,大家可以下载规则自行测试学习,其实还是有一定的小技巧的) 网页上的表格数据,一行一条信息,所以我们采集下来也是需要一行一条信息,那在左侧下方的循环设置中我们要进行设置,改为“添加新记录”,这样我们采集的信息就会一行一条,否则所有信息将堆积在一起,只有一条信息。参照下图: 设置好火车采集器采集规则后我们进行测试,出现下图即为设置成功 另外讲下,在采集该页面信息进行循环时,发现第一条信息和其他信息的规则不一样,经过分析,只能循环采集每页的除第一条的其他信息。那这应该怎么办?这个没有更好的方法,页面数据规则太过简单,无法找到一个能够匹配所有信息的规则,解决方法只有一个笨方法,但是也是唯一可以解决此问题的。那就是先循环采集所有信息,然后再设一个规则只针对第一条信息,再采一次最后合并。这里分享的规则不能采集到第一条信息,大家可以按照我的思路去尝试采集第一条信息。

火车采集器采集住哪儿网酒店信息采集规则制作教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器采集住哪儿网酒店信息采集规则制作教程以北京地区酒店信息为例,入口页面:http://www.zhuna.cn/hotellist/e0101/ 通过页面点击发现这并不是真实的数据列表页,需要通过抓包软件来抓包,找出真实列表网址(抓包之前说过,今天这里不再细说),通过抓包获得真实网址为:http://www.zhuna.cn/?m=search.getList&page=1&sort=0&distance=3&ecityid=0101&cityname=%E5%8C%97%E4%BA%AC 在火车采集器网址中的page=1为列表页分页参数,通过分页规则,采集列表网址,如图: 下一步获取内容页网址,通过源码分析,发现源码中并没有网址,但可以看到一个ID值,如图: 通过页面点击内容页发现内容网址为http://www.zhuna.cn/hotel-5396.html 网址中的数字很可能就是这个ID值,将源码中的ID值替换到这个网址中,发现就是酒店详细内容页,这样我们只要采集这个ID值即可。这个获取规则也很简单,以{"id":开头,以 , 结尾,就可以获取到ID值,但光有ID值不行,这个时候我们要拼接出完整的内容网址,那这样拼接http://www.zhuna.cn/hotel-[参数1].html即可,如图: 通过火车采集器网址测试,可以顺利采集到内容网址 酒店的基本信息在内容页源码中都有,规则也比较简单,在这里就略过,最后来张采集动态图

火车采集器V9安居客小区信息采集规则制作教程_爬虫软件技术与爬虫软件网页数据采集器门户

 火车采集器V9安居客小区规则分享.rar (45.07 KB, 下载次数: 238)  火车采集器V9安居客小区信息采集规则制作教程 今天主要讲解多页功能,其他略过! 我们抓取的信息中有小区的房源数量数据,发现在网页源码中并没有此数据。通过抓包软件fiddler抓包分析可以获取到该数据的真实网址,参照下图: 通过网址可以发现一个ID参数“337684”,于是我们可在内容页源码中看能否查找到应该ID值 通过搜索我们发现源码中存在这个值,那我们就可以通过这个值 在多页功能中拼接出房源数量数据的网址,参照下图: 左侧是获取该ID值的规则,右侧是拼接出网址,起一个名称,保存多页,下一步我们就可以通过此页获取房源数量 添加标签,通过拼接的多页网址,分析获取数据规则,注意上图的数据来源,一定要选择关联多页。这样我们就可以通过多页功能获取到隐藏的房源数量信息了,你学会了吗?

火车采集器之常用正则表达式代码分享_爬虫软件技术与爬虫软件网页数据采集器门户

<数字匹配> [1-9][0-9]{5,9} 匹配6到10位QQ号码 [1-9]表示第一位不能为0   [1,2,3,4,5][0-9]{5,9} 匹配6到10位QQ号码 [1,2,3,4,5]表示第一位能为1,2,3,4,5   匹配中国邮政编码:[1-9]\d{5}(?!\d) 评注:中国邮政编码为6位数字 说明:(?!\d)表示非数字的后续内容。 比方字符串 555555dasfdsf, dasfdsf就不会被提取,只捕获前面。  在一定条件下有用,在某些条件下又是多余的。   匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7} 评注:匹配形式如 0511-4405222 或 021-87888822   匹配身份证:\d{17}[a-z0-9A-Z]{1} 评注:中国的身份证18位   <email匹配> 匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 评注:表单验证时很实用   <汉字匹配> 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了   匹配双字节字符(包括汉字在内):[^\x00-\xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)   <链接匹配> 匹配网址URL的正则表达式:[a-zA-z]+://[^\s]* 评注:网上流传的版本功能很有限,上面这个基本可以满足需求   <ip匹配> 匹配ip地址:\d+\.\d+\.\d+\.\d+ 评注:提取ip地址时有用 提取最后一个数字的正则表达式 (\d+)\. 或者 \d+(?=\.)   

火车采集器V9.7多网站站群式发布细节教程详解_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7多网站站群式发布,指选择多个发布配置时,同一条数据不会重复发布至一个网站中: 发布条件:假设有3个发布配置A,B,C,一共有20条数据1,2,3,4,5….20需要发布 下面介绍下不同发布方式下,数据的发布情况 (1) 正序发布-多网站站群式发布: 按正序顺序一条条将20条数据分配给三个配置,分配方式为: A:1,4,7,10,13,16,19 B:2,5,8,11,14,17,20 C:3,6,9,12,15,18 (2)倒序发布-多网站站群式发布:按倒序顺序一条条将20条数据分配该三个配置,分配方式为: A:20,17,14,11,8,5,2 B:19,16,13,10,7,4,1 C:18,15,12,9,6,3 (3)乱序发布-多网站站群式发布:呈乱序随机选择数据发布配置发布,所以数据发布是完全随机的。

火车浏览器6.7版本安装后运行提示无法加载Dll解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车浏览器6.7版本安装后,运行提示,如下图: 解决方法是:需要安装一部分vc++组件,下载安装即可。 在安装火车浏览器6.7版本软件中出现这样或那样的问题,经查大多是vc环境有问题引起。所以安装中有问题,可以先试一下安装所有的vc环境。 所有VC安装包下载:百度搜索-VC_RedistInstaller.rar

火车采集器才代理https类型网址设置二级代理时需注意事项_爬虫软件技术与爬虫软件网页数据采集器门户

https类型网址,因为https协议中规定,https类型的网址是加密网址,采用的是长连接请求方式,所以在使用代理时,多次请求不会自动更换代理IP。 我们为了实现更换代理IP的最终目的,那我们需要在http请求头设置中添加 Connection 请求头的值为Closed。如下图红线处 代理设置 此项包含不使用代理,使用IE浏览器代理,使用指定代理三种模式。 其中指定代理模式可以设置固定的一个代理或者二级代理随机切换IP采集。 接下来,我们来了解下二级随机代理的设置 开始菜单–http二级代理 ①二级代理设置界面 ②页面缓存:使用二级代理采集时,同一个网址,多次的请求中,原页面可能并不存在任何的更新,所以直接调用缓存页面节约代理资源,提高了访问速度。通过设置网址必须包含和内容必须包含,则符合条件的内容会缓存在本地 ③选项设置:二级代理验证设置或自动拨号设置 ④运行日志 ⑤添加 ⑥编辑 ⑦删除选中 ⑧删除失效 ⑨批量验证:验证IP是否有效 ⑩全部设置为未验证 ⑪批量导入 (1)先准备好一个有IP地址的TXT文件导入 格式为:ip:端口,一行一个 点击⑪批量导入–浏览–选中 代理.txt 文件。 这样,代理IP 就导入进来了,如图: (2)设置端口/设置选项设置 设置端口,默认是8888 根据采集的网站地址来设置验证 查看此网页源代码,找个在正常访问时含有的某个字符串做标识(注意:当不正常访问时,比如封IP时,就不含有此字符),在这里可以根据

火车采集器V9.7奶盘伪原创操作配置教程_爬虫软件技术与爬虫软件网页数据采集器门户

“火车伪原创插件.dll” 文件放到Plugins目录下。 “火车伪原创插件配置工具.exe” 文件放在采集器根目录下,和LocoySpider.exe放在同一目录。 通过使用配置工具来 填写账号、密码等信息即可。 新建任务,创建"标题"和"内容"标签, 然后在其他设置中->插件->采集结果处理插件,选择"火车伪原创插件.dll"即可。 奶盘伪原创操作配置教程注意 (1)若是运行插件时出现如下错误:dnguard错误 则需要删除火车采集器安装目录的system目录下的 Runtime32.dll以及Runtime64.dll 文件 (2)若是出现如下错误,是因为未将奶盘伪原创的exe放在火车采集器的安装目录下,请将该exe文件放在火车采集器目录下后再进行测试。

火车采集器V9.7的mysql入库存储过程实现功能教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7的mysql入库存储过程实现功能教程 对于会更新数据的网站,如果可以通过一个字段判断该网页数据是否更新,则可以编写存储过程来实现,数据库中已有数据的更新,然后新增数据直接插入数据库的功能: 存储过程语句如下: CREATE DEFINER=`root`@`%` PROCEDURE `yhaves`(IN `gaame` VARCHAR(50), IN `plorm` VARCHAR(50), IN `serrea` VARCHAR(200))     LANGUAGE SQL     NOT DETERMINISTIC     CONTAINS SQL     SQL SECURITY DEFINER     COMMENT '' BEGIN DECLARE cnt INT default 0; select id into cnt from diyiyou where gamename=gaame limit 1;   if cnt=0 then    insert into diyiyou(gamename,platform,servicarea) […]

火车采集器V9.7入库模块存储过程使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7入库模块存储过程使用教程,当有类似下列应用场景: 将甲同学的姓名插入useinfo表,另甲同学有多张图片,需插入pic表,并且要求两表相关联,图片是一张图片插入一行。 那这就要求,pic表可以获得useinfo表中甲同学的自增ID。这种复杂的插入过程,则需要存储过程了。 以上述情况,可使用如下存储过程 首先在数据库手动创建存储过程,这个heidisql工具创建存储过程的界面,传入参数,需要手动添加。存储过程建立好后。 在火车采集器的入库模块中可以直接调用: 其中需要注意,插入的图片标签中的值是以 逗号间隔: 执行结果: 若是有类似的情况可以修改下存储过程,一些关于存储过程的详细使用方法,可以百度教程自行学习哦。这里仅提供使用示

火车采集器V9.7用cmd命令控制采集器运行任务规则或分组之后关闭_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7用cmd命令控制采集器运行任务规则或分组之后关闭 在火车采集器安装目录中,按shift键再右键选择  “在此处打开命令窗口”   执行如下命令分别实现不同功能 1.   LocoySpider.exe jobxx closeapp     运行采集器中的任务ID是xx的规则,运行结束之后,关闭软件 2.   LocoySpider.exe sitexx closeapp     运行采集器中的分组ID是xx下的所有规则,运行结束之后,关闭软件 3.   LocoySpider.exe jobxx closesys      运行采集器中的任务ID是xx的规则,运行结束之后,关闭计算机 在执行上述命令语句的时候,采集器是已经关闭的状态下执行。执行命令之后会自动打开采集器软件,如果软件登录界面没有勾选自动登录方式,需要用户手动点击登录按钮才可以继续运行  

火车采集器V9.7定时采集发布计划任务设置教程介绍_爬虫软件技术与爬虫软件网页数据采集器门户

很多朋友在用火车采集器的时候,希望能够定时自动采集自动发布,尤其是需要网站更新内容的,人没办法24小时守在电脑前,那定时采集发布功能就很有必要了。 今天就给大家来介绍一下火车采集器V9的计划任务功能来实现自动采集发布。 第一步:首先要确定你的采集和发布规则都已经设置好的前提下,我们点击菜单栏上的计划任务,如下图: 第二步:需要建立一个分组,自己起一个名称,参照下图 第三步:添加计划任务,点击下图中的计划任务,然后参照下图: 会出现你所有设置好的采集任务,然后勾选你需要定时执行的任务,可以选多个。右侧是设置执行的时间,如每间隔多长时间执行一次,也可以设置运行的时间段,这里的间隔建议不要设置太短,如只有几分钟,时间太短的话,可能会出现第一次还运行完,又到了第二次运行的时间,可能会出错。 你也可以设置按每天固定的时间点来执行,如上图。设置好后,如下图,只要保持采集器不关闭,网络通畅就可以了。 当然也可以可以针对每个任务设置不同的时候,参照下图,点击要设置的任务,即可设置单独设置相应的时间

火车采集器V9.7数据库转换功能使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7版菜单栏工具功能之数据转换介绍 我们的火车采集器默认是Sqlite数据库,是软件自带无须安装的轻便数据库,如果安装火车采集器后不进行数据库设置,默认的便是这个数据库。 但它可能并不能满足我们所有用户的需求,当我们的任务规则比较多,采集数据量比较大的时候,就会影响软件打开的速度,而且采集到本地的数据也不能很多好的通过数据库软件进行操作。 火车采集器为大家提供了数据库转换功能,目前可以将默认的数据库换成Mysql和Sqlserver数据库,下面为大家介绍如何转换设置。 首先,我们在菜单栏的工具中找到数据转换,点击  默认是Sqlite,你可以选择转换成你需要的数据库,当然前提你得先安装好数据库软件 (特别提醒:在你做数据库转换时,务必要做好数据库备份,最简单的办法就是,直接将整个采集器安装目录 复制一份) 在这里我选择的是Mysql数据库,然后输入数据库的用户名和密码,以及数据库名(事先在数据库中创建一个空的数据表) 设置好后,点开始转换即可。这里要说明的是,上图中,有个转换内容库,这里如果选择√选的话,将对已采的数据进行转换,转换到Mysql数据库中,这个如果不是非常必要的话建议不转换,因为如果你的内容非常多的话,这个转换比较慢。 这里是对数据库链接的测试 这里会有提醒,所以请一定备份数据 这是数据转换过程,结束后即转换成功,退出软件,再次进入,再点数据转换,如果这里显示如下图,即转换成功

火车采集器V9版工具功能选项设置使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9版工具功能选项设置使用教程,带你认识了解火车采集器V9版菜单栏工具功能之选项设置 选项设置分为全局选项,采集设置,配置备份,使用偏好,主要是针对采集器的一些使用习惯和基本参数的设置,可以直接通过下方的图看明白,大家可以按照自己的需求和偏好进行设置。

火车采集器V9.7内容页和标签循环采集功能使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

给大家分享财富网股票业绩预告信息采集规则。今天的规则相对比较简单,但简单中又有技巧, 比如看到这个图的规则,会不会晕呢,怎么就标点符号和通配符呢?今天的规则主要使用了起始网址页即为内容页和标签循环采集功能,下方案例讲解为大家详细说明。 今天主要讲解 起始网址页即为内容页和标签循环采集功能,其他略过! 如上图,我们需要采集表格中的信息。 底部有分页,总共29页,发现点击分页,网址并无变化,那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址,如下图: 通过抓包我们找到了有我们需要的数据的页面地址,我们将网址复制出来,参照下图: 通过网址规则分析到分页的参数变量,一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了,找到变量规则后,我就可可以通过网址分页规则进行设置,共29页,如下图: 通过抓包软件,我们看到我们所要采的数据就在抓取的分页中,就并不需要再采集内容页,我们要的内容就在起始网址页中,那么我们就需要使用火车采集器的起始网址就是内容页网址,我们点击“点击设置”,如下图: 点击出现下图,是灰色的,不能进行任何设置,因为我们不需要设置采集内容页网址了,所以这里不操作。 直接进入内容采集规则设置界面,如下图,因为我们需要采的内容是表格内容并且都在一个页面上,所以我们需要使用循环采集,所以设置标签的时候,每个标签都要将循环匹配√选上。(每个标签的内容采集规则这里不多说,大家可以下载规则自行测试学习,其实还是有一定的小技巧的) 网页上的表格数据,一行一条信息,所以我们采集下来也是需要一行一条信息,那在左侧下方的循环设置中我们要进行设置,改为“添加新记录”,这样我们采集的信息就会一行一条,否则所有信息将堆积在一起,只有一条信息。参照下图: 设置好后我们进行测试,出现下图即为设置成功 另外讲下,在采集该页面信息进行循环时,发现第一条信息和其他信息的规则不一样,经过分析,只能循环采集每页的除第一条的其他信息。那这应该怎么办?这个没有更好的方法,页面数据规则太过简单,无法找到一个能够匹配所有信息的规则,解决方法只有一个笨方法,但是也是唯一可以解决此问题的。那就是先循环采集所有信息,然后再设一个规则只针对第一条信息,再采一次最后合并。这里分享的规则不能采集到第一条信息,大家可以按照我的思路去尝试采集第一条信息。

火车采集器9.7之[参数N]案例详细教程_爬虫软件技术与爬虫软件网页数据采集器门户

[参数]在火车采集器中是一个标记标签,用来匹配某些待提取的信息。这里和(*)区分开来,(*)是通配符号,用来代表某些应被忽略的信息。[参数]出现在内容网址获取和内容标签的正则提取中,如图: 关于[参数]、[参数1]、[参数N]?这三者之间是什么样的存在? 比如:http://www.dianping.com/hefei/food如果hefei和food都是我们需要提取利用的内容,那么在写提取规则的时候我们就把它们标记为参数标签:http://www.dianping.com/[参数]/[参数]而在拼接地址的时候就是对上面提取的参数进行利用,在这里我们提取到的参数已经进行了排序,所以hefei和food就分别为是我们提取到的[参数1]和[参数2]。但在写拼接地址的时候,我们会发现旁边出现的标签是[参数N]而不是[参数1]、[参数2],这是为什么呢? 其实[参数N]的作用是我们点击一次时就自动出现[参数1]、再点击就依次出现[参数2]、[参数3]……方便需要利用多个参数的情况。 如果依次出现的参数序号和拼接目标不同,我们还可自行修改数字调整参数位置,如上动态图片~ 知道怎么用了,但具体用在什么地方呢?下面奉上大众点评中用参数拼接地址的真实操作案例: 进入商家列表页面后我们需要获取商家的地址,点击一个商家看看地址的格式。 回到列表页,查看页面源代码,可以发现商家的地址是不全的,因此我们需要借用源代码中的信息拼接出一个完整的内容页地址。这时源代码中的内容页地址信息就可以借助参数提取出来,不多说,看下图规则。 这里的[参数1]就是点击[参数N]后出来的哟,内容页地址拼接完成后我们来测试一下~ 这样就拼接成功啦~

火车采集器V9.7多页功能详细教程介绍_爬虫软件技术与爬虫软件网页数据采集器门户

我们在采集网页信息过程中经常遇到信息不在同一个页面,那就要使用多页功能,今天在这里以采集安居客小区信息为例讲解火车采集器V9的多页设置。因为主要讲解多页,案例中的其他设置略过! 下面我们来介绍一下火车采集器V9.7多页功能详细教程。 我们要抓取的信息中有小区的房源数量数据,发现在网页源码中并没有此数据。通过抓包软件fiddler抓包分析可以获取到该数据的真实网址,参照下图: 通过网址可以发现一个ID参数“337684”,于是我们可在内容页源码中看能否查找到该ID值 通过搜索我们发现源码中存在这个值,那我们就可以通过这个值 在多页功能中拼接出房源数量数据的网址,参照下图: 首页我们要添加多页,在内容采集规则步骤中左侧下方有个关联多页,我们点击+号进行添加多页 获取多页网址和获取内容页网址原理一样,也是通过源码找出规则。因在内容页中并没有完整的该多页的链接,但可以采到网址中的ID参数,于是我们只需获取到ID即可,然后拼接出多页网址,参照下图: 起一个名称,保存多页,下一步我们就可以通过此页获取房源数量 添加标签,通过拼接的多页网址,分析获取数据规则,注意上图的数据来源,一定要选择关联多页。这样我们就可以通过多页功能获取到隐藏的房源数量信息了,你学会了吗?

火车采集器V9.7采集网址拼接功能之酒店信息采集案例讲解_爬虫软件技术与爬虫软件网页数据采集器门户

今天为大家讲解网址拼接,我们经常在采集的时候,发现源码中并没有完全的网址或完全的网站不好制定规则,那就可以使用网址拼接功能,今天以酒店信息采集案例讲解网址拼接功能。 以北京地区酒店信息为例,入口页面:http://www.zhuna.cn/hotellist/e0101/ 通过页面点击发现这并不是真实的数据列表页,需要通过抓包软件来抓包,找出真实列表网址(抓包之前说过,今天这里不再细说),通过抓包获得真实网址为:http://www.zhuna.cn/?m=search.ge … =%E5%8C%97%E4%BA%AC 网址中的page=1为列表页分页参数,通过分页规则,采集列表网址,如图: 下一步获取内容页网址,通过源码分析,发现源码中并没有网址,但可以看到一个ID值,如图: 通过页面点击内容页发现内容网址为http://www.zhuna.cn/hotel-5396.html 网址中的数字很可能就是这个ID值,将源码中的ID值替换到这个网址中,发现就是酒店详细内容页,这样我们只要采集这个ID值即可。这个获取规则也很简单,以{"id":开头,以 , 结尾,就可以获取到ID值,但光有ID值不行,这个时候我们要拼接出完整的内容网址,那这样拼接http://www.zhuna.cn/hotel-[参数1].html即可,如图: 通过网址测试,可以顺利采集到内容网址 酒店的基本信息在内容页源码中都有,规则也比较简单,在这里就略过,最后来张采集动态图

100% Secure Checkout

PayPal / MasterCard / Visa