任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

火车采集器V9.7之文章采集规则编写案例教程_爬虫软件技术与爬虫软件网页数据采集器门户

通过火车采集器官网的faq为例来说明采集器采集的原理和过程。 本例以 http://faq.locoy.com/qc-12.html 演示地址,以火车采集器V9为工具进行示例说明。 (1)新建个采集规则 选择一个分组上右击,选择“新建任务”,如下图: (2)添加起始网址 在这里我们需要采集 5页数据。 分析网址变量规律 第一页地址:http://faq.locoy.com/qc-12.html?p=1 第二页地址:http://faq.locoy.com/qc-12.html?p=2 第三页地址:http://faq.locoy.com/qc-12.html?p=3 由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示: 所以设置如下: 地址格式:把变化的分页数字用[地址参数]表示。 数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字; 共5项,即一共采集5页。 预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。 然后确定即可 (3)[常规模式]获取内容网址 常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。 在这里给大家演示用 自动获取地址链接 +设置区域 的 方式来获取。 查看页面源代码找到文章地址所在的区域: 设置如下: 注:更详细的分析说明可以参考本手册: 操作指南 > 软件操作 > 网址采集规则 > 获取内容网址 点击网址采集测试,看看测试效果 (3)内容采集网址 以 http://faq.locoy.com/q-1184.html 为例讲解标签采集 注:更详细的分析说明可以下载参考官网的用户手册。 操作指南 > 软件操作 > 内容采集规则 > 标签编辑 我们首先查看它的页面源代码,找到我们“标题”所在位置的代码: 分析得出: 开头字符串为: 数据处理——内容替换/排除:需要把- 火车采集器帮助中心 […]

火车采集器V9.7数据同步功能的使用详解教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7数据同步功能的使用详解教程 数据同步功能是将当前采集器中存在的任务保存到云端,以便在需要的时候进行下载和恢复。 数据同步功能默认开启,如果不想使用此功能可以在 :工具——选项——偏好设置 ,中将其关闭。 选项简介: 每个采集器同步数据后都会在云端建立一个属于此采集器的任务库。 开启云端任务同步上传:此选项勾选后开启云端任务同步功能。 云端获取任务同时获取对应的分组信息: 此选项勾选后将云端任务同步到本地时,也会将包含任务的分组同步到本地采集器中。 本机任务库备份任务,名称不同时直接覆盖:关闭了那个自动同步之后,本地又改动了,导致同一个ID的任务,在云端存储的和本地存储的名称不同。 那么同步的时候,勾选的话,就会将云端的覆盖本地。不勾选,下载下来的就是一个新的任务。(注:每个任务都有一个ID号,采集器区分任务是根据ID号来区分的。) 关闭了那个自动同步之后,本地又改动了,导致同一个ID的任务,在云端存储的和本地存储的名称不同。 那么同步的时候,勾选的话,就会将云端的覆盖本地。不勾选,下载下来的就是一个新的任务。 其他任务库的同名任务,直接覆盖本机任务:此选项勾选后同步其他的数据库中的任务导本地时,如果有其他任务库的任务名称和本地任务的名称相同,会将本地的同名任务覆盖。 选项设置设置完成后并不是立即生效,而是在下次启动后生效。同步功能默认自动开启,如不需要,请在设置中关闭。 同步功能说明: 同步功能在每次启动采集器的时候会与云端数据库进行对比更新。打开数据同步界面后可以看到当前采集器同步到云端的任务,以及其它相同用户名登录的采集器同步到云端的任务。 数据列表:显示任务的分组和名称,及相应的选项框。勾选数据列表的选项框可进行清除当前数据的操作。 创建时间:显示任务的创建时间。 同步:显示同步选项框。 如果想清除本采集器在云端的任务,勾选数据列表栏的选项框后,点击清除当前云任务,可进行清除当前任务的操作。删除操作只能对当前采集器同步的任务进行操作,无法对其他采集器同步的任务进行操作。 如果想将云端任务同步到本地,勾选数据列表栏的选项框或勾选同步列表栏的选项框,点击同步所选任务,即可将任务同步到本地采集器。 刷新按钮 可以刷新云端任务。

火车头浏览器打开软件时软件无反应或者提示已停止工作_爬虫软件技术与爬虫软件网页数据采集器门户

火车头浏览器打开软件时,软件无反应或者提示已停止工作,错误异常代码为,错误提示示例如下: 火车头浏览器错误解决方法有两种如下: 一.下载最新版的软件安装在新目录下,使用新版本的软件,即可解决这个问题 二.若是一直想用旧版软件,可尝试下列方法: (1)系统更新设置为  从不检查更新 以win7为例,设置步骤为:右键计算机打开→打开控制面板→点击Windows Update→选择更改设置→选择从不检查更新并保存 (2)卸载已所有安装更新   设置步骤:右键计算机打开→打开控制面板→选择程序和功能→查看已安装更新→找到更新列表中的所有已安装并卸载。然后重启电脑,再重新登录软件。

火车采集器V9.7压缩优化任务数据库功能说明_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7压缩优化任务数据库功能说明,有用户反映原来V8版的压缩优化任务数据库功能在V9版上找不到,其实这个是sqlite本身就支持的一个命令,sqlite在删除数据后文件大小仍然不变,需要执行VACUUM语句后才可以,在V9版上按照如下操作即可: 1.右键清空本地采集数据后,打开data文件夹我们会发现数据库文件大小没有变化 2.右键选择本地编辑数据,点击SQL,输入VACUUM命令后执行 3.此时我们再打开data文件夹就会发现数据库文件变小了

火车采集器V9.7之发布模块时间标签解释教程_爬虫软件技术与爬虫软件网页数据采集器门户

[系统时间戳:时间]  :把时间转换成时间戳 时间格式如:2015-04-04 只能这种格式 不能含有时分秒 —————————————————————————————————————————— [时间转化:时间,yyyy-MM-dd HH:mm:ss]  :把时间戳 转换成标准时间  年月日时分秒 [时间转化:时间,yyyy-MM-dd]  :把时间戳 转换成标准时间  年月日 时间格式:1439362841 —————————————————————————————————————————— [系统时间戳]  调用系统时间戳 —————————————————————————————————————————— [系统时间转化:yyyy-MM-dd]  调用系统标准时间   年月日 [系统时间转化:yyyy-MM-dd HH:mm:ss]  调用系统标准时间  年月日时分秒

火车采集器v7版本中PHP环境的修改方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器支持php插件对数据进行处理。php插件的原理是通过调用命令行的php.exe,对数据进行处理。 v7版本的php目录为 System\PHP 。采集器默认的php环境可能会无法满足用户的需要。这时, 您可以更换您自己的php环境。需要注意的是php的工作目录是 System\PHP ,您可以直接将自己的php环境 复制过来。注意的是该目录下的interface.php文件必须要保留。在更换完成后,请检查一下php.ini, 看配置中的各种相对目录是否正确。测试无误后就可以使用了。

火车采集器V9.7之Access Database Engine安装教程_爬虫软件技术与爬虫软件网页数据采集器门户

开始–运行中 输入  cmd  进入界面 再输入路径 C:\Users\xiao\Downloads\AccessDatabaseEngine_X64.exe /passive 即完成安装。 注意,路径要改成你自己的文件存放路径,上图只是参考例子。 2、查看注册表   在开始–运行中打入 regedit  回车 HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office\14.0\Common\FilesPaths,删除mso.dll  即可完成

火车头采集器V7.6列表页及标签Xpath可视化提取功能教程_爬虫软件技术与爬虫软件网页数据采集器门户

Xpath可视化提取功能旨在做到用户所见即所得,仅仅通过鼠标点击进行规则配置。但是此功能不适合大部分网站。 1, 使用Xpath方式获取地址 在第一步,我们通过Xpath方式来获取内容页地址 如上图,选择“使用Xpath方式获取地址”,选中后右侧有个“使用Xpath浏览器”按钮,点击下。 在地址栏里面输入列表页地址,然后点击右侧绿色的按钮,使用这个浏览器来访问我们要采集的列表页地址。 点击上图的那个红色标志的箭头,然后鼠标放到浏览器内就有个淡蓝色的框,表示被选中的部分,那么要选中那一部分才行呢?看下图 当淡蓝色框选中的部分,在左下角能显示出文章地址,就说明这个淡蓝色的框选择的就合适,然后鼠标在选中的框那里轻轻点击下,不需要点击访问内容页,只需要点击下就可以。 这里看到点击后,看下图有个变化: 和上图这个地方不一样,变成初始状态了,下面要把上述操作再做一遍,也是首先点击这个,再选中标题。要注意。 然后我们再随便找个标题按照上面的步骤再做一遍,这一步非常的重要,必须要重复做2遍。   然后如上图点击测试,如果测试结果正确,就点击确定按钮 Xpath表达式就自动填写好了。 如果测试提示结果如下图: 上面说了这个方式不适合所有的网站,如果有上图提示,说明没有办法使用这个方式来采集,目前也没有办法解决,请你换别的方式采集。 2,使用Xpath获取内容 新建标签,提前数据方式选择,“可视化提取”选项 ,如下图 同样点击“通过XPath浏览器获取” 按钮。 和上面获取地址一样的,输入地址,访问要采集的地址,如下图: 然后点击图标开始选择,我们这里用获取标题为例说明。 淡蓝色框选中标题,轻轻点击鼠标,然后测试看下是否正确。如果正确点击确定按钮。这个不像采集地址的时候需要做2遍。如果测试弹出 这个就是说明这个页面不能使用这个方式获取。 点击确定后如下图: 获取这个标题的表达式就自动填写在这里了。我们测试下结果 结果是正确的。别的其他信息都可以通过这个方式获取。 有个节点属性如下图: 这个是也是专业术语,大家可以查资料了解下,一般选中InnerHtml和 InnerText 就可以获取到文字信息了,需要了解更多,自行查找资料。 选择“Href”是获取链接地址,选择“OuterHtml”是获取文字和包含的html代码。大家如果不明白可以实际操作测下结果。

火车采集器里面的字符编码解码功能介绍_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器里面的字符编码解码功能介绍,有时候采集的结果被转义了,那么如何获得我们要的结果呢?? 比如下图采集的结果中文都被转义成特殊的字符了 这样我们就可以使用采集器里面的 编码/解码 功能了  如下图2个步骤找到次功能, 第一步: 界面如下图: 如果你不知道该用那种解码方式你可以都勾选试试看

火车采集器V7.6之html标签排除使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

我们在采集的时候会采集到一些代码,那么我们就可以使用html标签过滤功能,可以很方便的将一些代码过滤掉。 1、html标签过滤 请在 第二步:采集内容规则 标签窗口做如下设置即可 添加—html标签过滤 需要过滤的话 就在标签前面打勾 有个特殊的选项,如下图 如果勾选了这个选项,那么其他选项无论是否被勾选,都会全部排除掉,这个需要注意的,很常见的就是我没有勾选某个选项,对应的标签为什么会被排除掉,就是因为你把这个选项 勾选了。 具体的HTML 标签不过多讲解了,不明白的可问下度娘, HTML 各元素的含义,稍作了解。 2,常用的html标签 <p, <br>,空格 &nbsp; 是控制段落和空白处的,一般我们都会留下来,不然文字都会挤到一起会觉得文章没有格式。 <img 这个是图像标签如果你需要采集文章里面的图片 那么这个标签是要保留的,不然图片就被排除掉了。 其他html标签就需要自己查找资料去了解了。 如果通过这种方式还是不能把标签排除掉,就只能用替换了,这个标签排除功能只能对那么简单的标签进行排除,很多情况下,标签里面会加很多属性,可能导致这个功能 不能把这样复杂的html标签排除,那么就用替换为空来处理。

如何修改火车采集器V7.6本地保存数据库修改_爬虫软件技术与爬虫软件网页数据采集器门户

如何修改火车采集器V7.6本地保存数据库修改,这里说的数据库是采集器存放采集数据的地方,只需给采集器选择一个数据库服务器和数据库,采集器会自定创建需要的数据表,也就是采集网址和采集内容这两步需要 的数据库。并不是常说的发布到自己网站数据库或者发布到自己指定的数据库,这种是指任务第三步发布操作对应的数据库,这种方式请参考数据库发布模块编辑器。 本教程以Mongodb 数据库来做为采集器本地保存数据库,为例来说明如果修改采集器本地保存数据库。 1.第一步 按照上图 扩展===》火车采集器===》更改数据保存数据库。还有一种打开数据库更换界面的步骤是,在欢迎页的下方有个“点击修改”如下图: 打开的更换数据库的界面如下图 2,第二步 选择我们要使用的数据库,然后进行数据库一些配置如下图 3,第三步 服务器地址填写好,mongod.exe的路径设置好,在数据库列表那里选择要做为火车采集器本地数据保存的数据库名称,然后点击“安装/启动”按钮,成功后点击“开始转换”按钮, 这样就会把火车采集器本地保存数据的数据库改变为Mongodb了,需要注意的是 每次更换了数据库,有选择清空原采集数据或者保留原数据的选项。

火车采集器7.6之ORC识别图片文字使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器7.6之ORC识别图片文字使用教程,Orc识别功能,是可以把一些简单的图片信息识别成文字信息的,网站上面的电话号码是图片格式的可以识别成纯文字。我们通过这个功能来识别下面的图片文字。 http://bj.ganji.com/tel/52650234566157315535536b513f006051650f3e5231_4.png 第一步:配置Ocr信息 按照上图点击Ocr识别图标,打开识别界面。把要识别的图片地址或者通过浏览把本地的图片地址加载到OCR工具里: 1, 加载图片 通过从本地或者直接输入图片的网络地址,然后点击“加载”按钮 2, 预处理 这个点击“添加”按钮,自己看下这些操作,其实这里一般是没有用的,没有什么方法就随便点点,走运也许就把图片识别了 3, 图片预览 通过操作预处理后的图片和原来图片的变化。 4, 字符过滤 白名单字符:要识别的字符,数字字母汉字都可以;黑名单字符:不需要识别的字符。 设置好了以后,点击“识别测试” 会弹出识别的结果,对照下如果识别是正确的点击右下角“保存配置”。如果识别不了,亲,你就放弃吧 找我们技术部开发插件识别。 这样就把识别的配置信息保存成文件了,就可以在采集器里面使用了 第二步,采集规则使用识别配置 打开需要进行ocr识别的标签,在数据处理那里,添加===》OCR图片识别,然后右侧 “点击这里选择配置文件”,就是选择在第一步那里生成的识别文件,设置好了点击“保存”按 钮。绿色字体那里注意看下,标签是采集到单个图片地址,这里注意下。也是说需要识别的标签采集到的值必须是图片的地址,但不需要勾选图片下载。 很遗憾这个功能可能对很多网站的识别都不行,如果你遇到识别不了,但又必须要识别的就联系我们官方定制插件吧 。。。。。。。。。。。。。。。。

火车采集器7.6如何调用php外部编程插件使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器7.6如何调用php外部编程插件使用教程,如果你是程序员或者对php有一定的了解,看了说明文档还是不知道怎么写可以咨询我们企业QQ800019423,但是如果你根本不会写程序,那么就不要问插件怎么写了。也可以找我们定制插件。本教程只说明下如何把已经写好的插件用在采集器里面。 采集器可以把采集到的数据传递给外部程序,我们称为插件,然后对数据进行处理,再把数据传给采集器。PHP语言写插件,参考教程\Plugins\LocoySpider目录下的说明文档PHP-Demo.php 开发的插件放在目录\Plugins\LocoySpider 下面,然后就可以在采集器里面选择使用了如下图: 在规则的第四步,文件保存及部分高级设置,任务php插件那里选择插件,然后点击保存关闭规则,从新打开,才能测试。一个规则只能同时使用一个插件。

火车采集器7.6之如何添加起始网址之RSS地址采集功能_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器7.6之如何添加起始网址之RSS地址采集功能,只要给采集器提供RSS地址,采集器就能把内容页地址提取出来,在添加“起始地址” 选择“Rss”选项,把rss地址填写好后,点击“测试”按钮,如果测试的结果是正确的,点击“添加”按 钮,再点击“完成”按钮。 那么就把RSS格式的地址添加成功了,如下图: 多级网址获取那里是不需要做任何操作的,如下图: 然后我们点击“测试网址采集”来测试下采集到的效果: 测试结果已经成功采集到了地址。

火车采集器之如何让数据采集后直接发布或导入数据库_爬虫软件技术与爬虫软件网页数据采集器门户

默认情况下,火车采集器会把采集的数据先保存到自己的数据库,然后根据用户设置的发布配置,再从数据库里面读出数据通过发布配置把数据发布出去。 你也可以不让采集器把采集到的数据保存到自己的数据库,而是采集到数据直接通过发布配置发布出去,也就是边采集边发布。 如下图: 在规则的第四步:文件保存及部分高级设置右下角,红色框起来的部分,勾选下就可以了。

火车采集器之多页采集网址设置教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器之多页采集网址设置教程,什么是默认页?什么是多页?假如我们通过采集器采集到了最终内容也地址是http://fsdeshun.cn.1688.com/,然后我们还想点击导航栏上面的“联系方式”进入到联系页地址 http://fsdeshun.cn.1688.com/page/contactinfo.htm来继续采集信息。 那么本例的http://fsdeshun.cn.1688.com/在采集器里面就叫做默认页,而地址http://fsdeshun.cn.1688.com/page/contactinfo.htm ,是通过http://fsdeshun.cn.1688.com/获取到 的,那么这个地址 相对与地址http://fsdeshun.cn.1688.com/就叫做多页。 明白了多页和默认页的定义,下面我们来说明写如果从默认页获取到多页。 在规则的第二步:采集内容规则,点击“多页管理”按钮,如下图 打开后看到的界面如下图: 上图看到或者地址的方式有两种方式:1,依据规则对默认页地址替换生成地址;2,在默认页源代码内采集得到地址 1,根据规则对默认页地址替换生成地址:也就是默认页和多页地址上面有相同的地方,通过简单的替换就可以变成多页地址。 2,在默认页源代码内采集得到地址:也就是多页的地址在默认页的页面源代码里面。 现在就用采集阿里巴巴公司信息为例来说明下这两种方式如何获取多页。 依据规则对默认页地址替换生成地址 比较默认页“http://fsdeshun.cn.1688.com/”和多页地址:“http://fsdeshun.cn.1688.com/page/contactinfo.htm”之间的共同点,在默认页后面加上“page/contactinfo.htm”就是我们的多页地址了。 写到采集器里面如下图: 上图我们把需要的部分用(.*)代替,这里是用正则替代需要的部分,表示方式很多种,大家记住我这种(.*),是万能的,如果看不懂是什么,那么也不需要纠结了,就记住好了。 下面的替换为是通过$1,$2…$数字来按照顺序对应上面(.*)表示的部分。这里其实用一个(.*)就可以表示了,我这里特意多用了几个,来说明对应关系的。 我们设置好了,把默认页写好然后点击右侧的“测试”按钮,看下测试结果中已经正确获取到我们联系页的地址了,正确后,就可以点击保存了。 这种方式如果默认页地址中出现问号“?”如,那么问号前面一定要加反斜杠写成“\?”,切记切记!!!!! 在默认页源代码内采集得到地址 我们打开默认页http://fsdeshun.cn.1688.com/查看页面源代码,可以发现我们要的多页地址就在页面源代码里面如下图: 我们在采集器里的设置如下: 和设置采集规则一样,正则匹配内容里面我们把需要的部分用[参数]代替,可以使用多个[参数],与后面的组合结果中的[参数1][参数2]....[参数n],按照顺序一一对应的。 同样我们要测试下获取的结果是不是正确的,如果正确那么就点击保存,在写规则里面使用。 规则设置说明我们如果要采集默认页的数据就根据默认页的页面源代码来设置规则如下图: 我们采集多页的信息就根据多页的页面源代码来设置采集规则如下图: 所属多页这里选择的是对应多页的名称!!!!!一定不要忘记了 看下采集效果:

100% Secure Checkout

PayPal / MasterCard / Visa