任何问题请联系WX:uu16853

买模板送网站采集器 让你轻松放开双手运营网站!

购买更多有优惠!

火车采集器V9.7之标签组合功能详细介绍教程_爬虫软件技术与爬虫软件网页数据采集器门户

抓取网页数据的工具火车采集器V9将标签组合功能放在了数据获取方式选项中,即可以通过标签组合来获取标签数据,下面讲解一下该功能如何使用。学习之前需要注意以下几种情况: 1.标签组合是组合文件下载前的内容 有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。 2.内容页标签循环采集并添加为新记录 如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。比如我们假设a的值是11、22、33、44、55,而b的值为aa、bb、cc,那么c是由组合的,则产生的c的值为11aa、22bb、33cc、44、55,后面两个b值为空。 3.列表页标签和内容页标签组合 如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页先当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11、22、33,b的值为bb,那么,c第一次组合结果是11、22、33,然后进行数据处理:如果b的值是bb,那么最后的结果就是11bb、22bb、33bb。 下面来实际操作下,已有标签的组合操作示例如下: 我们把“标题”和“来源”标签组合成一个新标签“标题+来源”,之间用“___”隔开,我们测试下结果如下图,查看该标签内容可以看到测试结果和预期效果是一样的。 那么生成固定格式数据的组合方式怎么操作呢?看下图: 再测试一下,可以看到测试结果和已有标签组合的结果是一致的。

火车采集器V9.7之文章采集规则编写案例教程_爬虫软件技术与爬虫软件网页数据采集器门户

通过火车采集器官网的faq为例来说明采集器采集的原理和过程。 本例以 http://faq.locoy.com/qc-12.html 演示地址,以火车采集器V9为工具进行示例说明。 (1)新建个采集规则 选择一个分组上右击,选择“新建任务”,如下图: (2)添加起始网址 在这里我们需要采集 5页数据。 分析网址变量规律 第一页地址:http://faq.locoy.com/qc-12.html?p=1 第二页地址:http://faq.locoy.com/qc-12.html?p=2 第三页地址:http://faq.locoy.com/qc-12.html?p=3 由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示: 所以设置如下: 地址格式:把变化的分页数字用[地址参数]表示。 数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字; 共5项,即一共采集5页。 预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。 然后确定即可 (3)[常规模式]获取内容网址 常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。 在这里给大家演示用 自动获取地址链接 +设置区域 的 方式来获取。 查看页面源代码找到文章地址所在的区域: 设置如下: 注:更详细的分析说明可以参考本手册: 操作指南 > 软件操作 > 网址采集规则 > 获取内容网址 点击网址采集测试,看看测试效果 (3)内容采集网址 以 http://faq.locoy.com/q-1184.html 为例讲解标签采集 注:更详细的分析说明可以下载参考官网的用户手册。 操作指南 > 软件操作 > 内容采集规则 > 标签编辑 我们首先查看它的页面源代码,找到我们“标题”所在位置的代码: 分析得出: 开头字符串为: 数据处理——内容替换/排除:需要把- 火车采集器帮助中心 […]

火车采集器V9.7只POST分页采集规则案例详解_爬虫软件技术与爬虫软件网页数据采集器门户

案例网站:http://www.mornsun.cn/html/selection.html 采集内容:如下图 网站分析: 通过点击页面分页,发现网址并无变化,说明这不是真实的数据列表地址,那么就需要通过抓包软件Fiddler来抓包分析了。 (关于fiddler的使用教程:http://faq.locoy.com/search.html?keyword=fiddler) 打开抓包软件,点击分页 通过抓包软件获取到的信息我们可以分析得出,该页需要使用POST功能,才能获取到数据。如图: 图中1处是找到对应的数据存在的网址,不确定的话可以多试,一般做得多了一眼看就知道哪个,可以通过图上2处来确认是不是数据网址,能在2处看到需要的数据就是正确的了。 然后通过图中3位置来查看网址请求类型和cookie。我们可以看到应该网址是POST类型,图中4处就是要Post的参数值。接下来我们需要复制该Post网址:“http://www.mornsun.cn/index.php?c=selection&a=search”到采集器软件起始网址中,如图: 设置POST需要点击高级模式,然后我们添加一级列表,这里还是获取内容页网址规则,内容页的网址规则通过抓包获取,参照上面抓包的图中2位置,可以通过此源代码找出内容网址规则。 接下来是Post设置,上面讲到图中4处是post参数值,现在我们需要将那串参数值复制,也就是“page=2&keywords=&pid=2&Package=&OutputPower=&NoofOutput=&VoutVDC=&VinVDC=&IsolationVDC=” 复制到采集器中,我们需要将其中的分页参数2改为变量[分页],然后设置页码数,这样Post就设置好了,如下图: 当然这只是一个最简单的一个post案例,复杂的会有更多的参数和变量,但是最基本的原理还是这样的,最主要是要学会抓包分析。有时候可能不知道哪个参数是分页数,可以多抓几个页面,将参数复制到记事本进行对比,一般面码的数字变化是很有规律的,通过对比找到规律就知道哪个参数是分页值了。

如何使用火车采集器V9.7采集百度搜索关键词教程_爬虫软件技术与爬虫软件网页数据采集器门户

如何使用火车采集器V9.7采集百度搜索关键词教程,当我们在进行网站优化以及内容更新的时候会发现,大批量更新文章是需要很多关键词。而自己手动统计的关键词是远远不够使用的,因此我们会从其他同类型的网站中获取关键词,这时就要用到网页抓取工具,进行关键词的高效采集,也能大大减少时间和人力成本。 具体如何操作呢?请根据下面的步骤来学习一下。 1:得到50条百度搜索结果 以网页抓取工具火车采集器为例,填写搜索网址的真实跳转url,如需多个搜索则在txt中一行一个批量写好搜索URL,再经过参数修改或正则得到真实url即可。2:填写url 3:设置采集内容_关键词 因为我们需要的只是关键词,所以只采集到文章标题即可,其他内容不需要,因此内容采集规则设置见下图: 4:采集内容选择好之后,就是发布处理的问题。发布的时候有在线发布和本地保存以及导入自定义数据库三种。一般采集关键词会选择保存在本地文件,在其他设置中我们还可以选择边采边发。 5:运行任务,采集完毕。可以看到关键词被采集下来了,如果有需要,还可对采集到的内容进行分词设置。 网页抓取工具采集关键词比手动获取关键词要方便快捷很多,还可以从许多不同的网页获取大家所需要的关键词。

火车采集器V9.7数据同步功能的使用详解教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7数据同步功能的使用详解教程 数据同步功能是将当前采集器中存在的任务保存到云端,以便在需要的时候进行下载和恢复。 数据同步功能默认开启,如果不想使用此功能可以在 :工具——选项——偏好设置 ,中将其关闭。 选项简介: 每个采集器同步数据后都会在云端建立一个属于此采集器的任务库。 开启云端任务同步上传:此选项勾选后开启云端任务同步功能。 云端获取任务同时获取对应的分组信息: 此选项勾选后将云端任务同步到本地时,也会将包含任务的分组同步到本地采集器中。 本机任务库备份任务,名称不同时直接覆盖:关闭了那个自动同步之后,本地又改动了,导致同一个ID的任务,在云端存储的和本地存储的名称不同。 那么同步的时候,勾选的话,就会将云端的覆盖本地。不勾选,下载下来的就是一个新的任务。(注:每个任务都有一个ID号,采集器区分任务是根据ID号来区分的。) 关闭了那个自动同步之后,本地又改动了,导致同一个ID的任务,在云端存储的和本地存储的名称不同。 那么同步的时候,勾选的话,就会将云端的覆盖本地。不勾选,下载下来的就是一个新的任务。 其他任务库的同名任务,直接覆盖本机任务:此选项勾选后同步其他的数据库中的任务导本地时,如果有其他任务库的任务名称和本地任务的名称相同,会将本地的同名任务覆盖。 选项设置设置完成后并不是立即生效,而是在下次启动后生效。同步功能默认自动开启,如不需要,请在设置中关闭。 同步功能说明: 同步功能在每次启动采集器的时候会与云端数据库进行对比更新。打开数据同步界面后可以看到当前采集器同步到云端的任务,以及其它相同用户名登录的采集器同步到云端的任务。 数据列表:显示任务的分组和名称,及相应的选项框。勾选数据列表的选项框可进行清除当前数据的操作。 创建时间:显示任务的创建时间。 同步:显示同步选项框。 如果想清除本采集器在云端的任务,勾选数据列表栏的选项框后,点击清除当前云任务,可进行清除当前任务的操作。删除操作只能对当前采集器同步的任务进行操作,无法对其他采集器同步的任务进行操作。 如果想将云端任务同步到本地,勾选数据列表栏的选项框或勾选同步列表栏的选项框,点击同步所选任务,即可将任务同步到本地采集器。 刷新按钮 可以刷新云端任务。

火车采集器V9.7压缩优化任务数据库功能说明_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7压缩优化任务数据库功能说明,有用户反映原来V8版的压缩优化任务数据库功能在V9版上找不到,其实这个是sqlite本身就支持的一个命令,sqlite在删除数据后文件大小仍然不变,需要执行VACUUM语句后才可以,在V9版上按照如下操作即可: 1.右键清空本地采集数据后,打开data文件夹我们会发现数据库文件大小没有变化 2.右键选择本地编辑数据,点击SQL,输入VACUUM命令后执行 3.此时我们再打开data文件夹就会发现数据库文件变小了

火车采集器V9.7加载CSV模板出错添加了重复的表头的解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7加载CSV模板出错添加了重复的表头的解决方法 出现这个的问题是因为CSV模板没有正确编辑 方法是以记事本方式编辑打开csv模板文件 第一行是字段名 第二行是字段值 多个字段名与字段值中间用逗号间隔 编辑后 点击文件菜单的另存为选择utf-8编码保存,然后修改文件后缀为csv即可。

火车采集器V9.7自动获取二级代理的代理服务功能使用说明_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7自动获取二级代理的代理服务功能使用说明 1.点击开始菜单上的http二级代理服务器进入设置界面 2.选择代理服务,测试用户名和密码都是lewell(目前官方免费提供测试),点击登录。 3.设置好每批获取,定时更换,定量更换,代理匿名度后,开启启用。 4.全部设置完成之后,在二级代理选项中选择启用,可以查看获取到的ip状态。 备注: 1.每批获取,最多支持60个  2.定时更换,到间隔时间自动更换新的一批ip  3.定量更换,平均每个ip使用20次 要重新修改以上值,需要关闭启用。

火车浏览器导出登录后的cookie火车采集器引用无效果的解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车浏览器导出的cookie是所有打开页面的cookie,而火车采集器在调用该cookie时,若有多个相同的key ,则以最上面的key为准,如下图: 则这可能会导致火车采集器调用未登录的key ,导致无法采集登录后的内容。想要解决这种问题,有一下两种方式: 1.登录前,调用Cookie操作,清空火车浏览器中cookie 2.若清空cookie后,还是有相同的key ,则需先导出cookie至文本中 然后使用文件操作读取文本中cookie至list 变量 使用变量清理功能清除list变量中无效的key  然后将list变量中内容覆盖保存至采集器Cookie目录下。

火车采集器V9.7批量内容替换功能使用方法教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7批量内容替换功能使用方法,比如我们想把采集到的时间改成汉字形式,如我们想要将月份替换成汉字,我们就可以使用批量替换功能 在数据处理->高级功能中找到批量替换 注意:这里的顺序一定要按照从大到小的顺序来写,反过来的话那么12月就会被替换为一月二月。

火车采集器V7.6使用随机二级代理服务器设置方法_爬虫软件技术与爬虫软件网页数据采集器门户

在我们采集过程中,如果遇到对方网站限制了你的ip访问,就可以通过二级代理服务器的功能,来实现更换ip。 1, 获取代理ip 首先我们需要获取一些代理ip(官方没有代理ip,这个ip请自行解决),然后按照下图格式:ip地址:端口号,一行一个写到txt文件里面: 上图可以看到格式是“IP:端口”。IP准备好后面会使用到。 2, 代理ip导入采集器 按照下图 然后把第一步准备好的代理IP,导入进去: 点击“浏览”,选择准备好的代理ip文本,如上图。这样就把文本里面的代理ip导入到采集器里面了,看下图: 点击右侧“批量验证”,验证结果如下: 只有状态是“通过”的才是有效,状态是“未通过”是不能用的给删掉。 3, 从网页中导入代理ip 比如http://www.itmop.com/proxy/post/1448.html 我们要把这样页面的代理ip给导进采集器里面,步骤如下图: 继续按照下图做: 上图中有个匹配正则表达式,如果你和我一样是正则门外汉的话,就不要深究这是什么东西了,不要动它就好。然后点击下面的“确定”按钮。 然后会有提示导入多少条的提示,点击确定,就可以看到结果了: 同样需要验证。 4,选项设置 选项设置这里也是必须设置好的: 端口设置:这个数字可以是修改,但是要记住,等会要使用的。 访问地址:上面我们说了要验证代理ip,是怎么验证的呢? 就是通过访问这个“访问地址”来验证的,同样可以修改,可以修改成你要访问的地址,这样对于确定代理ip是否有用更准确。 当访问结果包含一下字符时,验证通过:能正常访问的情况下,返回的源代码的部分。用来做为验证通过的依据。 以上设置好了,点击右下角的“保存&重新启动”,就可以了。 5,规则使用代理 设置如下图: 在规则的第四步“文件保存及部分高级设置”,设置Http请求设置 1. 服务器:填写127.0.0.1,一定要这样写。 2. 端口:上面我们说的端口这里就用到了,这2个部分保持一致。 这样就全部设置好了。

火车采集器V9.7之发布模块时间标签解释教程_爬虫软件技术与爬虫软件网页数据采集器门户

[系统时间戳:时间]  :把时间转换成时间戳 时间格式如:2015-04-04 只能这种格式 不能含有时分秒 —————————————————————————————————————————— [时间转化:时间,yyyy-MM-dd HH:mm:ss]  :把时间戳 转换成标准时间  年月日时分秒 [时间转化:时间,yyyy-MM-dd]  :把时间戳 转换成标准时间  年月日 时间格式:1439362841 —————————————————————————————————————————— [系统时间戳]  调用系统时间戳 —————————————————————————————————————————— [系统时间转化:yyyy-MM-dd]  调用系统标准时间   年月日 [系统时间转化:yyyy-MM-dd HH:mm:ss]  调用系统标准时间  年月日时分秒

火车采集器V9.7批量导入Http二级代理设置教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7批量导入Http二级代理设置教程,在使用Http二级代理的时候,经常会使用到批量导入这个功能,下面讲解一下该功能的用法。 打开Http二级代理,可以看到如下界面 点击下方的批量导入按钮会弹出如下对话框 先准备好一个有IP地址的TXT文件导入 格式为:ip:端口,一行一个 点击批量导入–浏览–选中 代理.txt 文件。这样,代理IP 就导入进来了,如图: 如果需要导入用户名和密码,则需要将提取正则改为(?<ip>((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?))[: :](?<port>\d+),(?<user>\w+),(?<pwd>\w+) 并在TXT文本中加入用户名和密码字段,中间用逗号隔开。 注意:导入用户名和密码仅V9版支持。

如何使用火车采集器V9.7抓取手机APP采集里面的内容信息_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器可以抓取http以及https请求中的内容,因此只要手机APP是这两种请求类型,那么其中的内容理论上就是可以抓取的。下面介绍下怎么抓取手机APP的请求。下面以苹果手机中的京东APP为例: (1)查看fiddler的端口号为多少,例下图: (2)查看本地局域网的固定IP为多少,例下图: (3)在手机中设置代理服务器,将端口号以及IP写入,例下图: 如上图设置好后,就可以将fiddler保持Capturing的状态,然后操作京东的APP,就可以看到其中的请求了,如下图: 然后你就可以在采集器中做规则,测试该http是否可以采集了。

火车采集器V9.7之自动分类功能的使用方法教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7之自动分类功能的使用方法教程 此功能是针对用户需求为:采集内容包含某个字符即将该字段的所有内容都替换为某个固定的内容。 使用场景例如:我们从对方网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。 下面以百度为例介绍下用法: 如上图,我们想要将包含百度的标题 内容更替换为 常用搜索网站,则写成如下格式: 运行结果为: 如上就是自动分类的使用方法。 其中需要注意的是:1.一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,按照从上至下的原则替换。 2.若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:

火车采集器V9.7翻译插件Google谷歌翻译插件更新(20180515)_爬虫软件技术与爬虫软件网页数据采集器门户

该插件会利用google的在线翻译功能,将各种语言进行翻译。需要注意的是,使用该插件的翻译后采集速度将会受到一些影响。插件会将内容标签中的语言进行翻译。 注意事项 :您的采集器的版本必须是V9系列才可以使用。 使用方法: 1.火车采集器V9.7翻译插件Google谷歌翻译插件更新下载插件 将本文中的插件下载后放在 Plugins 目录下。 2.在编辑任务的文件保存部分C#插件部分启用该插件 3.插件默认是汉译英,如果您是汉译英,直接使用即可。如果您的翻译方向是其它的,则需要进行额外设置。 首先,您需要新建一个标签,名子叫 翻译方向 ,然后给这个标签给一个固定的参数 。参数的形式为 源语言代码>目标语言代码。 如图 zh-CN>fr是汉翻法。 设置完这个参数后,插件将会按您的设置将一种语言翻译成另一个语言。如果需要繁体翻译成中文,方向标签里的内容是 zh-TW>zh-CN,法译德是 fr>de,其它的以此类推。还支持多层翻译,如 zh-CN>en>fr ,可以先翻译成英文,再从英文翻译成法文.层数不限. 具体的各种语言的代码如下: 中文:zh-CN 英语:en 中文(繁体):zh-TW 越南语:vi 阿尔巴尼亚语:sq 阿拉伯语:ar 阿塞拜疆语:az 爱尔兰语:ga 爱沙尼亚语:et 白俄罗斯语:be 保加利亚语:bg 冰岛语:is 波兰语:pl 波斯语:fa 布尔文(南非荷兰语):af 丹麦语:da 德语:de 俄语:ru 法语:fr 菲律宾语:tl 芬兰语:fi 格鲁吉亚语:ka 海地克里奥尔语:ht 韩语:ko 荷兰语:nl 加利西亚语:gl 加泰罗尼亚语:ca 捷克语:cs 克罗地亚语:hr 拉脱维亚语:lv 立陶宛语:lt 罗马尼亚语:ro […]

火车采集器V9.7之时间戳转换为时间的c#语法_爬虫软件技术与爬虫软件网页数据采集器门户

using System; using System.Collections.Generic; using SpiderInterface; class LocoyCode{     /// <summary>     /// 执行方法,不能修改类和方法名称。     /// </summary>     /// <param name="content">标签内容</param>     /// <param name="response">页面响应,包含了Url、原始Html等属性</param>     /// <returns>返回处理后的标签内容</returns>     public string Run(string content,ResponseEntry response){         //在这里编写处理代码         string timeStamp = content; //将内容标签的时间戳赋值给临时字符串变量 […]

火车采集器V9.7读取外部cookie功能的使用方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器8.6版本增加了程序自动更新cookie功能。当使用外部程序(火车浏览器或用户自行开发的工具),自动登录网站后,将cookie保存在 Data\Cookie\任务id.txt文本中,采集器会第一时间检测到文件的变更(实时检测)并将cookie更新到采集器中去。这样就实现了自动的登录功能。其中,包含的cookie格式支持两种 1.键名和值的形式 cna=lznrDKluOzECATymtBo9FKLH; cnaui=51104656; tcm=FGncCmaiWoXc163RlUyUK2NQf26JYkyfxEYy0fwqCQ1od0INYBv+O2+TICdKH+Evxm7b8DcQVwVsrguguNL/C4TEkwzHH/m1oj5H04D57OCcLmmRNjgaL6ffj7hZUW26 2.火车浏览器导出cookie功能导出的文件格式。 火车浏览器网站 http://www.locoyposter.com  

火车采集器V9.7之discuz论坛接口上传附件20个限制解决方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7之discuz论坛接口上传附件20个限制解决方法 这个是由于网站所在的环境限制的 修改以下参数即可,可以把2M 和 20 改大点。 在php.ini里面有这么两行: ; Maximum allowed size for uploaded files ;允许上传文件的最大体积 upload_max_filesize = 2M ; Maximum number of files that can be uploaded via a single request ;一次请求最多能上传文件个数 max_file_uploads = 20

火车采集器V9.7之discuz论坛利用组合标签实现单个附件下载功能_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器V9.7之discuz论坛利用组合标签实现单个附件下载功能,下面讲解下 discuz论坛 如何利用组合标签 实现单个附件下载功能? 当我们采集的网站 内容 和下载地址 是在多个标签里获取的时候,我们就需要用到这个功能 如下图 而我们官方自带的接口只处理 内容标签,所以我需要用标签组合 把 内容1,下载地址1,下载地址2 这3个标签给构造在一起。 这3个标签名字无所谓,标签的个数也无所谓, 但组和的标签名字 必须是 内容 标签,这个名字是不能变的。并且,附件地址必须是 带有<a href="附件地址">附件名称</a> 这种格式的。 然后在 内容 标签里 勾选探测文件下载 ,即可利用接口模块发布到DZ  (注意,内容标签勾选下载即可,其他的下载地址1等标签不要勾选下载。) 如下图,

火车采集器v7版本中PHP环境的修改方法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器支持php插件对数据进行处理。php插件的原理是通过调用命令行的php.exe,对数据进行处理。 v7版本的php目录为 System\PHP 。采集器默认的php环境可能会无法满足用户的需要。这时, 您可以更换您自己的php环境。需要注意的是php的工作目录是 System\PHP ,您可以直接将自己的php环境 复制过来。注意的是该目录下的interface.php文件必须要保留。在更换完成后,请检查一下php.ini, 看配置中的各种相对目录是否正确。测试无误后就可以使用了。

火车采集器V9.7之Access Database Engine安装教程_爬虫软件技术与爬虫软件网页数据采集器门户

开始–运行中 输入  cmd  进入界面 再输入路径 C:\Users\xiao\Downloads\AccessDatabaseEngine_X64.exe /passive 即完成安装。 注意,路径要改成你自己的文件存放路径,上图只是参考例子。 2、查看注册表   在开始–运行中打入 regedit  回车 HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office\14.0\Common\FilesPaths,删除mso.dll  即可完成

火车头采集器V7.6列表页及标签Xpath可视化提取功能教程_爬虫软件技术与爬虫软件网页数据采集器门户

Xpath可视化提取功能旨在做到用户所见即所得,仅仅通过鼠标点击进行规则配置。但是此功能不适合大部分网站。 1, 使用Xpath方式获取地址 在第一步,我们通过Xpath方式来获取内容页地址 如上图,选择“使用Xpath方式获取地址”,选中后右侧有个“使用Xpath浏览器”按钮,点击下。 在地址栏里面输入列表页地址,然后点击右侧绿色的按钮,使用这个浏览器来访问我们要采集的列表页地址。 点击上图的那个红色标志的箭头,然后鼠标放到浏览器内就有个淡蓝色的框,表示被选中的部分,那么要选中那一部分才行呢?看下图 当淡蓝色框选中的部分,在左下角能显示出文章地址,就说明这个淡蓝色的框选择的就合适,然后鼠标在选中的框那里轻轻点击下,不需要点击访问内容页,只需要点击下就可以。 这里看到点击后,看下图有个变化: 和上图这个地方不一样,变成初始状态了,下面要把上述操作再做一遍,也是首先点击这个,再选中标题。要注意。 然后我们再随便找个标题按照上面的步骤再做一遍,这一步非常的重要,必须要重复做2遍。   然后如上图点击测试,如果测试结果正确,就点击确定按钮 Xpath表达式就自动填写好了。 如果测试提示结果如下图: 上面说了这个方式不适合所有的网站,如果有上图提示,说明没有办法使用这个方式来采集,目前也没有办法解决,请你换别的方式采集。 2,使用Xpath获取内容 新建标签,提前数据方式选择,“可视化提取”选项 ,如下图 同样点击“通过XPath浏览器获取” 按钮。 和上面获取地址一样的,输入地址,访问要采集的地址,如下图: 然后点击图标开始选择,我们这里用获取标题为例说明。 淡蓝色框选中标题,轻轻点击鼠标,然后测试看下是否正确。如果正确点击确定按钮。这个不像采集地址的时候需要做2遍。如果测试弹出 这个就是说明这个页面不能使用这个方式获取。 点击确定后如下图: 获取这个标题的表达式就自动填写在这里了。我们测试下结果 结果是正确的。别的其他信息都可以通过这个方式获取。 有个节点属性如下图: 这个是也是专业术语,大家可以查资料了解下,一般选中InnerHtml和 InnerText 就可以获取到文字信息了,需要了解更多,自行查找资料。 选择“Href”是获取链接地址,选择“OuterHtml”是获取文字和包含的html代码。大家如果不明白可以实际操作测下结果。

火车采集器V9.7之采集网址重复中检测网址重复的问题_爬虫软件技术与爬虫软件网页数据采集器门户

当提示如上图的时候,您可以通过清空网址和清空内容来重新运行采集。 另外,如果您不想排除网址重复 可以不勾选 这样,在第一次运行结束后,再进行第二次运行 ,就不会对采集过的网址 进行排除重复了。也就是说这个设置是针对多次运行规则之间排除重复起作用的。 另外需要注意的是,如果您是在单次运行中 有网址重复的,这种情况采集器是自动排除重复的,您是否勾选 检查重复网址,对这个是不起作用的。

火车采集器之织梦接口发布提示用户名不存在的解决办法_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器之织梦接口发布提示用户名不存在的解决办法,有的时候,在使用织梦接口发布时,提示失败,抓包提示用户名某某不存在 这个时候我们要登陆下发布网站后台,看下会员信息,检查下提示的用户名在会员里存不存在 然后在对应的发布模块里,改下用户名,设置成后台存在的

火车采集器里面的字符编码解码功能介绍_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器里面的字符编码解码功能介绍,有时候采集的结果被转义了,那么如何获得我们要的结果呢?? 比如下图采集的结果中文都被转义成特殊的字符了 这样我们就可以使用采集器里面的 编码/解码 功能了  如下图2个步骤找到次功能, 第一步: 界面如下图: 如果你不知道该用那种解码方式你可以都勾选试试看

火车采集器之文件图片自动上传(post上传)简易教程_爬虫软件技术与爬虫软件网页数据采集器门户

1、火车采集器之文件图片自动上传(post上传)简易教程,我们以destoon产品图片上传为例 2、选择一张本地图片上传,并且用抓包工具抓取到post数据 3、抓取的post数据 4、把post 数据复制到采集器的发布模块里 5、点提取 6、提取后自动在这里提取到图片信息 7、对文件上传设置进行修改编辑 8、注意标签名的格式 9、表单名的编辑 这里注意的是表单名里如果有递增数字就像如图这样替换相应的格式,如果没有递增数字,那就不需要更改 最后保存一下,那么如果建立采集规则 设置“ 图片”这个标签 ,采集下载到本地的图片自动会随这个模块里的post数据一起发布上传到网站上的,不需要另外用ftp传图片

火车采集器采集淘宝天猫多页获取宝贝详细教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车采集器采集淘宝天猫多页获取宝贝详细教程 以淘宝和天猫多页采集为例 淘宝,例如 http://item.taobao.com/item.htm?id=16598015559 需要采集此页的宝贝详细 经过抓包等一系列分析 得到 详细页真实地址 是 http://dsc.taobaocdn.com/i5/160/ … bk%3Bt%5E1352562053 查看网页源代码 可以发现 在这里 此时我们需要用到 多页匹配到 这个详细页真实地址,然后根据这个真实地址 采集就可以了 1、        点击 2、        命名为宝贝详情,用第二种方式,正则参数匹配 得到这个真实网址。 3、        你也可以在这里测试下 得到的网址对不对。 4、        正确的话 就保存 5、        然后标签里 调用多页     (1)        这里选择刚才保存的那个多页     (2)        根据多页地址,也就是宝贝详情的真实地址,设置前台截取     (3)        保存即可。 6、        测试结果如下 天猫,例如 http://detail.tmall.com/item.htm?id=19828008229 多页地址 http://dsc.taobaocdn.com/i2/191/ … bk%3Bt%5E1352697004 源代码里

100% Secure Checkout

PayPal / MasterCard / Visa