默认情况下,我们在WordPress后台仪表盘界面的“活动”小工具中,只能看到文章(post)这种类型的更新信息,今天就分享个代码片段,允许在 WordPress 后台仪表盘“活动”小工具添加自定义文章类型。 代码样例如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 /** * 仪表盘[活动]小工具输出自定义文章类型 * https://gist.github.com/Mte90/708e54b21b1f7372b48a */ if ( is_admin() ) { add_filter( ‘dashboard_recent_posts_query_args’, ‘wpdx_add_cpt_to_dashboard_activity’ ); function wpdx_add_cpt_to_dashboard_activity( $query ) { // 如果你要显示所有文章类型,就删除下行的 //,并在 11 行前面添加 // // $post_types = get_post_types(); // […]
图160S
WordPress 一键切换为其他用户身份登录
如果你的WordPress站点是开放注册的,当你有很多注册用户的时候,因为某些原因可能需要切换为某个用户身份进行登录,此前已经分享过以下方法: WordPress用户切换插件:User SwitchingWordPress 使用管理员密码登录其他用户账号 今天推荐的是和 User Switching 功能基本一样的插件:WP Users Masquerade,该插件使用非常简单,直接安装激活后,允许你在 后台用户列表中一键切换为其他用户身份登录: 并且在前台页面的底部允许你还原身份或退出登录: 非常方便!出于安全考虑,该插件仅 管理员 及以上身份才可以使用。 你可以在后台插件安装界面搜索 WP Users Masquerade 进行在线安装,或者在WP官方插件库下载 WP Users Masquerade。
WordPress [图像]小工具如何添加链接和说明文字
WordPress 4.8 新增了几个媒体小工具,其中一个就是“图像”小工具。最近有朋友反馈说,这个图像小工具只能添加标题和图片,没办法添加链接和文字啊。为此,专门测试了下,其实,它是支持添加链接和说明文字的,只是隐藏了设置选项罢了。 在外观 – 小工具 中,添加图像小工具到任何侧边栏,上传了一个图片: 点击“编辑图像”按钮,即可打开设置选项: 如上图所示,可以设置链接目标等信息,自己折腾看看吧!
删除 WordPress 中不再使用的自定义文章类型的文章数据
在文本开始之前,如果你对于 自定义文章类型(Custom Post Type)还不了解的话,可以看下之前的教程《实例讲解 WordPress 自定义文章类型》 自定义文字类型 拥有新的文章管理选项,就像默认的文章类型(文章、页面、附件 )一样。它有专门的编辑器、多媒体上传 并使用WordPress现有的表结构,便于数据管理。它可以很好地兼容现有的主题模板。同时,自定义文章类型也非常符合 SEO,因为它们拥有自己的漂亮的固定链接样式。 熟悉WordPress的朋友都知道,默认的文章类型(post,page 等)的数据保存在wp_posts 和 wp_postmeta 这两个表中,而其他自定义类型的数据一般也是保存在这些表中。如果哪天你不再使用某些自定义文章类型,那它们的数据会依旧保存在数据库中,成为垃圾数据,如果垃圾数据过多,对整个网站的影响是比较大的。所以,我们应该清理掉这些垃圾数据! 最近看到 Custom Post Type Cleanup 插件,通过这个插件就连小白都可以删除掉那些不再使用的自定义文章类型的文章数据,操作界面非常简单(工具 – 自定义文章类型清理): Custom Post Type Cleanup 可以自动识别出那些当前没有使用的自定义文章类型,你只要根据自己的需要,选择进行删除即可。 特别提醒:操作前,请务必导出你的数据库进行备份,以防不测!! 已将该插件汉化,在后台搜索安装 Custom Post Type Cleanup 后,点击下载简体中文语言包,解压后将里面的文件上传到 /wp-content/languages/plugins 目录即可。
WordPress 积分和成就奖励插件 GamiPress
GamiPress 是一款新出的WordPress积分和成就奖励插件,已经关注一段时间了,今天来重点推荐下。 GamiPress 可以自由创建无数种积分和成就类型,通过设置各种条件来奖励积分和成就给用户,比如注册、访问网站、登录账号、发布文章/评论等等。实际测试了下,目前的积分和成就获取条件还是比较多的,而且兼容了一些常见的插件: Easy Digital Downloads integrationWooCommerce integrationAffiliateWP integrationBuddyPress integrationContact Form 7 integrationbbPress integrationNinja Forms integrationLearnPress integrationGravity Forms integration 当然了,开发者还会继续兼容其他常用插件的。写到这里,不知道该如何进一步介绍了,来些图片大家看看吧: 如果大家比较感兴趣就自己安装测试下吧。在后台插件安装界面搜索 GamiPress 在线安装即可,或者在这里下载后手动安装。已汉化该插件,需要的就点击下载简体中文包,解压后将里面的语言包文件上传到该插件的 languages 目录即可。 在看来,GamiPress 对获取积分的条件基本都具备了,但是目前还没有“消费”积分的途径,不知道作者以后是否会开发。如果仅仅是获取积分和成就,没有消费,那还是有所欠缺的。持续关注中……
解决 WordPress 4.9 页面模板功能无法正常使用
WordPress 4.9.1 及以上版本已经默认修复该问题,建议直接更新到最新版本,无需再看本文下面的内容了! WordPress 4.9 有一个重要更新是:在WP后台编辑主题和插件文件时,支持按层级显示所有文件。为了性能考虑,使用了 transient 缓存机制。但是却没有提供任何手动清除缓存的功能,导致有些用户升级到 WordPress 4.9 以后,发现“页面属性 – 模板”这个功能不能正常使用了,不显示主题自带的模板文件! 要解决这个问题,我们可以添加下面的代码到当前主题的 functions.php 就可以了: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 /** * Plugin name: WP Trac #42573: Fix for theme template file caching. * Description: Flush the theme […]
WordPress 公告/通知栏插件 HashBar
好久没有分享东西了,今天跟大家分享一个简单的WordPress公告栏、通知栏插件 HashBar,它可以创建无限量通知栏,支持自由设置通知栏的位置(上下左右)、各种元素的颜色、在哪些页面类型中显示等,还可以选择显示邮件订阅表单,用来显示各种网站通知和促销信息,再合适不过啦! 看下前台显示效果: 后台的管理设置选项: 或者你也可以在线看演示:http://demo.wphash.com/hashbar/(可能需要F Q) 官方下载地址:https://wordpress.org/plugins/hashbar-wp-notification-bar/ 也可以在WP后台插件安装界面搜索安装。 由于最近真的很忙,没时间汉化了,如果有哪位朋友汉化了,欢迎过来分享下,谢谢!
WordPress 如何更改JPEG图片的压缩质量
默认情况下,WordPress会对上传的图片进行压缩,以免获得更好的性能和用户体验。长久以来,默认的压缩质量为 90%,直到 WordPress 4.5以后,就降低为 82% 了,为的是优化图片在手机端的加载速度。但是并不是所有的用户都希望如此。最近就有客户反馈说,为什么我上传的图片都被压缩了,模糊了。今天就分享下如何更改WordPress对JPEG图片的压缩质量。 科普一下:JPEG 在这里所指的是一种压缩方式,用这种压缩格式的文件一般就称为JPEG;此类文件的一般扩展名有:.jpeg、.jfif、.jpg或.jpe,其中在主流平台最常见的是.jpg。来自百度百科 WordPress提供了 jpeg_quality 钩子,以便让用户可以自定义参数。我们就是借助这个钩子来实现修改图片压缩质量。具体的方法就是将下面的代码添加到当前主题的 functions.php 文件即可: 1 2 3 4 5 6 7 8 9 /** * 自定义JPEG图片压缩质量 * https://www.wpdaxue.com/wp_image_editor-jpeg_quality.html */ function wpdx_custom_jpeg_quality() { //根据实际需求,修改下面的数字即可 return 90;} add_filter( ‘jpeg_quality’, ‘wpdx_custom_jpeg_quality’); /** * 自定义JPEG图片压缩质量 * https://www.wpdaxue.com/wp_image_editor-jpeg_quality.html */ function wpdx_custom_jpeg_quality() { //根据实际需求,修改下面的数字即可 return 90; } add_filter( ‘jpeg_quality’, ‘wpdx_custom_jpeg_quality’); 只需要根据实际需求,修改上面代码的第7行的数字即可,比如,不希望图片被压缩,就修改为 100 可能有朋友要问了,那如何修改 png […]
WordPress 前端注册插件 User Registration
本文目录[隐藏]1功能特色2高级扩展3图片预览4插件下载 最近看到一个前端注册插件 User Registration,感觉还不错,推荐给大家。User Registration 是一个轻量级但拓展性很好的插件,支持字段拖放排序,可以创建任何类型、任意数量的注册表单,支持用户在前端登录、修改个人资料、找回密码等。 功能特色 轻巧漂亮的注册表单拖放添加和排序字段可创建无限数量的注册表单支持多列布局多个表单模板设计支持通过简码调用支持谷歌验证码 Google Recaptcha(国内无视)邮件通知表单复制选项个人资料账号页面管理员审核机制自动登录选项邮件确认注册启用/禁用强度密码默认用户角色选项完善的帮助文档支持本地化翻译 高级扩展 User Registration 还有一些高级付费扩展,可以增强功能,需要的朋友可以自行到官方购买。 社交连接 – 允许用户使用Facebook,Twitter,Google +或LinkedIn等社交平台注册/登录您的网站。内容限制 – 允许您限制来自页面的全部或部分内容,发布到仅登录用户或以特定角色登录的用户。文件上传 – 允许您在注册表单添加上传字段,以便用户可以上传文件,图片等。woocommerce集成 – 整合并同步woocommerce相关信息到用户注册账户页面,如订单、客户详细信息、账单。mailchimp – 让你用mailchimp列表同步你的注册用户。在注册后自动将用户添加到您选择的mailchimp列表中。 图片预览 插件下载 在线演示:http://demo.wpeverest.com/user-registration/下载地址:https://wordpress.org/plugins/user-registration/ (可以在后台插件安装界面搜索 User Registration 在线安装 )帮助文档:http://docs.wpeverest.com/docs/user-registration/官方网站:https://wpeverest.com/wordpress-plugins/user-registration/ 一直非常忙,没时间汉化,如果有哪位朋友汉化了,欢迎过来分享,谢谢!
自定义WordPress各种邮件通知的内容
本文目录[隐藏]1可自定义的通知2插件预览3插件下载 大家都知道,WordPress默认发送出去的邮件内容都是很简单的,对于没有开发能力的朋友来说,要改变邮件的内容非常困难。今天推荐这个Better Notifications for WordPress插件就可以这方面的问题。 Better Notifications for WordPress 是一个简单但功能强大的插件,适用于初学者和高级用户,允许您使用可视化编辑器和简码来自定义wordpress发送的电子邮件通知。不仅可以编辑所有WordPress默认的电子邮件通知,还可以添加新的各种邮件通知。您可以选择向单个用户、多个用户、用户角色中的所有用户、多个角色发送通知 – 并为这些通知自定义名称!邮件可以通过您的WordPress的网站(使用wp_mail)发送出去,也可以通过smtp插件发送。 举个栗子:如果有用户发布了新文章,你需要通知多个“编辑”角色的用户,来审核这些文章,就可以使用这个插件来实现,可以自定义邮件的内容和样式等等。 可自定义的通知 Better Notifications for WordPress 当前支持自定义以下情形的邮件: WordPress 默认通知 新评论/评论等待审核新的 Trackback新的 Pingback用户忘记密码 – 给管理员新用户注册 – 给管理员密码已更改 – 给管理员用户角色已更改 – 给管理员WordPress 核心自动后台更新 交互型 用户忘记密码 – 给用户密码已更改 – 给用户用户邮件地址已更改 – 给管理员新用户注册 – 给用户新用户 – 发送注册邮件用户角色已更改 – 给用户评论回复 文章 / 自定义文章类型 发布新文章文章已更新文章等待审核发布私密文章文章定时发布 页面 发布新页面页面已更新页面等待审核发布私密页面页面定时发布页面 – 新评论页面 […]
如何利用火车采集软件采集58招聘信息_爬虫软件技术与爬虫软件网页数据采集器门户
如何利用火车采集软件采集58招聘信息 今天我们要讲解的内容是:“如何利用火车采集器采集58招聘信息”。 很多找工作的朋友会遇到这样的问题打开58同城网站发现里面太多太多的信息,然后不知道如何去找到自己适合的工作。这个时候我们就可以利用火车采集器来进行数据的采集到电子表格中进行分析。 那如何利用火车头采集来进行采集58上面的信息呢。下面我们就一起讨论一下这问题。 首先第一步您需要确定我们要采集的页面,就是列表。我们以下面的列表地址为例进行讲解。 这是一个58的列表页。我们首先需要对列表页的源代码进行分析,如何分析呢。我们需要右键查看网页源代码。看他的代码组成。 这张图是58招聘信息列表页面的源代码的截图。 那这么多代码我们如何来进行分析。首先我们需要搜索特定的关键字。例如其中一个标题。然后到源代码里面进行搜索。 我们通过分析找到特定的代码格式,然后通过火车采集软件对这些特定的代码进行读取,从而提取我们需要的信息。那58招聘信息这个列表页面的特定代码是什么呢。 我们通过分析得出结论如下:<div class="item_con job_title">从这里开始 然后到</div>这个div结束。这样火车采集软件可以分析出网址所在的位置。如下吗截图所示。 通过列表页分析之后我们可以吧这些信息写入火车头采集器的网址获取脚本中,然后进行下面一步的操作就是采集内容。 内容部分比较复杂,我们下面通过一段视频来进行讲解如何采集内容的部分的内容。 获取内容部分的视频亲可以联系QQ527096042进行索取。 我们会附送您视频和制作好的采集规则,欢迎您的来访。 如何利用火车采集软件采集58招聘信息原稿件附件下载 文章未完待续,视频录制好之后会上传优酷,然后地址会贴过来。到时候大家可以观看了。更新日期:2018-07-26

什么是火车采集器 如何使用火车采集器软件_爬虫软件技术与爬虫软件网页数据采集器门户
火车数据采集平台是一款通用型数据采集程序框架。它包含了数据采集最常用的计划任务,数据发布,正文识别、OCR图形图像识别,采集入库等模块,可以支持其它采集软件快速稳定在平台上使用。火车采集器平台定义了统一的接口规范并提供了大量的api,用户可以很方便的开发自己的应用并在该平台上运行,可以减少开发上时间和成本。目前平台上有官方自带火车采集器。 1.火车采集器系统需求 操作系统:Win7,WinXP,Win2008,Win2003,Windows 2000等windows内核的操作系统上 硬件配置:CPU主频1.6G以上,内存1G以上,分辨率至少为1024*768,网络带宽1Mbps以上。 必要组件:软件需要安装.NET FrameWork 2.0框架,如程序不能打开,请下载微软的.NET FrameWork 2.0框架并安装。.net framework 2.0下载地址: 32位操作系统:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe 64位操作系统:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe2 2.火车采集器程序的安装 将下载后的压缩包直接解压缩到您电脑的任何地方即可完成采集的安装–安装过程不操作注册表和系统文件,不产生任圾文件! 3.火车采集器程序的升级 运行程序目录下AutoUpdate.exe按提示进行升级。 4程序的卸载 直接删除采集整个安装文件夹即可以完成程序的卸载。在卸载前强烈建议您备份Configuration,Extensions,Data和Module文件夹(即用户配置,扩展目录,采集数据和模块)以便下次使用! 采集相关术语 1.火车采集器采集规则 简称规则,V7以前版本采集规则分为站点规则和任务规则,通常是指任务规则。V7版及以后采用无限级分组管理任务规则,所以不再有站点规则的概念。所谓采集规则就是要采集一个网站或某一网站栏目网页需要在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。V7版的任务规则文件后缀名为.ljobx,以前的站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。 2.火车采集器采集任务 采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集里导出的采集规则文件(.ljobx后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljobx文件。 3.火车采集器发布模块 发布模块又称模块、发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:网站/后台中或指定数据库中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集里使用。数据库发布模块文件的后缀名为:.dpm;WEB在线发布模块文件的后缀名为:.wpm。(采集规则和发布模块都可以从采集里导出,也都可以导入到采集中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。) 4.火车采集器标签 标签是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定。比如标题,手机号,邮件,作者,内容标签,采集到的信息则在发布模块中就可以通过该标签名对应获取到,格式为[标签:标签名]如[标签:标题],标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,顾名思义,列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。 注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如: 5.火车采集器起始网址 用来获取下级链接地址的入口网址,可以为一条或多条,可以通过添加起始网址向导添加同格式多条网址或导入文本网址。这里的起始网址相当于2010版以前的0级网址的概念。如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。 6.火车采集器多级网址 依次根据列表里面的多级网址顺序采集分析地址,多级网址相当于2010版以前的1级,2级,3级到N级的概念。通过依次采集分析到最后一级得到内容页地址。多级网址的获取可以使用自动分析,手工分析及Xpath可视化提取方法采集下级网址,在采集的过程中,可以同时采集列表分页及提取列表页附加参数。 7.Cookie 简单地说,就是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务进行交互的字符串。在浏览中使用时通常还会以文本形式记录到您的IE缓存目录中以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。 8.User-Agent 这是用来向服务通知您使用的客户端是IE6,IE7,FireFox或是某某抓取蜘蛛,在某些需要登录的网页可能同时验证Cookie和User-Agent所以可能需要您将其设置为与本机浏览同样的格式。 9.分页 比如这篇文章页面:http://ent.qq.com/music/a/20050516/000026.htm它的内容比较长,分成了7页显示出来,而真正的内容需要将7页的内容组合起来。这样的7个子页面就是分页。 10.多页 比如绿盟的这篇页面:http://www.xdowns.com/soft/1/30/2008/Soft_45507.html,我们要获取其下载地址,而下载地址是需要打开一个新页面才能看到,在http://www.xdowns.com/soft/softdown.asp?softid=45507这个页面中,我们称后面这种页面为多页。 同理要获取http://product.it168.com/detail/doc/395075/index.shtml这样一个产品页里面的所有对应的信息,用一条规则搞定,则需要定义比如报价多页:http://product.it168.com/detail/doc/395075/price.shtml,参数多页:http://product.it168.com/detail/doc/395075/detail.shtml,图片多页:http://product.it168.com/detail/doc/395075/pic.shtml等等。V7的无限级多页规则可以在多页里面继续设置多页或桥页采集下级内容,比如该例中的图片多页:http://product.it168.com/detail/doc/395075/pic.shtml里面还分为:外观图片,细节图片,配件图片,要获取到配件图片的所有内容则需要继续定义一个基于图片多页的二级深度的配件图片多页:http://product.it168.com/detail/doc/395075/25/1/pic.shtml。在该多页中定义标签采集到您所需要的信息。 11.正则 是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。 详见百度百科: http://baike.baidu.com/view/94238.htm,比如d+可以匹配到一个或多个数字。在这里收录了一篇正则表达式的30分钟经典教程: http://help.locoy.com/Document/Learn_Regex_For_30_Minutes.htm 火车采集器里面有纯正则,还有一种基于参数匹配的伪正则,在匹配时使用[参数]标签代替您想提取的字符串,在组合时使用对应序号的[参数1],[参数2],[参数N]来组合出需要的字符串。详见下面的[参数]术语项。 [参数] 用来匹配某项准备提取信息的标记标签,如想要在以下代码中提取组合出某种格式。以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新的地址格式为例。 "mClk(this,'[参数]','[参数]', '[参数]','1'); […]

如何使用火车采集器制作zencart数据包来进行批量导入商品_爬虫软件技术与爬虫软件网页数据采集器门户
如何利用火车采集器采集商品然后批量上传商品到zencart网站里面呢。如果您网站只有很少的商品这个时候没有。您可以手动添加。但是如果有成千上万个商品的时候这个时候手动就变得十分缓慢和低效。那有没有什么办法可以让我们的工作变得更加有效率。 我们可以领用火车采集器来采集和合成我们需要的信息。如何利用火车采集器来进行采集商品信息导入到我们的网站后台呢。 首先第一步,您要找到一个合适的目标站点,然后对目标站进行分析,然后就是利用火车头进行编写规则,进行采集。 最后就是利用zencart后台的一个插件名字叫Tools-Easy Populate这个插件进行导入商品。 但是我们在导入商品的时候有时候会发生很多意向不到的问题,例如分类莫名其妙的多了很多乱的,我们的里面的编码乱了,还有就是我们导入不了数据。 有没有办法解决这些问题呢。当然有哦,解决办法如下。 首先是检查您火车采集器采集出来的数据是否数据有问题,例如有乱码,有换行,有逗号,有特殊符号等等不安定因素的代码。如果检查了之后没有那我们进行下一步的检查。文件大小的检查。 当您制作一个zencart数据包表格很大的时候这个时候您需要对表格进行一个分割,利用的软件是emeditor这款软件。 然后就是乱码的问题,就是您需要对您的数据包进行编码按照您网站后台,一般的国外网站使用的是utf8编码,国内的网站使用的是gbk编码这个需要按照您的网站的具体情况进行操作。 最后就是导入,后台导入如果发生无法导入有时候不是您的zencart数据包制作的不正确,是英文文件大了,这个时候一次导入1000个商品以内进行测试是没有问题的。 当然还要考虑您网站的服务器承载能力,如果服务器速度比较慢,这个数量还需要进一步的降低。才能达到导入商品的目标。 下面我写了一个大概制作zencart数据包出错问题的时候解决方案。如下所示。 zencart商品数据包制作流程 1、用excel表格进行整理数据表 2、用emeditor进行另存表格为utf8格式 3、用emeditor进行拆分csv表格 4、进行导入表格到网站。

火车头采集器的DedeCMS5.7文章免登陆发布接口_爬虫软件技术与爬虫软件网页数据采集器门户
火车头采集器DedeCMS5.6免登陆文章发布接口使用说明 一、火车头采集器DedeCMS5.6免登陆文章发布接口功能特性 1、免登陆,用户可以设置验证密码来防止未授权的访问. 2、多用户随机发布文章. 3、可以达到和手工发布文章完全一样的效果,包括是否生成静态,去掉外链,下载远程图片等功能. 二、火车头采集器DedeCMS5.6免登陆文章发布接口使用教程 1、文字教程 1.1、选择您网站对应的接口文件.如您网站是gbk编码,请选择 jiekou_gbk.php. 1.2、打开接口文件,修改验证密码,然后保存. 1.3、修改接口文件名并上传至网站的管理目录.如默认的dede目录. 1.4、修改发布模块 DedeCMS 5.6 免登陆接口文章发布模块.cwr ,将发布模块里的发布文件地址后缀及刷新列表文件地址后缀中的文件名修改为您刚才修改的接口文件名. 1.5、设置发布配置,采集并开始发布. 三、火车头采集器DedeCMS5.6免登陆文章发布接口注意事项 1、该接口仅适用于发布文章到DEDECMS频道内容模型为普通文章的栏目; 2、该接口基于DedeCMS 5.6 GBK版制作,适用于dedecms5.6 GBK/utf-8/BIG5等版本,请在使用时接口选择不同的版本. 3、分页代码 4. 默认接口以id为1的管理员发文章,如果要修改,请修改插件中的userID的值为新的管理员的id $cuserLogin = new userLogin(); $cuserLogin->userID = 1; 四.火车头采集器DedeCMS5.6免登陆文章发布接口参数说明 1、必选参数 title 标题 body 内容 typeid 主栏目ID,必填,可在后台网站栏目管理处查看该id username 用户名,必须使用网站上已存在的用户名,默认是随机用户名,用户需要在模块中设置 pw 验证密码.在刷新列表和post发布时使用,需要模块和接口中的验证密码一致. 2、可选参数 ishtml=1 是否生成HTML,1为是,0为否; remote=1 是否下载远程图片和资源,1为是,0为否 dellink=0 是否删除非站内链接,1为是,0或空为否; shorttitle 简略标题 […]

火车头采集器如何把浏览器里面的cookie到火车头采集器里面_爬虫软件技术与爬虫软件网页数据采集器门户
有的时候 我们发现在浏览器里能看到的内容, 或者某个浏览器能看到 比如火狐能看到但是ie看不到 再或者 要把浏览器的语言设置为英文才可以看到 内容, 我们采集器是默认调用本地ie的 遇到以上的情况我们如果修改采集器的默认浏览器信息呢 下面做下说明: 这里用到抓包工具 抓到浏览器的信息 参考教程http://www.youxiuziliao.com/huochetoucaijiqijiaocheng/20.html 这里 假设你已经成功获取到浏览器信息了 这里重点说明下 如何把浏览器信息填写到采集器里面 第一步:如图,在第二步里面 第二步 填写浏览器信息 填写好后 点击右下角的保存按钮 就可以了 第三步 上面看到没有填写cookie的地方是吧 cookie是在这里填写的如图 在第一步 设置

火车头采集器教程之如何通过fiddler获取cookie简单教程_爬虫软件技术与爬虫软件网页数据采集器门户
有的网站要登录才能采集 就是要采集器获取到登录后网站的cookie 才能采集 或者 是写发布模块要用到抓包 获取post的数据 有的时候采集内置的浏览器获取的信息可能不行 那就可以用抓包软件 获取这些信息 这里使用fiddler这个抓包工具说明下如何抓包 fiddler工具下载地址:https://pc.qq.com/detail/10/detail_3330.html 1,下载并安装好,启动fiddler工具 界面如下: 2,我们看到很多信息,要找到我们的网站很难 我们可以清空已经抓到的信息 办法是在右侧随便选中一个网址电脑键盘“CTER+X”是清空的快捷键如图: 清空后的结果: 3,然后就不要在用浏览器刷新别的网站了 ,现在只要刷新我们要获取cookie的网站 ,刷新后我们看下fiddler工具得到什么 如下图:哦 这里一定要选择“raw”这个选项,这个图忘记注明了 第4步的注明了具体看下面的图吧 4,就可以获取到cookie并把cookie user-engent 复制到采集器里面了

火车头采集器FTP设置 图片下载上传的路径的设置_爬虫软件技术与爬虫软件网页数据采集器门户
火车头采集器FTP设置 图片下载上传的路径的设置 1、火车头采集器标签下载处 不做任何设置 下载如下 而我们正常手工发布一条数据的显示图片路径 例如是 http://www.xxx.com/Upload/201211/12/2.jpg http://www.xxx.com是跟地址 Upload常量路径 201211是年月 12是日 2.jpg是文件名 那么我们就需要这样写标签路径 (1) 把 /Upload/201211/12/ 放到 文件保存目录 里 (2) 201211 和 12 这2个数字替换下 (3) 在除了日期以外的 绿色 字符 前加个 \ 进行转义下 最终结果。 2、火车头采集器用FTP 软件 登陆显示的路径 例如是 /www/Upload/201211/12/ 那么 3、火车头采集器FTP文件上传根目录 这里写成这样就OK 了 不要重复的把/Upload/201211/12/ 写上,因为标签设置那里 我们已经定义了路径,软件会自动创建 并识别要发布到哪里,所以 亲们,不要写重复了哦。 […]

火车头采集器文件图片下载路径设置简易说明_爬虫软件技术与爬虫软件网页数据采集器门户
一,火车头采集器在任务规则第四步,设置好文件(图片)需要保存的地方! 二,火车头采集器设置好文件(图片)的路径,这里的文件路径,加上前面的文件地址前缀,组合成完整的路径,其中需要注意的是,绿色字体表示系统时间字母,d表示天,y表示年,m表示月等。如果不需要年月日的信息,用\转一下就可以了 三,火车头采集器勾选下载图片,或者探测文件并下载,就可以得到下载的后的图片路径了

火车采集器采集淘宝天猫商品采集多页获取宝贝详细教程_爬虫软件技术与爬虫软件网页数据采集器门户
火车采集器以淘宝和天猫多页采集为例 淘宝,例如 http://item.taobao.com/item.htm?id=16598015559 需要采集此页的宝贝详细 火车采集器经过抓包等一系列分析 得到 详细页真实地址 是 http://dsc.taobaocdn.com/i5/160/ … bk%3Bt%5E1352562053 查看网页源代码 可以发现 在这里 此时我们需要用到 多页匹配到 这个详细页真实地址,然后根据这个真实地址 采集就可以了 1、 点击 2、 命名为宝贝详情,用第二种方式,正则参数匹配 得到这个真实网址。 3、 你也可以在这里测试下 得到的网址对不对。 4、 正确的话 就保存 5、 然后标签里 调用多页 (1) 这里选择刚才保存的那个多页 (2) 根据多页地址,也就是宝贝详情的真实地址,设置前台截取 (3) 保存即可。 6、 测试结果如下 ++++++++++++++++++++++++++++++++++++++++++++++ 天猫,例如 http://detail.tmall.com/item.htm?id=19828008229 火车采集器多页地址 http://dsc.taobaocdn.com/i2/191/ … bk%3Bt%5E1352697004 源代码里 剩下的步骤 可以尝试 自己写。。。 一样的道理。。。

WordPress网站mysql数据库导入错误的解决方法
我们在自己建网站时,往往需要进行网站搬家,例如我们先在本地环境里做好网站再搬家到网站空间,或者我们的网站需要换空间。 打开数据库管理PHPmyadmin在首页就可以查看到MYSQL数据库的版本号。 这些网站搬家的操作都需要进行mysql数据库导入。对于WordPress网站,一些学建网站新手在进行mysql数据库导入时,会出现一些错误。如下图: 我们应该如何解决WordPress网站mysql数据库导入错误呢?下面就来讲讲WordPress网站mysql数据库导入错误的解决方法。 mysql数据库导入错误原因分析 在进行mysql数据库导入时,出现这样的错误,只要有建站经验的同学都知道,应该是服务器的数据库版本差异导致的。 wordpress4.2版本之前的默认编码是utf8,而这个版本之后采用的是utf8mb4,因为编码的变更,所以导致如果你现在的数据库高低版本互导之间的错误。 mysql数据库导入错误的解决方法 mysql数据库导入错误可以按照以下三个方法解决: 方法一、升级最新服务器的数据库版本(虚拟主机无权限); 方法二、分别修改数据库表的编码为utf8mb4,如果手动修改麻烦,可以通过以下sql语句方式修改: ALTER TABLE 表名 CONVERT TO CHARACTER SET utf8 COLLATE utf8_general_ci; ※ 注意修改语句中表名为你不同的数据库表名。 方法三、我们在导出数据库的时候,选择“最大程度兼容数据库系统或旧版本的 MySQL 服务器”;(推荐) 通过以上三种方法,就可以解决我们WordPress网站在mysql数据库导入时出现的错误了。

火车采集器如何使用fiddler获取post分页_爬虫软件技术与爬虫软件网页数据采集器门户
大家在采集列表分页的时候会遇到,点击下面的分页页面内容是改变了 ,但是浏览器地址却没有改变 , 是吧 好奇怪是吧,是的,好奇怪, 这个种情况分页是post的 方式,今天我们来说下这个种情况 该如何获取分页 火车采集器如何使用fiddler获取post分页用这个网址来做例子http://www.yidianda.com/category/two/1-7.html 首先你要选项下用fiddler抓包 教程这里 好好看看 一定要会用 要不然 下面就没有办法做了 https://www.youxiuziliao.com/huochetoucaijiqijiaocheng/20.html 这个是简单的教程 只要帖子里说的会用 就可以了 如果你要学习具体的 可以在论坛搜索这方面的教程 这里自行解决 这里假设你已经掌握了火车采集器fiddler的使用了 我们开启fiddler然后点击下面的分页看下fiddler都抓到了什么 我们点击第三页 和第5页 抓包 看看分别获取什么 说明如上图 这样比较不好比较我们把结果保存的文本中来比较就很方便了 用按钮“View in Notepad” 把结果保存到文本中来比较 按照 上图的说明我们找到ec_p的值就是分页,这里大家明白了吧 ec_crd=32&ec_p=5&id=1&pid=7&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice= 这些是提交的值 那采集器里如何设置呢 如下图 我们看到除了ec_p还有比的参数如ec_crd这些 那这些是什么呢 我们去页面源代码里找下我们以这个参数为例ec_crd 别的一样处理 这个源代码里的情况 我们最终要获取他的值也就是"32" 在采集如何获取呢 火车采集器里获取 在采集器里像这样的参数叫做post随机值 就是这样了我把规则也上传你们如果不清楚可以下载规则对照操作

火车头采集器无极限多页采集教程说明_爬虫软件技术与爬虫软件网页数据采集器门户
火车头采集器采集总是会遇到要使用多页的时候,一般只要一级多页,偶尔多页下面还有多页,采集器现在能处理无限极多页, 并且能够采集多页里面的分页。 如上图在规则第二步:采集内容规则 点击“切换到无限级多页规则编辑模式” 如下图: 分别点击上面的按钮可以设置分页,建立多页,高级里面是填写浏览器的一些信息,左下面,可以对网页编码进行设定。 在默认页建立一级多页的操作如下图: 多级设置好了,点击测试如果获取的多页是正确的,点击保存,在多页列表就会显示,然后选中多页,点击“编辑多页规则”就跳转到这个多页标签 设置界面,同样在这个界面可以再建立多页,如下图: 从标题上面可以看到这个是一级多页的编辑界面,和之前的默认页界面是一样的,使用方法也一样。建立标签,建立分页,已经高级设置,网页编码的选择。 这个就当是从默认页建立一级多页操作是一样的。这样无限设置下去,就是可以实现无限极多页了。这个看需要,一般一级多页就可以了,但是只要在这模式下 才可以设置多页里面的分页,和多页的编码之类的。

火车采集器如何使用post上传文件图片的图片教程_爬虫软件技术与爬虫软件网页数据采集器门户
1、火车采集器如何使用post上传文件图片,我们以destoon产品图片上传为例 2、选择一张本地图片上传,并且用抓包工具抓取到post数据 3、利用fiddler软件抓取的post数据 4、把post数据复制到火车采集器的发布模块里 5、点提取 6、提取后自动在这里提取到图片信息 7、对文件上传设置进行修改编辑 8、注意标签名的格式 9、表单名的编辑 这里注意的是表单名里如果有递增数字就像如图这样替换相应的格式,如果没有递增数字,那就不需要更改 最后保存一下,那么如果建立采集规则 设置“ 图片”这个标签 ,采集下载到本地的图片自动会随这个模块里的post数据一起发布上传到网站上的,不需要另外用ftp传图片

火车头采集器教程之列表页标签的设置截图教程_爬虫软件技术与爬虫软件网页数据采集器门户
列表页标签的建立: 1、先添加火车头采集器起始网址 2、点添加设置网址规则 3、选择手动填写链接地址规则 4、查看原网页列表页页面的源代码 5、查找要采集的内容页链接地址区域 6、选择其中一条内容页网址的区域代码,复制到采集器列表页的手动填写链接地址规则 的脚本规则表单里 7、复制进火车头采集器后把相应的位置用[参数]或者来替换 8、[参数1]和[参数]对应,实际链接里的值就是要采集的内容页地址,后面是标题和内容两个列表页标签,这里定义的默认循环匹配到其他的网址链接和相应内容的哦 9、测试网址采集,效果是这样,对于标签里的不要的内容可以在采集规则第二步标签编辑里排除掉

火车采集器采集规则如何导入导出发布模块导入导出_爬虫软件技术与爬虫软件网页数据采集器门户
火车采集器采集规则如何导入导出,发布模块导入导出,分组导入导出说明规则的操作: 火车采集器采集规则导入规则的操作如下图: 火车采集器采集规则分组操作: 火车采集器采集规则模块操作:

火车采集器如何设置自动采集发布计划任务定时功能设置_爬虫软件技术与爬虫软件网页数据采集器门户
1.首先打开火车采集器的自动运行设置工具!在采集器的菜单栏>>高级>>任务计划管理器 2.添加一个计划任务分组 3.添加需要自动运行的任务规则。 4.设置好运行的时间,保存设置就可以了 v7版本的计划任务基于cron表达式。因此,某些设置可能会无法直接达到,如每间隔120分钟无法在分钟里设置,可以设置成每间隔两小时。不能设置每间隔25个小时,可以设置每间隔一天。等等。下次更新中,计划任务将增加最近的几次运行时间,方便用户查看。以下附件就是基于此的小工具。

火车采集器教程之同义词替换添加和使用的方法_爬虫软件技术与爬虫软件网页数据采集器门户
火车采集器教程之同义词替换添加和使用的方法首先编辑同义词替换规则 高级 ==== 同义词管理 界面如图 然后是设置火车采集器的同义词替换设置如下: 替换规律:替换结果是:谢谢会被随机替换成后面的感谢,感激 以此类推 第二步是使用近义词替换:在编辑规则里使用 分享上2万同义词词库给大家参考。 火车采集器同义词–2万同义词词库.zip

火车采集器V7版本二级随机代理的使用教程_爬虫软件技术与爬虫软件网页数据采集器门户
1.火车采集器V7版本二级随机代理的使用教程,先打开二级随机代理工具,添加好代理的IP地址,然后验证一下是否可用 2.打开火车采集器,设置好端口号(不能与其他端口号冲突),然后保存。(注意不要退出代理工具,否则不可用) 3.在任务规则里设置需要代理。代理的IP填写本地的回路地址127.0.0.1.端口填写第二步设置的端口号即可 4.然后保存任务规则,运行任务就可以了,打开代理工具可以看到代理日志

火车采集器如何将图片转换为号码OCR图像识别配置管理工具_爬虫软件技术与爬虫软件网页数据采集器门户
1、以制作赶集网的图片手机号码 转换文字 为例 手机号码图片网址 http://bj.ganji.com/tel/52650234566157315535536b513f006051650f3e5231_4.png 2、打开火车采集器ocr识别工具 3、 OCR图像识别配置 保存配置后 会生成一个 .ocr 识别文件。 4、标签里调用这个 .ocr识别文件 OCR识别程序是一个通用的图片文字识别程序,可以对一些简单的字母或是数字的图片进行识别 OCR图像识别预处理: 通过预处理可以去除一些干扰,来提高识别率。 1、亮度/对比度 用以调节图像的亮度和颜色的对比度 2、OCR图像识别灰度 效果图: 相当于彩色变黑白的效果 3、OCR图像识别边框 通过定义边框相对于图像上下左右的距离裁剪图像 4、OCR图像识别去除噪点 通过设置相邻点个数,来去除孤立的点 5、OCR图像识别边缘扫描去色 通过设置边缘的宽度,程序将会收集在该区域内的所有颜色。然后扫描整个图像。如果像素点的颜色和之前收集的颜色差在[色差异异]的范围内,则将该点的颜色置白。 6、OCR图像识别二值化 可通过调节阀值来讲图像二值化,将阀值两边的颜色变成黑白两种颜色。 7、OCR图像识别底色 将图像的颜色调换相反的颜色 8、OCR图像识别删除替换颜色 通过设置颜色区间。扫描图像删除所有区间内的颜色。可以将原来的颜色替换成另一种颜色。 字符过滤 可通过设置白名单和黑名单字符集来提高识别率。

火车采集器保存为本地word、excel、html、txt文件方法及文件模板_爬虫软件技术与爬虫软件网页数据采集器门户
火车采集器如何将采集到的数据发布到本地的文件 TXT 或者CSV 等格式乱码 解决办法: 模版文件,用txt格式打开,然后 文件—另存为,选择ansi编码 然后发布设置那里 选择GBK 编码,或者 文件—另存为,选择utf-8编码 然后发布设置那里 选择UTF-8 发布即可 1、 我们以软件自带的火车采集器采集规则 搜狐新闻 为例子 2、 双击火车采集器采集规则,打开 搜狐新闻 这个规则 第三步:发布内容设置勾选 “方式二”的启用保存文件格式(自己可根据需要来选择) 3、 保存位置,这里就不做说明了,想保存到哪里就保存到哪里你的地盘你自个做主~ 4、 文件模版,简单的说就是你保存到文件的具体模版样式。 以 “搜狐新闻”为例做txt文件模版 有5个标签 所以txt模版对应写上就可以了 模版会自动提取相应的标签内容。 Html 模版也是一样的 csv模版 Word模版亦是如此 5、 火车采集器文件名格式 点击这个按钮,可出现一个选择列表,这里可以任意选择匹配,给文件命名。 6、 火采集器文件编码 有utf-8和 gb2312 两种。 发布后 如果显示是乱码 ,就可能是你的编码没设置正确,换一种 应该就可以了。 嗯 就这些了,写的非常的直白,应该都可以看懂~~

火车采集器发布模块如何设置ubb设置发布图片教程_爬虫软件技术与爬虫软件网页数据采集器门户
火车采集器发布模块如何设置ubb设置发布图片教程 ubb发布隐藏太深了,令很多位用户困解,本人也是找了半天。 今天写了点图文教程与大家分享~ 共同学习 1、 打开火车采集器发布模块配置 2、 以火车采集器里自带的dz2.0论坛发布模块为例 3、 我们要对 [标签:内容] 这个参数ubb转换设置如下: 4、 保存后出现黄色框的设置也就是[标签:内容]值可以用引用值 {0} 表示。也就是 黄色框内值替换成{0} 然后保存模块即可。 以上就是火车采集器发布模块如何设置ubb设置发布图片教程,希望可以帮助到有需要的朋友。

火车采集器php插件编写视频教程下载_爬虫软件技术与爬虫软件网页数据采集器门户
火车采集器的PHP插件和2010的插件是一样的。还是只处理列表页,内容页,多页的网页源代码,保存时的标签。 火车采集器php插件编写视频教程中用一个简单的例子对所有可用到插件的地方进行了演示。 在压缩包中包含了所有教程中使用到的文件。需要注意的一点是,用户使用的采集器版本需要是3.27及以后的版本。如果您的版本低于这个时间,请下载最新手动更新包更新。.注意,请先更新,再导入规则进行测试。 附件下载: PHP插件的使用.7z 4.21MB 火车采集器分类和分类id新思路20180814 对数据里面的信息进行设置。 <?php header("Content-type: text/html; charset=gb2312"); $server = 'localhost'; $user = 'aaabbb'; $pass = 'aaabbb12345'; $dbname = 'aaabbb'; $conn = mysql_connect($server,$user,$pass); mysql_select_db($dbname); mysql_query("set names 'gb2312'"); $result = mysql_query("select * from `jieqi_article_article` where articlename='".iconv('utf-8','gb2312',$_GET['title'])."'"); $row = mysql_fetch_array($result); if(!$row){ echo 0; }else{ echo $row['articleid']; } […]

火车采集器采集百度搜索采集关于标签循环匹配及标签在分页中_爬虫软件技术与爬虫软件网页数据采集器门户
有很多用户不知道火车采集器标签循环匹配及标签在分页中匹配这两个功能的使用,下面就以百度搜索列表采集为例,采集地址http://www.baidu.com/s?wd=%E9%87 … =32&inputT=3893,直接将这个列表页地址作为实际内容页采集, 查看源文件,得到每条记录标题所在的html代码格式是所以在采集标题时规则设置如下 打开火车采集器勾选截图中的该标签在循环中匹配,这样就可以循环采集到每条记录的标签,采集内容标签规则设置如下,一样需要设置循环匹配, 这个列表的分页需要在第二步分页设置中截取到分页连接地址, 火车采集器分页规则设置好后,勾选每个标签里的该标签在分页中匹配选项, 如果需要将采集的数据一条条保存,需要选择添加新纪录方式, 最后测试效果如下: 如果需要获取内容页地址或者内容地址中部分参数这就需要使用从网址中采集功能,然后使用正则采集,

