火车采集器7.6之ORC识别图片文字使用教程_爬虫软件技术与爬虫软件网页数据采集器门户

火车头采集2018 年 10 月 20 日

火车采集器7.6之ORC识别图片文字使用教程，Orc识别功能，是可以把一些简单的图片信息识别成文字信息的，网站上面的电话号码是图片格式的可以识别成纯文字。我们通过这个功能来识别下面的图片文字。

http://bj.ganji.com/tel/52650234566157315535536b513f006051650f3e5231_4.png

第一步：配置Ocr信息

火车采集器7.6之ORC识别图片文字使用教程截图1

按照上图点击Ocr识别图标，打开识别界面。把要识别的图片地址或者通过浏览把本地的图片地址加载到OCR工具里：

1，加载图片

火车采集器7.6之ORC识别图片文字使用教程截图2

通过从本地或者直接输入图片的网络地址，然后点击“加载”按钮

2，预处理

这个点击“添加”按钮，自己看下这些操作，其实这里一般是没有用的，没有什么方法就随便点点，走运也许就把图片识别了

3，图片预览

通过操作预处理后的图片和原来图片的变化。

4，字符过滤

白名单字符：要识别的字符，数字字母汉字都可以；黑名单字符：不需要识别的字符。

设置好了以后，点击“识别测试” 会弹出识别的结果，对照下如果识别是正确的点击右下角“保存配置”。如果识别不了，亲，你就放弃吧找我们技术部开发插件识别。

火车采集器7.6之ORC识别图片文字使用教程截图3

这样就把识别的配置信息保存成文件了，就可以在采集器里面使用了

第二步，采集规则使用识别配置

火车采集器7.6之ORC识别图片文字使用教程截图4

打开需要进行ｏｃｒ识别的标签，在数据处理那里，添加＝＝＝》ＯＣＲ图片识别，然后右侧 “点击这里选择配置文件”，就是选择在第一步那里生成的识别文件，设置好了点击“保存”按

钮。绿色字体那里注意看下，标签是采集到单个图片地址，这里注意下。也是说需要识别的标签采集到的值必须是图片的地址，但不需要勾选图片下载。

很遗憾这个功能可能对很多网站的识别都不行，如果你遇到识别不了，但又必须要识别的就联系我们官方定制插件吧。。。。。。。。。。。。。。。。