麻辣GIS微信平台

更多 GIS 干货

微信关注不错过

「GIS教程」编程批量将纸上的经纬度数字化的方法

在之前的文章《「GIS技巧」无需编程批量将纸上的经纬度数字化的方法》中我介绍了一种不用编程就能实现纸面数据数字化的方法,核心原理是一点P图小技巧+腾讯QQ的OCR服务,好用的不要不要的。最近我接到了一个新的需求,老大说我第次都是用QQ的识图还得点一下,能不能我们组开发一个产品,直接给其他部门用,让他们可以用我们的产品自动输出结果,以增加我们组的技(公)术(司)影(存)响(在)力(感)?

我说:不能。

老大说:能。

领导说能就是能,于是找了几种方案,最终封装成的软件过程就不赘述,在图片转文字的过程中找了几个方案,这里给大家分享一下,识别的示例图:

Tesseract OCR

要说OCR的库啊,不得不提这位大佬。Tesseract最早可以追溯到1985年(How old are you),是惠普实验室的产品,2005年开源出来,2006年后主要由Google来开发。如果搜索网络的文章,大部分都是3.5及其以前版本的介绍,这是基于传统的图像处理和机器学习技术。2018年10月29日发布了4.0.0,这是基于LSTM的算法,现在最新的版本是5.x。

官网:https://tesseract-ocr.github.io/

相关教程和用户手册,上面已经比较清楚了,该库支持Python、NodeJS等流行语言,有兴趣的可以尝试。小编用了一圈下来,原始版本对中文支持不算好,有中英文及数字混合的情况下,识别率会有点低。当然对小编这种Case,经纬度只有数字,这个库已经完全可以满足需求了。

PS:要识别中文还要下载一些别人已经训练好的中文数据,这个伟大的Github上有不少,有兴趣的可以自行尝试。

Deep OCR

这个库是为了解决 Teseract OCR 中对中文的不友好,所找到的一个库,尝试了一下还不错,中文的识别率比我找到的任何一个Tesseract OCR的训练数据都要好,Github也有1.5K的star。

官网:https://github.com/JinpengLI/deep_ocr

该库对Python友好,使用Python的小伙伴可以快速上手。

腾讯云 vs 百度云 vs 阿里云

上面的2种方案还要自己来折腾训练数据,如果你不想搞这个,可以直接调用一些互联网大厂的API服务,这类服务的好处是准确率变态的高(相对于自己的训练数据)。目前我尝试了三家,按照我心中的顺序,首先推荐的是腾讯云。为啥,因为它大方,开通就送1000次每月的免费调用权限。具体价格:

次推百度云的OCR服务,未实名认证 用户可领取 200 次/月,个人认证 1,000 次/月,企业认证 2,000 次/月。

价格上看也比较良心,基于内心我对百度的偏见于是排第二。

最后就是阿里云了,为啥最后说它,因为太扣了,没看到免费额度,就连新用户都是 0.01元 500 次,1W次的价格是百度云的7倍。

后话

你问我用了哪种方案?

我问老大能报吗?老大看了一下价格说不能。

那我当然用了第一种。

相关阅读

麻辣GIS-Sailor

作者:

GIS爱好者,学GIS,更爱玩GIS。

声明

1.本文所分享的所有需要用户下载使用的内容(包括但不限于软件、数据、图片)来自于网络或者麻辣GIS粉丝自行分享,版权归该下载资源的合法拥有者所有,如有侵权请第一时间联系本站删除。

2.下载内容仅限个人学习使用,请切勿用作商用等其他用途,否则后果自负。

手机阅读
公众号关注
知识星球
手机阅读
麻辣GIS微信公众号关注
最新GIS干货
关注麻辣GIS知识星球
私享圈子

留言板(小编看到第一时间回复)