「GIS开发工具箱」可能是最牛X的验证码识别工具
最近一段时间老大要求我去下载点GIS数据,搞上去一看,这些GIS数据有点多,最近几十年的数据放在一起,还要一个月一个月的下载,一个个点有点麻烦,于是想写个爬虫批量抓下来,但结果这个网站限制有点狠,下载数量多起来之后,就会不断的弹验证码,要求输入正确的验证码才可以下载。
小编属于那种特别懒惰的人,这种重复性GIS数据下载工作是一点也不想搞,也没别人帮忙,于是自己写了脚本,今天就来介绍下我是如何干掉这个讨厌的验证码的。
工具介绍
这个工具的名字叫:带带弟弟。
是的,名字就是这么有特色,github地址:
https://github.com/sml2h3/ddddocr
作者的介绍还是谦虚了,仅用其免费自带的模型就可以主别是好多类型的验证码了。
使用方法
如果你不需要自己来训练模型,那直接用下面这个库:
https://github.com/sml2h3/ddddocr-fastapi
可以直接部署,也可以使用docker部署。
PS: 跑起来还有点小插曲,得会点Python才可以,反正小编借助GPT、Google之类的跑起来了。
小编的测试结果:
经过小编连续3天的数据下载测试,成功率很高,小编全程没人工介入,数据就下载下来了。
高阶用法
我这种验证码可能比较简单,对于它来说只是个小菜,它还支持更多类型的验证码,比如:
是不是很高端,但这种高阶的用法上也比较特殊,需要的同学可以细致研究下。
后话
- 没必要为了上爬虫而上,小编这次的GIS数据实在太散了,否则写爬虫的时间,数据都下完了。
- 任何爬虫相关的行为,请自行保证合法用途。
相关阅读
声明
1.本文所分享的所有需要用户下载使用的内容(包括但不限于软件、数据、图片)来自于网络或者麻辣GIS粉丝自行分享,版权归该下载资源的合法拥有者所有,如有侵权请第一时间联系本站删除。
2.下载内容仅限个人学习使用,请切勿用作商用等其他用途,否则后果自负。