当前位置: 开发笔记 > 编程语言 > 正文

python验证码识别库_python验证码识别

作者：何泳辰_439 | 来源：互联网 | 2023-09-14 11:48

写爬虫有一个绕不过去的问题就是验证码，现在验证码分类大概有4种：图像类滑动类点击类语音类今天先来看看图像类，这类验证码大多是数字、字母的组

写爬虫有一个绕不过去的问题就是验证码&＃xff0c;现在验证码分类大概有4种&＃xff1a;图像类

滑动类

点击类

语音类

今天先来看看图像类&＃xff0c;这类验证码大多是数字、字母的组合&＃xff0c;国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。

相应的&＃xff0c;验证码识别大体可以分为下面几个步骤&＃xff1a;灰度处理

增加对比度(可选)

二值化

降噪

倾斜校正分割字符

建立训练库

识别

由于是实验性质的&＃xff0c;文中用到的验证码均为程序生成而不是批量下载真实的网站验证码&＃xff0c;这样做的好处就是可以有大量的知道明确结果的数据集。

当需要真实环境下需要获取数据时&＃xff0c;可以使用结合各个大码平台来建立数据集进行训练。

生成验证码这里我使用 Claptcha 这个库&＃xff0c;当然 Captcha 这个库也是个不错的选择。

为了生成最简单的纯数字、无干扰的验证码&＃xff0c;首先需要将claptcha.py的285行_drawLine做一些修改&＃xff0c;我直接让这个函数返回None&＃xff0c;然后开始生成验证码&＃xff1a;

这里需要注意ubuntu的字体路径&＃xff0c;也可以在网上下载其他字体使用。生成验证码如下&＃xff1a;

可以看出&＃xff0c;验证码有形变。对于这类最简单的验证码&＃xff0c;可以直接使用谷歌开源的tesserocr来识别。

首先安装&＃xff1a;

然后开始识别&＃xff1a;

可以看出&＃xff0c;对于这种简单的验证码&＃xff0c;基本什么都不做识别率就已经很高了。有兴趣的小伙伴可以用更多的数据来测试&＃xff0c;这里我就不展开了。

接下来&＃xff0c;在验证码背景添加噪点来看看&＃xff1a;

生成验证码如下&＃xff1a;

识别&＃xff1a;

效果还可以。接下来生成一个字母数字组合的&＃xff1a;

生成验证码如下&＃xff1a;

第3个为小写字母o&＃xff0c;第4个为大写字母O&＃xff0c;第5个为数字0&＃xff0c;第6个为小写字母z&＃xff0c;第7个为大写字母Z&＃xff0c;最后一个是数字2。人眼已经跪了有木有&＃xff01;但现在一般验证码对大小写是不做严格区分的&＃xff0c;看自动识别什么样吧&＃xff1a;

人眼都跪的计算机当然也废了。但是&＃xff0c;对于一些干扰小、形变不严重的&＃xff0c;使用tesserocr还是十分简单方便的。然后将修改的claptcha.py的285行_drawLine还原&＃xff0c;看添加干扰线的情况。

加了条干扰线就完全识别不出来了&＃xff0c;那么有没有什么办法去除干扰线呢&＃xff1f;

虽然图片看上去是黑白的&＃xff0c;但还需要进行灰度处理&＃xff0c;否则使用 load() 函数得到的是某个像素点的RGB元组而不是单一值了。处理如下&＃xff1a;

处理后的图片如下&＃xff1a;

可以看出处理后图片锐化了很多&＃xff0c;接下来尝试去除干扰线&＃xff0c;常见的4邻域、8邻域算法。所谓的X邻域算法&＃xff0c;可以参考手机九宫格输入法&＃xff0c;按键5为要判断的像素点&＃xff0c;4邻域就是判断上下左右&＃xff0c;8邻域就是判断周围8个像素点。如果这4或8个点中255的个数大于某个阈值则判断这个点为噪音&＃xff0c;阈值可以根据实际情况修改。

处理后的图片如下&＃xff1a;

好像……根本没卵用啊&＃xff1f;&＃xff01;确实是这样的&＃xff0c;因为示例中的图片干扰线的宽度和数字是一样的。对于干扰线和数据像素不同的&＃xff0c;比如Captcha生成的验证码&＃xff1a;

从左到右依次是原图、二值化、去除干扰线的情况&＃xff0c;总体降噪的效果还是比较明显的。另外降噪可以多次执行&＃xff0c;比如我对上面的降噪后结果再进行依次降噪&＃xff0c;可以得到下面的效果&＃xff1a;

再进行识别得到了结果&＃xff1a;

另外&＃xff0c;从图片来看&＃xff0c;实际数据颜色明显和噪点干扰线不同&＃xff0c;根据这一点可以直接把噪点全部去除&＃xff0c;这里就不展开说了。

感谢大家转发关注

推荐阅读

list
使用Python爬虫技术从网页中提取图片链接的方法与示例

本篇文章将详细介绍如何通过Python编程语言来实现从指定网页上抓取图片链接的功能，并提供了一个实用的代码示例。 ... [详细]

蜡笔小新 2024-12-15 11:58:32
web
探讨GET与POST请求数据传输的最大容量

在Web开发领域，GET和POST是最常见的两种数据传输方法。本文将深入探讨这两种请求方式在不同环境下的数据传输能力及其限制。 ... [详细]

蜡笔小新 2024-12-15 12:05:33
list
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新 2024-12-12 10:47:15
io
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
io
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
jar
探讨HTML中的DIV样式难题

本文深入分析了HTML中常见的DIV样式问题，并提供了有效的解决策略。适合所有对Web前端开发感兴趣的读者。 ... [详细]

蜡笔小新 2024-12-17 15:26:54
c语言
PHP 中 preg_match 函数的 isU 修饰符详解

本文详细解析 PHP 中 preg_match 函数中 isU 修饰符的具体含义及其应用场景，帮助开发者更好地理解和使用正则表达式。 ... [详细]

蜡笔小新 2024-12-17 13:35:59
list
Python爬虫实战：51CTO学院IT课程数据抓取

本文将介绍如何利用Python爬虫技术抓取国内主流在线学习平台的数据，并以51CTO学院为例，进行详细的技术解析和实践操作。 ... [详细]

蜡笔小新 2024-12-17 11:53:33
list
深入分析十大PHP开发框架

随着PHP技术的发展，各类开发框架层出不穷，成为了开发者们热议的话题。本文将详细介绍并对比十款主流的PHP开发框架，旨在帮助开发者根据自身需求选择最合适的工具。 ... [详细]

蜡笔小新 2024-12-17 11:15:55
web
前端开发中的代码注释实践与规范

本文探讨了前端开发过程中代码注释的重要性，不仅有助于个人清晰地回顾自己的编程思路，还能促进团队成员之间的有效沟通。文章将详细介绍HTML、CSS及JavaScript中的注释使用方法，并提出一套实用的注释规范。 ... [详细]

蜡笔小新 2024-12-17 10:55:06
web
Scrapy：强大的Python爬虫框架

Scrapy是一个基于Python的高效网页爬取框架，利用Twisted异步网络库实现高效的网络通信。其架构设计精巧，包括核心组件如引擎、调度器、下载器等，旨在简化大规模数据抓取过程。 ... [详细]

蜡笔小新 2024-12-16 20:49:07
function
PHP中静态类与静态变量的应用差异探讨

本文深入探讨了PHP编程语言中静态类与静态变量的具体应用及其差异性，旨在帮助开发者更好地理解和运用这些概念，以提升代码质量和效率。 ... [详细]

蜡笔小新 2024-12-13 16:35:20
text
深入探讨PHP中的输出缓冲技术（Output Buffering）

本文深入解析了PHP中输出缓冲（Output Buffering）的原理及其在Web开发中的应用，特别是如何通过输出缓冲技术有效管理HTTP头部信息，提高代码的灵活性与健壮性。 ... [详细]

蜡笔小新 2024-12-12 10:37:27
bit
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
web
Node.js中子进程的创建与管理详解

本文深入探讨了Node.js中如何使用child_process模块来创建和管理子进程，包括exec、spawn和fork三种方法的具体应用及其实现细节。 ... [详细]

蜡笔小新 2024-12-04 15:24:12

何泳辰_439

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章