热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)

点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤万战自称不提刃,生来双眼篾群容。大家好,我是志斌~我们写的爬虫它实

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

万战自称不提刃,生来双眼篾群容。

大家好,我是志斌~

我们写的爬虫它实际是一种让计算机自动运行的程序,它并不具备主观的意识,无法根据网站验证码的要求来执行相关操作,从而被限制爬取。

所以,志斌今天来跟大家分享一下如何解决验证码反爬虫中的字符验证码反爬虫。

01

原理

字符验证码的反爬虫原理很简单,它利用数字、字母、汉字和标点符号等字符做成一张图片,用人类和计算机对这张图片视觉上的差异作为区分用户身份的依据。

随着当前社会识别技术的发展,字符验证码也也在不断的改进,它通过添加干扰线、添加噪点以及增加字符的黏连程度和旋转角度来增加机器识别的难度。

02

破解

志斌以下面这张验证码为例给大家讲一下如何用用图像识别的方式破解字符验证码。它

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

它有在线和离线两种方式,我们下面来分别进行介绍。

01

 离线破解

我们离线破解验证码主要是使用的PIL库和Pytesseract库,在使用Pytesseract库时,需要先安装Tesseract-OCR。

验证码识别一共分为这四步:

1. 灰度化

2. 二值化

3. 识别

首先使用PIL库将彩色图像转化成灰色的图像,代码如下:

from PIL import Image
im= Image.open('5.jpg')
imgry = im.convert('L')
imgry.save('gray-'+'5.jpg')

灰度化图像:

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

紧跟着二值化处理,让字符颜色跟背景颜色反差更为明显,代码如下:

threshold = 200
Table = []
for j in range(256):
if j Table.append(0)
else:
Table.append(1)
out = imgry.point(Table,'1')
out.save('123'+'5.jpg')

二值化图像:

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

尝试识别一下,代码如下:

import pytesseract
pytesseract.image_to_string(out)

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

02

 在线识别

其实字符验证码就是一张图片,我们可以借助百度AI来进行在线识别,之前的这篇文章已经介绍很详细,有兴趣的读者可以读一下这篇文章20行代码教你如何批量提取图片中文字,这里就不过多介绍了,直接展示代码:

from aip import AipOcr
APP_ID = '你的APP_ID'
API_KEY = '你的API_KEY'
SECRET_KEY = '你的SECRET_KEY'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
with open('5.jpg','rb') as f:
a = f.read()
client.basicGeneral(a)

03

制作验证码

在来跟大家分享一下如何用Python制作一款字符验证码,这样可以使得我们更好的学习它,代码如下:

from PIL import Image,ImageDraw,ImageFont
import random
def getRandomColor():
r = random.randint(0, 255)
g = random.randint(0, 255)
b = random.randint(0, 255)
return (r,g,b)
def getRandomStr():
num_random = str(random.randint(1,9))
random_upper_alpha = chr(random.randint(65,90))
random_char = random.choice([num_random,random_upper_alpha])
return random_char
image = Image.new('RGB',(120,40),(255,255,255))
draw = ImageDraw.Draw(image)
fOnt= ImageFont.truetype(r'K:\msyh.ttc',size=24)
for i in range(4):
draw.text((10+i*30,10),getRandomStr(),getRandomColor(),fOnt=font)
width = 120
height = 40
for i in range(5):
x1 = random.randint(0,width)
x2 = random.randint(0,width)
y1 = random.randint(0,height)
y2 = random.randint(0,height)
draw.line((x1,x2,y1,y2),fill=getRandomColor())
for i in range(20):
draw.point([random.randint(0,width),random.randint(0,height)],fill=getRandomColor())
x = random.randint(0,width)
y = random.randint(0,height)
draw.arc((x,y,x+5,y+5),0,90,fill=getRandomColor())
image.save('5.jpg')

04

小结

1. 本文详细介绍了字符验证码反爬虫的原理和破解方法,并教大家如何做一款自己的字符验证码。

2. 字符型验证码是一种比较常规的验证码反爬虫,破解方法较为简单,喜欢爬虫的读者可以一定要学会哟~

3. 本文仅供学习参考,不做它用。

——————— End ———————–

往期精彩文章推荐:

  • 手把手教你使用Python轻松打造淘宝主图视频生成神器

  • 手把手教你使用XPath爬取免费代理IP

  • 盘点Python网页开发轻量级框架Flask知识(下篇)

  • 盘点Python网页开发轻量级框架Flask知识(上篇)

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~


推荐阅读
  • 开机自启动的几种方式
    0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录,这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]
  • 全面解析JavaScript代码注释技巧与标准规范
    在Web前端开发中,JavaScript代码的可读性和维护性至关重要。本文将详细介绍如何有效地使用注释来提高代码的可读性,并探讨JavaScript代码注释的最佳实践和标准规范。通过合理的注释,开发者可以更好地理解和维护复杂的代码逻辑,提升团队协作效率。 ... [详细]
  • Java Socket 关键参数详解与优化建议
    Java Socket 的 API 虽然被广泛使用,但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数,如 backlog 参数,它用于控制服务器等待连接请求的队列长度。此外,还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响,并提供了优化建议,帮助开发者提升网络通信的稳定性和效率。 ... [详细]
  • 利用爬虫技术抓取数据,结合Fiddler与Postman在Chrome中的应用优化提交流程
    本文探讨了如何利用爬虫技术抓取目标网站的数据,并结合Fiddler和Postman工具在Chrome浏览器中的应用,优化数据提交流程。通过详细的抓包分析和模拟提交,有效提升了数据抓取的效率和准确性。此外,文章还介绍了如何使用这些工具进行调试和优化,为开发者提供了实用的操作指南。 ... [详细]
  • 本文详细介绍了一种利用 ESP8266 01S 模块构建 Web 服务器的成功实践方案。通过具体的代码示例和详细的步骤说明,帮助读者快速掌握该模块的使用方法。在疫情期间,作者重新审视并研究了这一未被充分利用的模块,最终成功实现了 Web 服务器的功能。本文不仅提供了完整的代码实现,还涵盖了调试过程中遇到的常见问题及其解决方法,为初学者提供了宝贵的参考。 ... [详细]
  • Flutter 2.* 路由管理详解
    本文详细介绍了 Flutter 2.* 中的路由管理机制,包括路由的基本概念、MaterialPageRoute 的使用、Navigator 的操作方法、路由传值、命名路由及其注册、路由钩子等。 ... [详细]
  • WinMain 函数详解及示例
    本文详细介绍了 WinMain 函数的参数及其用途,并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]
  • DAO(Data Access Object)模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法,它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]
  • IOS Run loop详解
    为什么80%的码农都做不了架构师?转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]
  • 深入解析HTML5字符集属性:charset与defaultCharset
    本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset,帮助开发者更好地理解和应用这些属性,以确保网页在不同环境下的正确显示。 ... [详细]
  • 本文介绍如何使用线段树解决洛谷 P1531 我讨厌它问题,重点在于单点更新和区间查询最大值。 ... [详细]
  • 微信公众号推送模板40036问题
    返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]
  • 在Delphi7下要制作系统托盘,只能制作一个比较简单的系统托盘,因为ShellAPI文件定义的TNotifyIconData结构体是比较早的版本。定义如下:1234 ... [详细]
  • 在JavaWeb开发中,文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件,都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件,该库提供了强大的文件解析和存储能力,能够高效地处理各种文件类型。此外,为了提高系统的安全性和稳定性,还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]
  • Hyperledger Fabric 1.4 节点 SDK 快速入门指南
    本文将详细介绍如何利用 Hyperledger Fabric 1.4 的 Node.js SDK 开发应用程序。通过最新版本的 Fabric Node.js SDK,开发者可以更高效地构建和部署基于区块链的应用,实现数据的安全共享和交易处理。文章将涵盖环境配置、SDK 安装、示例代码以及常见问题的解决方法,帮助读者快速上手并掌握核心功能。 ... [详细]
author-avatar
Viola大人
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有