热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)

点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤万战自称不提刃,生来双眼篾群容。大家好,我是志斌~我们写的爬虫它实

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

万战自称不提刃,生来双眼篾群容。

大家好,我是志斌~

我们写的爬虫它实际是一种让计算机自动运行的程序,它并不具备主观的意识,无法根据网站验证码的要求来执行相关操作,从而被限制爬取。

所以,志斌今天来跟大家分享一下如何解决验证码反爬虫中的字符验证码反爬虫。

01

原理

字符验证码的反爬虫原理很简单,它利用数字、字母、汉字和标点符号等字符做成一张图片,用人类和计算机对这张图片视觉上的差异作为区分用户身份的依据。

随着当前社会识别技术的发展,字符验证码也也在不断的改进,它通过添加干扰线、添加噪点以及增加字符的黏连程度和旋转角度来增加机器识别的难度。

02

破解

志斌以下面这张验证码为例给大家讲一下如何用用图像识别的方式破解字符验证码。它

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

它有在线和离线两种方式,我们下面来分别进行介绍。

01

 离线破解

我们离线破解验证码主要是使用的PIL库和Pytesseract库,在使用Pytesseract库时,需要先安装Tesseract-OCR。

验证码识别一共分为这四步:

1. 灰度化

2. 二值化

3. 识别

首先使用PIL库将彩色图像转化成灰色的图像,代码如下:

from PIL import Image
im= Image.open('5.jpg')
imgry = im.convert('L')
imgry.save('gray-'+'5.jpg')

灰度化图像:

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

紧跟着二值化处理,让字符颜色跟背景颜色反差更为明显,代码如下:

threshold = 200
Table = []
for j in range(256):
if j Table.append(0)
else:
Table.append(1)
out = imgry.point(Table,'1')
out.save('123'+'5.jpg')

二值化图像:

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

尝试识别一下,代码如下:

import pytesseract
pytesseract.image_to_string(out)

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

02

 在线识别

其实字符验证码就是一张图片,我们可以借助百度AI来进行在线识别,之前的这篇文章已经介绍很详细,有兴趣的读者可以读一下这篇文章20行代码教你如何批量提取图片中文字,这里就不过多介绍了,直接展示代码:

from aip import AipOcr
APP_ID = '你的APP_ID'
API_KEY = '你的API_KEY'
SECRET_KEY = '你的SECRET_KEY'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
with open('5.jpg','rb') as f:
a = f.read()
client.basicGeneral(a)

03

制作验证码

在来跟大家分享一下如何用Python制作一款字符验证码,这样可以使得我们更好的学习它,代码如下:

from PIL import Image,ImageDraw,ImageFont
import random
def getRandomColor():
r = random.randint(0, 255)
g = random.randint(0, 255)
b = random.randint(0, 255)
return (r,g,b)
def getRandomStr():
num_random = str(random.randint(1,9))
random_upper_alpha = chr(random.randint(65,90))
random_char = random.choice([num_random,random_upper_alpha])
return random_char
image = Image.new('RGB',(120,40),(255,255,255))
draw = ImageDraw.Draw(image)
fOnt= ImageFont.truetype(r'K:\msyh.ttc',size=24)
for i in range(4):
draw.text((10+i*30,10),getRandomStr(),getRandomColor(),fOnt=font)
width = 120
height = 40
for i in range(5):
x1 = random.randint(0,width)
x2 = random.randint(0,width)
y1 = random.randint(0,height)
y2 = random.randint(0,height)
draw.line((x1,x2,y1,y2),fill=getRandomColor())
for i in range(20):
draw.point([random.randint(0,width),random.randint(0,height)],fill=getRandomColor())
x = random.randint(0,width)
y = random.randint(0,height)
draw.arc((x,y,x+5,y+5),0,90,fill=getRandomColor())
image.save('5.jpg')

04

小结

1. 本文详细介绍了字符验证码反爬虫的原理和破解方法,并教大家如何做一款自己的字符验证码。

2. 字符型验证码是一种比较常规的验证码反爬虫,破解方法较为简单,喜欢爬虫的读者可以一定要学会哟~

3. 本文仅供学习参考,不做它用。

——————— End ———————–

往期精彩文章推荐:

  • 手把手教你使用Python轻松打造淘宝主图视频生成神器

  • 手把手教你使用XPath爬取免费代理IP

  • 盘点Python网页开发轻量级框架Flask知识(下篇)

  • 盘点Python网页开发轻量级框架Flask知识(上篇)

《字符型验证码反爬虫的原理和破解方法(附有字符验证码制作代码~)》

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~


推荐阅读
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • 本文介绍了在iOS开发中使用UITextField实现字符限制的方法,包括利用代理方法和使用BNTextField-Limit库的实现策略。通过这些方法,开发者可以方便地限制UITextField的字符个数和输入规则。 ... [详细]
  • Python使用Pillow包生成验证码图片的方法
    本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号,并添加干扰象素,生成一幅验证码图片。需要配置好Python环境,并安装Pillow库。代码实现包括导入Pillow包和随机模块,定义随机生成字母、数字和字体颜色的函数。 ... [详细]
  • 本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤,并提供了相关的命令和配置示例。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • C# 7.0 新特性:基于Tuple的“多”返回值方法
    本文介绍了C# 7.0中基于Tuple的“多”返回值方法的使用。通过对C# 6.0及更早版本的做法进行回顾,提出了问题:如何使一个方法可返回多个返回值。然后详细介绍了C# 7.0中使用Tuple的写法,并给出了示例代码。最后,总结了该新特性的优点。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • EzPP 0.2发布,新增YAML布局渲染功能
    EzPP发布了0.2.1版本,新增了YAML布局渲染功能,可以将YAML文件渲染为图片,并且可以复用YAML作为模版,通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片,让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子,介绍了使用ezpp的基本渲染方法,以及如何使用canvas、text类元素、自定义字体等。 ... [详细]
  • EPPlus绘制刻度线的方法及示例代码
    本文介绍了使用EPPlus绘制刻度线的方法,并提供了示例代码。通过ExcelPackage类和List对象,可以实现在Excel中绘制刻度线的功能。具体的方法和示例代码在文章中进行了详细的介绍和演示。 ... [详细]
author-avatar
Viola大人
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有