当前位置: 开发笔记 > 编程语言 > 正文

Python利用PaddleOCR制作个搜题小工具

作者：手机用户2502892757 | 来源：互联网 | 2023-05-19 15:47

PaddleOCR是一个基于百度飞桨的OCR工具库，单模型支持中英文数字组合识别、竖排文本识别、长文本识别。本文将利用PaddleOCR开发一个搜题小工具，感兴趣的可以了解一下

介绍

PaddleOCR 是一个基于百度飞桨的OCR工具库，包含总模型仅8.6M的超轻量级中文OCR，单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。

本教程将介绍PaddleOCR的基本使用方法以及如何使用它开发一个自动搜题的小工具。

项目地址

安装

虽然PaddleOCR支持服务端部署并提供识别API，但根据我们的需求，搭建一个本地离线的OCR识别环境，所以此次我们只介绍如何在本地安装并使用的做法。

安装PaddlePaddle飞桨框架

一、环境准备

1.1 目前飞桨支持的环境

Windows 7/8/10 专业版/企业版 (64bit)

GPU版本支持CUDA 10.1/10.2/11.0/11.2，且仅支持单卡

Python 版本 3.6+/3.7+/3.8+/3.9+ (64 bit)

pip 版本 20.2.2或更高版本 (64 bit)

二、安装命令

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

(注意此版本为CPU版本，如需GPU版本请查看PaddlePaddle文档)

安装完成后您可以使用 python 进入python解释器，输入import paddle ，再输入 paddle.utils.run_check()

如果出现PaddlePaddle is installed successfully!，说明您已成功安装。

安装PaddleOCR

pip install "paddleocr>=2.0.1" # 推荐使用2.0.1+版本

代码使用

安装完成后你可以使用以下代码来进行简单的功能测试

from paddleocr import PaddleOCR, draw_ocr

# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语，可以通过修改lang参数进行切换
# 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
# 选择你要识别的图片路径
img_path = '11.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)

# 显示结果
from PIL import Image

image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

结果是一个list，每个item包含了文本框，文字和识别置信度

[[[24.0, 36.0], [304.0, 34.0], [304.0, 72.0], [24.0, 74.0]], [&＃39;纯臻营养护发素&＃39;, 0.964739]]
[[[24.0, 80.0], [172.0, 80.0], [172.0, 104.0], [24.0, 104.0]], [&＃39;产品信息/参数&＃39;, 0.98069626]]
[[[24.0, 109.0], [333.0, 109.0], [333.0, 136.0], [24.0, 136.0]], [&＃39;（45元/每公斤，100公斤起订）&＃39;, 0.9676722]]
......

可视化效果

至此我们就掌握了 PaddleOCR 的基本使用，基于这个我们就能开发出一个OCR的搜题小工具了。

更多使用方法请参考

搜题小工具

现在有很多那种答题竞赛的小游戏，在限定时间内看谁答题正确率更高。或者现在一些单位会搞一些大练兵什么的竞赛，需要在网上答题，这个时候手动输入题目去搜索就很慢，效率也不会太高，所以我们就可以来写一个脚本，帮助我们完成搜题的过程。

基本思路就是通过ADB截取当前屏幕，然后剪切出题目所在位置，然后通过PaddleOCR来获取题目文字，之后打开搜索引擎搜索或者打开题库搜索。

安装ADB

你可以到这里下载安装ADB之后配置环境变量。

配置完环境变量后在终端输入adb,如果出现以下字符则证明adb安装完成。

Android Debug Bridge version 1.0.41
Version 31.0.3-7562133

截图并保存题目区域图片

import os
from PIL import Image

# 截图
def pull_screenshot():
    os.system('adb shell screencap -p /sdcard/screenshot.png')
    os.system('adb pull /sdcard/screenshot.png .')

img = Image.open("./screenshot.png")
# 切割问题区域
# (起始点的横坐标，起始点的纵坐标，宽度，高度）
question  = img.crop((10, 400, 1060, 1000))
# 保存问题区域
question.save("./question.png")

OCR识别，获取题目

ocr = PaddleOCR(use_angle_cls=False, 
                        lang="ch", 
                        show_log=False
                        )  # need to run only once to download and load model into memory
img_path = 'question.png'
result = ocr.ocr(img_path, cls=False)

# 获取题目文本
questiOnList= [line[1][0] for line in result]
text = ""
# 将数组转换为字符串
for str in questionList :
    text += str
print(text)

打开浏览器搜索

import webbrowser
webbrowser.open('https://baidu.com/s?wd=' + urllib.parse.quote(question))

之后你就可以查看搜索结果了

如果有题库，你还可以使用pyautogui来模拟鼠标键盘操作，去操作Word等软件在题库中进行搜索。

完整代码

# -*- coding: utf-8 -*-

# @Author  : Pu Zhiwei
# @Time    : 2021-09-02 20:29

from PIL import Image
import os
import matplotlib.pyplot as plt
from paddleocr import PaddleOCR, draw_ocr
import pyperclip
import pyautogui
import time
import webbrowser
import urllib.parse


# 鼠标位置
currentMouseX, currentMouseY = 60, 282

# 截图获取当前题目
def pull_screenshot():
    os.system('adb shell screencap -p /sdcard/screenshot.png')
    os.system('adb pull /sdcard/screenshot.png .')

# 移动鼠标到搜索框搜索
def MoveMouseToSearch():
    # duration 参数，移动时间，即用时0.1秒移动到对应位置
    pyautogui.moveTo(currentMouseX, currentMouseY, duration=0.1)
    # 左键点击
    pyautogui.click()
    pyautogui.click()
    # 模拟组合键，粘贴
    pyautogui.hotkey('ctrl', 'v')

# 扩充问题
def AddText(list, length, text):
    if length > 3:
        return text + list[3]
    else:
        return text
# 打开浏览器
def open_webbrowser(question):
    webbrowser.open('https://baidu.com/s?wd=' + urllib.parse.quote(question))


# 显示所识别的题目
def ShowAllQuestionText(list):
    text = ""
    for str in list:
        text += str
    print(text)



if __name__ == "__main__":
    while True:
        print("\n\n请将鼠标放在Word的搜索框上，三秒后脚本将自动获取Word搜索框位置！\n\n")
        # 延时三秒输出鼠标位置
        time.sleep(3)
        # 获取当前鼠标位置
        currentMouseX, currentMouseY = pyautogui.position()
        print('当前鼠标位置为: {0} , {1}'.format(currentMouseX, currentMouseY))
        start = input("按y键程序开始运行，按其他键重新获取搜索框位置：")
        if start == 'y':
            break

    while True:
        t = time.perf_counter()
        pull_screenshot()
        img = Image.open("./screenshot.png")
        # 切割问题区域
        # (起始点的横坐标，起始点的纵坐标，宽度，高度）
        question  = img.crop((10, 400, 1060, 1000))
        # 保存问题区域
        question.save("./question.png")


        # 加载 PaddleOCR
        # Paddleocr目前支持中英文、英文、法语、德语、韩语、日语，可以通过修改lang参数进行切换
        # 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。

        # 自定义模型地址
        # det_model_dir='./inference/ch_ppocr_server_v2.0_det_train', 
        #                rec_model_dir='./inference/ch_ppocr_server_v2.0_rec_pre',
        #                cls_model_dir='./inference/ch_ppocr_mobile_v2.0_cls_train',
        ocr = PaddleOCR(use_angle_cls=False, 
                        lang="ch", 
                        show_log=False
                        )  # need to run only once to download and load model into memory
        img_path = 'question.png'
        result = ocr.ocr(img_path, cls=False)

        questiOnList= [line[1][0] for line in result]
        length = len(questionList)
        text = ""
        if length <1:
            text = questionList[0]
        elif length == 2:
            text = questionList[1]
        else:
            text = questionList[1] + questionList[2]

        print('\n\n')
        ShowAllQuestionText(questionList)
        # 将结果写入剪切板
        pyperclip.copy(text)
        # 点击搜索
        MoveMouseToSearch()
        
        # 计算时间
        print('\n\n')
        end_time3 = time.perf_counter()
        print('用时: {0}'.format(end_time3 - t))
        
        go = input('输入回车继续运行,输入 e 打开浏览器搜索，输入 a 增加题目长度，输入 n 结束程序运行： ')
        if go == 'n':
            break
  
        if go == 'a':
            text = AddText(questionList, length, text)
            pyperclip.copy(text)
            # 点击搜索
            MoveMouseToSearch()
            stop = input("输入回车继续")
        elif go == 'e':
            # 打开浏览器
            open_webbrowser(text)
            stop = input("输入回车继续")

        print('\n------------------------\n\n')

到此这篇关于Python利用PaddleOCR制作个搜题小工具的文章就介绍到这了,更多相关Python PaddleOCR搜题工具内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

format
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
blob
利用PaddleSharp模块在C#中实现图像文字识别功能测试

PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库，适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能，并进行了全面的功能测试，验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]

蜡笔小新 2024-10-30 15:53:37
input
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
list
Android 图像色彩处理技术详解

本文详细探讨了 Android 平台上的图像色彩处理技术，重点介绍了如何通过模仿美图秀秀的交互方式，利用 SeekBar 实现对图片颜色的精细调整。文章展示了具体的布局设计和代码实现，帮助开发者更好地理解和应用图像处理技术。 ... [详细]

蜡笔小新 2024-10-31 18:45:41
list
稀疏直接法视觉里程计中的特征点优化：基于光度误差最小化的灰度图像线性插值技术

在稀疏直接法视觉里程计中，通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术，提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理，利用RGB-D传感器获取的3D坐标信息，在两帧图像之间实现精确匹配，有效减少了光度误差，提升了系统的鲁棒性和稳定性。 ... [详细]

蜡笔小新 2024-10-31 13:24:59
input
深入解析进程及其描述符（task_struct）

进程（Process）是指计算机中程序对特定数据集的一次运行活动，是系统资源分配与调度的核心单元，构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中，进程被视为程序的执行实例，其状态和控制信息通过任务描述符（task_struct）进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct，解析其在操作系统中的作用和实现机制。 ... [详细]

蜡笔小新 2024-10-31 10:54:55
java
深入解析Tomcat：开发者的实用指南

深入解析Tomcat：开发者的实用指南 ... [详细]

蜡笔小新 2024-10-31 09:46:02
list
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
java
MVVM架构~mvc,mvp,mvvm大话开篇

返回目录百度百科的定义：MVP是从经典的模式MVC演变而来，它们的基本思想有相通的地方：ControllerPresenter负责逻辑的处理，Model提供数据，View负责显示。作为一种新的模 ... [详细]

蜡笔小新 2024-10-30 09:25:56
list
深入解析 Android Drawable：第六阶段进阶指南

深入解析 Android Drawable：第六阶段进阶指南 ... [详细]

蜡笔小新 2024-10-29 18:15:57
list
不要急着丢弃旧手机：轻松改装成高效PC游戏性能监控工具

对于许多PC玩家来说，实时监控游戏过程中的硬件状态是一项常见需求，例如关注游戏帧率、CPU和GPU频率以及温度等关键指标。通常情况下，玩家会借助第三方软件将这些数据展示在屏幕的一角。然而，一种更为创新的方法是利用旧手机改装成高效的性能监控工具，不仅节省成本，还能提供更加便捷和直观的监控体验。通过简单的设置和应用程序安装，旧手机可以变成一个专门的硬件监控设备，实时显示各种重要信息，帮助玩家更好地优化游戏性能。 ... [详细]

蜡笔小新 2024-10-29 16:42:03
header
探索区块链扩展性：侧链技术的深度解析与应用

比特币的成功为区块链技术构建了可信货币的基石，标志着区块链1.0时代的到来。以太坊通过引入智能合约，极大地推动了去中心化应用的开发和普及，开启了区块链2.0时代。本文深入探讨了侧链技术在提升区块链扩展性方面的潜力和应用，分析了其在提高交易速度、降低成本和增强安全性等方面的优势，并讨论了当前面临的技术挑战和未来的发展方向。 ... [详细]

蜡笔小新 2024-10-29 11:24:32
ip
利用Redis HyperLogLog高效统计微博日活跃和月活跃用户数

本文探讨了如何利用Redis的HyperLogLog数据结构高效地统计微博平台的日活跃用户（DAU）和月活跃用户（MAU）数量。通过HyperLogLog的高精度和低内存消耗特性，可以实现对大规模用户数据的实时统计与分析，为平台运营提供有力的数据支持。 ... [详细]

蜡笔小新 2024-10-29 10:15:22
java
掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！

掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！ ... [详细]

蜡笔小新 2024-10-28 18:26:22
java
如何判断一个度序列能否构成简单图——哈维尔-哈基米算法的应用与解析

如何判断一个度序列能否构成简单图——哈维尔-哈基米算法的应用与解析 ... [详细]

蜡笔小新 2024-10-28 17:57:36