python使用PyPDF2库进行PDF基本操作

作者：三号天宫 | 来源：互联网 | 2023-09-17 01:17

#-*-codingutf-8-*-#@Time:202112610:09#@Author:Mr#@File:pdftest.py#@Software:PyCharmfromPyP

# -*- coding =utf-8 -*- # @Time : 2021/1/26 10:09 # @Author :Mr # @File :pdftest.py # @Software :PyCharm from PyPDF2 import PdfFileReader, PdfFileWriter import os # 创建输出文件目录 def mkdir(read_file_path, out_path=None): if out_path is None: out_path = (os.path.join(os.path.dirname(read_file_path), os.path.basename(read_file_path)[:-4].replace(" ", ""))) if not os.path.exists(out_path): # 判断是否存在文件夹如果不存在则创建为文件夹 # print("--- 创建新的文件夹... ---") os.makedirs(out_path) # makedirs 创建文件时如果路径不存在会创建这个路径 # print("--- OK ---") else: # print("--- 文件夹已存在! ---") pass return out_path # 切分每一页 def split_pdf(read_file_path, out_path=None): out_path = mkdir(read_file_path, out_path) pdfReader = PdfFileReader(read_file_path) for page in range(pdfReader.getNumPages()): pdf_writer = PdfFileWriter() pdf_writer.addPage(pdfReader.getPage(page)) pdf_name = f'{page}.pdf' pdf_file = os.path.join(out_path, pdf_name) with open(pdf_file, 'wb') as output_pdf: pdf_writer.write(output_pdf) return # PDF文件按条件分割 def split_by_pages(read_file_path, out_detail, out_path=None): out_path = mkdir(read_file_path, out_path) try: fp_read_file = open(read_file_path, 'rb') pdfReader = PdfFileReader(fp_read_file) # 将要分割的PDF内容格式话 page_count = pdfReader.getNumPages() # 获取PDF页数 print(page_count) # 打印页数 with open(out_detail, 'r', True, 'utf-8')as fp: # print(fp) txt = fp.readlines() # print(txt) for detail in txt: # 打开分割标准文件 # print(type(detail)) pages, write_file = detail.split() # 空格分组 print(pages, write_file) # write_file, write_ext = os.path.splitext(write_file) # 用于返回文件名和扩展名元组 pdf_file = f'{pages}页.pdf' pdf_files = os.path.join(out_path, pdf_file) print(pdf_files) # liststr=list(map(int, pages.split('-'))) # print(type(liststr)) start_page, end_page = list(map(int, pages.split('-'))) # 将字符串数组转换成整形数组 start_page -= 1 try: print(f'开始分割{start_page}页-{end_page}页，保存为{pdf_file}......') pdf_output = PdfFileWriter() # 实例一个 PDF文件编写器 for i in range(start_page, end_page): pdf_output.addPage(pdfReader.getPage(i)) with open(pdf_files, 'wb') as sub_fp: pdf_output.write(sub_fp) print(f'完成分割{start_page}页-{end_page}页，保存为{pdf_file}!') except IndexError: print(f'分割页数超过了PDF的页数') # fp.close() except Exception as e: print(e) finally: fp_read_file.close() return # 合并pdf def merge_pdfs(out_path=None, out_file='new', *read_file_paths): # print(type(read_file_path)) if not read_file_paths: print('请重新选择文件') else: read_file_path = read_file_paths[0] out_path = mkdir(read_file_path, out_path) pdf_name = f'{out_file}.pdf' output = os.path.join(out_path, pdf_name) pdf_writer = PdfFileWriter() for File in read_file_paths: # 依次循环打开要合并文件 pdfReader = PdfFileReader(open(File, 'rb')) numPages = pdfReader.getNumPages() for index in range(0, numPages): pageObj = pdfReader.getPage(index) pdf_writer.addPage(pageObj) # 把这个已合并了的PDF文档存储起来 with open(output, 'wb') as out: pdf_writer.write(out) return # 删除PDF页 def delete_pdf(read_file_path, index, out_path=None): out_path = mkdir(read_file_path, out_path) pdfReader = PdfFileReader(open(read_file_path, "rb")) pages = pdfReader.getNumPages() pdf_writer = PdfFileWriter() pdf_file = os.path.join(out_path, f'{os.path.basename(read_file_path)[:-4].replace(" ", "")}new.pdf') print(pdf_file) for page in range(pages): if page + 1 in index: continue pdf_writer.addPage(pdfReader.getPage(page)) with open(pdf_file, 'wb') as out: pdf_writer.write(out) return

推荐阅读

utf-8
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
python
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
object
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
object
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
include
短视频app源码，Android开发底部滑出菜单

短视频app源码，Android开发底部滑出菜单首先依赖三方库implementationandroidx.appcompat:appcompat:1.2.0im ... [详细]

蜡笔小新 2024-11-15 15:35:01
go
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
python
Python多进程高效读取超大文件的技巧

本文详细介绍了如何使用Python的多进程技术来高效地分块读取超大文件，并将其输出为多个文件。通过这种方式，可以显著提高读取速度和处理效率。 ... [详细]

蜡笔小新 2024-11-14 10:59:08
spring
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
include
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
python
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
spring
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
python
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
python
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
utf-8
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
web
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16

三号天宫

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章