当前位置: 开发笔记 > 编程语言 > 正文

zipfile解压文件名乱码

作者：手机用户2502894761 | 来源：互联网 | 2023-08-18 18:13

zipfile中文文件名解压乱码上传文件功能模块需求及BUG现象：环境macdjango1.11.13python3.6功能需求：上传一个.zip格式的压缩文件

zipfile 中文文件名解压乱码

上传文件功能模块需求及BUG现象：

环境

mac

django 1.11.13

python 3.6

功能需求：

上传一个.zip格式的压缩文件

解压该test.zip压缩文件

解压zip文件时，遍历其目录下所有子文件，同时计算出单个子文件的有效代码行数

这时，发现解压后的子文件名中文出现乱码，如下图：

BUG截图

解决思路

1、解压过程中，发现解压的文件内容正常；

2、使用的是第三方库zipfile模块，因为第1步得到正常的文件内容，本地业务逻辑可先不排查；

3、首先检查zipfile的源码中，针对编码/解码的执行过程仔细排查发现：

zipfile中根据文件 flag 检测的时候，只支持 cp437 和 utf-8

找到下面两处，并追加修正后，乱码现象解决：（追加的decode编码可根据实际情况修改，如win环境下乱码采用.decode('gbk')）

# zipfile.py

# 第一处
if flags & 0x800:
    # UTF-8 file names extension
    filename = filename.decode('utf-8')
else:
    # Historical ZIP filename encoding
    filename = filename.decode('cp437')
    # 追加此句
    filename = filename.encode("cp437").decode('utf-8')

# 第二处
if zinfo.flag_bits & 0x800:
    # UTF-8 filename
    fname_str = fname.decode("utf-8")
else:
    fname_str = fname.decode("cp437")
        # 追加此句
    fname_str = fname_str.encode("cp437").decode('utf-8')

解决后，正常显示：

上传功能源码

import zipfile

# 指定想要统计的文件类型
whitelist = ['py']


# 遍历文件, 递归遍历文件夹中的所有
def getFile(basedir):
    
    # 存储上传解压后的文件列表

    filelists = []
    for parent, dirnames, filenames in os.walk(basedir):
        # for dirname in dirnames:
        #    getFile(os.path.join(parent,dirname)) #递归
        for filename in filenames:
            ext = filename.split('.')[-1]
            # 只统计指定的文件类型，略过一些log和cache文件
            if ext in whitelist:
                filelists.append(os.path.join(parent, filename))


# 统计一个文件的行数
def countLine(fname):
    count = 0
    single_quotes_flag = False
    double_quotes_flag = False
    with open(fname, 'rb') as f:
        for file_line in f:
            file_line = file_line.strip()
            # print(file_line)
            # 空行
            if file_line == b'':
                pass

            # 注释 # 开头
            elif file_line.startswith(b'#'):
                pass

            # 注释 单引号 ''' 开头
            elif file_line.startswith(b"'''") and not single_quotes_flag:
                single_quotes_flag = True
            # 注释 中间 和 ''' 结尾
            elif single_quotes_flag == True:
                if file_line.endswith(b"'''"):
                    single_quotes_flag = False

            # 注释 双引号 """ 开头
            elif file_line.startswith(b'"""') and not double_quotes_flag:
                double_quotes_flag = True
            # 注释 中间 和 """  结尾
            elif double_quotes_flag == True:
                if (file_line.endswith(b'"""')):
                    double_quotes_flag = False

            # 代码
            else:
                count += 1

        # print(fname + '----', count)
        #   单个文件行数
        print(fname, '----count:', count)
        return count


def un_zip(file_name):
    """unzip zip file"""
    zip_file = zipfile.ZipFile(file_name)
    # 
    if os.path.isdir(file_name + "_files"):
        pass
    else:
        os.mkdir(file_name + "_files")
    for names in zip_file.namelist():
        zip_file.extract(names, file_name + "_files/")
    # 遍历解压后得到的文件夹, 递归遍历文件夹中的所有子文件
    getFile(file_name + "_files")
    totalline = 0
    # 遍历解压后的文件列表，统计单个文件的行数并汇总
    for filelist in filelists:
        totalline = totalline + countLine(filelist)
    zip_file.close()
    # 返回上传文件所有子文件的总行数
    return totalline

补充：上传业务逻辑代码

class Uploading(View):

    def get(self, request):
        return render(request, "uploading.html", )

    def post(self, request):
        # 1、拿到压缩文件对象file_obj
        file_obj = request.FILES.get("user_file")
        file_name = os.path.join(file_dir, file_obj.name)
        file_size = file_obj.size
        with open(file_name, "wb") as f:
            for line in file_obj.chunks():
                f.write(line)

        # 2、解压压缩文件,并获取代码行数属性
        total_line = un_zip(file_name)
        # 3、单个文件进行文件对象实例化，文件名，文件大小，代码行数
        models.FileObj.objects.create(
            fileName=file_obj.name,
            fileSize=file_size,
            fileLineCount=total_line
        )
        return redirect("/upload_file/")

优化需求

统计行数优化：mac环境解压文件时，系统会自动追加__MACOSX文件夹，为了不遍历此文件夹，需补充：

在getFIle函数中修改，即可：

# MAC环境下略过__MACOSX文件夹
        if "__MACOSX" in dirnames:
            pop_index = dirnames.index("__MACOSX")
            dirnames.pop(pop_index)

优化后，得到我们需要的结果：

（完）

推荐阅读

ip
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
header
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
const
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
const
Vue项目中结合Element UI解决连续上传多张图片及图片编辑问题

本文介绍了在Vue项目中如何结合Element UI解决连续上传多张图片及图片编辑的问题。作者强调了在编码前要明确需求和所需要的结果，并详细描述了自己的代码实现过程。 ... [详细]

蜡笔小新 2023-12-13 13:42:30
const
手机移动端HTML5和JavaScript如何实现视频上传和压缩视频质量？

本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量，或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频，只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量，只有使用JAVA编写Android客户端才能实现压缩。此外，作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因，并提供了解决方法。最后，作者还介绍了一个用于处理图片的类，可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]

蜡笔小新 2023-12-12 15:58:44
ip
突破MIUI14限制，自定义胶囊图标、大图标样式，支持任意APP

本文介绍了如何突破MIUI14的限制，实现自定义胶囊图标和大图标样式，并支持任意APP。需要一定的动手能力和主题设计师账号权限或者会主题pojie。详细步骤包括应用包名获取、素材制作和封包获取等。 ... [详细]

蜡笔小新 2023-12-12 12:07:16
io
MVC设计模式的介绍和演化过程

本文介绍了MVC设计模式的基本概念和原理，以及在实际项目中的演化过程。通过分离视图、模型和控制器，实现了代码的解耦和重用，提高了项目的可维护性和可扩展性。详细讲解了分离视图、分离模型和分离控制器的具体步骤和规则，以及它们在项目中的应用。同时，还介绍了基础模型的封装和控制器的命名规则。该文章适合对MVC设计模式感兴趣的读者阅读和学习。 ... [详细]

蜡笔小新 2023-12-11 14:58:14
const
使用nodejs爬取b站番剧数据，计算最佳追番推荐

本文介绍了如何使用nodejs爬取b站番剧数据，并通过计算得出最佳追番推荐。通过调用相关接口获取番剧数据和评分数据，以及使用相应的算法进行计算。该方法可以帮助用户找到适合自己的番剧进行观看。 ... [详细]

蜡笔小新 2023-12-14 20:44:52
int
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
ip
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
int
31.项目部署

目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ... [详细]

蜡笔小新 2023-12-12 12:15:41
fetch
git常用命令及其操作详解

本文详细介绍了git常用命令及其操作方法，包括查看、添加、提交、删除、找回等操作，以及如何重置修改文件、抛弃工作区修改、将工作文件提交到本地暂存区、从版本库中删除文件等。同时还介绍了如何从暂存区恢复到工作文件、恢复最近一次提交过的状态，以及如何合并多个操作等。 ... [详细]

蜡笔小新 2023-12-11 20:28:11
io
Android中的assets目录和raw目录的区别和用法

本文介绍了Android中的assets目录和raw目录的共同点和区别，包括获取资源的方法、目录结构的限制以及列出资源的能力。同时，还解释了raw目录中资源文件生成的ID，并说明了这些目录的使用方法。 ... [详细]

蜡笔小新 2023-12-11 12:26:25
ip
《JavaScript高等顺序设计》进修笔记：JavaScript中的事宜流和事宜处置惩罚顺序

JavaScript和HTML之间的交互是经由过程事宜完成的。事宜：文档或浏览器窗口中发作的一些特定的交互霎时。能够运用侦听器（或处置惩罚递次来预订事宜），以便事宜发作时实行相应的 ... [详细]

蜡笔小新 2023-12-11 11:40:52
ip
介绍一个免费的具备数据显示/录入/更新/删除功能的asp.net控件

本文介绍了一个免费的asp.net控件，该控件具备数据显示、录入、更新、删除等功能。它比datagrid更易用、更实用，同时具备多种功能，例如属性设置、数据排序、字段类型格式化显示、密码字段支持、图像字段上传和生成缩略图等。此外，它还提供了数据验证、日期选择器、数字选择器等功能，以及防止注入攻击、非本页提交和自动分页技术等安全性和性能优化功能。最后，该控件还支持字段值合计和数据导出功能。总之，该控件功能强大且免费，适用于asp.net开发。 ... [详细]

蜡笔小新 2023-12-11 09:41:26

手机用户2502894761

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章