热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python基础_python基础一Python的编码

篇首语:本文由编程笔记#小编为大家整理,主要介绍了python基础一------Python的编码相关的知识,希望对你有一定的参考价值。首先了解一下历史,但是本篇文章

篇首语:本文由编程笔记#小编为大家整理,主要介绍了python基础一 ------Python 的编码相关的知识,希望对你有一定的参考价值。


首先了解一下历史,但是本篇文章冗杂,如老太太裹脚布----------又臭又长


编码历史:    

    1. 计算机只能处理数字,文本文件只有转换为数字
    才能处理。8bit==1字节 所以一个字节能表示的最大的数就是255
    
    2. 美国人发明计算机。用英语,所有一个字节就表示了所有字符
    就是ASCII(一个字节) 编码就是美国人的标准编码
    
    3. 当中国人使用计算机时,需要表示中文字符,于是就发明了
    GB2312的编码格式,即用两个字节表示一个汉字。同理,其他语言国家
    也就创建了自己相应的编码。没有一个共同的标准,于是当不同语言用
    了不对应的编码就会产生乱码
    4.为统一标准,Unicode 编码出现了,所有语言统一到一套编码
        Unicode与ASCII 编码比较
            1)  字母A: ASCII 十进制65,二进制就是 0100 0001
                汉字中 ASCII表示不了 采用Unicode编码为20013 二进制:01001110 00101101
            2)  为计算机识别统一长度,所以A 前面位置补0 即 00000000 0100 0001
        标准就此统一
    5. 标准统一了,乱码问题解决了,但是Unicode编码长度较长,但计算机英文为主,
    若内容若全是英文,Unicode编码就比ASCII编码多一倍存储空间,同时传输也多一倍
    怎么解决呢?
    
    6.要是Unicode 编码可以变化就好了,于是UTF-8 出现了
    utf-8 中,字母一个字节,一个汉字3个字节,特别生僻的4-6个
    于是节约了空间和存储
    7,那么问题来了:计算机只认Unicode 编码
    utf-8 之间怎样转换的
    如图:
技术分享

 


    当需要被计算机识别时,就会加载到内存,此时采用的编码就必须是Unicode 编码
    当需要在网络中传输时,或者存储在文件中时,就采用UTF-8编码,为了节约空间成本
    所以就有了相互转化


python2 和python3 在Windows/Linux 上的编码转换    

python2:        


  在Windows:            

    1. 先来看看window 本身是什么编码
                import sys
                sys.getdefaultencoding()
                #out: "utf-8"
            2.    字符串全部英文
                s1= "abc" -->  type(s1):str
                s2 = u"abc" --> type(s2):Unicode
                    u""的意义:表示将后面的字符串以unicode格式存储
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功
            3.  当出现中文时:
                s1 = "你好"    --> GB2312编码。windows下
                s2 = u"你好"
                s1.encode("utf8")  报错
                s2.encode("utf8")  成功
                
                报错原因:
                    在内存中是以Unicode 进行编码的,但是
                s1 在传递过来时就是不是Unicode编码了(原因是存储浪费),而
                encode是将一个Unicode 对象转化为参数中的编码格式进行编码
                所以说 s2不会报错
                
                解决办法:
                    先将这个gb2312的编码转化为unicode编码的对象
                然后再转化为utf-8
                    s1.decode("gb2312").ecode("utf8")  成功  Windows下为"gb2312"
                    decode("xx")方法是将一个编码为"xx"的对象转化
                为Unicode对象        

  在Linux下:            

    1. 先来看看linux 本身是什么编码
                import sys
                sys.getdefaultencoding()
                #out: "ascii"            
            2.    字符串全部英文
                s1= "abc" -->  type(s1):str
                s2 = u"abc" --> type(s2):Unicode
                    u""的意义:表示将后面的字符串以unicode格式存储
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功
            3.  当出现中文时:
                s1 = "你好"    --> utf-8编码。Linux下 为啥不是ascii? 那ascii能表示中文吗?
            肯定是转化为了utf-8 了啊
                s2 = u"你好"
                s1.encode("utf8")  报错
                s2.encode("utf8")  成功
            解决办法:
                    先将这个utf-8的编码转化为unicode编码的对象
                然后再转化为utf-8
                    s1.decode("utf8").ecode("utf8")  成功  Linux下中文为"utf-8"
                等价于 s1 又转回去了,本身就是utf-8编码


python 3:      

  在python3 中,所有的str类型的都是Unicode 格式编码,可以直接encode为"utf-8"
        
        在Windows:
            1.    字符串全部英文
                s1= "abc" -->  type(s1):str
                s2 = u"abc" --> type(s2):Unicode
                    u""的意义:表示将后面的字符串以unicode格式存储
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功
            2.  当出现中文时:
                s1 = "你好"    --> Unicode编码。windows下
                s2 = u"你好"    ---> 没有必要这样写 ,不加u"",3也认为这就是Unicode
                s1.encode("utf8")  成功
                s2.encode("utf8")  成功  
        在Linux下: 跟在window 下一样      


 总结:    

谈谈 #-*-coding:UTF-8 -*-                

  python2与3 最大的区别:
                2 中当文件有中文出现时就必须在开头加上,而且汉字字符串必须加u""
            作用:
                  告知python 这个文件是按照utf-8格式编码的python就会按照这个编码进行解读,
                然后在内部进行Unicode转换
            为什么3中不用写:
                  3中Python都会将文件以Unicode进行解读
3
技术分享

技术分享

 














































































































推荐阅读
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 无损压缩算法专题——LZSS算法实现
    本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ... [详细]
  • web.py开发web 第八章 Formalchemy 服务端验证方法
    本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例,详细说明了对各字段的验证要求,包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 开发笔记:实验7的文件读写操作
    本文介绍了使用C++的ofstream和ifstream类进行文件读写操作的方法,包括创建文件、写入文件和读取文件的过程。同时还介绍了如何判断文件是否成功打开和关闭文件的方法。通过本文的学习,读者可以了解如何在C++中进行文件读写操作。 ... [详细]
  • 本文介绍了在CentOS上安装Python2.7.2的详细步骤,包括下载、解压、编译和安装等操作。同时提供了一些注意事项,以及测试安装是否成功的方法。 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • 笔记day2 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
author-avatar
卫宇欢试试
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有