【转载】字符编码笔记：ASCII，Uni…

作者：初吻给了烟200309 | 来源：互联网 | 2023-09-13 16:36

正文之前，我推荐阅读IBM中文编码的文章深入分析Java中的中文编码问题今天中午，我突然想搞清楚Unicode和UTF-8之间的关系，于是

正文之前&＃xff0c;我推荐阅读IBM中文编码的文章深入分析 Java 中的中文编码问题

今天中午&＃xff0c;我突然想搞清楚Unicode和UTF-8之间的关系&＃xff0c;于是就开始在网上查资料。

结果&＃xff0c;这个问题比我想象的复杂&＃xff0c;从午饭后一直看到晚上9点&＃xff0c;才算初步搞清楚。

下面就是我的笔记&＃xff0c;主要用来整理自己的思路。但是&＃xff0c;我尽量试图写得通俗易懂&＃xff0c;希望能对其他朋友有用。毕竟&＃xff0c;字符编码是计算机技术的基石&＃xff0c;想要熟练使用计算机&＃xff0c;就必须懂得一点字符编码的知识。

1. ASCII码

我们知道&＃xff0c;在计算机内部&＃xff0c;所有的信息最终都表示为一个二进制的字符串。每一个二进制位&＃xff08;bit&＃xff09;有0和1两种状态&＃xff0c;因此八个二进制位就可以组合出256种状态&＃xff0c;这被称为一个字节&＃xff08;byte&＃xff09;。也就是说&＃xff0c;一个字节一共可以用来表示256种不同的状态&＃xff0c;每一个状态对应一个符号&＃xff0c;就是256个符号&＃xff0c;从0000000到11111111。

上个世纪60年代&＃xff0c;美国制定了一套字符编码&＃xff0c;对英语字符与二进制位之间的关系&＃xff0c;做了统一规定。这被称为ASCII码&＃xff0c;一直沿用至今。

ASCII码一共规定了128个字符的编码&＃xff0c;比如空格"SPACE"是32&＃xff08;二进制00100000&＃xff09;&＃xff0c;大写的字母A是65&＃xff08;二进制01000001&＃xff09;。这128个符号&＃xff08;包括32个不能打印出来的控制符号&＃xff09;&＃xff0c;只占用了一个字节的后面7位&＃xff0c;最前面的1位统一规定为0。

2、非ASCII编码

英语用128个符号编码就够了&＃xff0c;但是用来表示其他语言&＃xff0c;128个符号是不够的。比如&＃xff0c;在法语中&＃xff0c;字母上方有注音符号&＃xff0c;它就无法用ASCII码表示。于是&＃xff0c;一些欧洲国家就决定&＃xff0c;利用字节中闲置的最高位编入新的符号。比如&＃xff0c;法语中的é的编码为130&＃xff08;二进制10000010&＃xff09;。这样一来&＃xff0c;这些欧洲国家使用的编码体系&＃xff0c;可以表示最多256个符号。

但是&＃xff0c;这里又出现了新的问题。不同的国家有不同的字母&＃xff0c;因此&＃xff0c;哪怕它们都使用256个符号的编码方式&＃xff0c;代表的字母却不一样。比如&＃xff0c;130在法语编码中代表了é&＃xff0c;在希伯来语编码中却代表了字母Gimel (ג)&＃xff0c;在俄语编码中又会代表另一个符号。但是不管怎样&＃xff0c;所有这些编码方式中&＃xff0c;0--127表示的符号是一样的&＃xff0c;不一样的只是128--255的这一段。

至于亚洲国家的文字&＃xff0c;使用的符号就更多了&＃xff0c;汉字就多达10万左右。一个字节只能表示256种符号&＃xff0c;肯定是不够的&＃xff0c;就必须使用多个字节表达一个符号。比如&＃xff0c;简体中文常见的编码方式是GB2312&＃xff0c;使用两个字节表示一个汉字&＃xff0c;所以理论上最多可以表示256x256&＃61;65536个符号。

中文编码的问题需要专文讨论&＃xff0c;这篇笔记不涉及。这里只指出&＃xff0c;虽然都是用多个字节表示一个符号&＃xff0c;但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。

3.Unicode

正如上一节所说&＃xff0c;世界上存在着多种编码方式&＃xff0c;同一个二进制数字可以被解释成不同的符号。因此&＃xff0c;要想打开一个文本文件&＃xff0c;就必须知道它的编码方式&＃xff0c;否则用错误的编码方式解读&＃xff0c;就会出现乱码。为什么电子邮件常常出现乱码&＃xff1f;就是因为发信人和收信人使用的编码方式不一样。

可以想象&＃xff0c;如果有一种编码&＃xff0c;将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码&＃xff0c;那么乱码问题就会消失。这就是Unicode&＃xff0c;就像它的名字都表示的&＃xff0c;这是一种所有符号的编码。

Unicode当然是一个很大的集合&＃xff0c;现在的规模可以容纳100多万个符号。每个符号的编码都不一样&＃xff0c;比如&＃xff0c;U&＃43;0639表示阿拉伯字母Ain&＃xff0c;U&＃43;0041表示英语的大写字母A&＃xff0c;U&＃43;4E25表示汉字"严"。具体的符号对应表&＃xff0c;可以查询unicode.org&＃xff0c;或者专门的汉字对应表。

4. Unicode的问题

需要注意的是&＃xff0c;Unicode只是一个符号集&＃xff0c;它只规定了符号的二进制代码&＃xff0c;却没有规定这个二进制代码应该如何存储。

比如&＃xff0c;汉字"严"的unicode是十六进制数4E25&＃xff0c;转换成二进制数足足有15位&＃xff08;100111000100101&＃xff09;&＃xff0c;也就是说这个符号的表示至少需要2个字节。表示其他更大的符号&＃xff0c;可能需要3个字节或者4个字节&＃xff0c;甚至更多。

这里就有两个严重的问题&＃xff0c;第一个问题是&＃xff0c;如何才能区别Unicode和ASCII&＃xff1f;计算机怎么知道三个字节表示一个符号&＃xff0c;而不是分别表示三个符号呢&＃xff1f;第二个问题是&＃xff0c;我们已经知道&＃xff0c;英文字母只用一个字节表示就够了&＃xff0c;如果Unicode统一规定&＃xff0c;每个符号用三个或四个字节表示&＃xff0c;那么每个英文字母前都必然有二到三个字节是0&＃xff0c;这对于存储来说是极大的浪费&＃xff0c;文本文件的大小会因此大出二三倍&＃xff0c;这是无法接受的。

它们造成的结果是&＃xff1a;1&＃xff09;出现了Unicode的多种存储方式&＃xff0c;也就是说有许多种不同的二进制格式&＃xff0c;可以用来表示Unicode。2&＃xff09;Unicode在很长一段时间内无法推广&＃xff0c;直到互联网的出现。

5.UTF-8

互联网的普及&＃xff0c;强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16&＃xff08;字符用两个字节或四个字节表示&＃xff09;和UTF-32&＃xff08;字符用四个字节表示&＃xff09;&＃xff0c;不过在互联网上基本不用。重复一遍&＃xff0c;这里的关系是&＃xff0c;UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点&＃xff0c;就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号&＃xff0c;根据不同的符号而变化字节长度。

UTF-8的编码规则很简单&＃xff0c;只有二条&＃xff1a;

1&＃xff09;对于单字节的符号&＃xff0c;字节的第一位设为0&＃xff0c;后面7位为这个符号的unicode码。因此对于英语字母&＃xff0c;UTF-8编码和ASCII码是相同的。

2&＃xff09;对于n字节的符号&＃xff08;n>1&＃xff09;&＃xff0c;第一个字节的前n位都设为1&＃xff0c;第n&＃43;1位设为0&＃xff0c;后面字节的前两位一律设为10。剩下的没有提及的二进制位&＃xff0c;全部为这个符号的unicode码。

下表总结了编码规则&＃xff0c;字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式
(十六进制) | &＃xff08;二进制&＃xff09;
--------------------&＃43;---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下面&＃xff0c;还是以汉字"严"为例&＃xff0c;演示如何实现UTF-8编码。

已知"严"的unicode是4E25&＃xff08;100111000100101&＃xff09;&＃xff0c;根据上表&＃xff0c;可以发现4E25处在第三行的范围内&＃xff08;0000 0800-0000 FFFF&＃xff09;&＃xff0c;因此"严"的UTF-8编码需要三个字节&＃xff0c;即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后&＃xff0c;从"严"的最后一个二进制位开始&＃xff0c;依次从后向前填入格式中的x&＃xff0c;多出的位补0。这样就得到了&＃xff0c;"严"的UTF-8编码是"11100100 10111000 10100101"&＃xff0c;转换成十六进制就是E4B8A5。

6. Unicode与UTF-8之间的转换

通过上一节的例子&＃xff0c;可以看到"严"的Unicode码是4E25&＃xff0c;UTF-8编码是E4B8A5&＃xff0c;两者是不一样的。它们之间的转换可以通过程序实现。

在Windows平台下&＃xff0c;有一个最简单的转化方法&＃xff0c;就是使用内置的记事本小程序Notepad.exe。打开文件后&＃xff0c;点击"文件"菜单中的"另存为"命令&＃xff0c;会跳出一个对话框&＃xff0c;在最底部有一个"编码"的下拉条。

里面有四个选项&＃xff1a;ANSI&＃xff0c;Unicode&＃xff0c;Unicode big endian 和 UTF-8。

1&＃xff09;ANSI是默认的编码方式。对于英文文件是ASCII编码&＃xff0c;对于简体中文文件是GB2312编码&＃xff08;只针对Windows简体中文版&＃xff0c;如果是繁体中文版会采用Big5码&＃xff09;。

2&＃xff09;Unicode编码指的是UCS-2编码方式&＃xff0c;即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。

3&＃xff09;Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。

4&＃xff09;UTF-8编码&＃xff0c;也就是上一节谈到的编码方法。

选择完"编码方式"后&＃xff0c;点击"保存"按钮&＃xff0c;文件的编码方式就立刻转换好了。

7. Little endian和Big endian

上一节已经提到&＃xff0c;Unicode码可以采用UCS-2格式直接存储。以汉字"严"为例&＃xff0c;Unicode码是4E25&＃xff0c;需要用两个字节存储&＃xff0c;一个字节是4E&＃xff0c;另一个字节是25。存储的时候&＃xff0c;4E在前&＃xff0c;25在后&＃xff0c;就是Big endian方式&＃xff1b;25在前&＃xff0c;4E在后&＃xff0c;就是Little endian方式。

这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中&＃xff0c;小人国里爆发了内战&＃xff0c;战争起因是人们争论&＃xff0c;吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情&＃xff0c;前后爆发了六次战争&＃xff0c;一个皇帝送了命&＃xff0c;另一个皇帝丢了王位。

因此&＃xff0c;第一个字节在前&＃xff0c;就是"大头方式"&＃xff08;Big endian&＃xff09;&＃xff0c;第二个字节在前就是"小头方式"&＃xff08;Little endian&＃xff09;。

那么很自然的&＃xff0c;就会出现一个问题&＃xff1a;计算机怎么知道某一个文件到底采用哪一种方式编码&＃xff1f;

Unicode规范中定义&＃xff0c;每一个文件的最前面分别加入一个表示编码顺序的字符&＃xff0c;这个字符的名字叫做"零宽度非换行空格"&＃xff08;ZERO WIDTH NO-BREAK SPACE&＃xff09;&＃xff0c;用FEFF表示。这正好是两个字节&＃xff0c;而且FF比FE大1。

如果一个文本文件的头两个字节是FE FF&＃xff0c;就表示该文件采用大头方式&＃xff1b;如果头两个字节是FF FE&＃xff0c;就表示该文件采用小头方式。

8. 实例

下面&＃xff0c;举一个实例。

打开"记事本"程序Notepad.exe&＃xff0c;新建一个文本文件&＃xff0c;内容就是一个"严"字&＃xff0c;依次采用ANSI&＃xff0c;Unicode&＃xff0c;Unicode big endian 和 UTF-8编码方式保存。

然后&＃xff0c;用文本编辑软件UltraEdit中的"十六进制功能"&＃xff0c;观察该文件的内部编码方式。

1&＃xff09;ANSI&＃xff1a;文件的编码就是两个字节"D1 CF"&＃xff0c;这正是"严"的GB2312编码&＃xff0c;这也暗示GB2312是采用大头方式存储的。

2&＃xff09;Unicode&＃xff1a;编码是四个字节"FF FE 25 4E"&＃xff0c;其中"FF FE"表明是小头方式存储&＃xff0c;真正的编码是4E25。

3&＃xff09;Unicode big endian&＃xff1a;编码是四个字节"FE FF 4E 25"&＃xff0c;其中"FE FF"表明是大头方式存储。

4&＃xff09;UTF-8&＃xff1a;编码是六个字节"EF BB BF E4 B8 A5"&＃xff0c;前三个字节"EF BB BF"表示这是UTF-8编码&＃xff0c;后三个"E4B8A5"就是"严"的具体编码&＃xff0c;它的存储顺序与编码顺序是一致的。

9. 延伸阅读

* The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets&＃xff08;关于字符集的最基本知识&＃xff09;

* 谈谈Unicode编码

* RFC3629&＃xff1a;UTF-8, a transformation format of ISO 10646&＃xff08;如果实现UTF-8的规定&＃xff09;

&＃xff08;完&＃xff09;

文档信息

版权声明&＃xff1a;自由转载-非商用-非衍生-保持署名 | Creative Commons BY-NC-ND 3.0
原文网址&＃xff1a;http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
最后修改时间&＃xff1a;2013年9月 4日 09:29

汉字编码中现在主要用到的有三类&＃xff0c;包括GBK&＃xff0c;GB2312和Big5。

1、GB2312又称国标码&＃xff0c;由国家标准总局发布&＃xff0c;1981年5月1日实施&＃xff0c;通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范&＃xff0c;当然也包括其他的符号、字母、日文假名等&＃xff0c;共7445个图形字符&＃xff0c;其中汉字占6763个。我们平时说6768个汉字&＃xff0c;实际上里边有5个编码为空白&＃xff0c;所以总共有6763个汉字。

GB2312规定“对任意一个图形字符都采用两个字节表示&＃xff0c;每个字节均采用七位编码表示”&＃xff0c;习惯上称第一个字节为“高字节”&＃xff0c;第二个字节为“低字节”。GB2312中汉字的编码范围为&＃xff0c;第一字节0xB0-0xF7(对应十进制为176-247)&＃xff0c;第二个字节0xA0-0xFE&＃xff08;对应十进制为160-254&＃xff09;。

GB2312将代码表分为94个区&＃xff0c;对应第一字节&＃xff08;0xa1-0xfe&＃xff09;&＃xff1b;每个区94个位&＃xff08;0xa1-0xfe&＃xff09;&＃xff0c;对应第二字节&＃xff0c;两个字节的值分别为区号值和位号值加32&＃xff08;2OH&＃xff09;&＃xff0c;因此也称为区位码。01-09区为符号、数字区&＃xff0c;16-87区为汉字区&＃xff08;0xb0-0xf7&＃xff09;&＃xff0c;10-15区、88-94区是有待进一步标准化的空白区。

2、Big5又称大五码&＃xff0c;主要为香港与台湾使用&＃xff0c;即是一个繁体字编码。每个汉字由两个字节构成&＃xff0c;第一个字节的范围从0X81&＃xff0d;0XFE&＃xff08;即129-255&＃xff09;&＃xff0c;共126种。第二个字节的范围不连续&＃xff0c;分别为0X40&＃xff0d;0X7E&＃xff08;即64-126&＃xff09;&＃xff0c;0XA1&＃xff0d;0XFE&＃xff08;即161-254&＃xff09;&＃xff0c;共157种。

3、GBK是GB2312的扩展&＃xff0c;是向上兼容的&＃xff0c;因此GB2312中的汉字的编码与GBK中汉字的相同。另外&＃xff0c;GBK中还包含繁体字的编码&＃xff0c;它与Big5编码之间的关系我还没有弄明白&＃xff0c;好像是不一致的。GBK中每个汉字仍然包含两个字节&＃xff0c;第一个字节的范围是0x81-0xFE&＃xff08;即129-254&＃xff09;&＃xff0c;第二个字节的范围是0x40-0xFE&＃xff08;即64-254&＃xff09;。GBK中有码位23940个&＃xff0c;包含汉字21003个。

推荐几个网站&＃xff0c;专门介绍汉字与汉字计算机化的。

汉典&＃xff1a;http://www.zdic.net/

字体编辑常用中日韩汉子Unicode编码表&＃xff1a;http://www.chi2ko.com/tool/CJK.htm

汉Unicode同位码&＃xff1a;http://www.chi2ko.com/tool/hzuntwmdz.htm

IBM中文网-深入分析 Java 中的中文编码问题&＃xff1a;http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/

http://scripts.sil.org/Home
http://www.unicode.org/standard/standard.html
http://msdn.microsoft.com/en-us/library/dd318661(v&＃61;VS.85).aspx

1.国际标准化组织通过了一套ISO-8859-1的编码&＃xff0c;规定了单字节256个符号的编码方式。目前&＃xff0c;这是8位编码的国际标准。

2.Unicode编码中表示字节排列顺序的那个文件头&＃xff0c;叫做BOM&＃xff08;byte-order mark&＃xff09;&＃xff0c;FFFE和FEFF就是不同的BOM。

UTF-8文件的BOM是“EF BB BF”&＃xff0c;但是UTF-8的字节顺序是不变的&＃xff0c;因此这个文件头实际上不起作用。有一些编程语言是ISO-8859-1编码&＃xff0c;所以如果用UTF-8针对这些语言编程序&＃xff0c;就必须去掉BOM&＃xff0c;即保存成“UTF-8—无BOM”的格式才可以&＃xff0c;PHP语言就是这样。

关于使用ISO-8859-1&＃xff0c;我认为是因为&＃xff08;这不正是那篇对xml操作中出现的问题么&＃xff0c;通过url的方式扒到xml&＃xff0c;输出确实欧洲乱码&＃xff0c;用iso-8859-1转码就可以解决。&＃xff09;&＃xff1a;
“ISO-8859-1 字符集的编码范围是 0000-00FF&＃xff0c;正好和一个字节的编码范围相对应。这种特性保证了使用 ISO-8859-1 进行编码和解码可以保持编码数值“不变”。虽然中文字符在经过网络传输时&＃xff0c;被错误地“拆”成了两个欧洲字符&＃xff0c;但由于输出时也是用 ISO-8859-1&＃xff0c;结果被“拆”开的中文字的两半又被合并在一起&＃xff0c;从而又刚好组成了一个正确的汉字。”

具体可以看搜到的这篇blog&＃xff1a;
http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/

另外&＃xff0c;别的地方也提到了&＃xff1a;不要使用gb2312&＃xff0c;许多汉字在这个字符集里没有&＃xff0c;要用gbk或者是gb18030

>>> a&＃61;"严"
>>> a
&＃39;\xd1\xcf&＃39;
>>> str(a)
&＃39;\xd1\xcf&＃39;
>>> print str(a)
严
>>> print repr(a)
&＃39;\xd1\xcf&＃39;
>>> print repr(&＃39;1\n2&＃39;)
&＃39;1\n2&＃39;
>>> ord(&＃39;a&＃39;)
97

推荐阅读

io
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
sum
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
web
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
io
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
io
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
string
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
io
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
io
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
web
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
io
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
utf-8
Vue 开发技巧：实现数据过滤与排序功能详解

Vue 开发技巧：实现数据过滤与排序功能详解 ... [详细]

蜡笔小新 2024-11-11 16:43:09
string
2.2 组件间父子通信机制详解

2.2 组件间父子通信机制详解 ... [详细]

蜡笔小新 2024-11-11 14:58:09
io
深入解析Properties属性类及其应用

属性类 `Properties` 是 `Hashtable` 类的子类，用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入，支持字符串类型的键和值。通过 `Properties` 类，开发者可以方便地进行配置信息的管理，确保应用程序的灵活性和可维护性。此外，`Properties` 类还提供了加载和保存属性文件的方法，使其在实际开发中具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-11 13:55:43
io
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
string
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26

初吻给了烟200309

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章