HTTP1.1中CHUNKED编码解析

作者：咾爺們 | 来源：互联网 | 2023-05-16 21:40

HTTP1.1中CHUNKED编码解析一般HTTP通信时，会使用Content-Length头信息性来通知用户代理（通常意义上是浏览器）服务器发送的文档内容长度，该头信息定义于HTTP1.0

HTTP1.1中CHUNKED编码解析

一般HTTP通信时，会使用Content-Length头信息性来通知用户代理（通常意义上是浏览器）服务器发送的文档内容长度，该头信息定义于HTTP1.0协议RFC 1945 10.4章节中。浏览器接收到此头信息后，接受完Content-Length中定义的长度字节后开始解析页面，但如果服务端有部分数据延迟发送吗，则会出现浏览器白屏，造成比较糟糕的用户体验。

解决方案是在HTTP1.1协议中，RFC 2616中14.41章节中定义的Transfer-Encoding: chunked的头信息，chunked编码定义在3.6.1中，所有HTTP1.1 应用都支持此使用trunked编码动态的提供body内容的长度的方式。进行Chunked编码传输的HTTP数据要在消息头部设置：Transfer-Encoding: chunked表示Content Body将用chunked编码传输内容。根据定义，浏览器不需要等到内容字节全部下载完成,只要接收到一个chunked块就可解析页面.并且可以下载html中定义的页面内容,包括js,css,image等。

采用chunked编码有两种选择,一种是设定Server的IO buffer长度让Server自动flush buffer中的内容，另一种是手动调用IO中的flush函数。不同的语言IO中都有flush功能：

l php: ob_flush(); flush();

l perl: STDOUT->autoflush(1);

l java: out.flush();

l python: sys.stdout.flush()

l ruby: stdout.flush

采用HTTP1.1的Transfer-Encoding:chunked,并且把IO的buffer flush下来,以便浏览器更早的下载页面配套资源。当不能预先确定报文体的长度时，不可能在头中包含Content-Length域来指明报文体长度，此时就需要通过Transfer-Encoding域来确定报文体长度。

Chunked编码一般使用若干个chunk串连而成，最后由一个标明长度为0的chunk标示结束。每个chunk分为头部和正文两部分，头部内容指定下一段正文的字符总数（非零开头的十六进制的数字）和数量单位（一般不写,表示字节）.正文部分就是指定长度的实际内容，两部分之间用回车换行(CRLF)隔开。在最后一个长度为0的chunk中的内容是称为footer的内容，是一些附加的Header信息（通常可以直接忽略）。

上述解释过于官方，简而言之，chunked编码的基本方法是将大块数据分解成多块小数据，每块都可以自指定长度，其具体格式如下(BNF文法)：

Chunked-Body = *chunk //0至多个chunk

last-chunk //最后一个chunk

trailer //尾部

CRLF //结束标记符

chunk = chunk-size [ chunk-extension ] CRLF

chunk-data CRLF

chunk-size = 1*HEX

last-chunk = 1*("0") [ chunk-extension ] CRLF

chunk-extension= *( ";" chunk-ext-name [ "=" chunk-ext-val ] )

chunk-ext-name = token

chunk-ext-val = token | quoted-string

chunk-data = chunk-size(OCTET)

trailer = *(entity-header CRLF)

解释：

l Chunked-Body表示经过chunked编码后的报文体。报文体可以分为chunk, last-chunk，trailer和结束符四部分。chunk的数量在报文体中最少可以为0，无上限；

l 每个chunk的长度是自指定的，即，起始的数据必然是16进制数字的字符串，代表后面chunk-data的长度（字节数）。这个16进制的字符串第一个字符如果是“0”，则表示chunk-size为0，该chunk为last-chunk,无chunk-data部分。

l 可选的chunk-extension由通信双方自行确定，如果接收者不理解它的意义，可以忽略。

l trailer是附加的在尾部的额外头域，通常包含一些元数据（metadata, meta means "about information"），这些头域可以在解码后附加在现有头域之后

下面分析用ethereal抓包使用Firefox与某网站通信的结果（从头域结束符后开始）：

Address 0.......................... f

000c0 31

000d0 66 66 63 0d 0a ............... // ASCII码:1ffc/r/n, chunk-data数据起始地址为000d5

显然，“1ffc”为第一个chunk的chunk-size,转换为int为8188。由于1ffc后，马上就是CRLF,因此没有chunk-extension。chunk-data的起始地址为000d5, 计算可知下一块chunk的起始

地址为000d5+1ffc + 2=020d3，如下：

020d0 .. 0d 0a 31 66 66 63 0d 0a .... // ASCII码:/r/n1ffc/r/n

前一个0d0a是上一个chunk的结束标记符，后一个0d0a则是chunk-size和chunk-data的分隔符。

此块chunk的长度同样为8188, 依次类推，直到最后一块

100e0 0d 0a 31

100f0 65 61 39 0d 0a...... //ASII码：/r/n/1ea9/r/n

此块长度为0x1ea9 = 7849, 下一块起始为100f5 + 1ea9 + 2 = 11fa0,如下：

11fa0 30 0d 0a 0d 0a //ASCII码：0/r/n/r/n

“0”说明当前chunk为last-chunk, 第一个0d 0a为chunk结束符。第二个0d0a说明没有trailer部分，整个Chunk-body结束。

解码流程：

对chunked编码进行解码的目的是将分块的chunk-data整合恢复成一块作为报文体，同时记录此块体的长度。

RFC2616中附带的解码流程如下：(伪代码）

length := 0 //长度计数器置0

read chunk-size, chunk-extension (if any) and CRLF //读取chunk-size, chunk-extension和CRLF

while(chunk-size > 0 )

{ //表明不是last-chunk

read chunk-data and CRLF //读chunk-size大小的chunk-data,skip CRLF

append chunk-data to entity-body //将此块chunk-data追加到entity-body后

length := length + chunk-size

read chunk-size and CRLF //读取新chunk的chunk-size 和 CRLF

}

read entity-header //entity-header的格式为name:valueCRLF,如果为空即只有CRLF

while （entity-header not empty) //即，不是只有CRLF的空行

{

append entity-header to existing header fields

read entity-header

}

Content-Length:=length //将整个解码流程结束后计算得到的新报文体length，作为Content-Length域的值写入报文中

Remove "chunked" from Transfer-Encoding //同时从Transfer-Encoding中域值去除chunked这个标记

length最后的值实际为所有chunk的chunk-size之和，在上面的抓包实例中，一共有八块chunk-size为0x1ffc(8188)的chunk,剩下一块为0x1ea9(7849),加起来一共73353字节。
注：对于上面例子中前几个chunk的大小都是8188,可能是因为:"1ffc" 4字节，""r"n"2字节，加上块尾一个""r"n"2字节一共8字节，因此一个chunk整体为8196,正好可能是发送端一次TCP发送的缓存大小。

最后提供一段PHP版本的chunked解码代码：

$chunk_size = (integer)hexdec(fgets( $socket_fd, 4096 ) );

while(!feof($socket_fd) && $chunk_size > 0)

{

$bodyContent .= fread( $socket_fd, $chunk_size );

fread( $socket_fd, 2 ); // skip /r/n
$chunk_size = (integer)hexdec(fgets( $socket_fd, 4096 ) );

}

其C语言的解码如下，java思路相同

int nBytes;

char* pStart = a; // a中存放待解码的数据

char* pTemp;

char strlength[10]; //一个chunk块的长度

chunk : pTemp =strstr(pStart,"/r/n");

if(NULL==pTemp)

{

free(a);

a=NULL;

fclose(fp);

return -1;

}

length=pTemp-pStart;

COPY_STRING(strlength,pStart,length);

pStart=pTemp+2;

nBytes=Hex2Int(strlength); //得到一个块的长度，并转化为十进制

if(nBytes==0)//如果长度为0表明为最后一个chunk

{

free(a);

fclose(fp);

return 0;

}

fwrite(pStart,sizeof(char),nBytes,fp);//将nBytes长度的数据写入文件中

pStart=pStart+nBytes+2; //跳过一个块的数据以及数据之后两个字节的结束符

fflush(fp);

goto chunk; //goto到chunk继续处理

如何将一个十进制数转化为十六进制

char *buf = (char *)malloc(100);

char *d = buf;

int shift = 0;

unsigned long copy = 123445677;

while (copy) {

copy >>= 4;

shift++;

}//首先计算转化为十六进制后的位数

if (shift == 0)

shift++;

shift <<= 2; //将位数乘于4，如果有两位的话 shift为8

while (shift > 0) {

shift -= 4;

*(buf) = hex_chars[(123445677 >> shift) & 0x0F];

buf++;

}

*buf = '/0';

推荐阅读

client
Thrift教程初级篇——RPC框架Thrift的安装环境变量配置与第一个实例

本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例，讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快，性能和稳定性也不错，适合初学者学习和使用。 ... [详细]

蜡笔小新 2023-12-13 17:36:52
python
JavaScript简介及语言特点

本文介绍了JavaScript的起源和发展历程，以及其在前端验证和服务器端开发中的应用。同时，还介绍了ECMAScript标准、DOM对象和BOM对象的作用及特点。最后，对JavaScript作为解释型语言和编译型语言的区别进行了说明。 ... [详细]

蜡笔小新 2023-12-10 17:45:49
perl
为什么设计师创造的编程语言更受欢迎？

导读：在编程的世界里，语言纷繁多样，而大部分真正广泛流行的语言并不是那些学术界的产物，而是在通过自由发挥设计出来的。和那些 ... [详细]

蜡笔小新 2023-10-17 15:22:41
perl
AJAX的POST请求及实现数据修改功能的方法

本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术，可以实现在输入某个id后，通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用，以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况，并解释了JavaScript等待服务器响应的机制。 ... [详细]

蜡笔小新 2023-12-14 16:12:01
object
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
import
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
client
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新 2023-12-13 15:50:17
import
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
import
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15
import
gitlab重置password

ruby没怎么学，自己搭建的gitlab的rootpassword又忘了。幸好看见此帖子，试验okhttp:roland.kierkels.netgitreset-your-git ... [详细]

蜡笔小新 2023-10-17 22:22:07
jar
Java消息队列Spring整合ActiveMq我是小强zz

1、概述首先和大家一起回顾一下Java消息服务，在我之前的博客《Java消息队列-JMS概述》中，我为大家分析了：然后在另一篇博客《Java消息队列-ActiveMq实战》中 ... [详细]

蜡笔小新 2023-10-17 10:34:08
jar
this prototype 闭包总结

this对象整理下思路：一般用到this中的情景：1.构造方法中functionA(){this.nameyinshen;}varanewA() ... [详细]

蜡笔小新 2023-10-16 13:42:47
copy
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
python
Python连接服务器失败：使用aiohttp模拟服务器出现错误问题及解决方法

本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题，并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息，同时也提到了相关的警告信息和函数的替代方案。通过阅读本文，读者可以了解到如何解决Python连接服务器失败的问题，并对aiohttp模块有更深入的了解。 ... [详细]

蜡笔小新 2023-12-13 12:37:59
import
python+selenium十：selenium的二次封装

python+selenium十：基于原生selenium的二次封装fromseleniumimportwebdriverfromselenium.webdriv ... [详细]

蜡笔小新 2023-10-17 17:28:31

咾爺們

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章