当前位置: 开发笔记 > 编程语言 > 正文

gzip解压strpython_HTTP响应gzip+chunked分段压缩流的解压缩问题

作者：zongnaxxl240 | 来源：互联网 | 2023-09-05 17:18

一.问题阐述之前遇到这么一个问题：用原生Socket进行HTTP请求的时候,添加了请求头Accept-Encoding:gzip这个请求头表示的含义就是:返回的数据中

一.问题阐述

之前遇到这么一个问题&＃xff1a;

用原生 Socket 进行 HTTP 请求的时候,添加了请求头

Accept-Encoding: gzip

这个请求头表示的含义就是:返回的数据中会对响应体进行压缩,响应头不进行压缩&＃xff08;HTTP/1.1版&＃xff09;

如果服务器支持这种格式的压缩&＃xff0c;那么返回的数据会如下这种格式

// 响应头不会压缩 HTTP/1.1 200 OK Server: Apache-Coyote/1.1 Content-Encoding: gzip Content-Type: text/html;charset&＃61;UTF-8 Date: Wed, 20 Feb 2019 06:19:04 GMT// 响应体会进压缩 xxxxxxxxxx

服务器压缩的方式可能如下

public static byte[] compress(String str, String encoding) {if (str &＃61;&＃61; null || str.length() &＃61;&＃61; 0) {return null;}ByteArrayOutputStream out &＃61; new ByteArrayOutputStream();GZIPOutputStream gzip;try {gzip &＃61; new GZIPOutputStream(out);gzip.write(str.getBytes(encoding));//将字符串转为字节数组&＃xff0c;对字节数组进行压缩gzip.close();} catch (IOException e) {}return out.toByteArray();//返回压缩后的字节流}

正常情况下,如果请求头包含 gzip,响应时这种方式返回,那么在客户端接收到这种压缩的字节流&＃xff0c;只有用同样的压缩流进行解压处理就可以得到数据,并且通常响应头都会包含如下的相应头

Content-Encoding: gzip Content-Length: 13131

这表示返回的响应体是 gzip 格式的&＃xff0c;并且字节流长度为 13131

一般情况是这样

但是在这样一种情况,如果返回的数据很大,或者数据量不确定&＃xff08;如一些动态网页&＃xff09;,这个时候服务器就会选择对数据进行分段,并用一个16进制的数进行划分,表示一段的长度,如

HTTP/1.1 200 OK Server: Apache-Coyote/1.1 Content-Encoding: gzip Content-Type: text/html;charset&＃61;UTF-8 Transfer-Encoding: chunked // 分段的数据就会返回这个响应头 Date: Wed, 20 Feb 2019 06:19:04 GMTa3 // 16进制 xxxxx 5d9f xxxxx 0 // 以 0 为结尾

这就使得响应头包含 gzip 和 chunked 的数据是一段经过分段的压缩流,因此也就不能简单地使用 GZIPInputStream 对数据进行处理

二.解决方法

对返回的字节流进行一个代理处理

public class SegmentInputStream extends InputStream {private InputStream mInputStream; //需要处理的字节流private HashMap mHeaders; //响应头private boolean mChunked; //分段的标识private boolean mIsData; private boolean mEnd; //读取到末尾的标志即读取到长度为 0private long mReadLength &＃61; 0L;//当前读取到的长度private long mSegmentLength &＃61; -1L; //分段时&＃xff0c;每一段的长度public final boolean DEBUG &＃61; true;public SegmentInputStream(InputStream inputStream) throws IOException {mInputStream &＃61; inputStream;mHeaders &＃61; new HashMap<>();mChunked &＃61; false;mIsData &＃61; false;mEnd &＃61; false;parseHeaders(); //在构造函数的时候就先将响应头解析&＃xff0c;因为其没有压缩}public HashMap getHeaders() {return mHeaders;}//重写read 方法&＃xff0c;每次读的时候跳过分段的16 进制数字&＃64;Overridepublic int read() throws IOException {return !mChunked ? mInputStream.read() : readChunked();}private int readChunked() throws IOException {if (mEnd) {return -1;}int byteCode;if (mIsData) {byteCode &＃61; mInputStream.read();mReadLength&＃43;&＃43;;if (mReadLength &＃61;&＃61; mSegmentLength) {mIsData &＃61; false;mReadLength &＃61; 0L;mSegmentLength &＃61; -1L;}} // <<数据的部分读取完毕else {int endTag &＃61; 0;//回车字符标识一个 /n/r 就是一个回车byte[] buffer &＃61; new byte[1];ArrayList bytes &＃61; new ArrayList<>();while ((byteCode &＃61; mInputStream.read()) !&＃61; -1) {buffer[0] &＃61; (byte) byteCode;// 因为read(x,x,x)// 最后会调用read 所以是一个递归&＃xff0c;会栈溢出if (buffer[0] !&＃61; &＃39;r&＃39; && buffer[0] !&＃61; &＃39;n&＃39;) {bytes.add(buffer[0]);endTag &＃61; 0;} else {/* (buffer[0] &＃61;&＃61; &＃39;n&＃39; || buffer[0] &＃61;&＃61; &＃39;r&＃39;)*/endTag&＃43;&＃43;;if (endTag &＃61;&＃61; 2 && bytes.size() !&＃61; 0) {//四个字符就是有两个回车符&＃xff0c;响应头就终止byte[] resultByte &＃61; new byte[bytes.size()];for (int i &＃61; 0; i bytes &＃61; new ArrayList<>();while (read(buffer, 0, 1) !&＃61; -1) { //bytes.add(buffer[0]);if (buffer[0] &＃61;&＃61; &＃39;n&＃39; || buffer[0] &＃61;&＃61; &＃39;r&＃39;) {enterCount&＃43;&＃43;;if (enterCount &＃61;&＃61; 4) { //四个字符就是有两个回车符&＃xff0c;响应头就终止break;}} else {enterCount &＃61; 0;}}byte[] resultByte &＃61; new byte[bytes.size()];for (int i &＃61; 0; i




    
        
                        gzip
                        python
                        http
                        压缩
                        服务器
                        server
                        apache
                        text
                        html
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        数组
                        Android中如何获取网页源码？
                    

                    
                                                
                        技术点：1、通过已知的网页路径获得流2、把流转换成字节数组3、把字节数组转换成String字符串显示在TextView控件中一、获得流publicstaticSt ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-29 11:56:16
                    

                

                
                                
                    
                        ip
                        百度_音频转文字
                    

                    
                                                
                        手机49kbps转换比特率256Kpbs{‘corpus_no’:‘7045177033217452815’,‘err_msg’:‘success.’,‘err_no’:0,‘re ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-26 17:35:21
                    

                

                                
                    
                    
                
                
                                
                    
                        ip
                        ETC 纹理压缩和 Alpha 通道处理
                    

                    
                                                
                        转自：http:malideveloper.arm.comcndevelop-for-malisample-codeetcv1-texture-compression-and-alpha- ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-30 20:00:46
                    

                

                
                                
                    
                        ip
                        贴图的支持及设置:关于贴图分辨率的支持及设置的用户指南
                    

                    
                                                
                            
                        
                                                
                        http:hi.baidu.comdbfr2011818itemeef1eac8df31a2d69744520b贴图分辨率虚幻引擎3支持的贴图分辨率是从1x1到4096x4096 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-30 13:00:03
                    

                

                
                                
                    
                        ip
                        delphi控件大全
                    

                    
                                                
                            
                        
                                                
                        本文章已收录于：delphi控件查询：http:www.torry.nethttp:www.jrsoftware.orgTb97最有名的工具条(ToolBar) ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-30 11:49:36
                    

                

                
                                
                    
                        ip
                        JS动态生成表格案例
                    

                    
                                                
                        JS动态生成表格案例 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-30 10:33:54
                    

                

                
                                
                    
                        loops
                        Linux网络编程：自己动手写高性能HTTP服务器框架（二）
                    

                    
                                                
                        github：https:github.comfroghuiyolandaIO模型和多线程模型实现多线程设计的几个考虑在我们的设计中，mainre ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-29 11:22:09
                    

                

                
                                
                    
                        ip
                        UDP协议开发
                    

                    
                                                
                            
                        
                                                
                        UDP是用户数据报协议（UserDatagramProtocol，UDP）的简称，其主要作用是将网络数据流量压缩成数据报形式，提供面向事务的简单信息传送服务。与TCP协议不同，UD ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-28 17:00:36
                    

                

                
                                
                    
                        main
                        两种方式实现Flink异步IO查询Mysql
                    

                    
                                                
                            
                        
                                                
                        如官网所描述的Flink支持两种方式实现异步IO查询外部系统http ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-28 11:27:02
                    

                

                
                                
                    
                        char
                        org.assertj.core.api.AbstractCharSequenceAssert.hasSize()方法的使用及代码示例
                    

                    
                                                
                        本文整理了Java中org.assertj.core.api.AbstractCharSequenceAssert.hasSize()方法的一些代码示例，展示了 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-28 10:08:14
                    

                

                
                                
                    
                        char
                        再看ibatis Order By注入问题
                    

                    
                                                
                        接上文http:blog.itpub.net29254281viewspace-1318239领导让开发同学鼓捣一个可配置化的后台.又回到了原来的问题如果要灵活,很多参数要 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-27 19:50:41
                    

                

                
                                
                    
                        post
                        linux json 写sql注入,sql注入之json注入（php代码）
                    

                    
                                                
                            
                        
                                                
                        环境phpstudyphp服务端代码security数据库中的users表中的username，password字段用户名adminJSON服务端代码大家实际测试中注 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-27 19:45:58
                    

                

                
                                
                    
                        post
                        HttpClientDemo
                    

                    
                                                
                        post请求,携带json对象参数模拟获取tokenpublicstaticStringgetToken()throwsIOException{创建连接CloseableHttp ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-27 19:18:58
                    

                

                
                                
                    
                        main
                        socket8 [命名管道]
                    

                    
                                                
                            
                        
                                                
                        ::命名管道不但能实现同一台机器上两个进程通信，还能在网络中不同机器上的两个进程之间的通信机制。与邮槽不同，命名管道是采用基于连接并且可靠的传输方式，所以命名管道传输数据只能一对一 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-27 17:36:49
                    

                

                
                                
                    
                        process
                        Nginx代理实现跨域
                    

                    
                                                
                        #usernobody;worker_processes1;#error_loglogserror.log;#error_loglogserror.lognotice;#error ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-09-26 14:51:32

















    

    
        
            
            
                
                
            

            
                zongnaxxl240            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    chat
                
                                
                    cmd
                
                                
                    future
                
                                
                    audio
                
                                
                    process
                
                                
                    copy
                
                                
                    uml
                
                                
                    function
                
                                
                    lua
                
                                
                    input
                
                                
                    char
                
                                
                    frameworks
                
                                
                    javascript
                
                                
                    timestamp
                
                                
                    runtime
                
                                
                    controller
                
                                
                    search
                
                                
                    cookie
                
                                
                    cSharp
                
                                
                    replace
                
                                
                    testing
                
                                
                    flutter
                
                                
                    数组
                
                                
                    keyword
                
                                
                    timezone
                
                                
                    post
                
                                
                    main
                
                                
                    md5
                
                                
                    ip
                
                                
                    loops
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1界面GUI制作方法
                
                                
                    2合并多个单有序链表（假设都是递增的）
                
                                
                    3python入门基础三元表达式、命名空间、作用域、函数名本质、闭包
                
                                
                    4一张表中记录读取记录时游标定位的问题(rowSet.next())!~在线等...
                
                                
                    5《 有效的括号》算法日记 2021.7.12，每天一道算法题，怒刷Leetcode
                
                                
                    6shareSDK使用小总结（分享+第三方授权登陆）
                
                                
                    7开发笔记:什么鬼，面试官竟然让我用Redis实现一个消息队列！！？
                
                                
                    8淘宝API  item_get_pro获得淘宝商品详情高级版
                
                                
                    9啇字意思 在新华字典的读音解释笔画常用组词起名
                
                                
                    10有没有能够识别图片的开源程序？
                
                                
                    11minifilter驱动服务管理
                
                                
                    12windows内核编程头文件包含的奇葩的问题
                
                                
                    13ERNIE1.0, 2.0模型原理介绍
                
                                
                    14iTop各数据表联系图(持续更新中)
                
                                
                    15能帮我具体解释一下这一串代码什么意思吗？