被自己以为的GZIP秀到了

作者：zg18156zg你 | 来源：互联网 | 2023-09-13 10:13

问题的开始我司某产品线有这么一个神奇接口(https:hostpathcustomQuery)该接口在预发或线上缓存正常的情况下TTFB为150ms左右（可以认为服务处理时间差

问题的开始

我司某产品线有这么一个神奇接口 (https://host/path/customQuery)

该接口在预发或线上缓存正常的情况下TTFB为150ms左右（可以认为服务处理时间差不多就是TTFB），不过相比150ms的TTFB，显然数据资源下载时间过长的问题会更引人注意需要100ms左右（当然这也是网络条优秀的情况下，网络一般的话这个下载时间会更夸张）
customQuery请求一次请求的数据响应大概为2.7MB, 压缩后也有超过300KB
下载时间过长看起来就是因为这个响应实体过大了（100Mb的带宽满速，300KB差不多也需要30ms），通过测试可以发现同样的网络条件同一个应用的其他接口，如果响应压缩后小于1KB，其ContentDownLoad时间可以忽略不计（通常都会小于2ms）
因为代理默认开启了gzip，其实数据已经被压缩了近10倍，但是压缩后的数据还是过大。
分析了customQuery响应实体的数据结构。
发现数据每个list中fields节点大量重复出现。

如上图其中field的描述是完全一致的（按一页50条计算，这些数据重复了50遍）
这些数据field描述数据单个都大小大概是50KB（重复50次可以看到2.7MB的数据几乎都是这些重复的数据）

开始秀了

既然已经明确了这些重复描述数据，服务端的同学很自然想到把这些field描述提取出来重新组装数据可以大幅度减小数据传输的大小。
不过自己恰好曾经“看过”DEFLATE压缩（http的gzip正好使用的是DEFLATE）其中使用到的LZ77是会匹配前文相同短语后面的相同短语都会被替换成“标记”。
那我“秀”的时候又到了，当即表示采用这种数据重组的方式并不会带来明显的实际提升，因为数据实际的信息量没有实际变化，只是手动去除了冗余，而之前冗余的数据其实已经被gzip处理过了，所以仅仅单纯去除重复描述数据片段并不能带来预期的收益。
因为我秀的时候如此自信，对方马上就自己不自信了，表示要回去先验证效果后在做打算。

看起来是失败了

果然后面的结果“居然”是我被打脸了

customQuery接口返回的实体大小直接变成了25kb，解压后189kb（之前是327kb，解压后2.7Mb）

那这差距太大了，实体大小减小到了之前的10%不到，当然下载速度ContentDownLoad也有了大幅度的降低。（基本上就是一个RTT的时间）
不过这完全跟我之前的认知不一样啊，一定是哪里出现了问题。（毕竟是以为自己懂了系列）

试图抢救下

为了挽回颜面，我把这2组原始数据下载下来，本地压缩进行分析（还不想承认自己错了，试图找到产生这种结果的其他解释）

如下图老的数据为customQuery_v1（2.7MB），新的为customQuery_v2（190KB）

分别使用zip，gzip，rar对2组数据进行压缩（gzip即为http默认使用的压缩算法，MAC上直接使用gzip命令可以对文件进行压缩）
可以发现RAR的压缩结果就与我最开始的想法差不多（即使原始数据差了超过10倍，而压缩的结果是几乎一致的，v1为19kb ；v2为17kb）
不过gzip对2组数据的压缩结果与在浏览器上看到的是一样的。（v1为329kb ；v2为25kb）
既然本地压缩也得到了同样的结果，看来真的是自己Too young too naive （大意了，没有闪，秀的时候应该先在本地验证一下的）

默默面对错误分析原因

但是为什么会有这样的结果，按我的理解压缩结果应该与rar一致才对。要搞清楚还要从压缩的方式入手。
一定是我以为的压缩行为与实际存在差异，gzip的基础是DEFLATE，DEFLATE是LZ77与哈夫曼编码的一个组合体（ https://tools.ietf.org/html/rfc1951）
Huffman Coding 只是单纯的字符编码，编码后的大小与编码前的大小直接正相关，肯定不是产生结果的原因。
那剩下就只有是LZ77，只能是LZ77一开始没有把那些重复的fields压缩掉，而为什么LZ77没有把原始数据里大量重复的描述“标记”起来。
LZ77整体是是使用已经出现过的相应匹配数据信息替换当前数据从而实现压缩功能，为了匹配数据需要用到了“滑动窗口”的概念
细细一品，LZ77并不是全文匹配，数据为了可以边发送边压缩会进行分块压缩。通过查阅RFC文档，大概可以明确块的大小被限制在64k内，最大滑动窗口就是64k/2=32k，并且还要求“标记”的最大长度为256字节（当然标记长度这个问题不大，大不了不多用几个标记）。这里的问题在于使用滑动窗口就要求重复的数据必须要“相邻” 而块大小最大为64K，如果重复的2段数据不能出现在一个窗口内是不能被标记的。但是窗口最多是块大小的一半32Kb（实际也不会用这么大的窗口），而我们之前就计算过我们重复的单个field描述就有50Kb，要出现有2个重复的内容，即使2个描述相邻那也至少上100Kb（他们甚至都无法在同一个块里），实际上窗口最大32Kb，所以LZ77根本不能标记出这些重复的field。

以下引至https://tools.ietf.org/html/rfc1951#section-2

Compressed representation overview

A compressed data set consists of a series of blocks, corresponding
to successive blocks of input data. The block sizes are arbitrary,
except that non-compressible blocks are limited to 65,535 bytes.

Each block is compressed using a combination of the LZ77 algorithm
and Huffman coding. The Huffman trees for each block are independent
of those for previous or subsequent blocks; the LZ77 algorithm may
use a reference to a duplicated string occurring in a previous block,
up to 32K input bytes before.

Each block consists of two parts: a pair of Huffman code trees that
describe the representation of the compressed data part, and a
compressed data part. (The Huffman trees themselves are compressed
using Huffman encoding.) The compressed data consists of a series of
elements of two types: literal bytes (of strings that have not been
detected as duplicated within the previous 32K input bytes), and
pointers to duplicated strings, where a pointer is represented as a
pair . The representation used in the
"deflate" format limits distances to 32K bytes and lengths to 258
bytes, but does not limit the size of a block, except for
uncompressible blocks, which are limited as noted above.

Each type of value (literals, distances, and lengths) in the
compressed data is represented using a Huffman code, using one code
tree for literals and lengths and a separate code tree for distances.
The code trees for each block appear in a compact form just before
the compressed data for that block.

总结

最终也还是自己错了，也没有什么好总结的

要是什么都不知道也不出问题，要是知道的很清楚也不会出问题，就是在“以为自己知道”的情况下就各种问题。

推荐阅读

io
欢乐的票圈重构之旅——RecyclerView的头尾布局增加

项目重构的Git地址：https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集：http:www.jianshu.comno ... [详细]

蜡笔小新 2023-12-11 19:09:56
less
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
io
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
string
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
io
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
io
响应式页面的概述和实现方式

本文介绍了响应式页面的概念和实现方式，包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点，提出了选择方案的建议。同时，对于响应式页面的需求和背景进行了讨论，解释了为什么需要响应式页面。 ... [详细]

蜡笔小新 2023-12-11 12:37:10
string
Android中的assets目录和raw目录的区别和用法

本文介绍了Android中的assets目录和raw目录的共同点和区别，包括获取资源的方法、目录结构的限制以及列出资源的能力。同时，还解释了raw目录中资源文件生成的ID，并说明了这些目录的使用方法。 ... [详细]

蜡笔小新 2023-12-11 12:26:25
io
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
io
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
io
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
io
C++省略号类型和参数个数不确定函数参数范例

本文介绍了C++中省略号类型和参数个数不确定函数参数的使用方法，并提供了一个范例。通过宏定义的方式，可以方便地处理不定参数的情况。文章中给出了具体的代码实现，并对代码进行了解释和说明。这对于需要处理不定参数的情况的程序员来说，是一个很有用的参考资料。 ... [详细]

蜡笔小新 2023-12-14 12:36:28
io
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
io
Redis底层数据结构之压缩列表的介绍及实现原理

本文介绍了Redis底层数据结构之压缩列表的概念、实现原理以及使用场景。压缩列表是Redis为了节约内存而开发的一种顺序数据结构，由特殊编码的连续内存块组成。文章详细解释了压缩列表的构成和各个属性的含义，以及如何通过指针来计算表尾节点的地址。压缩列表适用于列表键和哈希键中只包含少量小整数值和短字符串的情况。通过使用压缩列表，可以有效减少内存占用，提升Redis的性能。 ... [详细]

蜡笔小新 2023-12-12 16:06:05
string
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48

zg18156zg你

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章