【论文阅读笔记】Ristretto：HardwareOrientedApproximationofConvolutionalNeuralNetworks

作者：mjh3804260 | 来源：互联网 | 2023-07-17 18:18

概念MAC：multiplication-accumulationoperations2.ConvolutionalNeuralNetworks2.2.1Norma

概念
MAC&＃xff1a;multiplication-accumulation operations

2. Convolutional Neural Networks

2.2.1 Normalization layers
正则化层(LRN、BN) 需要计算出非常多的中间数(不是参数)。以AlexNet为例&＃xff0c;LRN层的中间数可以达到2¹⁴ &＃xff0c;比任意层的中间数都有多。因为这个原因&＃xff0c;这篇文章假设LRN和BN层用float point计算&＃xff0c;而我们致力于其它层的近似。【本文只集中于近似fc层和conv层】

2.4 Computational Complexity and Memory Requirements

深度CNN的复杂性可以分为两部分&＃xff1a;

卷积层是计算密集型层&＃xff0c;包含超过90&＃xff05;的算术运算&＃xff1b;
全连接层是资源密集处&＃xff0c;包含超过 $90$ 的参数。全连接层是资源密集处&＃xff0c;包含超过 $90$ 的参数。

2.6 Neural Networks With Limited Numerical Precision

Most deep learning frameworks use 32-bit or 64-bit floating point for CNN training and inference.(This paper is to describe the process of quantizing a full precision network to limited precision numbers).

2.6.1 Quantization

在这里插入图片描述

如上图所示&＃xff0c;为了简化在硬件上的模拟过程&＃xff0c;我们的框架同时量化layer inputs和weights&＃xff0c;加法计算使用32-bits的floating point进行计算。加法器在大小和功率上都要比乘法器小。

在这里插入图片描述

2.6.2 Rounding Schemes

Round nearest even

Denoting $ϵ\epsilon$ as the quantization step size and $⌊x⌋\lfloor x \rfloor$ as the largest quantization value less or equal to x.
As round-nearest-even is deterministic, we chose this rounding scheme for inference

Round stochastic

$\begin{cases} \lfloor x \rfloor, & w.p. \ 1-\frac{x-\lfloor x \rfloor}{\epsilon} \\ \lfloor x \rfloor &＃43; \epsilon , & w.p. \ \frac{x-\lfloor x \rfloor}{\epsilon} \end{cases}$
随机舍入给量化过程增加了随机性&＃xff0c;在训练过程可以有一个平均的影响&＃xff08;即平均结果一般为0&＃xff09;。
We chose to use this rounding scheme when quantizing network parameters during fine-tuning.

2.6.3 Optimization in Discrete Parameter Space

在传统的64-bit浮点数训练上&＃xff0c;优化问题是在平滑的误差表面上进行。而对于量化网络&＃xff0c;误差表面就变成离散的了。
有如下两种方式训练量化网络&＃xff1a;

从头开始训练量化权重&＃xff08;即没有利用上pre-trained model的权重&＃xff09;
在连续领域训练网络&＃xff0c;然后量化参数&＃xff0c;最后再微调到离散量化空间。

本文更新权重的方式是第二种&＃xff1a;: full precision shadow weights. Small weight updates ∆w are applied to the full precision weights w, whereas the discrete weights w¹ are sampled from the full precision weights. &＃xff08;在9.3有更多的fine-tune细节而&＃xff09;

3. Related Work

3.1 Network Approximation

3.1.1 Fixed Point Approximation

方法提出的出发点&＃xff1a;fixed-point计算比floating point计算需要更少的资源&＃xff0c;更快。
所以有一些从fixed-point上工作的方法。比如&＃xff0c;在CIFAR-10上工作的16-bit网络&＃xff1b;与上一个相同网络架构的7-bit网络&＃xff1b;二元/三元网络等。
但这些方法只证明了fixed-point方案能在small Networks上工作良好&＃xff0c;但在大网络上效果有限&＃xff0c;比如AlexNet。

3.1.2 Network Pruning and Shared Weights

方法提出的出发点&＃xff1a;在数据密集型应用的能量耗费上&＃xff0c;片外内存&＃xff08;Off-chip&＃xff09;的访问占据了很大一部分。
所以&＃xff0c;有一个很重要步骤就是压缩网络的参数数量。Han et al.&＃xff08;2016b&＃xff09;解决了这个问题&＃xff0c;其方案分为三个步骤&＃xff1a;

移除网络中不重要的连接&＃xff08;通过阈值判断&＃xff09;。移除后的稀疏网络经过re-trained后重复进行移除连接&＃xff1b;
将剩下来的权重进行聚类&＃xff0c;从而共享参数 。这些共享的权重也经过re-train以发现optimal centroids&＃xff1b;
采用零损失压缩方案(比如&＃xff0c;Huffman Coding) 压缩最后的权重.

4. Fixed Point Approximation

4.2 Fixed Point Format

fixed point number format&＃xff1a; $[I L . F L]$ &＃xff0c;其中 $I L 和 F L$ 分别表示整数长度和分数长度。即 $bit _{width} &＃61; IL &＃43; FL$
为了把 floating point 量化成 fixed point&＃xff0c;本文使用round-nearest。使用二进制补码数来表示数字&＃xff0c;所以最大的正数可以表示为&＃xff1a; $X_{max}&＃61;2^{IL-1}-2^{-FL}$

注意&＃xff0c;以下的实验中&＃xff0c;所有截断的数字都是用共享的固定点格式&＃xff0c;即他们共享使用相同的整数和小数长度

4.3 Dynamic Range of Parameters and Layer Outputs

4.3.1 Dynamic Range in Small CNN
在这里插入图片描述
如上图所示&＃xff0c;平均而言&＃xff0c;参数的大小是要小于layer output的。99%的训练好的网络的参数在 $2^0&＃xff0c;2^{10}]$ &＃xff1b;而对于全连接层&＃xff0c; $99%99\%$ 的 layer outputs 在 $2^{-4}&＃xff0c;2^5]$ 。
为了把 layer outputs 和网络参数都量化到 8-bit 的 fixed point&＃xff0c;有一部分的参数会饱和&＃xff08;即丢失更多的精度&＃xff0c;截断&＃xff09;。作者在 $Q . 4.4$ 的格式下得到了最高的量化结果&＃xff0c;这代表着&＃xff0c;相对而言&＃xff0c;大的layer output比小的参数要更重要&＃xff08;因为这里 activation 和 weight 都固定到一个格式&＃xff0c;其IL 和 FL都是固定的。对activation而言&＃xff0c;需要更大的IL&＃xff1b;对weight而言&＃xff0c;需要更大的FL。这二个结果&＃xff0c;代表了结果向IL偏向&＃xff09;。

4.3.1 Dynamic Range in Large CNN
在这里插入图片描述
如上图所示&＃xff0c;像small networks一样&＃xff0c;参数的大小是要小于layer output的&＃xff0c;而且这两组数的平均值差距更大了。因为这个动态数值范围比 LeNet更大了&＃xff0c;所以需要更多的 bit 来完成 fixed point representations。结果显示&＃xff0c;效果最后的是 16-bit 的 fixed point&＃xff0c;格式为 Q9.7。可以看出&＃xff0c;有相当一部分的参数在这个格式下是饱和的&＃xff0c;这意味着小数的Bit长度不足。而只有很少的 layer output&＃xff08; $0.46%0.46\%$ 的卷积层output&＃xff09;是比这个表示范围大的&＃xff0c;而有 $21.23%21.23\%$ 的参数是被截断到 $0$ 的。
这个图的分析结果&＃xff0c;和LeNet一样&＃xff0c;“大的 layer output 比小的参数更重要”。

5. Dynamic Fixed Point Approximation

从上一章节可以看出&＃xff0c;如果 weight 和 layer output使用相同的 fixed point格式&＃xff0c;则其中一组数字就会饱和&＃xff0c;从而损失精度。所以&＃xff0c;本章节介绍了一种 dynamic fixed point&＃xff0c;其可以进一步的减小参数size&＃xff0c;同时保持高准确率。

5.1 Mixed Precision Fixed Point
在这里插入图片描述
如上图所示&＃xff0c;activation 和 weights 分别用 m-bits 和 n-bits表示&＃xff0c;在进行了乘法运算后&＃xff0c;经过树形加法运算。在每层加法运算进行的同时&＃xff0c;用 &＃43;1 bit 的空间来存储&＃xff0c;以避免溢出。最后一层加法&＃xff0c;用 $m &＃43; n &＃43; l g (x)$ bits存储&＃xff0c;其中&＃xff0c;x为乘法运算的个数。

5.2 Dynamic Fixed Point

Dynamic Fixed Point是为了解决Fixed Point表达能力受限的问题&＃xff0c;Dynamic Fixed Point固定的是bit-width&＃xff0c;而FL由 value group决定&＃xff0c;对于每一层的每一个type的数值&＃xff0c;都有一个常数FL&＃xff08;即其IL和FL是确定的&＃xff09;。
在Dynamic Fixed Point中&＃xff0c;每个数字都可以表达为如下形式&＃xff1a; $(−1)s2−FL∑i&＃61;0B−22ixi(-1)^{s}2^{-FL}\sum_{i&＃61;0}^{B-2}2^ix_i$

Choice of Number Format
在每一层的每一个Type的数值而言&＃xff0c;其Fixed Point的格式为&＃xff1a; $IL&＃61;⌈lg2(max(x))&＃43;1⌉IL&＃61;\lceil lg_2(max(x))&＃43;1\rceil$ 即保证IL足够让所有的数都包括进来&＃xff0c;而不向上饱和。
注意&＃xff0c;这种计算 IL 的方法&＃xff0c;适用于 layer parameters&＃xff1b;对于 layer outputs&＃xff0c;用这个公式减去 1 来表达 IL。

5.3 Result
在这里插入图片描述

可以看出&＃xff0c;即使是已经压缩过的模型&＃xff0c;如 SqueezeNet 都能在 ImageNet 上以 8-bit 达到很好的结果。

8. Comparison of Different Approximations

在这里插入图片描述
上图是没有经过 fine-tune的结果。

对于硬件加速器来说&＃xff0c;Fixed Point Approximation 是耗时和耗能量最少的。但是&＃xff0c;当bit变小时&＃xff0c;Fixed Point也是表现最差的。&＃xff08;会向上饱和&＃xff09;
对比minifloat和Fixed Point&＃xff0c;Dynamic Fixed Point是三种近似方案中最好的。动态固定点使其能覆盖很大的动态范围&＃xff08;动态固定点隐式存储&＃xff1a; $IL&＃61;⌈lg2(max(x))&＃43;1⌉IL&＃61;\lceil lg_2(max(x))&＃43;1\rceil$ &＃xff09;。

9. Ristretto: An Approximation Framework for Deep CNNs

9.2 Quantization Flow

在这里插入图片描述
Ristretto 将网络模型从 32-bit floating 量化到 fixed point&＃xff0c;有如上图的五个阶段&＃xff1a;

统计、分析Weight信息&＃xff0c; 分配足够的bit给实数部分&＃xff1b;(大的数比较重要)
前向传播成千上万的图片&＃xff0c;统计、分析Activation信息&＃xff0c;分配足够的bit给实数部分&＃xff1b;
给每一种类型的array决定bit分配&＃xff0c;用二分查找法寻找最优的bit&＃xff1b;&＃xff08;应该是分别对conv weight、fc weight、layer output分别决定一个bit分配&＃xff0c;即所有的相同类型层共用一个格式&＃xff09;
评估每种bit的分配带来的误差&＃xff1b;&＃xff08;在二分查找一个类型的最优bit时&＃xff0c;其余两种类型保留floating point形式&＃xff09;
找到每个部分的最优bit后&＃xff0c;开始fine-tune

9.3 Fine-tuning

在这里插入图片描述

Fine-Tuning步骤如上图所示&＃xff1a;
注意&＃xff0c;activation在Fine-Tuning步骤不进行量化&＃xff1b;

利用量化后的离散值 $w^{'}$ 进行前向传播计算activation/output&＃xff1b;
利用量化后的离散值 $w^{'}$ 进行反向传播传播计算gradient&＃xff1b;
将gradient应用在floating point的w上进行参数更新&＃xff08;防止更新的范围 △w不足step-size&＃xff09;

在预测阶段&＃xff0c;activation才进行量化。

在微调阶段&＃xff0c;为了充分利用per-trained的参数信息&＃xff0c;使用的学习率比上一次全精度训练迭代低一个数量级。

9.5 Ristretto From a User Perspective

在这里插入图片描述

推荐阅读

sum
C++ 编程指南：第16条——在对应的新建和删除操作中使用相同的形式

当使用 `new` 表达式（即通过 `new` 动态创建对象）时，会发生两件事：首先，内存被分配用于存储新对象；其次，该对象的构造函数被调用以初始化对象。为了确保资源管理的一致性和避免内存泄漏，建议在使用 `new` 和 `delete` 时保持形式一致。例如，如果使用 `new[]` 分配数组，则应使用 `delete[]` 来释放内存；同样，如果使用 `new` 分配单个对象，则应使用 `delete` 来释放内存。这种一致性有助于防止常见的编程错误，提高代码的健壮性和可维护性。 ... [详细]

蜡笔小新 2024-11-09 12:21:19
sum
高端存储技术演进与趋势

本文探讨了高端存储技术的发展趋势，包括松耦合架构、虚拟化、高性能、高安全性和智能化等方面。同时，分析了全闪存阵列和中端存储集群对高端存储市场的冲击，以及高端存储在不同应用场景中的发展趋势。 ... [详细]

蜡笔小新 2024-11-14 11:58:22
数组
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
default
Spring 切面配置中的切点表达式详解

本文介绍了如何在Spring框架中使用AspectJ风格的切面配置，详细解释了切点表达式的语法和常见示例，帮助开发者更好地理解和应用Spring AOP。 ... [详细]

蜡笔小新 2024-11-13 14:07:16
filter
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
char
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
instance
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
instance
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
sum
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
char
利用栈实现四则运算表达式的高效求值方法

本文提出了一种基于栈结构的高效四则运算表达式求值方法。该方法能够处理包含加、减、乘、除运算符以及十进制整数和小括号的算术表达式。通过定义和实现栈的基本操作，如入栈、出栈和判空等，算法能够准确地解析并计算输入的表达式，最终输出其计算结果。此方法不仅提高了计算效率，还增强了对复杂表达式的处理能力。 ... [详细]

蜡笔小新 2024-11-11 14:00:53
datetime
C#中数值结果的格式化展示方法与技巧

在C#编程中，数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧，如使用格式说明符、自定义格式字符串等，以实现对数值结果的精确控制。通过实例演示，展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]

蜡笔小新 2024-11-11 09:27:57
substring
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52
bash
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
process
理解和优化进程与线程状态转换机制

在Cisco IOS XR系统中，存在提供服务的服务器和使用这些服务的客户端。本文深入探讨了进程与线程状态转换机制，分析了其在系统性能优化中的关键作用，并提出了改进措施，以提高系统的响应速度和资源利用率。通过详细研究状态转换的各个环节，本文为开发人员和系统管理员提供了实用的指导，旨在提升整体系统效率和稳定性。 ... [详细]

蜡笔小新 2024-11-09 18:33:35
config
PHP预处理常量详解：如何定义与使用常量

PHP预处理常量详解：如何定义与使用常量 ... [详细]

蜡笔小新 2024-11-09 11:31:23

mjh3804260

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章