float32精度_模型压缩系列方法——混合精度计算与量化压缩（3）

作者：粪青12_601 | 来源：互联网 | 2023-10-12 18:20

摘要移动端应用以及服务端节约空间都需要对当前的大模型进行适当压缩。本文继续介绍一种模型压缩方法。实际除了各种形式的distilling方式，混合精度计算与量化压缩方法

摘要

移动端应用以及服务端节约空间都需要对当前的大模型进行适当压缩。本文继续介绍一种模型压缩方法。实际除了各种形式的distilling方式&＃xff0c;混合精度计算与量化压缩方法也是非常常用的。

一、methodology

1.1 混合精度

实际在TensorFlow矩阵计算中&＃xff0c;大多数是使用float32进行计算和存储的&＃xff0c;但实际在可接受小幅精度损失的情况下&＃xff0c;其中一部分变量可以采用float16进行变量申明和存储&＃xff0c;仅仅在计算时候cast成为float32&＃xff0c;也就形成了float32和float16混合的情景。

这样能压缩一部分空间&＃xff1b;同时由于直接进行训练的缘故&＃xff0c;效果偏差可控。

1.2 量化压缩

google 在官方网页中https://tensorflow.google.cn/api_docs/python/tf/lite/ 开源了量化压缩方法实现 8bit压缩。经过转换后&＃xff0c;输入输出依旧是float&＃xff0c;只不过中间的计算是用过8 bit来计算存储的。

对量化的实现是通过把常见操作转换为等价的八位版本达到的。涉及的操作包括卷积&＃xff0c;矩阵乘法&＃xff0c;激活函数&＃xff0c;池化操作&＃xff0c;以及拼接。转换脚本先把每个已知的操作替换为等价的量化版本。然后在操作的前后加上含有转换函数的子图&＃xff0c;将input从浮点数转换成8 bit&＃xff0c;再把output从8 bit转回浮点数。下面是 ReLu 的例子&＃xff0c;input(float)&＃61;&＃61;>relu&＃61;&＃61;>output(float)

经过转换后&＃xff0c;如下图所示&＃xff1a;

quantize取input中的min和max&＃xff0c;分别对应被量化的input中的最小值&＃xff08;0&＃xff09;和最大值&＃xff08;255&＃xff09;&＃xff0c;把[min, max]这个区间均匀分成255个小区间&＃xff0c;把input中的值对应到对应的区间中。反量化操作则是把上述操作反向执行。

经过量化操作&＃xff0c;可以有效提高点乘的计算效率。但当前google开源的tflite只对部分基础AIP有效&＃xff0c;新出的很多高阶API尚不支持&＃xff0c;期待后续开发。

二、data&实现

注意自行标记输入输出点&＃xff1a;

from __future__ import print_functionimport os,sys import time from datetime import timedelta import numpy as np import tensorflow as tf #from create_tf_record import * os.environ["CUDA_DEVICE_ORDER"] &＃61; "PCI_BUS_ID" os.environ["CUDA_VISIBLE_DEVICES"] &＃61; "2" import tensorflow.contrib.slim as slim from tensorflow.python.framework import graph_utildef freeze_graph(input_checkpoint,output_graph):&＃39;&＃39;&＃39;:param input_checkpoint::param output_graph: PBmodel path:return:&＃39;&＃39;&＃39;# checkpoint &＃61; tf.train.get_checkpoint_state(model_folder) ## input_checkpoint &＃61; checkpoint.model_checkpoint_path ##output_node_names &＃61; "score_teacher/output_teacher"output_node_names &＃61; "score_student/output_student"#saver &＃61; tf.train.import_meta_graph(input_checkpoint &＃43; &＃39;.meta&＃39;, clear_devices&＃61;True)graph &＃61; tf.get_default_graph()#input_graph_def &＃61; graph.as_graph_def()#with tf.Session() as sess:saver.restore(sess, input_checkpoint) #output_graph_def &＃61; graph_util.convert_variables_to_constants( # sess&＃61;sess,input_graph_def&＃61;input_graph_def,# :sess.graph_defoutput_node_names&＃61;output_node_names.split(","),variable_names_whitelist&＃61;None,variable_names_blacklist&＃61;None)#with tf.gfile.GFile(output_graph, "wb") as f: #f.write(output_graph_def.SerializeToString()) #print("%d ops in the final graph." % len(output_graph_def.node)) # input_checkpoint&＃61;&＃39;/data/liuyuanlin/push_project/push_model/push_student_model_topk_v2.0_20190910_1/best_validation&＃39; out_pb_path&＃61;&＃39;/data/liuyuanlin/push_project/push_model/push_student_model_topk_v2.0_20190910_1/pbmodel/IASv2.0.pb&＃39; freeze_graph(input_checkpoint, out_pb_path)#&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;简单转换为 tensorflow lite格式不压缩&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;# import tensorflow as tf import os os.environ["CUDA_DEVICE_ORDER"] &＃61; "PCI_BUS_ID" os.environ["CUDA_VISIBLE_DEVICES"] &＃61; "7" input_arrays &＃61; ["input_x"] output_arrays &＃61; ["cnn_student_1/output_student"] #converter &＃61; tf.lite.TFLiteConverter.from_frozen_graph("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/frozen_model_for_best_validation.pb", input_arrays, output_arrays) converter &＃61; tf.contrib.lite.TocoConverter.from_frozen_graph("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/frozen_model_for_best_validation.pb",input_arrays, output_arrays)print("start convert..") tflite_model &＃61; converter.convert() print("convert ok and write the tflite model...") open("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/converted_model.tflite", "wb").write(tflite_model) #&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;##&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;# #需要tf 1.14进行量化压缩 # default 默认压缩 import tensorflow as tf in_tensors &＃61; ["input_x"] out_tensors &＃61; ["score_student/output_student"] graph_def_file &＃61; &＃39;./push_student_model_topk_20190813_1/frozen_model_for_best_validation.pb&＃39; converter &＃61; tf.lite.TFLiteConverter.from_frozen_graph(graph_def_file, in_tensors, out_tensors) #converter.optimizations &＃61; [tf.lite.Optimize.OPTIMIZE_FOR_SIZE] #converter.optimizations &＃61; [tf.lite.Optimize.OPTIMIZE_FOR_LATENCY]#OPTIMIZE_FOR_SIZE converter.optimizations &＃61; [tf.lite.Optimize.DEFAULT]#tf.lite.Optimize下有DEFAULT,OPTIMIZE_FOR_LATENCY,OPTIMIZE_FOR_SIZE tflite_model &＃61; converter.convert() open("quantify_default_model.tflite", "wb").write(tflite_model)

参考文献

[1]

TensorFlow Lite | 适用于移动设备和边缘设备的机器学习技术tensorflow.google.cn

[2] https://www.tensorflow.org/lite/performance/post_training_quantization

推荐阅读

utf-8
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
utf-8
Google Clips智能相机悄然上市：自动捕捉生活中的珍贵瞬间

Google最新推出的嵌入AI技术的便携式相机Clips现已上架，旨在通过人工智能技术自动捕捉用户生活中值得纪念的时刻，帮助人们减少照片数量过多的问题。 ... [详细]

蜡笔小新 2024-12-26 17:26:09
include
Weight the Tree（树形dp）

题目Link题目学习link1题目学习link2题目学习link3%%%受益匪浅！－－－－－&# ... [详细]

蜡笔小新 2024-12-26 15:55:56
io
宴会社交常用表达

本文汇总了在正式宴会上常用的寒暄语句，包括欢迎词、感谢词及日常问候，适用于各种正式场合。这些语句不仅有助于提升交际礼仪，还能增进彼此之间的友好关系。 ... [详细]

蜡笔小新 2024-12-26 13:41:40
io
基于双Xilinx Kintex-7 FPGA的高性能6U VPX存储板

VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元，内置RAID控制器，支持多达8个mSATA盘，最大存储容量可达8TB，持续写入带宽高达3.2GB/s。 ... [详细]

蜡笔小新 2024-12-26 11:41:58
sum
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
utf-8
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
include
GDI基础介绍之几何绘图

使用GDI的一些AIP函数我们可以轻易的绘制出简 ... [详细]

蜡笔小新 2024-12-25 18:23:37
sum
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
sum
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
io
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
rsa
Java中访问器与修改器的深入解析

本文详细介绍了Java中的访问器（getter）和修改器（setter），探讨了它们在保护数据完整性、增强代码可维护性方面的重要作用。通过具体示例，展示了如何正确使用这些方法来控制类属性的访问和更新。 ... [详细]

蜡笔小新 2024-12-26 17:25:24
include
VxWorks中的双向链表与环形缓冲应用

本文详细探讨了VxWorks操作系统中双向链表和环形缓冲区的实现原理及使用方法，通过具体示例代码加深理解。 ... [详细]

蜡笔小新 2024-12-26 13:26:16
rsa
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
rsa
Python 文件操作与数据转换

本文详细介绍了Python中文件的基本操作，包括打开、读取、写入和关闭文件的方法，并通过实例展示了如何将Excel文件转换为CSV文件以及进一步转换为HTML文件。此外，还涉及了成绩等级替换的具体实现。 ... [详细]

蜡笔小新 2024-12-25 21:45:13

粪青12_601

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章