摘要
移动端应用以及服务端节约空间都需要对当前的大模型进行适当压缩。本文继续介绍一种模型压缩方法。实际除了各种形式的distilling方式,混合精度计算与量化压缩方法也是非常常用的。
一、methodology
1.1 混合精度
实际在TensorFlow矩阵计算中,大多数是使用float32进行计算和存储的,但实际在可接受小幅精度损失的情况下,其中一部分变量可以采用float16进行变量申明和存储,仅仅在计算时候cast成为float32,也就形成了float32和float16混合的情景。
这样能压缩一部分空间;同时由于直接进行训练的缘故,效果偏差可控。
1.2 量化压缩
google 在官方网页中https://tensorflow.google.cn/api_docs/python/tf/lite/ 开源了量化压缩方法实现 8bit压缩。经过转换后,输入输出依旧是float,只不过中间的计算是用过8 bit来计算存储的。
对量化的实现是通过把常见操作转换为等价的八位版本达到的。涉及的操作包括卷积,矩阵乘法,激活函数,池化操作,以及拼接。转换脚本先把每个已知的操作替换为等价的量化版本。然后在操作的前后加上含有转换函数的子图,将input从浮点数转换成8 bit,再把output从8 bit转回浮点数。下面是 ReLu 的例子,input(float)==>relu==>output(float)
经过转换后,如下图所示:
quantize取input中的min和max,分别对应被量化的input中的最小值(0)和最大值(255),把[min, max]这个区间均匀分成255个小区间,把input中的值对应到对应的区间中。反量化操作则是把上述操作反向执行。
经过量化操作,可以有效提高点乘的计算效率。但当前google开源的tflite只对部分基础AIP有效,新出的很多高阶API尚不支持,期待后续开发。
二、data&实现
注意自行标记输入输出点:
from __future__ import print_functionimport os,sys
import time
from datetime import timedelta
import numpy as np
import tensorflow as tf
#from create_tf_record import *
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"
import tensorflow.contrib.slim as slim
from tensorflow.python.framework import graph_utildef freeze_graph(input_checkpoint,output_graph):''':param input_checkpoint::param output_graph: PBmodel path:return:'''# checkpoint = tf.train.get_checkpoint_state(model_folder) ## input_checkpoint = checkpoint.model_checkpoint_path ##output_node_names = "score_teacher/output_teacher"output_node_names = "score_student/output_student"#saver = tf.train.import_meta_graph(input_checkpoint + '.meta', clear_devices=True)graph = tf.get_default_graph()#input_graph_def = graph.as_graph_def()#with tf.Session() as sess:saver.restore(sess, input_checkpoint) #output_graph_def = graph_util.convert_variables_to_constants( # sess=sess,input_graph_def=input_graph_def,# :sess.graph_defoutput_node_names=output_node_names.split(","),variable_names_whitelist=None,variable_names_blacklist=None)#with tf.gfile.GFile(output_graph, "wb") as f: #f.write(output_graph_def.SerializeToString()) #print("%d ops in the final graph." % len(output_graph_def.node))
#
input_checkpoint='/data/liuyuanlin/push_project/push_model/push_student_model_topk_v2.0_20190910_1/best_validation'
out_pb_path='/data/liuyuanlin/push_project/push_model/push_student_model_topk_v2.0_20190910_1/pbmodel/IASv2.0.pb'
freeze_graph(input_checkpoint, out_pb_path)#=====================简单转换为 tensorflow lite格式 不压缩==================#
import tensorflow as tf
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "7"
input_arrays = ["input_x"]
output_arrays = ["cnn_student_1/output_student"]
#converter = tf.lite.TFLiteConverter.from_frozen_graph("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/frozen_model_for_best_validation.pb", input_arrays, output_arrays)
converter = tf.contrib.lite.TocoConverter.from_frozen_graph("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/frozen_model_for_best_validation.pb",input_arrays, output_arrays)print("start convert..")
tflite_model = converter.convert()
print("convert ok and write the tflite model...")
open("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/converted_model.tflite", "wb").write(tflite_model)
#============================================================================##======================================================================================================#
#需要tf 1.14进行量化压缩
# default 默认压缩
import tensorflow as tf
in_tensors = ["input_x"]
out_tensors = ["score_student/output_student"]
graph_def_file = './push_student_model_topk_20190813_1/frozen_model_for_best_validation.pb'
converter = tf.lite.TFLiteConverter.from_frozen_graph(graph_def_file, in_tensors, out_tensors)
#converter.optimizations = [tf.lite.Optimize.OPTIMIZE_FOR_SIZE]
#converter.optimizations = [tf.lite.Optimize.OPTIMIZE_FOR_LATENCY]#OPTIMIZE_FOR_SIZE
converter.optimizations = [tf.lite.Optimize.DEFAULT]#tf.lite.Optimize下有DEFAULT,OPTIMIZE_FOR_LATENCY,OPTIMIZE_FOR_SIZE
tflite_model = converter.convert()
open("quantify_default_model.tflite", "wb").write(tflite_model)
参考文献
[1]
TensorFlow Lite | 适用于移动设备和边缘设备的机器学习技术tensorflow.google.cn
[2] https://www.tensorflow.org/lite/performance/post_training_quantization