tensorflow自定义op_TensorRT加速tensorflow模型

作者：手机用户2502857335 | 来源：互联网 | 2023-08-06 13:02

一.动机目前最新版本的TensorRT已经支持tensorflow1.x和tensorflow2.x版本的模型，由于个人之前的模型是基于tf1.14训练的࿰

一. 动机

目前最新版本的TensorRT已经支持tensorflow1.x和tensorflow2.x版本的模型&＃xff0c;由于个人之前的模型是基于tf1.14训练的&＃xff0c;为了进一步对模型进行加速&＃xff0c;因此本文主要对基于1.14的模型使用TensorRT进行加速。

二. Tensorflow的优势

目前tensorflow中已经继承了tensorrt模块&＃xff0c;因此只要有savedmodel就可以用TensorRT进行加速&＃xff0c;而不需要像Pytorch需要转格式之后再用TensorRT加速&＃xff0c;同时基于tensorflow内部的tensorrt模块&＃xff0c;可以避免写plugin来支持对应的算子&＃xff0c;当一个op无法被TensorRT进行转换时&＃xff0c;模型会仍旧使用tensorflow原有的算子&＃xff0c;需要进一步加速时才需要添加自定义算子&＃xff0c;当对应的op不是十分耗时的情况时&＃xff0c;可以使用tensorflow的算子进行计算&＃xff0c;转换后依旧可以被保存为saved_model格式&＃xff0c;从而使用tfserving进行部署。

三.转换

首先需要有一个转换好的saved_model(可以见上一篇讲述tensorflow-serving的文章https://zhuanlan.zhihu.com/p/104960285), 如以下格式

import tensorflow as tf import cv2 import base64 from tensorflow.python.compiler.tensorrt import trt_convert as trtsaved_model_dir &＃61; "./export_model_0126/1581080318" output_saved_model_dir &＃61; "./convert_INT8_export_model" fetch_names &＃61; ["strided_slice_256:0", "cond/Merge:0", "strided_slice_1:0", "ExpandDims:0","Const_39:0", "strided_slice_258:0", "Shape:0", "Cast:0","strided_slice_260:0", "combined_non_max_suppression/CombinedNonMaxSuppression:3","cond/Merge_1:0", "strided_slice_2:0"]class feed_dict_input_fn():def __init__(self, filename):self.filename &＃61; filenameself.content &＃61; []with open(self.filename) as f:for line in f:self.content.append(line.strip())self.index &＃61; 0def __call__(self, *args, **kwargs):data &＃61; open(self.content[self.index], &＃39;rb&＃39;).read()encode &＃61; base64.urlsafe_b64encode(data)encode &＃61; str(encode, encoding&＃61;&＃39;utf-8&＃39;)image &＃61; {"input:0": encode}# value &＃61; {"inputs": image}self.index &＃43;&＃61; 1return imageconverter &＃61; trt.TrtGraphConverter(input_saved_model_dir&＃61;saved_model_dir,precision_mode&＃61;trt.TrtPrecisionMode.INT8,use_calibration&＃61;True, is_dynamic_op&＃61;True, maximum_cached_engines&＃61;3) feet_dict_input &＃61; feed_dict_input_fn("/home/admin-seu/TempData/sss/Master_work/data/test.list") converter.convert() converter.calibrate(fetch_names&＃61;fetch_names, num_runs&＃61;100, feed_dict_fn&＃61;feet_dict_input) converter.save(output_saved_model_dir)

上述代码块使用了tensorflow内部的tensorrt模块来对模型加速&＃xff0c;其中的fetch_names同样可以参考上一篇文章中的saved_model_cli工具获取模型的输出tensor的名字,calibrate函数是用一串输入数据集对模型进行校准&＃xff0c;这是由于TensorRT的INT8需要对数据进行归一化&＃xff0c;因此校准是必要的。转换完成后&＃xff0c;会得到下图中的INT8模型&＃xff0c;同样可以对应生成FP16和FP32的模型。

四.测试

使用如下代码块进行简单测试&＃xff1a;

port tensorflow as tf import numpy as np import base64 import time# output_saved_model_dir &＃61; "./convert_export_model" # output_saved_model_dir &＃61; "./export_model_0126/1581080318" output_saved_model_dir &＃61; "./convert_INT8_export_model" # output_saved_model_dir &＃61; "./convert_FP32_export_model"data &＃61; open("/home/admin-seu/TempData/test2017/000000258074.jpg", &＃39;rb&＃39;).read() encode &＃61; base64.urlsafe_b64encode(data) encode &＃61; str(encode, encoding&＃61;&＃39;utf-8&＃39;)with tf.Session() as sess:tf.saved_model.loader.load(sess, [tf.saved_model.tag_constants.SERVING],output_saved_model_dir)cur_graph &＃61; sess.graphnode_names &＃61; [tensor.name for tensor in sess.graph_def.node]output_tensors &＃61; []input_tensor &＃61; cur_graph.get_tensor_by_name("input:0")output_tensors.append(cur_graph.get_tensor_by_name("strided_slice_256:0"))output_tensors.append(cur_graph.get_tensor_by_name("strided_slice_260:0"))# for node_name in node_names:# if "input" in node_name:# print(node_name)# input_tensor &＃61; cur_graph.get_tensor_by_name(node_name)# if "scores_1" in node_name:# print(node_name)# output_tensors.append(cur_graph.get_tensor_by_name(node_name))# if "labels" in node_name:# print(node_name)# output_tensors.append(cur_graph.get_tensor_by_name(node_name))# if "all_ids" in node_name:# print(node_name)# output_tensors.append(cur_graph.get_tensor_by_name(node_name))# if "boxes_1" in node_name:# print(node_name)# output_tensors.append(cur_graph.get_tensor_by_name(node_name))output &＃61; sess.run(output_tensors, feed_dict&＃61;{input_tensor: encode})print(np.shape(output[0]))for i in range(10):output &＃61; sess.run(output_tensors, feed_dict&＃61;{input_tensor: encode})start &＃61; time.time()print(start)for i in range(100):output &＃61; sess.run(output_tensors, feed_dict&＃61;{input_tensor: encode})end &＃61; time.time()print(end)print(end - start)

最终可以得到加速后的模型的速度&＃xff0c;由于本文使用的检测模型使用了大量TensorRT不支持的算子&＃xff0c;因此加速效果比较有限&＃xff0c;大概能比原先模型提升10%的速度。在一些更为简单的任务上相信模型能得到更大的加速比。

5.总结

可见使用TensorRT对tensorflow的模型加速是十分简单的&＃xff0c;基本开箱即用&＃xff0c;代码已放置在https://github.com/smallsunsun1/Cascade-RCNN&＃xff0c;最后总结一下就是Tensorflow Yes, 后续可能记录一下鸽了很久的对TensorFlow源码部分的阅读笔记了只剩&＃xff0c;立一个Flag&＃xff0c;希望有时间有空自己补上0.0

推荐阅读

import
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
import
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
buffer
以下不是python文件读写方法的是Python 文件I/O

Python文件IO本章只讲述所有基本的IO函数，更多函数请参考Python标准文档。打印到屏幕最简单的输出方法是用print语句，你可以给它传递 ... [详细]

蜡笔小新 2024-09-30 14:49:29
import
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
import
查看tensorflowgpu能否使用GPU进行加速

运行以下代码fromtensorflow.python.clientimportdevice_libprint(device_lib.list_local_devices()) ... [详细]

蜡笔小新 2024-09-30 19:46:53
import
一个小故事，玩转Pythonwhile循环

无论是传统编程场景还是当下火爆的人工智能应用场景，循环的应用都是必不可少的，上一篇文章中阐述了如何使用for循环来进行编程，这篇文章将会由 ... [详细]

蜡笔小新 2024-09-30 16:40:40
import
找出字符串中重复字符

2019独角兽企业重金招聘Python工程师标准packagejavaBasic;importjava.util.HashMap;importjava.util.Map; ... [详细]

蜡笔小新 2024-09-30 11:23:11
string
android – 如何使用GDK在卡上显示静态地图？

在MirrorAPI中,我们可以使用以下内容： ... [详细]

蜡笔小新 2024-09-29 18:39:06
include
[解题报告] Where is the Marble?

题目大意题目原文：http:uva.onlinejudge.orgexternal10410474.pdf背景还是基本的排序问题，题目意思很简单就是首先 ... [详细]

蜡笔小新 2024-09-29 18:11:09
string
Python 2022年面试题总结

2022年Python面试题一.Python基础二.企业面试题结束语🥇🥇🥇✅作者简介：大家好我是编程IDὌ ... [详细]

蜡笔小新 2024-09-29 17:55:05
include
3357: [Usaco2004]等差数列

3357:[Usaco2004]等差数列TimeLimit:10SecMemoryLimit:128MBSubmit:321Solved:153[Submit][Status][D ... [详细]

蜡笔小新 2024-09-29 09:37:36
string
[二分图]JZOJ 4612 游戏

DescriptionInputOutputSampleInput44#****#****#*xxx#SampleOutput5DataConstraint分析非常眼熟࿰ ... [详细]

蜡笔小新 2024-09-28 18:03:01
string
jQuery过滤器（子元素过滤器、表单对象属性过滤器）详解

子元素过滤器在页面设计过程中需要突出某些行时，可以通过基本过滤选择器中的:eq()来实现表单中行的凸显，但不能同时让多个表具有相同的效果。在jQuer ... [详细]

蜡笔小新 2024-09-27 04:00:36
import
【day3作业】:登陆时，从文件里面取账号和密码，判断用户是否存在，输入为空的也需要检验...

day3作业：　　2.登陆时，从文件里面取账号和密码，判断用户是否存在，输入为空的也需要检验importjsonall_us ... [详细]

蜡笔小新 2024-09-26 19:16:55
import
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39

手机用户2502857335

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章