最大化TensorFlow*CPU性能

作者：未来不是梦2602932127 | 来源：互联网 | 2023-06-11 15:06

用户可以在v2.5之后的官方x86-64TensorFlow设置环境变量TF_ENABLE_ONEDNN_OPTS1来启用这些CPU优化。exportTF_ENABLE_ONED

用户可以在v2.5之后的官方x86-64 TensorFlow 设置环境变量TF_ENABLE_ONEDNN_OPTS&＃61;1来启用这些CPU优化。

export TF_ENABLE_ONEDNN_OPTS&＃61;1

大多数建议都适用于官方x86-64 TensorFlow和英特尔®TensorFlow优化。OpenMP调优等一些建议只适用于TensorFlow的英特尔®优化。

TensorFlow图形选项改进性能

LPOT

提供了一个统一的低精度推理接口, 为fp32预训练模型提供了比TensorFlow优化工具optimize_for_inference更多的优化(例如消除公共子表达式)。
用户有不同的选项来优化他们的预训练模型&＃xff0c;这些选项包括英特尔®低精度优化工具(英特尔®LPOT)&＃xff0c;以及TensorFlow github的工具。
建议使用LPOT在Intel架构上进行预训练的模型优化

Tools from TensorFlow github

First, use Freeze_graph
冻结图形可以提供额外的性能好处。freeze_graph工具&＃xff0c;由于所有权重都冻结在结果推理图中&＃xff0c;可以期望得到更好的推理时间.
Second, Use Optimize_for_inference
在图形被冻结后&＃xff0c;额外的转换可以帮助优化用于推理的图形。

TensorFlow运行时选项提高性能

在这里插入图片描述

intra_/inter_op_parallelism_threads

intra_op_parallelism &＃61; number of physical core per socket #每个插槽的物理内核数

inter_op_parallelism &＃61; number of sockets

通过执行bash脚本文件, get the number of physical core per socket and number of sockets on your platform

#!/bin/bash total_cpu_cores&＃61;$(nproc) number_sockets&＃61;$(($(grep "^physical id" /proc/cpuinfo | awk &＃39;{print $4}&＃39; | sort -un | tail -1)&＃43;1)) number_cpu_cores&＃61;$(( (total_cpu_cores/2) / number_sockets))echo "number of CPU cores per socket: $number_cpu_cores"; echo "number of socket: $number_sockets";

intra_op_parallelelism_threads和inter_op_parallelelism_threads是TensorFlow中定义的运行时变量。

ConfigProto

ConfigProto用于创建会话时进行配置。这两个变量控制要使用的内核数:

intra_op_parallelism_threads
此运行时设置控制操作内部的并行性。例如&＃xff0c;如果打算在多个线程中执行矩阵乘法或简化&＃xff0c;则应该设置这个变量。 TensorFlow将在包含intra_op_parallelelism_threads线程的线程池中调度任务。建议将此环境变量设置为可用物理核的数量。

inter_op_parallelism_threads

NOTE: This setting is highly dependent on hardware and topologies, so it’s best to empirically confirm the best setting on your workload.

运行时设置控制独立操作之间的并行性。由于这些操作彼此不相关&＃xff0c;TensorFlow将尝试在包含inter_op_parallelelism_threads线程的线程池中并发运行它们。这个变量应该设置为您希望运行代码的并行路径的数量。对于TensorFlow的英特尔®优化&＃xff0c;我们建议从设置“2”开始&＃xff0c;并在实证测试后进行调整。

Data Layout

data_format &＃61; NHWC

数据布局&＃xff0c;即如何存储和访问数据
有效地使用缓存和内存可以显著提高整体性能。良好的内存访问模式可以最小化访问内存中的数据的额外成本&＃xff0c;并提高整体处理能力
Data Layout 描述了多维数组如何在内存地址空间中线性存储。
在大多数情况下&＃xff0c;数据布局用四个字母表示一个二维图像:
在这里插入图片描述

N&＃xff1a;Batch size&＃xff0c;批量大小&＃xff0c;表示每批图像的数量。
C&＃xff1a;Channel&＃xff0c;“通道”表示图像的通道数。
W&＃xff1a;Width&＃xff0c;宽度&＃xff0c;表示图像的水平像素数。
H&＃xff1a; Height&＃xff0c;高度&＃xff0c;表示图像的垂直像素数。

这四个字母的顺序表示像素数据在一维存储空间中的存储方式。
例如&＃xff0c;NCHW表示像素数据先存储为宽度&＃xff0c;然后存储为高度&＃xff0c;然后存储为通道&＃xff0c;最后存储为批处理(如图2所示)。然后使用通道优先索引从左到右访问数据。NCHW是使用oneDNN的推荐数据布局&＃xff0c;因为这种格式对于CPU来说是一种有效的数据布局。TensorFlow使用NHWC作为默认的数据布局&＃xff0c;但它也支持NCHW。

NOTE : Intel Optimized TensorFlow supports both plain data formats like NCHW/NHWC and also oneDNN blocked data format since version 2.4. Using blocked format might help on vectorization but might introduce some data reordering operations in TensorFlow.

用户可以通过TF_ENABLE_MKL_NATIVE_FORMAT环境变量在Tensorflow中启用/禁用oneDNN阻塞数据格式。
通过export TF_ENABLE_MKL_NATIVE_FORMAT&＃61;0, TensorFlow将使用oneDNN阻塞数据格式代替。
建议通过下面的命令启用NATIVE_FORMAT&＃xff0c;以获得良好的开箱即用性能。&＃xff08;to achieve good out-of-box performance.&＃xff09;

export TF_ENABLE_MKL_NATIVE_FORMAT&＃61;1 (or 0)

NUMA (Non-uniform memory access)控制影响性能

numactl --cpunodebind&＃61;0 --membind&＃61;0 python

NUMA&＃xff0c;或称非均匀内存访问&＃xff0c;是一种用于数据中心机器的内存布局设计&＃xff0c;旨在利用具有多个内存控制器和块的多插槽机器中的内存位置。
在支持numa的机器上运行会带来一些特殊的注意事项。
当将执行和内存使用限制在单个NUMA节点时&＃xff0c;TensorFlow的Intel®Optimization运行推理工作负载最佳。
在启用numa的系统上运行时&＃xff0c;建议将intra_op_parallelelism_threads设置为每个numa节点的本地内核数。

并行执行
可以通过将工作负载分解为多个数据分片&＃xff0c;然后在多个NUMA节点上并发运行它们来优化性能。在每个节点(N)上执行如下命令:

numactl --cpunodebind&＃61;N --membind&＃61;N python

可以使用" & "命令在多个NUMA节点上同时启动进程:

numactl --cpunodebind&＃61;0 --membind&＃61;0 python & numactl --cpunodebind&＃61;1 --membind&＃61;1 python

英特尔®TensorFlow优化的OpenMP技术性能

英特尔®TensorFlow优化利用OpenMP并行化CPU内核之间的深度学习模型执行。

在这里插入图片描述针对其特定的神经网络模型和平台调整这些环境变量的值,来调优英特尔®优化的TensorFlow性能.

OMP_NUM_THREADS

export OMP_NUM_THREADS&＃61;num physical cores

如果应用程序中没有指定其他值&＃xff0c;则此环境变量设置OpenMP并行区域使用的最大线程数

启用超线程后&＃xff0c;一个物理CPU核心有多个硬件线程&＃xff0c;但建议仅为一个物理CPU核心使用一个硬件线程&＃xff0c;以避免缓存丢失问题。

用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。

该值可以是一个整数&＃xff0c;在这种情况下&＃xff0c;它指定所有并行区域的线程数。该值也可以是一个逗号分隔的整数列表&＃xff0c;在这种情况下&＃xff0c;每个整数指定嵌套级别上并行区域的线程数。(列表中的第一个位置表示最外部的并行嵌套级别&＃xff0c;第二个位置表示下一个内部的并行嵌套级别&＃xff0c;以此类推。)

默认值是执行程序的操作系统可见的逻辑处理器的数量。建议与物理核数相同。

KMP_AFFINITY

export KMP_AFFINITY&＃61;granularity&＃61;fine,compact,1,0

用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。

NOTE The recommendation changes if Hyperthreading is disabled on your machine. In that case, the recommendation is: KMP_AFFINITY&＃61;granularity&＃61;fine,verbose,compact if hyperthreading is disabled.

KMP_BLOCKTIME

export KMP_BLOCKTIME&＃61;0 (or 1)

这个环境变量设置线程在完成一个并行区域的执行后&＃xff0c;在进入睡眠之前应该等待的时间(以毫秒为单位)。缺省值是200ms。(The default value is 200ms.)
在完成一个并行区域的执行后&＃xff0c;线程会等待新的并行工作可用。经过一段时间后&＃xff0c;它们停止等待&＃xff0c;进入睡眠状态。在更多的并行工作可用之前&＃xff0c;休眠允许非openmp线程代码或其他应用程序使用线程&＃xff0c;这些代码可以在并行区域之间执行。
如果线程仅为OpenMP执行而保留&＃xff0c;但可能会惩罚其他并发运行的OpenMP或线程化应用程序&＃xff0c;那么更大的KMP_BLOCKTIME值可能更合适。对于基于卷积神经网络(CNN)的模型&＃xff0c;建议设置为0。

KMP_SETTINGS

export KMP_SETTINGS&＃61;TRUE

这个环境变量启用(TRUE)或禁用(FALSE)在程序执行期间打印OpenMP运行时库环境变量。

推荐阅读

int
PMA 配置存储结构中缺少关键字

在尝试将 mysqldump 文件加载到新的 MySQL 服务器时，遇到因使用保留关键字 'table' 导致的语法错误。 ... [详细]

蜡笔小新 2024-11-15 19:35:06
runtime
Android异步处理系列文章四篇之三

Android异步处理一：使用Thread+Handler实现非UI线程更新UI界面Android异步处理二：使用AsyncTask异步更新UI界面Android异步处理三：Handler+Loope ... [详细]

蜡笔小新 2024-11-15 19:09:29
version
OpenGLPBO

PBO(PixelBufferObject),将像素数据存储在显存中。优点：1、快速的像素数据传递，它采用了一种叫DMA（DirectM ... [详细]

蜡笔小新 2024-11-15 14:56:34
instance
Android GUI 开发：ScrollView 和 HorizontalScrollView 的常见用法

本文介绍了 Android 开发中常用的滚动视图组件 ScrollView 和 HorizontalScrollView 的基本用法和注意事项，帮助开发者更好地处理屏幕内容超出显示范围的情况。 ... [详细]

蜡笔小新 2024-11-15 13:25:11
runtime
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
version
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
post
iOS 多线程技术之 GCD

本文将深入探讨 iOS 中的 Grand Central Dispatch (GCD)，并介绍如何利用 GCD 进行高效多线程编程。如果你对线程的基本概念还不熟悉，建议先阅读相关基础资料。 ... [详细]

蜡笔小新 2024-11-14 15:57:40
instance
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
dll
将.o文件链接到.elf文件时

我有一个从C项目编译的.o文件，该文件引用了名为init_static_pool ... [详细]

蜡笔小新 2024-11-14 10:07:21
search
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
instance
Android 自定义 RecycleView 左滑上下分层示例代码

为了满足项目需求，需要在多个场景中实现左滑删除功能，并且后续可能在列表项中增加其他功能。虽然网络上有很多左滑删除的示例，但大多数封装不够完善。因此，我们尝试自己封装一个更加灵活和通用的解决方案。 ... [详细]

蜡笔小新 2024-11-13 17:43:59
instance
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
instance
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
version
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
int
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23

未来不是梦2602932127

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章