与TensorFlow/cuDNN中的NHWC相比，NCHW快多少？

作者：婉婷雅铃43 | 来源：互联网 | 2023-02-02 14:52

如何解决《与TensorFlow/cuDNN中的NHWC相比，NCHW快多少？》经验，需要怎么解决？

TensorFlow官方性能指南指出：

CNN使用的大多数TensorFlow操作都支持NHWC和NCHW数据格式。在GPU上，NCHW更快。但是在CPU上，NHWC有时更快。

与TensorFlow / cuDNN中的NHWC相比，NCHW的卷积速度要快多少？是否有任何参考或基准？

另外，为什么速度更快？据我了解（请参阅此处），用于GPU上的NHWC的TensorFlow将始终在内部转置为NCHW，然后为NCHW调用cuDNN conv内核，然后将其转回。但是为什么要这样做呢？cuDNN转换内核也适用于NHWC。也许他们在某个时候进行了比较，并且NHWC的cuDNN conv内核非常慢。但这是最新的吗？差异有多大？NHWC这么慢的技术原因是什么？还是针对这种情况的cuDNN内核没有得到很好的优化？

推荐阅读

机器学习
计算机视觉初学者指南：如何顺利入门

本文旨在为计算机视觉领域的初学者提供一套全面的入门指南，涵盖基础知识、技术工具、学习资源等方面，帮助读者快速掌握计算机视觉的核心概念和技术。 ... [详细]

蜡笔小新 2024-11-27 13:38:50
机器学习
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
tensorflow
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
tensorflow
深入解析 KALDI 的 CUDA 矩阵库

本文详细介绍了 KALDI 中 CUDA 矩阵库的使用与功能，包括其如何提高计算效率以及在不同环境下的适应性。 ... [详细]

蜡笔小新 2024-11-30 21:25:50
tensorflow
QLab Pro如何对工作区进行设置

QLabMac是一款Mac平台的音频编辑处理工具，用户可对WAV、MP3、MP2、MPEG、OGG、AVI、g721、g723、g726、vox、ram、pcm、wm ... [详细]

蜡笔小新 2024-11-29 14:33:42
机器学习
尤洋：夸父AI系统——大规模并行训练的深度学习解决方案

自从AlexNet等模型在计算机视觉领域取得突破以来，深度学习技术迅速发展。近年来，随着BERT等大型模型的广泛应用，AI模型的规模持续扩大，对硬件提出了更高的要求。本文介绍了新加坡国立大学尤洋教授团队开发的夸父AI系统，旨在解决大规模模型训练中的并行计算挑战。 ... [详细]

蜡笔小新 2024-11-25 19:02:33
机器学习
Ubuntu 14.04 环境下搭建 Caffe（仅限 CPU）

本文详细介绍了如何在 Ubuntu 14.04 系统上搭建仅使用 CPU 的 Caffe 深度学习框架，包括环境准备、依赖安装及编译过程。 ... [详细]

蜡笔小新 2024-11-22 16:43:30
深度
UE4 中的距离场技术详解

本文将深入探讨 Unreal Engine 4 (UE4) 中的距离场技术，包括其原理、实现细节以及在渲染中的应用。距离场技术在现代游戏引擎中用于提高光照和阴影的效果，尤其是在处理复杂几何形状时。文章将结合具体代码示例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-19 18:21:03
深度
Flutter 核心技术与混合开发模式深入解析

本文深入探讨了 Flutter 的核心技术，特别是其混合开发模式，包括统一管理模式和三端分离模式，以及混合栈原理。通过对比不同模式的优缺点，帮助开发者选择最适合项目的混合开发策略。 ... [详细]

蜡笔小新 2024-11-19 13:48:51
机器学习
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
机器学习
iOS 开发中设置圆角的方法

本文介绍了在 iOS 开发中设置图片和视图圆角的几种方法，包括通过 layer 设置圆角、使用贝塞尔曲线和 Core Graphics 框架，以及使用 CAShapeLayer 和 UIBezierPath。每种方法都有其优缺点，适用于不同的场景。 ... [详细]

蜡笔小新 2024-11-15 12:07:03
算法
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
算法
如何选择PS3的硬盘容量

选择PS3的硬盘容量时，应考虑个人需求和预算。虽然PS3的内存固定为512MB，但硬盘容量可以选择。如果你经常下载游戏或存储大量媒体文件，建议选择较大容量的硬盘。一般情况下，320GB或500GB的硬盘已经足够满足大部分用户的需求。 ... [详细]

蜡笔小新 2024-11-14 09:28:19
深度
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
深度
Dell Latitude 5290 2-in-1 平板电脑黑苹果体验评测

本文基于notebookcheck的详细数据和个人实际使用体验，对Dell Latitude 5290 2-in-1平板电脑进行评测。评测内容包括外观设计、散热性能、基准测试、游戏表现和续航能力等方面，旨在为读者提供全面的参考。 ... [详细]

蜡笔小新 2024-11-12 17:24:30

婉婷雅铃43

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章