当前位置: 开发笔记 > 编程语言 > 正文

文献阅读（11）FlexFlow

作者：義忠仁倫冧沫Bob | 来源：互联网 | 2023-06-16 22:35

文章目录1introduction2method2.1输入复用InputReuse(IR)2.2输出复用OutputReuse(OR)2.3权重复用WeightReuse(WR)1

文章目录

1 introduction
2 method
- 2.1 输入复用Input Reuse(IR)
- 2.2 输出复用Output Reuse(OR)
- 2.3 权重复用Weight Reuse(WR)
1 方法
2 架构

题目&＃xff1a;Deep Convolutional Neural Network Architecture With Reconfigurable Computation Patterns
时间&＃xff1a;2017
期刊&＃xff1a; TVLSI
研究机构&＃xff1a;清华大学
参考博客&＃xff1a;https://blog.csdn.net/darknessdarkness/article/details/106251428

1 introduction

本篇论文的主要贡献&＃xff1a;

DNA can reconfigure its data paths to support a hybrid data reuse pattern for different layer sizes
DNA can reconfigure its computing resources to support a highly scalable and efficient mapping method
A layer-based scheduling framework is proposed to reconfigure DNA’s resources

2 method

首先明确参数&＃xff1a;

N&＃xff1a;输入通道数
M&＃xff1a;输出通道数
L&＃xff1a;输入特征图宽度
H&＃xff1a;输入特征图高度
C&＃xff1a;输出特征图宽度
R&＃xff1a;输出特征图高度
K&＃xff1a;卷积核宽度

DRAM访问次数为 $\alpha_i &＃43; OUT * \alpha_o &＃43; WGT * \alpha_w &＃43; TotalPooledOutput$
其中 $αi\alpha_i$ 、 $αw\alpha_w$ 、 $αo\alpha_o$ 分别表示输入特征图、权重、输出特征图的数据复用次数

2.1 输入复用Input Reuse(IR)

输入的特征图&＃xff0c;先沿输出通道方向算&＃xff0c;再沿输入通道方向算&＃xff0c;这样特征图只需要加载一次&＃xff0c;即 $αi&＃61;1\alpha_i &＃61; 1$ &＃xff0c;此时 $αw\alpha_w$ 取决于输入特征图在宽度和高度方向tiling的次数&＃xff0c; $αo\alpha_o$ 取决于权重在输出通道方向tiling的次数
在这里插入图片描述
缺点&＃xff1a; 输入特征图存在overlay的区域

2.2 输出复用Output Reuse(OR)

如下图&＃xff0c;先沿输入通道算&＃xff0c;再沿输出通道算&＃xff0c;输出特征图一直在累加&＃xff0c;所以 $αo&＃61;0\alpha_o &＃61; 0$ &＃xff0c;而 $αi\alpha_i$ 取决于输出通道tiling次数&＃xff0c; $αw\alpha_w$ 取决于输出特征图宽度和高度方向tiling次数
在这里插入图片描述

2.3 权重复用Weight Reuse(WR)

在这里插入图片描述

题目&＃xff1a;FlexFlow: A Flexible Dataflow Accelerator Architecture for Convolutional Neural Networks
时间&＃xff1a;2017
会议&＃xff1a;HPCA
研究机构&＃xff1a;中科院计算所
参考博客&＃xff1a;https://zhuanlan.zhihu.com/p/109041345

1 方法

在这里插入图片描述
这有几个概念是跟我们之前的理解不一样&＃xff1a;

Feature map Parallelism (FP)&＃xff1a;对应输入通道和输出通道
Neuron Parallelism (NP)&＃xff1a;对应输出特征图宽度和高度方向
Synapse Parallelism (SP)&＃xff1a;对应了一个3x3或5x5 kernel内部的并行度

在这里插入图片描述
针对架构的分类&＃xff0c;同样采用了Neuron、Synapse的概念&＃xff0c;比如说3x3kernel内部并行的SP对应了(a)的脉动阵列&＃xff0c;输出特征图宽度和高度方向的NP对应了(b)的2D mapping&＃xff0c;而FP对应了tiling&＃xff0c;倒是比较接近我们的设计

2 架构

PE结构如下图所示&＃xff0c;可以发现每个PE内部都会有一个local buffer&＃xff0c;方便实现不同数据的重排&＃xff0c;那么卷积操作一共分成三步

DataFlow1: 数据分发到PEDistribution Layer to Local Store
DataFlow2: Local Store to Operator
DataFlow3: Neuron and Kernel Buffers to Distribution Layer

下图展示了混合并行度的情况&＃xff0c;对于(a)&＃xff0c;包括了
输出通道方向并行度 x2
kernel内部并行度 x4
输出特征图x方向 x2

对于(b)&＃xff0c;包括了

输出通道方向并行度 x2
输入通道方向并行度 x2
kernel内部并行度 x2
输出特征图x方向 x2

在这里插入图片描述
下面这个图对应了上图(a)&＃xff0c;表示是具体数据分布方式&＃xff0c;黑箭头表示t时刻数据访问&＃xff0c;灰箭头表示t&＃43;1时刻数据访问。

在t时刻时&＃xff0c;第一行PE对应了输入特征图的0-3
在t时刻时&＃xff0c;第一行PE对应了输入特征图的1-4
在t&＃43;1时刻时&＃xff0c;第一行PE对应了输入特征图的2-5
在t&＃43;1时刻时&＃xff0c;第一行PE对应了输入特征图的3-6

可以发现&＃xff0c;数据按下面的排布方式&＃xff0c;不会出现bank conflict
在这里插入图片描述
可以说&＃xff0c;想要实现灵活的数据流&＃xff0c;主要的难度都在这个数据排布和重组上

推荐阅读

search
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
header
响应式页面的概述和实现方式

本文介绍了响应式页面的概念和实现方式，包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点，提出了选择方案的建议。同时，对于响应式页面的需求和背景进行了讨论，解释了为什么需要响应式页面。 ... [详细]

蜡笔小新 2023-12-11 12:37:10
blob
Proof (of knowledge) of exponentiation

1.ProofofexponentiationProofofexponentiation是基于adaptiverootassumption（充分必要条件࿰ ... [详细]

蜡笔小新 2024-09-27 15:32:38
object
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
go
Oasis 公布 Q3、Q4 路线图 | 推动 Sapphire 成为隐私王冠上闪耀明珠

Oasis 公布 Q3、Q4 路线图 | 推动 Sapphire 成为隐私王冠上闪耀明珠 ... [详细]

蜡笔小新 2024-09-30 13:53:16
go
linux filesystem_如何使用cgdb + qemu调试linux内核模块

如何使用cgdbqemu调试linux内核模块前言Linux代码庞大而繁杂，光看代码会使人头晕目眩，如果能通过调试工具对其代码执行流程进行调试ÿ ... [详细]

蜡笔小新 2024-09-30 11:42:29
version
什么是Maven神器？

本文翻译自：WhatisaMavenartifact?什么是神器？为什么Maven需要它？#1楼参考：https:sta ... [详细]

蜡笔小新 2024-09-30 10:32:49
replace
android – 如何使用GDK在卡上显示静态地图？

在MirrorAPI中,我们可以使用以下内容： ... [详细]

蜡笔小新 2024-09-29 18:39:06
replace
[解题报告] Where is the Marble?

题目大意题目原文：http:uva.onlinejudge.orgexternal10410474.pdf背景还是基本的排序问题，题目意思很简单就是首先 ... [详细]

蜡笔小新 2024-09-29 18:11:09
header
openssl 实现https 网站

下面是一个用openssl实现获取https网页内容的demo，整个流程比较简单，主要封装的API如下staticinthttps_init(http ... [详细]

蜡笔小新 2024-09-29 16:41:10
header
3357: [Usaco2004]等差数列

3357:[Usaco2004]等差数列TimeLimit:10SecMemoryLimit:128MBSubmit:321Solved:153[Submit][Status][D ... [详细]

蜡笔小新 2024-09-29 09:37:36
go
互联网世界 9 种基本的商业模式

互联网世界9种基本的商业模式一个商业模式是运行一个公司的方法；通过该模式的运作，一个公司能维持自己的生存，就是说，能有收益。商业模式意味着一个公司是如何通过在价值链中定位自己，从而获 ... [详细]

蜡笔小新 2024-09-28 19:01:18
object
GradeBook类怎么定义

这篇文章主要讲解了“GradeBook类怎么定义”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Grad ... [详细]

蜡笔小新 2024-09-28 08:26:33
object
scalability 该怎么翻译？ extensibility 呢？

jcip里scalability的定义:Scalabilitydescribestheabilitytoimprovethroughputorcapacitywh ... [详细]

蜡笔小新 2024-09-25 14:34:12
object
开发笔记:OpenCV基础图形绘制

本文由编程笔记#小编为大家整理，主要介绍了OpenCV基础---图形绘制相关的知识，希望对你有一定的参考价值。图形绘制OpenCV提供了直线，矩形，圆 ... [详细]

蜡笔小新 2024-09-24 17:41:23

義忠仁倫冧沫Bob

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章