FPGA构建人工神经网络系统应用实例——视障人士便携导航系统

作者：逆天子_1968n_6 | 来源：互联网 | 2023-05-17 12:58

现场可编程门阵列（FPGA）技术不断呈现增长势头，2013年全球FPGA市场已经增长至35亿美元。1984年Xilinx刚刚创造出FPGA时，它还是简单的胶合逻辑片，而如今在信号处

现场可编程门阵列（FPGA）技术不断呈现增长势头， 2013年全球FPGA市场已经增长至35亿美元。 1984年Xilinx刚刚创造出FPGA时，它还是简单的胶合逻辑片，而如今在信号处理和控制应用中，它已经取代了自定制专用集成电路（ASIC）和处理器。今天来自北邮数据科学中心的杨阳来为大家解读如在使用FPGA构建人工神经网络系统。

技术分享图片
以下为杨阳老师演讲实录

源起：使用FPGA搭建视障人士便携导航系统
在刚刚过去的第八届华为杯中国大学生智能设计竞赛，我们用PaddlePaddle来搭建一个人工神经网络放到我们自己的硬件平台里，实现了基于深度学习的视障人士便携导航系统，获得了二等奖。我们选择这个题目的原因，是考虑中国有大批的视障人群，这些视障人群在出行方面会遇到不少困难。我们传统的方式需要一些专门的人力、物力帮助视障人士出行，但是这种传统方式有一定的缺陷性，一般来说需要专人的陪同，另一方面，如果希望视障人士有很好的出行体验的话，我们需要很昂贵的导盲系统设备。
我们后来想到了应用FPGA加上深度学习的技术来设计一套完整的盲人的视障导航系统，本身FPGA进行深度学习的时候功耗特别低，小型化，而且速度也比较快。因此，我们的主要设计工作是分两部分：一部分是高层的PaddlePaddle深度学习算法设计，另一部分是关于底层的FPGA硬件设计。
首先我们通过大规模的行人出行指示图象，用PaddlePaddle进行大规模的训练，然后在PaddlePaddle里搭建一套深度学习神经网络，将这些深度神经网络的参数训练好之后写到FPGA里。
当时我们做了一个六层网络作为核心的单元，网络系数是通过PaddlePaddle对行人的指示标志图象训练获得，指示标志的样本我们采用了一个国外的实验室给的一个数据集，比赛的时间比较短，来不及自己采集，直接就用了一个别人的实验室给我的一个行人指示标志的图片，一共是3400张，这就是给一个例子，比如说这样的情况行人是允许通过的，因为前面可能有斑马线，这种情况可能是前面施工就禁止通行。
完成了算法设计，生成了参数，我们就想把这些参数烧录到硬件当中，形成具有实际功能的作品。我们的系统开发采用的是zynq7000系列，这个芯片有一个好处分为是它的下层是包括了传统的pl端，就是所谓普通LPG的逻辑电路，为我们整个发板带了一些丰富的外设提供了便利。比如说包括一些hdmi的口，USB2.0的口，因为我们盲人的摄像头采用USB2.0的摄像头。
技术分享图片
图一 FPGA并行执行结构
zynq7000包括神经前馈网络模块、AXI直接存储器接入模块。用AXI这款芯片有一个好处，上层的AIM芯片和底层FPGA的逻辑是通过AXI总线直接连接。第三部分是实时图象的数据输入模块，还有一个侦提取模块。最核心的是这个，实现了一个将PaddlePaddle的参数直接导入进来以后的模块，我们采用的是vivado hls、opencl1.0的方式，现在的方式都支持高层，比如说你对C或者C++比较熟悉的时候就可以采用这个方式进行开发。我后面也会讲到如何利用高层语言进行一个转换，就避免了要重新去学习一些底层的繁琐的硬件代码。
采用深度前馈网络模块的好处是它可以使用层级模型，并发执行，统一内核。LPG里天然生成逻辑是有很多的计算单元，这些计算单元会划分成一个大块，它叫NDRange。NDRange可以进行一系列矩阵的运算，进行深度学习。训练完了之后将得到的深度神经网络可以让FPGA进行配套，这样很容易就可以把网络捎写到FPGA里，这样完成了矩阵的乘法。采用FPGA也是因为有并行的执行结构。

![](http://i2.51cto.com/images/blog/201810/07/371ff0cb6180d2ee3b2a04e1ace62fb7.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)

图二、数据的读入、处理显示以及输出过程流图
整个我们当时做的系统流程就是像这样的情况：首先我们要导入PaddlePaddle生成的网络参数，然后初始化深度的神经网络，接下来USB摄像头捕捉一些图象送到这个总线当中，接下来AXI直接读入数据，写入缓存，接下来就是FPGA处理数据，接下来是实时显示并输出，行人在路上走的时候可以实时看到图象，并且能够实时输出。
因为时间关系，我们当时只做在了显示器上。显示器会给出一个，信息显示你能否通行或者不能通行，实际上我们后续希望做出一个音频的给出一个信号，有一个声音提示行人。

技术分享图片
图三、行人指示标识图像训练样本数目vs. 判断准确率
参赛的时候训练集比较有限，我们采用的图片一共3400张，所以整个训练袭来，我们最高准确率也只达到了75%。深度学习进行行人指示能否通过和不通过本身是一个概率的事情，我们达到了最高是2000次训练的，实际上这条曲线3000次训练没有2000次训练好，因为3000次达到了一个过拟合的情况，所以反而没有2000次的好。但是总体趋势是这样，随着PaddlePaddle的训练图片数目的不断增大，准确率不断上升。如果我们后期加大数据集的话，可能准确率还会有所上升。
技术分享图片
图四、单张行人指示标识图像判断结果示例
这个地方给出了一个单张行人指示标识的判断结果，最后判断出来的时候实际上是一个概率事件，你最后出来的时候，我们用的是一个什么，判断一下这个是0.8，我们认为比不能通行的概率大就可以通行。
FPGA的性能优势
使用FPGA，可以大大降低功耗，如果你把整个深度神经网络在GPU上或者CPU上实现，功耗会非常高，而用FPGA功耗最低可达1.725瓦。这两个参数我们测的时候是采用了看GPU实际运行中的额定功率，GPU功耗是比较大的。而且使用GPU识别的时候，不便于小型化，因为不可能背着GPU出去到处走。用FPGA功耗比较低是一个亮点，超低的功耗使得FPGA在续航和小型化方面优点比较明显，体积小是另一个亮点。
技术分享图片
图五、GPU、CPU与FPGA功耗对比

图六、系统资源占用情况
然后我们给出了一个资源占用情况分析，因为你在FPGA当中做的是定点数的计算，所以我们要对网络，因为你不管是PaddlePaddle生成出来的参数也好，你最后写入到FPGA的时候可能要考虑到从一个浮点数转到静点数。所以我们就要采点数，这和本身芯片设计有关系，芯片大小决定了你能放多大的深度神经网络，我们当时使用的是六层的神经网络，资源占用率是达到了79%，满足了芯片的要求，后期可以选择更大的FPGA的芯片。

FPGA的应用潜力
传统的深度学习框架很多都是跑在GPU和CPU上，对于FPGA目前为止好像还没有成熟的深度学习框架，在这个地方我希望通过一个抛砖引玉的思路给大家一个思路，如果大以后有兴趣可以在FPGA上实现深度学习框架。现在很多主流的厂商，他们都在做自己的一些想在自己的FPGA上搭自己的深度学习框架。
应用背景是随着大数据的爆发式增长，人工智能技术也得到了快速的发展，高性能计算的需求日益增长，可以看到像这样的数据中心，还有一些人工智能的判断，包括百度的阿波罗做无人驾驶这方面，我们在传统计算当中已经不能满足我们现在需要的这种计算的速度，所以我们需要用FPGA进行一个加速，传统芯片提升功耗比方面遇到了一个极大的挑战。
与计算平台的对比，实际上可以看到如果你采用传统的ASIC开发芯片，功耗是很低的，但是开发周期是非常长的，因为你要把所有的可能性想好之后做定制，定制需要的ASIC芯片。GPU开发周期短，性能也好，但是功耗太高了。FPGA介于这两者之间，开发周期较短，性能好，也比较适合做深度学习的计算，功耗特别低，所以一般来说我们可以考虑使用介于两者之间的FPGA进行一个开发。
深度学习分为两部分，首先第一部分是训练，第二部分是推断。训练这一部分是从已有的深度学习学习到新的能力，推断是将学习的新能源应用到新数据当中，比如说形成一个深度神经网络的话就可以捎入到需要的芯片当中。很多的深度学习框架都不支持FPGA，但是前段时间PaddlePaddle提供了一些支持FPGA的接口，所以大家有兴趣可以看一下提供的接口的链接：https://github.com/PaddlePaddle/paddle-mobile/tree/ca32dc7f40e75080d203b7de3cd1ae30feb612c9/src/operators/kernel/fpga。
这个地方我们希望PaddlePaddle可以做更好的支持，首先是支持FPGA上训练和推断，第二是优化FPGA的计算加速，训练模型在FPGA和CPU，GPU之间可以无缝对接，有了这样的深度学习框架可以在GPU上跑，可以在CPU上跑，也可以在FPGA上跑。

使用FPGA搭建CNN模型
如何在FPGA上面搭一个深度学习框架，我们当时采用的是xilinx的开发板，其实也可以采用其他的开发板，这个板子也挺贵的，两万三一个。当时采用的操作系统是centos，开发环境是vivado、SDX，上层是支持C的，在上层的时候可以用C或者C++进行开发，底层实际运行可以进行一个转换，效率上可能会低一些，但是会加速你的开发的周期，这样的话可以用上层的语言。首先通过我们的主机端，通过板子构成一整个的深度学习框架的开发的硬件环境，他有一些包括里面的PCl-e的控制器，整个框架支持C++和Opencl的开发，有了这样的硬件环境对于你后期想在这上面部署一个深度学习框架其实是有好处的。
框架是如何实现，这是一个自己向上的设计和思路，我们分了几部分，第一部分blob，进行封装数据的读写。第二部分采用layer，把封装好的数据利用blob进行不同功能的具体计算，接下来用net进行组合，就是把所有的每一个层进行串起来，串起来之后把每一个层组合神经网络，最后有一个solve控制神经网络的流程。
设备端可以做一个优化，实际上FPGA比较适合来做定点数的，浮点数对于FPGA来说不是一个特别有优势的功能，我们的定点数实际上位宽比较少，节省资源。第二个是整型的数据，利于硬件的运算，这儿给出了一个例子，当然这个例子其实在网上大家也可以看到很多定点数和浮点数的转换。
最后你可以看到精度损失是比较小的，一般是可以忽略的。实际上最后也给出了一个引证，我们在FPGA上，如果想去搭深度学习框架，如果采用定点数，实际上是有一定的可能性的。我们当时比较了一下，进行一次两次的加法，乘法节省的时间分别达到40%和29%，所以从这个图上可以看到32位单精度浮点数，我们的定点数位宽Q=11的时候可以节省相应的资源。同时我们用了手写数字的数据集运行了一下数据集，如果在FPGA上搭这样的一个深度学习的框架，其实你可以看到定点和浮点这两个准确率几乎可以达到一致。
其实FPGA里还有一个很好的特色就是有一个pipeline，就是所谓的流水线，用定点数据依赖，增加算法硬件实现的并行性的数字设计方法，用串型的计算，比如说8个周期进行传统的计算的时候，比如说8个周期是一个串型的计算，利用这个流水线把每个单元进行并行化，实际上可以看到采用更少的时间周期可以进行并行的计算，可以大大降低逻辑资源。

实录结束

杨阳
2015年博士毕业于北京邮电大学信息与通信工程学院，同年进入清华大学电子系从事博士后研究工作，目前就职于北京邮电大学，任职讲师，研究兴趣方向为人工智能、智能硬件与通信网络，国家自然科学基金青年基金获得者，中国博士后科学基金面上项目获得者，发表SCI期刊论文6篇，EI期刊17篇，申请国际专利3项，国内专利4项，参与国家国家重大专项项目一项。指导留学生3名，硕士研究生四名并获得国家级学科竞赛奖励四项。

FPGA构建人工神经网络系统应用实例——视障人士便携导航系统

推荐阅读

js
HihoCoder 1505: 深入解析算法挑战与编程技巧

在 HihoCoder 1505 中，题目要求从给定的 n 个数中选取两对数，使这两对数的和相等。如果直接对所有可能的组合进行遍历，时间复杂度将达到 O(n^4)，因此需要考虑优化选择过程。通过使用哈希表或其他高效的数据结构，可以显著降低时间复杂度，从而提高算法的效率。具体实现中，可以通过预处理和存储中间结果来减少重复计算，进一步提升性能。 ... [详细]

蜡笔小新 2024-11-01 11:07:48
js
Java集合框架的使用方法与性能对比分析

本文详细探讨了Java集合框架的使用方法及其性能特点。首先，通过关系图展示了集合接口之间的层次结构，如`Collection`接口作为对象集合的基础，其下分为`List`、`Set`和`Queue`等子接口。其中，`List`接口支持按插入顺序保存元素且允许重复，而`Set`接口则确保元素唯一性。此外，文章还深入分析了不同集合类在实际应用中的性能表现，为开发者选择合适的集合类型提供了参考依据。 ... [详细]

蜡笔小新 2024-11-01 09:51:38
js
JVM参数设置与命令行工具详解

JVM参数配置与命令行工具的深入解析旨在优化系统性能，通过合理设置JVM参数，确保在高吞吐量的前提下，有效减少垃圾回收（GC）的频率，进而降低系统停顿时间，提升服务的稳定性和响应速度。此外，本文还将详细介绍常用的JVM命令行工具，帮助开发者更好地监控和调优JVM运行状态。 ... [详细]

蜡笔小新 2024-10-30 15:49:34
js
深入解析 Linux 系统中的 /proc 文件系统及其功能

在 Linux 系统中，`/proc` 目录实现了一种特殊的文件系统，称为 proc 文件系统。与传统的文件系统不同，proc 文件系统主要用于提供内核和进程信息的动态视图，通过文件和目录的形式呈现。这些信息包括系统状态、进程细节以及各种内核参数，为系统管理员和开发者提供了强大的诊断和调试工具。此外，proc 文件系统还支持实时读取和修改某些内核参数，增强了系统的灵活性和可配置性。 ... [详细]

蜡笔小新 2024-10-30 12:44:28
js
解决基于XML配置的MyBatis在Spring整合中出现“无效绑定语句（未找到）：com.music.dao.MusicDao.findAll”问题的方法

在将Spring与MyBatis进行整合时，作者遇到了“无效绑定语句（未找到）：com.music.dao.MusicDao.findAll”的问题。该问题主要出现在使用XML文件配置DAO层的情况下，而注解方式配置则未出现类似问题。作者详细分析了两个配置文件之间的差异，并最终找到了解决方案。本文将详细介绍问题的原因及解决方法，帮助读者避免类似问题的发生。 ... [详细]

蜡笔小新 2024-11-01 11:37:01
js
如何高效处理大规模数据报表的分页展示，有哪些优化方法和技巧？

在探讨如何高效处理大规模数据报表的分页展示之前，首先需要明确导致报表加载缓慢的主要原因。通常情况下，这主要是由于两个方面：一是查询条件过于宽泛，使得数据库返回的结果集包含数百万甚至更多的记录；二是前端渲染性能不足，无法高效处理大量数据。为了优化这一过程，可以从以下几个方面入手：优化查询条件，减少不必要的数据返回；采用分页查询技术，每次仅加载所需的数据；利用缓存机制，减少对数据库的频繁访问；提升前端渲染效率，使用虚拟滚动等技术提高用户体验。 ... [详细]

蜡笔小新 2024-11-01 11:03:18
js
POJ 2482：窗口中的星星 —— 基于线段树、离散化与扫描线算法的优化解决方案

题目描述非常吸引人。每颗星星可以通过其在窗口的左下角和右上角位置构建两条扫描线，从而将问题转化为区间增减和求最大值的操作。需要注意的是，位于边界的星星不应计入结果，因此在处理时应分别对左右边界进行适当的增减调整。此外，利用线段树和离散化技术可以显著提高算法效率，确保在大规模数据下的性能表现。 ... [详细]

蜡笔小新 2024-10-31 23:19:19
python
Python学习：环境配置与安装指南

Python作为一种跨平台的编程语言，适用于Windows、Linux和macOS等多种操作系统。为了确保本地已成功安装Python，用户可以通过终端或命令行界面输入`python`或`python3`命令进行验证。此外，建议使用虚拟环境管理工具如`venv`或`conda`，以便更好地隔离不同项目依赖，提高开发效率。 ... [详细]

蜡笔小新 2024-10-31 12:18:21
js
优化后的标题：洛谷P3239 [HNOI2015] 亚瑟王算法详解与实现

题目描述：小K不幸被LL邪教洗脑，洗脑程度之深使他决定彻底脱离这个邪教。在最终离开前，他计划再进行一次亚瑟王游戏。作为最后一战，他希望这次游戏能够尽善尽美。众所周知，亚瑟王游戏的结果很大程度上取决于运气，但通过合理的策略和算法优化，可以提高获胜的概率。本文将详细解析洛谷P3239 [HNOI2015] 亚瑟王问题，并提供具体的算法实现方法，帮助读者更好地理解和应用相关技术。 ... [详细]

蜡笔小新 2024-10-30 19:46:06
js
IDEA中高效利用代码变量名替换功能提升编程效率

在使用 IntelliJ IDEA 进行公司项目代码审查时，我发现许多变量的命名不符合驼峰式命名规范。起初，我尝试手动逐个修改这些变量名，但效率低下。后来，我偶然发现了 IDEA 中的代码变量名替换功能，这极大地提高了我的工作效率。通过该功能，我可以快速批量地将不规范的变量名修改为符合命名规则的形式，不仅节省了时间，还减少了出错的可能性。此外，我还利用这一功能对整个项目的代码进行了全面的优化，确保所有变量命名一致且易于理解。 ... [详细]

蜡笔小新 2024-10-30 17:23:35
config
DHCP三层交换机设置方式全局模式和接口模式设置方式和命令

DHCP三层交换机设置方式全局模式和接口模式设置方式和命令resetsave回车输入yreboot输入n输入y重启后就恢复默认设置了默认用户名密码adminAdmin@huawei ... [详细]

蜡笔小新 2024-10-30 09:12:37
config
优化Apache配置文件：httpd.conf与.htaccess的深入解析

本文深入解析了 Apache 配置文件 `httpd.conf` 和 `.htaccess` 的优化方法，探讨了如何通过合理配置提升服务器性能和安全性。文章详细介绍了这两个文件的关键参数及其作用，并提供了实际应用中的最佳实践，帮助读者更好地理解和运用 Apache 配置。 ... [详细]

蜡笔小新 2024-11-01 04:26:35
js
Vuex 实战进阶：构建高效笔记本应用（第二篇）

在上一篇文章中，我们初步探讨了 Vuex 在该项目中的应用。本文将深入解析整个项目的架构设计。首先回顾 `main.js` 的内容，然后重点分析 `App.vue` 文件，其中引入了 `Toolbar.vue` 和 `NodeList.vue` 组件，详细说明它们在应用中的作用和交互方式。通过这些组件的协同工作，我们将展示如何构建一个高效且响应迅速的笔记本应用。 ... [详细]

蜡笔小新 2024-10-31 20:35:45
js
Spring框架学习：基于Schema的异常通知与环绕通知深入解析

在Spring框架中，基于Schema的异常通知与环绕通知的实现方法具有重要的实践价值。首先，对于异常通知，需要创建一个实现ThrowsAdvice接口的通知类。尽管ThrowsAdvice接口本身不包含任何方法，但开发者需自定义方法来处理异常情况。此外，环绕通知则通过实现MethodInterceptor接口来实现，允许在方法调用前后执行特定逻辑，从而增强功能或进行必要的控制。这两种通知机制的结合使用，能够有效提升应用程序的健壮性和灵活性。 ... [详细]

蜡笔小新 2024-10-30 13:30:04
js
提升MongoDB连接安全性：策略与实践

在使用关系型数据库时，通常需要通过用户名和密码进行身份验证才能访问数据。然而，MongoDB默认情况下并不强制要求这种身份验证机制，使得用户无需凭据即可访问并执行各种操作。虽然这一设计简化了初学者的上手过程，但也带来了显著的安全风险。为了提升MongoDB的连接安全性，本文将探讨多种策略与实践，包括启用身份验证、配置网络访问控制、加密通信以及定期审计安全设置，以确保数据库的安全性和数据的完整性。 ... [详细]

蜡笔小新 2024-10-30 12:57:32

逆天子_1968n_6

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章