利用Kinect将投影变得可直接用手操控

作者：萧鸿锵_976 | 来源：互联网 | 2023-08-31 07:17

Finally总算是到了这一天了！假期里算法想不出来，或者被BUG折磨得死去活来的时候，总是YY着什么时候能心情愉快地坐在电脑前写一篇项目总结，今天总算是抽出时间来总结一下这神奇的几个月。现在回过头来

Finally
总算是到了这一天了！假期里算法想不出来，或者被BUG折磨得死去活来的时候，总是YY着什么时候能心情愉快地坐在电脑前写一篇项目总结，今天总算是抽出时间来总结一下这神奇的几个月。

现在回过头来看，上学期退出ACM集训队果然是对的，这次开发学到的东西太多太多，以前在ACM的时候，感觉不会的东西好多啊，真正来自己试着开发个东西，发现不会的东西果然好多。不过要是几个老师知道我上午给新生做完ACM宣讲报告下午就跟教练说退出，他们会是什么心情啊哈哈。

这些是第一次尝试开发，如果ACM是练内功的话，那么练了三年也总该让我拿出来用用了，不然学了三年还是只在个控制台里玩甚是寂寞，自己亲手从无到有创造出一个东西来的感觉，实在太爽了！

先说一下这次项目印象最深的几个教训：

功能一旦变得复杂，就一定要在纸上先画一画！

流程图也好，大体思路图也行，甚至随手演算的过程都可以，总之一定要把思路理清楚了，思路不清的后果就是代码越写越乱，最后只能全部推倒重来，事先不画图省下的时间远远比不上最后重写所浪费的时间。

命名一定要规范

以前刷题的时候，也知道命名规范的重要性，只是没想到会如此重要。之前我的代码风格还算不错，不过一开始写的时候还偷下懒，省掉一两个单词之类，有时心急了还直接用原来的命名方法，用下划线分割单词（Kinect的API里都是用大小写分割单词的），这样写的弊端就是代码也是越来越乱，而且一旦有事中断了几天，回来再看代码就发现看不懂了，于是又简单粗暴推倒重来。所以一定要有一套自己的命名风格，而且不要为了省事少些那一两个单词，敲个长变量名所带来的是代码的高可读性，多耗费的时间远远小于以后推倒重来所浪费的时间！

不写不必要的注释

到处都是注释，反而大大降低了可读性，一眼看去全是绿的，头都晕了，开发中期我就被自己那么多的注释弄得看见绿代码就想吐，后期只注释主要功能，提高抽象程度，代码反而变得清晰有逻辑。所以那种基本每行都有注释的风格，我并不认同，当然，我说的是代码基本仅供自己一个人看的情况。

最好进行版本控制

有一次就是，我做了个比较微小的改动，结果怎么调都不对，也已经忘了改动之前是什么状态，简直是有种欲哭无泪的感觉。还有就是进行一个大的改动之后，突然发现之前的那个版本才是对的（哭）。有个版本控制机制的话，这种情况应该能避免很多。

迭代开发似乎是个不错的办法

之前在知乎上看到一个贴，讲的是新手应该怎样进行开发，提到的一种思路就是进行迭代开发。一开始可能什么都不懂，然后着手做了一部分之后，就对项目有了个大概的轮廓，然后推翻进行新的一轮开发，这时又对未来该怎么做有更清晰的了解，这样不断迭代把项目逐步推向成熟。我是迭代了4次之后出了目前这个基本完成的版本，不过在写的时候没刻意考虑过用这种方法，之所以迭代了4次是因为上面提到的种种原因导致推翻重来（捂脸），不过现在看来这种方法好像真的很合理。

项目介绍
好了，现在正式开始介绍一下项目本身。

背景

这个项目原本是用来参加2016年的微软创新杯，但是在上一周，也就是3月20号的四川省区域赛中未获奖，只能直接参战中国区半决赛。这次区域赛失败的原因有很多，虽然作品已经完成得差不多了，但是没能优秀地将其展示出来，在现成演示的时候还遇到了一个巨大失误，中途才发现，所以没等通知结果就知道多半是悲剧了。第一次参加这类开发类的比赛，就当交学费好了，不过这次区域赛给我的感觉是，微软还是想找几个最有商业前途的作品，这个项目炫是很炫酷，但是实际意义不大的样子，所以感觉中国区半决赛希望也不大。不过无所谓啦，我自己玩得嗨就行了，微软欣不欣赏那是另外一回事，说不定哪天我就搭建出个钢铁侠那样的实验室不是？啊哈哈，最近也顺便把这个项目报成了大学生创新创业训练计划，成功申请到国家级，算是可以安慰一下。

目标

简单来说，此项目就是要把投影仪投出的投影变得可以直接用裸手操控，就好像投影变成了一块大型的平板电脑，投影可以是在投影幕上、墙上甚至桌子上，任何光滑且不是反射材质的平面都行，至于为什么不能是反射材质，等下会有介绍。刚开始是计划达到能用手指直接在投影上写字的精度，后来发现很难做到，瓶颈在于指尖的识别算法不够精确，这是我自己构思的一个简单算法，未来应该会用更高级更精确的算法来替代。

开发环境

Kinect for Windows V2 + Kinect SDK 2.0 + OpenCV 3.0 + Visual Studio Community 2015

Kinect

项目里利用到的一个非常重要的东西就是Kinect for Windows V2，一款微软的动作感应器，可以算成是一类现实增强设备，发布时主要是搭配XBox来玩体感游戏，但是这么厉害的一个东西只能用来玩游戏实在太可惜，所以微软在前几天发布了它的Windows版本，让它能够在PC上进行开发。就是下面这么个东西：

原理

原理其实并不算难，主要可以参考下面这张图。

从Kinect获取的整个画面中识别出投影
- 因为操作要在投影上进行，所以需要先识别出投影是画面中的哪一块，这里用的算法比较简单，先投一副纯色图像出来，然后利用投影区RGB值近似的原理，找出投影的左下角和右上角之后就确定了投影的区域，这样做的缺点是投影区只能是矩形而且不能太歪。其实有时间的话，可以试一下利用9*9的矩阵来找出所有属于边缘的点，然后渲染所有边缘点，也就找出了整个边缘，这样可以适应任意形状。
从Kinect获取的整个画面中识别出指尖
- 因为用手指来调用鼠标进行操作，而接触屏幕的地方又是手指的指尖，所以需要识别出指尖。
一开始我是基于Kinect中BodyIndex这个数据源来寻找指尖，首先定位出腕关节在哪，然后根据腕关节的位置向上寻找复合指尖特征的点，可以说效果很好，识别非常精确和稳定，而且能同时识别出5个指尖，这部分是我在假期里完成的，本来以为来到学校后将程序根据投影仪调整下就差不多可以用了，然而到校测试后才发现一个致命的问题，就是当手臂贴近墙壁时，整个手臂的BodyIndex数据都丢失了。因为微软似乎认为，如果某个点要是属于人体的话，那么它和背景的深度差至少要有二三十厘米左右（正好是人体的厚度）。这个问题让我失眠了几晚上...不过也是在失眠的时候想出了现在用的解决方法。ds
```
现在用的方法是基于`Depth`数据来找指尖的，简单来说就是根据指尖的特点找出所有吻合的点，然后取 位置最高的那个（因为操作的时候用的基本都是一根手指），这样做可以减少很多工作量，因为很多非法点都直接被略去了。
```
将手指的位置映射成鼠标的位置
- 因为想达到手指指哪，鼠标就点击哪的效果，所以必须把手指在投影上的位置，映射成鼠标在电脑里相应的位置，这个其实简单推导一下就可以得出。
  黑色框为投影屏幕，大写的X和Y代表的是屏幕的宽和高，红色框为电脑屏幕，假设人的手指在的位置，如果想将鼠标也映射到同样的位置，那么就有的等比关系成立。这里投影屏幕的宽和高在上面第一步中获取，而电脑屏幕的宽和高，实际上是不需要考虑分辨率的，因为在鼠标的坐标系下，电脑的宽和高都被分成了65535个单位，所以宽和高可以视为65535。根据这些，就可以算出的值来。
根据手指到屏幕的距离，判断点击和非点击两种状态
- Kinect是带有深度摄像头的，也就是说它能够知道画面中的每一点到它的距离。似乎是利用三组红外发射器来实现，所以也就要求物体不能是反射材质，不然会获取不到距离。因为能够知道屏幕的距离，也能知道手指的距离，所以如果手指距离屏幕足够近，那么就可以判断为点击。但是，屏幕有可能不是绝对垂直的，Kinect也有摆歪的可能性，同时深度数据也不是100%精确，所以在计算屏幕距离时，需要考虑一个容错值，在这个范围内都被视为屏幕，在这里我设置的值是10cm，虽然看上去很多，但是实际效果还不错。但是，这也带来一个很严重的问题，就是手指在离屏幕的位置小于10cm的时候，也被视为了屏幕，这时候指尖就丢失了，手指变成了手指中部（因为手指不是完全平行于墙面的，而是有一定角度，所以指根的地方距离屏幕更远），这就会产生很不稳定的现象，至今没有解决。

上面就是核心的功能，除此之外，还要加入一些鼠标的抖动消除、误差消除的处理，同时我还调用了Kinect的手势识别功能，直接用手势来完成撤销的操作。这段时间忙着找实习，以后有时间的话，应该会优化指尖识别的算法，同时加入更多的手势来调用操作。

效果展示
（博客园的`MarkDown`居然不可以插视频，差评）

演示视频在这里

直接在墙上玩割绳子：

用手在墙上书写(外加用手势来调用撤销)：

直接裸手操控PPT：

END
这个项目差不多就这么多啦，剩下的只是优化下各个功能，或者加点新东西进去。从假期里就构思了一个比较有意思的小程序，等这段时间忙结束，应该就会把它敲出来。真是越来越好玩了！

推荐阅读

io
在Android 4.4中从相册选择图片并获取其路径的方法详解

在Android 4.4系统中，通过使用 `Intent` 对象并设置动作 `ACTION_GET_CONTENT` 或 `ACTION_OPEN_DOCUMENT`，可以从相册中选择图片并获取其路径。具体实现时，需要为 `Intent` 添加相应的类别，并处理返回的 Uri 以提取图片的文件路径。此方法适用于需要从用户相册中选择图片的应用场景，能够确保兼容性和用户体验。 ... [详细]

蜡笔小新 2024-11-06 11:02:36
io
通过 NuGet 获取最新版本的 Rafy 框架及其详细文档

为了帮助开发者更便捷地使用Rafy领域实体框架，我们已将最新版的Rafy框架程序集上传至nuget.org，并同步发布了最新版本的Rafy SDK至Visual Studio。此外，我们还提供了详尽的文档和示例，以确保开发者能够快速上手并充分利用该框架的强大功能。 ... [详细]

蜡笔小新 2024-11-04 14:05:16
io
如何在本地环境中调试远程服务器上的网站代码执行问题

在本地环境中调试远程服务器上的网站代码执行问题，可以通过以下步骤实现：首先，在本地安装 Visual Studio 并配置远程调试工具。接着，确保服务器和本地机器之间的网络连接畅通，并正确设置防火墙规则以允许调试流量。最后，使用 Visual Studio 的远程调试功能连接到服务器，进行代码调试。这种方法不仅提高了开发效率，还减少了在服务器上直接操作的风险。 ... [详细]

蜡笔小新 2024-11-10 10:32:01
io
Android Studio 安装指南：详细步骤与常见问题解答

Android Studio 安装指南：详细步骤与常见问题解答 ... [详细]

蜡笔小新 2024-11-06 14:13:11
io
C#编程中按钮控件的使用与优化

C#编程中按钮控件的使用与优化 ... [详细]

蜡笔小新 2024-11-06 13:34:53
io
如何以云计算的视角进行思考？

在拉斯维加斯举行的Interop 2011大会上，Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异，并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素，以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]

蜡笔小新 2024-11-06 12:40:33
io
Visual Studio 实用快捷键与高效技巧汇总（持续更新中）

在 Visual Studio 中，未选中文本时，使用 `Ctrl+X` 可以剪切并删除当前行，适用于快速删除整行代码；`Ctrl+C` 用于复制当前行的代码；`Ctrl+L` 则用于删除当前行。此外，通过组合键 `Ctrl+K, Ctrl+C` 可以注释选定的代码行，提升代码编辑效率。这些快捷键和技巧能够显著提高开发者的生产力，建议开发者熟练掌握并灵活运用。 ... [详细]

蜡笔小新 2024-11-06 12:23:37
io
深入解析Spring AOP框架中的代理对象生成机制

在前文探讨了Spring如何为特定的bean选择合适的通知器后，本文将进一步深入分析Spring AOP框架中代理对象的生成机制。具体而言，我们将详细解析如何通过代理技术将通知器（Advisor）中包含的通知（Advice）应用到目标bean上，以实现切面编程的核心功能。 ... [详细]

蜡笔小新 2024-11-06 10:11:10
io
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树

深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树 ... [详细]

蜡笔小新 2024-11-05 10:24:10
io
英语面试技巧：提升个人技能与表现

在英语面试中，个人技能是指除专业知识外，能够促进职业发展的各种能力。虽然你可能具备多种技能，但建议重点突出与目标岗位最相关的几项，以增强面试官对你专业能力和适应性的认可。 ... [详细]

蜡笔小新 2024-11-04 11:22:06
io
如何有效解决 PHP 处理大图片时的内存溢出问题

在处理大图片时，PHP 常常会遇到内存溢出的问题。为了避免这种情况，建议避免使用 `setImageBitmap`、`setImageResource` 或 `BitmapFactory.decodeResource` 等方法直接加载大图。这些函数在处理大图片时会消耗大量内存，导致应用崩溃。推荐采用分块处理、图像压缩和缓存机制等策略，以优化内存使用并提高处理效率。此外，可以考虑使用第三方库如 ImageMagick 或 GD 库来处理大图片，这些库提供了更高效的内存管理和图像处理功能。 ... [详细]

蜡笔小新 2024-11-03 20:31:59
io
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
io
优化后的标题：AppVeyor CI: 集成 Microsoft Visual C++ 编译环境的持续集成解决方案

优化后的标题：AppVeyor CI: 集成 Microsoft Visual C++ 编译环境的持续集成解决方案 ... [详细]

蜡笔小新 2024-10-31 19:37:56
io
全面指南：Unity中的3D建模技术详解

在Unity中进行3D建模的全面指南，详细介绍了市场上三种主要的3D建模工具：Blender 3D、Maya和3ds Max。每种工具的特点、优势及其在Unity开发中的应用将被深入探讨，帮助开发者选择最适合自己的建模软件。 ... [详细]

蜡笔小新 2024-10-31 19:26:24