上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)
一、前言
一句:“做完了,被推翻了,算法不过关。” 的叹息,表达出 “毕设狗” 的内心活动。
故事背景: 我的毕设题目是《基于机器视觉对手语进行识别》方面。
Two days ago:我毕设快要完成,效果不理想,寻找解决方法。
再怎么讨论都不如读paper寻找思路强!读他!
二、笔记
1.名词解释
-
连续中国手语图像
图像分为连续图像和离散图像两类,
连续图像是指在二维坐标系中具有连续变化的空间位置和灰度的图像。连续图像的典型代表是由光学透镜系统所获得的图像,如彩色照片、航空摄像片等,用眼睛观测连续图像时感觉自然。
(易误区:并不是只有视频才是连续图像,图片也是连续图像。)
离散图像则以一定网挣为周期,把×、Y坐标轴划分为棋盘式的网格,仅取离散的各个交点位置上的灰度值,构成的图像称为离散图像,也称采样图像。印刷图像其实就是离散图像,电脑图像和扫描图像也是离散图像。
-
快速鲁棒性特征
SURF(Speeded Up Robust Features,加速鲁棒性特征)是对SIFT特征的进一步优化,Sift采用的是DOG图像,而surf采用的是Hessian矩阵行列式近似值图像,也写作DOH算子。
SIFT(ScaleInvariant Feature Transform,尺度不变特征转换)根据图像尺度不变性、旋转不变性 得到特征点,匹配:
可参考:Python+Opencv2(三)图像特征匹配
-
隐马尔可夫模型
HMM(Hidden Markov Model)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
简单来说就是:已知状态–预测–>未知状态
原理参考:【HMM】入门天气数据集实验–理解隐马尔可夫模型
实例参考:1 | 2
HMM如今被大量使用在音频处理上,手语视频和自然语言相似,都具有连续的特点。
理论推导 部分 我太菜了,可面向Google 和百度理解学习,我怕我自己都说不明白。
2.流程分析
-
词袋的提出
BOF( Bag Of Features)即词袋图,是一种用于图像或视频检索的技术,把每幅图像描述为一个局部区域/关键点特征的无序集合。
左图为 词根 示例,右图为 “学校” 手语演示(由“读书”、“房子”两个手势表达而成)
两篇论文都提到从中国手语辞典里整理出 “词袋” ,再用HMM创建模型进行识别。
-
词袋的制作
(1)特征点的提取:
- 《面向大词汇量的连续中国手语识别系统的研究与实现_王春立》这篇论文中采用的是通过两只CyberGlove数据手套和带有三个接收器的跟踪设备进行采集特征集合。
- 《基于快速鲁棒性特征和隐马尔可夫模型的手语识别_陈梯》这篇论文采用的是surf提取手势特征点。
可见特征点提取的方法不唯一,最终得到的都是每种手势的特征集合。
(2)词袋BOF的制作:
通过聚类法(k-means),将以上提取的特征进行分类。《基于快速鲁棒性特征和隐马尔可夫模型的手语识别_陈梯》这篇文章中采取的做法是:
左图为鸢尾花数据集k-means分类,右图是我对6种手势特征分类效果,根据不同的分类获得词袋关键词特征。
当然分类方法也不唯一,权重和参数的设置也很重要,划分特征点集合,让他们具有代表性和可识别性。
-
手势分类和识别
根据编码辞典建立搜索网络,均采用的是HMM法。
引用《基于神经网络的中小词汇量中国手语识别研究_李晓旭》这篇文章的测试结果,HMM的识别率可达90%。
当然另外还测试了LSTM法进行测试,LSTM性能会优于HMM。(其中SHS和HOG是特征提取法的两种,SHS特征比HOG特征更适合于中国手语的表达。)
读了这么些文章多少有点思路,可以开始编码了😀。
参考资料:
《面向大词汇量的连续中国手语识别系统的研究与实现_王春立》
《基于快速鲁棒性特征和隐马尔可夫模型的手语识别_陈梯》
《基于神经网络的中小词汇量中国手语识别研究_李晓旭》