机器学习为什么也可以像人一样认识cang老师
随着互联网的高速发展,互联网已经渗透到我们生活的方方面面,我们每天都在网上浏览着大量的数据信息,你几乎可以在任何地方任何地点,都可以看到任何人拿着手机在信息消费,互联网进入信息爆炸的时代,为我们提供着各种类型的信息资讯,丰富着我们的生活,但是有利就有弊,在这些海量信息里面,充斥着大量的以图片、视频等为载体的色情内容。特别是以内容为载体的快餐式消费的社交软件,面临这个问题尤其严重,如:新浪微博,QQ空间,朋友圈。这也是任何国家为了维护互联网健康发展所不能容忍的,但是这个问题怎么解决了,之前由十数家互联网公司组成的“安全联盟”发出招聘,专门招聘人员,每天看大量图片和限制级视频,进行内容分辨,违法信息进行手动删除,这一职位的正式名称为“首席淫秽色情鉴定官”,广大单身狗们,心里有没有一丝丝的小激动了,有没有想去试试这一职业的了。而且年薪20多万哦!!!
但是人家是有规定的,必须结婚的,为什么非要结婚的了,这个你懂得嘛,常年看片的人,一日之内会武功全失,记忆衰退,分泌紊乱,元气大伤,前列腺肿大,筋脉逆流,胡思乱想,而致走火入魔,最后,就没有最后了。
这个行业根本就没有广大屌丝意淫的那么好,真的是伤身又伤神,不过腾讯就推出了一款万象优图—智能鉴黄服务。有了这款服务,"鉴黄师"基本可以洗洗睡了。
感兴趣的可以去看看,准确率还行,但是肯定有漏掉的,因为机器毕竟不是人。机器没有感情,没有眼睛,没有原始的冲动,他只有一颗冰冷的心,图像识别技术其实很早之前就有了,但是一直是科学界一个共同的难题,识别图片,现在的技术已经可以做的相当好了,而且准确度非常高,但是问题来了,机器不会和人一样有主观意识判断,它不会和人一样,能够在规定的情境下,规定的环境里,做出人性的判断,机器是完全理智性的。有些图片在规定的情境下,他是允许存在的,比如
这两张图片,在现实中是完全可以光明正大曝光在公众面前的,但是机器的结果了
判断标准,机器识别出来这两张图片露点了,直接定为色情,所以机器要像人一样能够做出这种人类思维的判断,可能还需要人工智能更近一步的发展,也有可能还需要几代科学家艰苦卓绝的不懈努力。但是人有时凭主观判定也不一定能服众,央视,那个很大的电视台,就给打上马赛克了。人判断尚且如此,更何况机器了。
再看一张图,这是我们德艺双馨的苍老师。岛国最佳女主角。
那机器是怎么识别的了,看图
这次机器识别还是挺准确的,没有归为色情。性感概率很高。所以苍老师穿衣服的照片在网站是可以搜索到非常多的,并不是违法信息,另外一个,咱们苍老师还是很有德的嘛,说她德艺双馨我们是有根据的嘛。“钓鱼岛是中国的”,小编都有一丝丝感动了。
那有的人可能会说了,那你说露点就定为色情,那广大女性的男神们,每天网上各种秀肌肉,会不会被屏蔽了,来看下。
看下机器的结果:
妹纸们,你们可以放心了,你们的男神是不会抛弃你们的。
大家知道,很多艺术作品是画人体的,欣赏者是怀着艺术的眼光去欣赏的,那艺术作品机器识别是什么效果了?
看这幅---《沉睡的维纳斯》
机器识别的效果是:
再来看一张,也是著名的油画--《熟睡中的保险顾问》:
机器识别的效果是:
好吧,终于知道胖子和瘦子的区别了,连机器都鄙视了,广大胖妹纸们,坚持住。
机器学习究竟是怎么识别图片的?
前面举了那么多例子,可以看出机器在绝大部分时候是可以正确识别图片的,那机器到底是怎么做到的了?
首先,识色,也就是识别皮肤的颜色,研究者发现虽然不同肤色的人在光线明暗不同环境下拍出来的皮肤颜色不尽相同,但是画面里人体皮肤的颜色总是在一定的范围内。任何一张图片里的任何一个点都包括亮度值、色相值、饱和度值,通过这三个值的大小的范围,电脑就能看出我们皮肤的颜色,进而猜测出图片里裸露的人体皮肤区域。那些色图与正常图片最主要的区别就是裸露的人体皮肤区域会比较大,这时整张图片就会偏黄,另外,研究人员还发现暴露的区域图片一般纹理值比较小,颜色比较平滑,这也可以作为判断人体皮肤的依据之一。
我们还是请出我们德艺双馨的苍老师。
上面左边是电脑自动识别出图片里的人体皮肤区域,可以看到机器识别出了裸露的皮肤。
接着,机器识别出来裸露的皮肤后,并不能确认图片有没有涉黄,这就需要对皮肤进行连通区域分析,比如确认人体“三点”的位置,
(图片来自原研究)
假设两块黄色区域分别是两条腿或两只胳膊,另外一块区域是人的身体,这些区域的长度值、宽度值必须符合人体的大小比例,之间的位置必须满足一定的几何关系,这些都可以依靠电脑的计算得出“三点”的位置。如果这些区域之间大小和位置不像是人的身体,就可以排除掉色情图片的嫌疑了。反之就可以认定这张图片涉黄了。但是各种图片拍摄都是不同的,所处环境,曝光度都有差异,这时识别时就会出现误差。
这张图片,机器识别的时候,苍老师已经近乎毁容,也没有正确的识别出裸露皮肤的正确位置,这种情况,就会给机器造成干扰,从而无法正确判断出图片是否涉黄,于是研究人员又发明了一种“小波分析”的技术,“小波”,请不要过多联想,“小波”就是小的波形。所谓“小”是指它具有衰减性;而称之为“波”则是指它的波动性,其振幅正负相间的震荡形式,这种技术可以把色情图片里的人体轮廓提取出来。
最后,通过小波分析,可以检测出上面图片中红色的圈为人脸的区域,这样根据人脸,在按照人体的大小比例,可以推算出躯干的位置以及大小,那么人体的躯干应该是在绿色区域以内,所以我们不必费力去检测绿框以外的部分。而内部的区域检测出的肤色区域很小,因此,这是一张正常图片。
上述三步的阈值,比如人体的大小比例,连通区域分析,识色,这些值都是我们凭经验而定,我们可能把人体的大小比例定为1:0.618,但是这个比例称为黄金比例,是最能引起人的美感的比例,但是绝大多数人,并不是这个比例,如果凭经验而定往往不科学,因此最终的第四步就是对机器学习进行训练,比如SVM、决策树或者贝叶斯分类器。
我们之前已经讲过,机器学习是需要测试数据来训练的,这样机器学习才会不断的自我进化和不断的自我校正,从而提高识别的准确度,从上图可以看出,我们拿了大量的训练样本,不断的提取图像的相关特征,从而不断优化模型,最后将图片进行分类(正常,性感,色情),这样我们拿张待识别的样本丢给机器,这时机器就会通过模型学习,分类器,对图片进行判断,如果涉黄,就会进行相应的处理,比如删除该图片。
机器学习是怎么识别限制级视频的?
你以为机器学习只能识别图片吗?那你错了,研究人员提出一种方法,为了可以辨别视频是否是违法限制类型的视频,可以从视频的声音入手,色情视频的特点就是有很多“嗯嗯啊啊”的声音片段,这些你懂得,于是研究人员收集了很多“声优”的声音片段,提供给给机器学习进行训练,我们知道训练的视频越多,机器学习的判断会越准确,因为机器学习会不断的进化,我们可以想象研究人员一定从某个地方下载了大量的限制级视频,不管什么类型,应该是应有尽有的,工作累了,随时可以看看这些视频,想想也是挺幸福,研究人员然后分析这些声音的特点,从中提取出来了几十项参数,如果被测试的视频里面的声音片段的参数和收集的声音片段很接近,那么可以算出这段视频“限制级”的概率,如果概率越大,就基本可以判断食品是否属于限制级了,就可以对视频就行相应的处理,否则就是正常的视频。
在这里小编也要奉劝大家一句,少发布和传播这些违法信息,净化网络空间是我们每个网民的责任,未成年需要一个干净的网络环境促进身心发展,净化网络,匹夫有责。
对于偏爱这些的,小编也奉劝一句:小撸怡情,大撸伤身,强撸灰飞烟灭。
结束语
我们可以看到,机器已经越来越智能,越来越普及,他已经渗透到我们的生活的方方面面,影响着我们的生活,在不久的将来,机器会代替人类做越来越多的工作,分担人类的劳动,人工智能将会彻底改变我们这个世界,虽然目前还有很多路要走,但是我们有理由相信,也必须相信,以后的世界是智能的世界。
以上言论,如有错误之处,欢迎交流,本文属于图灵人原创文章,转载必须说明出处,并请附上(图灵人)及本页链接。原文链接:http://www.tulingr.com/?p=1242&preview=true