「2019 Python开发者日」,购票请扫码咨询 ↑↑↑
作者 | Jeff John Roberts
译者 | 孙薇
导语:不经意间,科技公司便拿着你的照片,推动了人脸识别技术的蓬勃发展,这些公司大多数要么经历了主营业务的转变,要么承受了商业模式的转变,其中还涉及多方利益群体。本文带你一探究竟。
人脸识别软件是一种非常强大的技术,对用户隐私构成了严重威胁。同样,这个行业目前发展十分迅猛。如今,十数家初创公司和科技巨头正在向酒店、零售店,乃至学校提供人脸识别服务。由于新算法较五年前能更为精确地识别人脸,行业发展非常迅速。这些科技公司将数十亿的人脸素材用以训练,并改进这些算法,而这通常无需任何许可。事实上,包括你在内,很有可能所有人的数据都被人脸识别公司用于 “训练集” 中,或存在于某个公司的客户数据集里。
面对这样的情况,消费者可能会感到惊讶。例如,在至少三起案件中,科技公司通过用户手机上的拍照应用,获得了数百万张人脸图像。目前,针对人脸识别软件的法律限制尚无,这意味着人们几乎无法阻止这种情况发生。
2018 年,华盛顿特区附近机场的 “登机道” 上,有一台摄像机采集着匆匆走过的 “路人” 脸孔数据。不过实际上,这只是美国国家标准与技术研究所(NIST)的模拟系统用于展示该装置 “在野外” 是如何收集人脸数据的。NIST 会定期举办人脸识别软件竞赛,邀请全球公司参与,这些由志愿者自愿贡献的人脸数据将用于竞赛。
早期人脸识别技术便是通过这样的方式来运作的,学术科研人员会请求用户许可。而如今,科技公司站在了人脸识别技术的前沿,他们不太可能在使用人脸数据时请求明确的许可。
据研究机构 Market Research Future 报道,人脸识别行业竞争激烈,人脸识别软件的市场正在以每年 20% 的速度扩张,预计到 2022 年,市值将达每年 90 亿美元。其商业模式之一则是:向客户发放软件许可,允许他们使用自己的人脸识别程序,这些客户包括执法部门、零售商、中学等。
在公司参与的此类软件开发竞赛中,如果算法能够精确识别人脸,并不会导致偏差,该公司就能获胜。与人工智能的其他领域一样,开发出人脸识别的最佳算法,意味着需要积累大量的人脸数据。虽然科技公司能够使用政府和大学取得许可的数据集,如耶鲁人脸数据库(Yale Face Database),但这些训练集的数据相对较少,人脸数据仅有数千个。此外,这些官方数据集还有其他局限性,许多缺乏多样性,或者未能包含诸如阴影、戴帽或化妆等条件,因而不够真实。为了建立起能在真实场景下探测人脸的识别技术,科技公司需要更多的图像。
FaceFirst 公司 CEO Peter Trepp 表示,“数百、数千根本不够,需要数以百万计的图像。如果缺乏戴眼镜或不同肤色人种的数据训练库,则无法得到准确结果。” 这是一家位于加州的人脸识别公司,帮助零售商筛选出犯罪分子,将其挡在门外。
从应用服务提供商转为 AI 公司
公司从何处寻觅数百万张图像训练软件?来源之一是警局的人脸数据库,也可以找私人公司购买。加州的 Vigilant Solutions 公司就提供人脸数据“服务”,其中包含一个 1500 万张面孔的人脸数据集。
然而,一些初创公司已经找到了更好的面孔来源——用户的 “个人相册” 应用。这些应用可编辑用户手机相册中的照片,通常包含同一个人在多个姿势和情境下的多张图像——这可是训练集的海量数据源。
Ever AI 的 CEO Doug Aley 表示:“我们有客户在数千种不同的场景中被标记同一人,站在阴影中的,戴着帽子的,凡你能想到的。”Ever AI 是一家旧金山的人脸识别初创公司,于 2012 年推出 EverRoll,这是一款帮助消费者管理一大堆照片合集的应用。
Ever AI 已获投 2900 万美元,投资者包括 Khosla Ventures 和其他硅谷风险投资公司。在美国国家标准与技术研究所最近的竞赛中,取得 “面部照片” 分类中第二名,“自然环境面孔”分类第三名。Aley 将成绩归功于公司庞大的照片数据库,据 Ever AI 统计,该数据库中约有 130 亿张图片。
初期,Ever AI 还仅是个照片应用时,其激进的营销策略曾引发争议,并暂时导致 App Store2016 年将 EverRoll 下架——这款应用诱使用户向其手机联系人发送推广链接,还被用户指责攫取私人数据,。根据 Greg Miller 2015 年在 FB 上的评论,“该程序在安装后立即收集你的通讯录,即刻给所有人发消息…… 然后开始拉取你的照片,上传至云端。”四年后,Miller 惊讶地发现,曾叫作 EverRoll 的应用程序仍存有他的照片,而且现在它已成为人脸识别公司了。
Miller 对我们表示,“不,我当时没有意识到,也完全不能同意。所有这些都是真实存在的问题,不再有隐私,这只会让我害怕。”
Ever AI 的 CEO Aley 则表示,该公司不会将其数据库的个人信息泄漏出去,仅用于训练软件。他还表示,该公司类似社交媒体,用户可以选择退出。 Aley 还否认 Ever AI 从一开始就打算向人脸识别方向发展,并表示关闭照片应用是商业方面的决策。目前,Ever AI 的用户分布在各行各业,包括公司 ID 管理、零售业、电信通讯业以及法律执行部门。
EverRoll 也并不是唯一转向人脸识别的相册应用提供商。旧金山的初创公司 Orbeus 于 2016 年被亚马逊悄然收购,它也曾提供过一个名为 PhotoTime 的热门图片管理应用。据内部人士透露,Orbeus 的 AI 技术以及海量人像数据库促成了这次收购。由于签有保密协议,这位员工不肯透露身份,但他表示“亚马逊寻求的就是这些功能,他们在收购后关闭了这款应用。”
如今 PhotoTime 已不复存在,不过亚马逊还在继续销售另一款 Orbeus 的产品,名为 Rekognition。这款产品供执法机关及其他组织用于人脸识别。亚马逊公司拒绝透露 Orbeus 的相册应用在多大程度上用于训练 Rekognition 软件,只是说这款软件将各种来源的数据用于其人工智能项目——包含人脸识别,并表示他们并没有使用用户的 Prime 照片训练算法。
总部位于西雅图的 Real Networks 则是另一家使用其用户照片软件来训练其人脸识别算法的公司,这家公司的在线视频播放器一度非常著名,而如今则专注于针对学校孩童的人脸识别软件。同时它还提供了一款针对家庭用户的智能手机应用,名为 RealTimes,有评论称这款应用背地里窃取人脸数据。
美国乔治城大学的教授 Clare Garvie 在人脸识别领域曾发表过很有影响力的报告,他表示“该应用允许用户制作自己照片的视频幻灯片。想象一下,一位母亲将照片放在幻灯片里,再发给孩子的祖母。而这些图像将用于识别孩子们面孔的数据集训练,真是可怕。”Real Networks 证实,这款照片应用确有助于改善其人脸识别工具,但他补充还使用了其他数据源。
从所有这些案例中可以看出,科技公司使用照片应用收集人脸数据时,并没有征求用户的明确许可。相反,这些公司只需要通过服务条款获得法律认可即可。
然而,相比某些人脸识别公司,这已经算好的了。据美国国家标准与技术研究所人脸识别竞赛的负责人 Patrick Grother 表示,人脸识别公司编写程序从 SmugMug 或 Tumblr 等网站上 “抓取” 图片十分常见。这些情况下,他们捕获用户数据并用于训练集时,甚至连遮掩都没有。
美国全国广播公司 (NBC) 最近一篇报道强调了这种 “自助” 做法,并详细描述了 IBM 如何从照片共享网站 Flickr 上窃取了 100 多万张人脸用于 AI 研究的。IBM 研究部门人工智能技术主管 John Smith 告诉 NBC 新闻,该公司致力于“保护个人隐私”,如果用户希望从数据集中删除个人数据,他们也愿意配合。
所有这些都引发了人们的疑问:这些公司在保护他们所收集的人脸数据时,究竟做了哪些工作?政府又是否该给予更多监督?随着人脸识别技术发展到社会更多领域,并成为各大小公司的业务支持时,这些问题只会更为显著。
从商店到学校
人脸识别软件并不新鲜。该技术的雏形初现于 20 世纪 80 年代,当时美国的数学家正开始用一系列数值来定义人脸,并用概率模型来匹配。佛罗里达州坦帕市的安保人员在 2001 Super Bowl 上使用了它,赌场也使用这一技术多年。但过去几年里,情况发生了变化。
美国国家标准与技术研究所的 Grother 说:“人脸识别正历经革命。”他补充道,在高模糊或低质量图片中,这种变化最为明显。“底层技术已发生变化,新一代算法取代了旧技术,它们非常有效。”
人脸识别的这场革命正更广泛地改变人工智能领域,而这得益于两大因素:首先是新兴的深度学习科学,这是一种类似人脑的模式识别系统:二是前所未有的海量数据,这些数据可以在云计算的帮助下以低成本存储和解析。
毫无疑问,最先充分利用这些新发展的公司是谷歌和 Facebook。2014 年,社交网络首推 DeepFace 程序,该程序可以识别两张脸是否同属一人,准确率高达 97.25%,几乎相当于人类在同一测试中的得分。据安全公司 Gemalto 称,一年后谷歌凭借 FaceNet 程序获得头名,达到百分之百的准确率。
如今,这些公司以及微软等科技巨头在人脸识别领域均处于领先地位,这在很大程度上是因为它们可以访问大量的人脸数据库。尽管如此,在不断增长的人脸识别市场上,越来越多的初创公司也在寻找自己的位置,它们也取得了极高准确率。
仅在美国,就有十几家这样的初创公司,包括 Kairos 和 FaceFirst。根据披露过去几年数十宗投资的市场研究公司 PitchBook 的数据显示,硅谷不断涌现出该行业的公司。据 PitchBook 的数据,过去三年该行业的平均总投资为 7870 万美元。以硅谷的标准来看,这个数据不算多么惊人,但反映出风险投资的重大抉择,即至少有几家人脸识别初创公司将迅速成长为大公司。
人脸识别公司的商业模式仍在不断涌现。今天,大多数公司都以销售软件许可为主要商业模式。根据 Crunchbase 的数据,Ever AI 和 FaceFirst 等初创公司的年收入相对较少,从 200 万美元到 800 万美元不等。与此同时,亚马逊和其他科技巨头并没有透露自己销售人脸识别软件的收入份额。
多年来,最热衷于人脸识别的付费客户一直是执法机构。然而,最近有越来越多公司,包括沃尔玛将这类软件用于识别和了解实体店的客人。
加州 FaceFirst 的客户显然就是这种情况。该公司向数百家零售商销售人脸识别软件,其客户包括一元店和药店。FaceFirst 的 CEO Trepp 表示,公司大部分客户使用这项技术筛选识别进入商店的罪犯,但有越来越多的零售商正在尝试别的用途,如识别 VIP 客户或雇员。
与此同时,亚马逊似乎在寻找人脸识别新的商业模式方面也很积极。据报道,这家零售巨头除向警方销售产品外,还在与酒店合作,协助其加速入住手续的办理程序。“各地的公司都来到亚马逊,并表示'希望我们实现这些功能'。然后我们发现这确实是最佳选择。”在亚马逊收购人脸识别公司 Orbeus 时加入该公司的某匿名人士表示。
就亚马逊而言,这些努力并非没有争议。去年七月,美国公民自由联盟 (ACLU) 对该公司的软件进行了测试,将所有国会议员与一个重罪犯人的数据库进行了比对。该测试有 28 个误报,其中大多数是有色人种。作为回应,美国公民自由联盟呼吁禁止执法部门使用面部识别技术。与此同时,亚马逊的员工也向公司施压,要求其证明向警察部门、美国移民和海关执法部门出售软件的正当性。包括纽约州民主党众议员 Jerrold Nadler 和俄勒冈州民主党参议员 Ron Wyden 在内的一些国会议员已要求政府问责部门调查人脸识别软件的使用情况。企业领导人也对这项技术的应用感到不安,其中包括微软总裁 Brad Smith,他在去年 12 月时便呼吁政府对这项技术进行监管。
尽管担忧还在扩散,但随着这些公司开发出了新的应用以出售人脸识别技术,人脸识别技术的应用范围仍在扩大。其中就包括家庭照片应用程序的开发商 Real Networks,该公司正在向全美国的 K-12 学校免费提供该软件。Real Networks 表示,有数百所学校参与使用。在接受《连线》杂志采访时,公司 CEO Rob Glaser 表示,他发起该项目的初衷,是为了解决学校安全和枪支管控的争论。目前,Real Networks 网站正在大力宣传该项技术,并称即使脸被遮住,也可以让活动主持人“认出每一位粉丝、客户、员工或客人”。
Real Networks 并不是唯一一家专注于儿童面部识别产品的公司。德州一家初创公司 Waldo 正在向数百所学校、儿童体育联盟和夏令营提供这项技术。在使用时,需要用 Waldo 的软件扫描由摄像机或官方摄影师所拍摄的图像,再将孩子的脸与父母所提供的图像数据库进行匹配,不想参加的家长可以选择退出。
据该公司 CEO Rodney Rice 介绍,学校每年都会拍摄数万张照片,其中只有少数几张照片出现在年鉴上。他表示,人脸识别是一种有效的方式,可以把剩余照片给那些想要的人。“不再需要购买爆米花什么的了,直接把照片发给孩子的祖父母们当礼物。”Rice 解释道。在这个过程中,Waldo 与公立学校的收入对半分成。该服务目前在美国三十多个州都有提供。
Waldo 和 FaceFirst 的发展表明,企业正在协助人脸识别的常规化。不久前,人脸识别还只是科幻小说中的内容。随着技术扩散到美国经济的更多领域,越来越多的公司将收集用户的人脸数据,以用于训练自己的算法,或者识别客户与罪犯——即使出错或误报的可能性也在增加。
你脸上的未来
2017 年,在科技反乌托邦电视剧《黑镜》中,一位焦虑的母亲因为女儿跟小混混在一起的照片而烦恼,为了确认男孩身份,她将对方脸孔照片上传到用户的人脸识别服务客户端,软件会立即显示他的名字和工作地点,然后她就去找他了。
这样的场景一度遥不可及,如今却触手可得。尽管人们对人脸识别的担忧主要集中于政府的使用方式,但私人公司甚至个人的 “黑镜式” 用法,也带来了明显的隐私风险。
随着越来越多的公司开始销售人脸识别技术,我们的面孔出现在越来越多的数据集中,偷窥者和跟踪者可能也会利用相关软件。商人和房东可以用这项技术识别不受欢迎的人,并悄悄停止服务提供。
美国公民自由联盟的政策分析师 Jay Stanley 表示:“任何有摄像机的地方,有大量人流的地方,都可以编译图像数据库,并使用分析软件查看是否有数据匹配。”
还有黑客风险。网络安全公司 Gemini Advisors 的 Andrei Barysevich 表示,曾有印度国家生物识别数据库的个人资料被盗,并在“暗网”(dark web)上出售。目前尚未有美国人脸数据库出售,但这也只是时间问题。” 如果这种情况发生,从酒店或零售商那里盗取的顾客脸孔可能会协助犯罪分子实施欺诈或身份盗窃犯罪。
随着这项技术在几乎完全没有政府监管的情况下蓬勃发展,限制其滥用的最大希望可能在于软件开发公司。在接受《财富》杂志采访时,人脸识别初创公司的 CEO 们都表示,他们非常关注隐私风险。包括 FaceFirst CEO 在内的许多人都将人脸监控系统在中国的普及作为一个警示。
他们还提出了两种方法,限制行业滥用相关技术。第一种是与软件购买者紧密合作,以确保客户不会随意使用软件。例如,Ever AI 的 Aley 表示,Ever AI 所遵循的标准比亚马逊更高。他声称亚马逊为几乎所有客户都提供了 Rekognition 工具。
在回答如何监管滥用的问题时,亚马逊提供了一份由 AWS 海外 AI 服务负责人 Matt Wood 此前发表的声明。该声明指出亚马逊禁止非法或有害活动。不过,负责人脸识别的高管所提到的另一个潜在隐私保护措施,则是使用技术手段以确保数据库中识别的人脸数据不会为黑客所窃。
Waldo 的 CEO Rice 表示,人脸数据以字母数字哈希( alphanumeric hashes)形式存储。这意味着即使发生数据泄露,用户隐私也不会受到损害,因为黑客无法使用哈希来重建人脸及其身份,这一点获得其他人赞同。
Rice 还担心,让立法人员制定使用人脸识别技术的规则可能会弊大于利:“使用该技术的人,还要制定一系列该技术相应的规定,实在太滑稽了。”
与此同时,一些开发人脸识别软件的公司正在使用新技术,可能会减少训练算法对大量人脸数据的需求。迈阿密的人脸识别初创公司 Kairos 就是这样一个例子:Kairos 的客户中有一家大型连锁酒店,据其首席安全官 Stephen Moore 称,Kairos 正在创造 “合成” 的面部数据,以复制各种表情和光照条件下的脸孔数据。他还表示,这些 “人造脸孔” 意味着公司可以在开发产品时使用更小规模的数据库。
所有这些措施,无论是对人脸识别用户的监管,完善数据安全,以及创造综合培训工具,都可以减轻人们对于这些公司在使用人脸数据时造成隐私问题的担忧。与此同时,FaceFirst 的 Trepp 认为,随着我们对这项技术熟悉程度的增加,对其担忧也会减少。他甚至表示,2002 年科幻电影 Minority Report 中的人脸识别场景将会寻常起来。“千禧一代更愿意提供自己的脸孔数据,属于 Minority Report 的世界即将到来。如果处理得当,我认为人们会喜欢的,这将是一项积极的体验,而不会让人毛骨悚然。”
包括美国公民自由联盟(ACLU)在内的其他组织则没那么乐观。不过,尽管围绕这项技术的争议越来越大,但目前几乎没有任何法律限制其使用,唯一例外来自三个州:伊利诺斯州、德克萨斯州和华盛顿州,在使用人脸数据前需要一定程度的同意。相关法律并没有经过真正的检验,唯一例外是伊利诺斯州,该州的消费者可以提起诉讼来执行这项权利。
目前,伊利诺斯州的法律也是一个涉及 Facebook 的上诉法院案件主题,该案件声称对人脸数据获取的限制并不包含数字扫描。2017 年,Facebook 和谷歌进行了一次游说,试图说服伊利诺伊州议员降低这条法律的影响,结果失败了。今年 1 月底,据伊利诺伊州最高法院裁定,如果消费者想就未经许可使用生物识别特征的技术提起诉讼,无需出示在真实世界受到伤害的证明便可提起。这进一步鼓励了这项法律的支持者。
其他州也在考虑制定生物识别方面的法律。在联邦一级,目前议员们对此事关注甚少。然而,随着参议员 Brian Schatz(民主党) and Roy Blount(共和党)在 3 月份所提出的一项法案,要求科技公司在公共场所使用人脸识别技术前,或者与第三方共享人脸数据前必须获得许可,这种情况可能正在改变。
乔治城大学的研究人员 Garvie 赞成通过法律监督这项技术,但她表示,立法者一直很难跟上技术发展的脚步。“人脸识别所面临的一个挑战在于,由于传统数据库的存在,其普及速度非常快。人们的面孔数据极其容易被采集,长期以来,针对指纹的采集方式和时间都有限制,但人脸识别技术则没有限制。”
相关链接: http://fortune.com/longform/facial-recognition/
(本文为 AI大本营编译文章,转载请微信联系 1092722531)
◆
精彩推荐
◆
「2019 Python开发者日」演讲议题全揭晓!这一次我们依然“只讲技术,拒绝空谈”10余位一线Python技术专家共同打造一场硬核技术大会。更有深度培训实操环节,为开发者们带来更多深度实战机会。更多详细信息请咨询13581782348(微信同号)。
推荐阅读:
00后的AI开发者进阶之道:从入门到鏖战MIT编程大赛 | 人物志
技术头条
救救中国996程序员!Python之父伸张正义,GitHub近23万Star
李航《统计学习方法》最新资源:笔记、Python代码一应俱全!
凉山火灾启示录:面对大火,AI 能做些什么?
EOS现状: 72%应用涉赌被列为高危, 说好的诗和远方, 你竟沦落成了这样?
吃了公司零食被指“偷吃”,外包怎么了?
分布式架构系列: 负载均衡技术详解 | 技术头条
靠找Bug赚了6,700,000元!他凭什么?
❤点击“阅读原文”,查看历史精彩文章。