大数据文摘出品
作者:Caleb
尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。
相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。
要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。
俗话说,哪里有需求,哪里就有市场。
根据普林斯顿大学、康奈尔大学、蒙特利尔大学和统计科学研究所的联合调查,研究者们发现,这项标记工作大部分是由欧美国家以外的来自全世界各地的工人共同完成的。
论文中指出,类似数字经济公司Samasource等会大量雇佣来自撒哈拉以南非洲和东南亚的廉价工人,让他们完成这些枯燥的工作,每天给他们支付8美元的薪水,同时这些公司每年能够收入上千万美元。
论文链接:
https://arxiv.org/pdf/2102.01265.pdf
为ImageNet工作的工人只能拿到2美元时薪
由于许多深度学习技术需要大量的数据来训练模型,数据标签的需求也日渐增加,超过80%的机器学习开发过程包括数据的收集、清洗和标签等工作。
对于Uber和Alphabet等大型科技公司而言,这些服务显得更为重要。
但是,当我们换个角度,尽管这些工人正在为当前最热的人工智能行业做出贡献,这些系统最终可能并不会直接惠及到他们所在的社区,更令人唏嘘的是,不少系统可能会对他们的种族或性别等产生带有偏见的判断。
比如ImageNet,这个大型公开的图像数据集可以说是人工智能历史上影响力最大的数据集之一了。
研究者指出,为ImageNet标记的工人只能拿到2美元的时薪,只有4%的工人时薪超过了美国联邦最低工资标准的7.25美元。
同时,由于ImageNet是使用WordNet进行注释的,根据一项名为“ImageNet Roulette”的实验指出,如果人们将照片提交给由ImageNet训练出来的神经网络,该神经网络将使用数据集中的标签来描述这些图片。
但当人们在系统中输入的是他们最感兴趣的照片:自拍时,软件会输出一些种族主义和冒犯性的标签来进行描述。
虽然数据标签不像传统工厂劳动那样耗费体力,但不少工人们报告表示,他们的任务速度和数量是“令人疲惫”和“单调”的,因为他们必须严格按照客户的规格要求来标记图像、视频和音频。
“幽灵工人”无谈判立场,基本权益也难以被保障
近几年,在全球南部,不少本土科技公司大量涌现,比如肯尼亚的Fastagger、南非的Sebenz.ai和马来西亚的Supahands。随着人工智能发展不断扩大规模,这些公司的扩张也为低技能劳动者进入劳动力市场打开了大门,但相关的劳动剥削行为也仍然在发生着。
研究者们将这些数据标记工人称为“幽灵工人”(ghost worker),因为外界往往看到的只是一个系统的高识别率,而忽略了这些工人为训练数据集做出的劳力工作。
研究者们提出,在美国,这种低工资结构很大程度上是由于花在没有补偿的活动上的时间,比如从事一项最终会被拒绝的任务。
这就引出了Amazon Mechanical Turk这样的平台在权力动态上的另一个问题。我们就以该平台为例,在这个平台上,所有的权力都集中在任务的请求者那边,请求者有权力设定他们预计的价格,这个价格可以低至0.01美元,同时请求者还可以回绝工人已经完成的工作,并声称该项任务所需的时间远远少于工人们花费的时间。
在美国,处于这种工作中的标记工人往往被认为是独立承包商而非雇员,因此《公平劳动标准法》所保障的保护措施并不能在他们身上适用。
讨论美国的相关情况只是因为这些数据是最容易获取的,在全球范围内,更糟糕的劳工现象只会更多。
“流水线”工人正在成为企业的竞争力
2018年,BBC记者Dave Lee走访了生活在肯尼亚贫民窟的标记工人,也发现了相同的问题。
根据报道,生活在Kibera的单身母亲Brenda每天的工作内容就是把大多数的图像数据处理成计算机能够理解的形式。
比如说,在一张上传的照片上,Brenda需要用鼠标跟踪出现的物体,包括人、车辆、路牌、车道、天空,还要特别说明是晴朗的还是阴霾的天空。把数百万张这样的图片输入到人工智能系统中,对于自动驾驶汽车这类产品而言,就能够提高系统的识别准确率。
Brenda的工作环境也绝称不上友好。她和所有的同事都挤在狭小的办公室里,整个工作她必须紧盯显示屏、放大图像,防止标错哪怕是一个像素。
上级人员会检查他们的工作,如果没有达到要求,还需要返工。
当然奖励也是有的,速度最快、准确率最高的标记员的名字会出现在办公室多台电视机屏幕上,以兹鼓励。当然他们最喜欢的,还是商场的购物券。
Samasource是他们最大的雇主,根据首席执行官Leila Janah表示,公司能够与谷歌等科技巨头建立合作关系,除了准确性和安全性之外,还有一个原因是他们拥有全球最廉价的劳动力,并且当地人迫切需要稳定的工作。
当时,Samasource给出的日薪是9美元,他们希望借此帮助到那些日薪低于2美元、还需要从事地下工作的人。
“确实,它有很高的成本效益”,Janah说,“但我们工作中的一个关键点在于,我们不会提供可能破坏当地劳动市场的薪酬水平。如果我们给出的薪酬过高,我们会给整个社会带来麻烦。比如,可能会对我们员工所生活的社区的住房成本、还有食物成本等带来潜在负面影响”。
在论文中被提及的另一组织Masakhane,该组织致力于通过AI保护非洲语言。值得注意的是,Masakhane不会为AI研究者们标记数据,而是建立了一个为非洲大陆标记、研究和构建算法的社区。
官网上写道:“我们建议将AI开发视为经济发展的前进之路”,“此开发活动不应专注于低生产率活动,例如数据标记,而应专注于高生产率活动,例如模型开发/部署和研究”。
最后,论文指出,对于这种现象,潜在的解决方案是将这些数据标记器简单地集成到AI开发过程中,而不是让他们作为流水线工人为每个图像进行标记来赚钱。如此,工人会获得公平的薪水,况且得益于他们的生活经验和专业知识,数据收集过程中的差异也能被很好的发现并解决,系统的整体准确率也将得到提升。
近期开课信息