热门标签 | HotTags
当前位置:  开发笔记 > 开放平台 > 正文

他去数了纽约街道上的口香糖渍,竟发现一道贫富鸿沟

数据分析师沃克哈里森(WalkerHarrison)用数据分析的方法统计研究了纽约街道上的口香糖渍与收入水平的关系。当嘴里的口香糖嚼到无味时࿰

0?wx_fmt=png


数据分析师沃克·哈里森(Walker Harrison)用数据分析的方法统计研究了纽约街道上的口香糖渍与收入水平的关系。

当嘴里的口香糖嚼到无味时,你会选择用纸包起来扔掉,还是直接吐到路面上?在纽约,街道路面上的口香糖渍表明,总会有人会选择第二种懒惰又缺少公德心的行为。数据分析师沃克·哈里森(Walker Harrison)用数据分析的方法统计研究了纽约街道上的口香糖渍与收入水平的关系,现随地吐口香糖的人,可能不仅素质低,而且还比较穷。  


布满口香糖渍的纽约街道


当嘴里的口香糖嚼到没味的时候,你通常有两种选择:要么做一个文明市民,把口香糖用纸包起来,再丢进垃圾箱;要么不在乎什么素质,直接把黏黏的口香糖吐到地上,粘到桌子下面或墙壁上。大部分人可能这两种都干过。

在美国纽约,随处吐口香糖这种懒惰又缺少公德的行为,在过去的数十年间几乎随处可见。城市中几乎每一寸人行道上都布满了黑色斑点,它们代表着每一枚被缓慢而拥挤的行人踩入地面的口香糖。

下面三张图片可以帮助你回忆起那些恼人的口香糖渍。葛莱美西公园被称为美国“最美的私人公园”,只有附近缴纳年费的住户才拥有公园的钥匙,公众一般不允许入内。但即便如此,公园的路面上依然有一些口香糖渍。不过,如果和大中央车站地区的路面对比,葛莱美西公园的口香糖渍只能算小巫见大巫了。

0?wx_fmt=jpeg

从左到右分别是纽约大中央车站、联合广场、葛莱美西公园的路面


纽约的路面怎么会有这么多嚼过的口香糖?这有点让人难以置信。这些口香糖不仅没有扔进垃圾箱,而且也没有粘到某个倒霉蛋的鞋底而被带走。它们就这样长久地被留在了城市的道路上。

大量的行人长年累月行走在这片人行道上,这种日积月累的增量会使得任何在一开始不太可能的事情最终变成现实。所以,即便我们仅仅假设一百万人里面只有一人会把口香糖吐到地面上,五年的总量也是惊人的。而这也让人行道成了我们现在看到的样子。

我们试着模拟了一下这个过程,假设每周两百万行人穿过一片平地,只有百万分之一的人会在这里留下痕迹,那么在五年之中,路面上的口香糖渍就会像下面这个动图所显示的这样(其中痕迹的位置和半径都是随机设定的):

0?wx_fmt=gif


在260周(5年)的模拟试验中,一共产生了54个口香糖痕迹。我们又做了几百次相同的模拟试验,其中有95次模拟都产生了40以上个口香糖渍。也许我们的“实验地点”只是一个虚拟的地理位置,但它仍然具有现实意义:在纽约,几十个商业区的客流量要远比我们假设的多。

比口香糖渍的普遍性更有趣的,则是它们的分布特征:哪些地区分布密集、哪些地区稀疏?在哪里会出现这种不平衡?为什么会这样呢?


我们真的去数了这些口香糖渍!


我们遇到的第一个难题就是选择样本。在时刻变化的城市地形地貌中,我们需要选择具有一定连贯性的实验对象:最好是能找到一条足够长的人行道,然后观察口香糖渍的数量随着穿过的社区的不同,而产生的变化——比如一条横穿城市的公园大街(Park Avenue)。

0?wx_fmt=jpeg


公园大街有着象征富贵的悠久历史,多年来,已经成为“旧贵”(old money)的代名词。虽然如今很多其他街区也开始变得富有,但根据一项2014年的街区富裕程度排行,公园大街横穿曼哈顿地区平均家庭收入最富有的两个街区Lenox Hill和Carnegie Hill,百年来依然是财富最聚集的地区。

我们现在将根据街道上的口香糖渍数量来评价街区。但本着统计学家的精神,我们不会统计公园大街上的每一寸街道,而是选择有代表性的样本进行抽样。考虑到人行道上铺设的方砖都是同样大小且遵循着相同的规律,我们选择了系统抽样(systematic sampling)的方法。我们真的去数了这些口香糖渍!

每块方砖大约都是5英尺见方。通常人行道的宽度是3到4块砖。其中,靠近路边的一行,一般会覆盖一些植被或者宠物的粪便;而靠近建筑物的一行,则是为了区分店家的私有区域与公共区域。所以,中间的一两排才是我们的抽样样本。

0?wx_fmt=gif

大部分街区都被分成几列,这方便了我们进行抽样统计


但需要注意的是,并非全部方砖都有相同的大小,有些很小,有些已经出现巨大裂缝,还有些为了好看,选择了用对角方格花纹来装饰。这就意味着有些口香糖渍的数目只能从稍小的面积中统计,因此各社区间的样本量大小也可能有所不同。

更糟的是,由于方砖是不同材料制成的,有些地方的口香糖渍根本无法统计:无色方砖上只需要找黑点就可以,但有些材料(比如某种水泥和石子混合材料的方砖)的目的,就是“用来在主要交通繁忙区域掩盖口香糖渍”。干(ling)得(ren)漂(zhua)亮(kuang)!下面是三张不同材料方砖的照片:

0?wx_fmt=jpeg

辨别口香糖渍的难度从左到右依次是:容易、困难、非常困难


要如何克服这些困难呢?这就要在采集样本时候尽可能的标准化——多大的、颜色多深的点可以认定为口香糖渍,并且祈祷最终发现的规律特征不会受到数据采集的误差所影响过大。虽然数据搜集的过程存在一些不严谨的地方,但当样本量足够大,靠着从大量数据中发现的明显差异,这些不足并不会影响我们的发现。


街区交叉口和商业区有更多的口香糖渍


下图是第17街区一直到130街区的口香糖渍统计结果。淡蓝色的线代表每条街平均每块方砖上口香糖渍的点数变化;深蓝色的平滑线则是计算了每条街区以及它南北各两条街区,共五条街区的平均值。


0?wx_fmt=jpeg


深蓝色代表的这条近似函数曲线,使我们模型的数据变化不那么突兀,分散了浅蓝色折现的峰值水平。当统计了超过五英里的口香糖渍后,你除了感觉自己快要发疯外,还会注意到一些事情:每个街区的最后一块方砖上,也就是两条街道交叉口的方砖上,口香糖渍总是比其他地方多。

在统计过程中还发现一些规律,虽然它们可能无法用数据表现出来:在靠近垃圾桶,报箱及公交站牌的地方,口香糖渍都会多起来。而不平整的路面则不容易留下口香糖渍,至于是因为口香糖不容易粘在不平整表面,还是容易脱落,还是不容易被发现,还不能确定。

另一项更大更重要的发现是商业区(大致为60号街道南部或者120号街道北部)要比住宅区口香糖渍多。这一趋势与日常感觉一致:有店面的街道产生更多垃圾,更多行人经过,比起家里人们也倾向于在这些街道上“放飞自我”。


每多一个口香糖渍,街区的人均年收入就少2万美元


商业区的脏乱差使得原本就很微妙的趋势更模糊不清。商业区口香糖渍数量的激增是一个重要发现,但从口香糖渍的整体上看,这个发现也容易让我们忽略其他有趣的点。例如,第28大道和公园大街的交叉口与第124大道与公园大街的交叉口无论在地理上还是社会经济地位上都天差地别,但因为都是商业区,就使得每方砖上的口香糖渍数量都达到40,这不利于我们通过人行道上的情况来观察差别。

所以,引入人均收入作交叉分析是个办法。下面我们来看看公园大街上第60大道到第120大道之间的传统住宅区。美国人口普查局公布的地区人均收入调查是以某个街区为核心,统计其周围覆盖的数千人的情况,这组数据对于我们的研究是相对精确的,两组数据结合后,趋势如下:


0?wx_fmt=jpeg


结果可能和你预想的一致:在比较富裕的Upper East Side街上只有少数口香糖渍;而在相对不富裕的街区,例如,第96大道以北,口香糖渍大量出现。甚至还有与收入相称的微趋势:第70大道以人均年收入10万美元领跑临近街区,口香糖渍也大幅回落;第93、94大道上较低的口香糖渍总数也反应了这一地区人均年收入16万6621美元领跑的事实。

当我们把地理因素抛弃掉,仅仅考虑街区的口香糖渍数量和人均收入的时候,我们可以更清楚的看到他们之间的关系:


0?wx_fmt=jpeg


这两项数据的相关系数达到了-0.78,已经达到了一个强线性负相关的水平。图上趋势线的斜率为-0.0000465,即每增加一个口香糖渍意味着人均收入减少2万美元。

仅看这张图的话,我们可能轻易下这样的结论:第96大道上的高净值人群要比穷人更干净也更文明。这可能正确,毕竟收入4位数的人比起收入7位数的人更可能随地吐口香糖。

然而影响因素不止收入这么简单。路过街区的行人并不只有住在附近的居民。根据破窗理论,在原本就已经有很多口香糖渍的街区,人们更可能跟着随地吐。另外,在那些有制服门卫的街区做这种事也比较有公德风险。再加上高净值人群不是在家就是在办公室要么就是在车里,他们缺少机会制造这些口香糖渍。

最后,口香糖渍的区别不仅在于吐口香糖的比例,也包括清理的比例。即使人行道的建设是公共开销,但养护费用则是由附近居民承担的。Lenox Hill的这些富人为了保持他们所在街区的高端形象会定期花费数千元请专业清洁工人来把口香糖铲掉。East Harlem区的穷人恐怕既不想、也付不起人行道的清理费用。这些人也许作为清洁工去过Lenox Hill多次。

原文发布时间为:2017-03-31

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号




推荐阅读
  • 在处理分享功能时,以往通常会首先考虑使用第三方SDK,如友盟等。然而,通过实际项目经验发现,利用iOS原生的UIActivityViewController不仅可以实现高效、稳定的分享功能,还能更好地控制用户体验。本文将详细介绍如何利用iOS原生技术缓存HTML内容,并结合URL分享的最佳实践,帮助开发者在实际开发中提升应用性能和用户满意度。 ... [详细]
  • 提升工作效率:掌握这些技巧,IDEA 使用效率翻倍 | IDEA 高效操作指南
    提升工作效率:掌握这些技巧,IDEA 使用效率翻倍 | IDEA 高效操作指南 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • wxParse 0.3:微信小程序中的高级 HTML 和 Markdown 富文本解析器,全面支持多级嵌套与 Emoji 表情
    wxParse 0.3 是一款专为微信小程序设计的高级富文本解析器,支持 HTML 和 Markdown 转换为 WXML 可视化格式。该组件不仅能够处理复杂的多级嵌套结构,还全面支持 Emoji 表情,极大地提升了内容展示的多样性和用户体验。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • Navicat for MariaDB 15:可视化数据洞察与智能图表功能详解
    Navicat for MariaDB 15:可视化数据洞察与智能图表功能详解 ... [详细]
  • 本文介绍了Android动画的基本概念及其主要类型。Android动画主要包括三种形式:视图动画(也称为补间动画或Tween动画),主要通过改变视图的属性来实现动态效果;帧动画,通过顺序播放一系列预定义的图像来模拟动画效果;以及属性动画,通过对对象的属性进行平滑过渡来创建更加复杂的动画效果。每种类型的动画都有其独特的应用场景和实现方式,开发者可以根据具体需求选择合适的动画类型。 ... [详细]
  • 本文详细介绍了如何在 Grafana 中独立于 Alertmanager 配置邮件和微信告警。具体步骤包括配置 SMTP 服务器以实现邮件告警,以及设置微信告警的集成方式。通过这些配置,用户可以更灵活地管理和接收来自 Grafana 的告警通知,确保及时响应系统异常。文章还提供了详细的配置示例和常见问题的解决方案,帮助用户顺利完成设置。 ... [详细]
  • Android 图像色彩处理技术详解
    本文详细探讨了 Android 平台上的图像色彩处理技术,重点介绍了如何通过模仿美图秀秀的交互方式,利用 SeekBar 实现对图片颜色的精细调整。文章展示了具体的布局设计和代码实现,帮助开发者更好地理解和应用图像处理技术。 ... [详细]
  • Python数据分析入门指南:全面了解Python在数据科学中的应用 ... [详细]
  • 稳操胜券,35K薪资,字节跳动商业数据分析岗位
    在数字化浪潮中,掌握数据即掌握未来。正如马云在IT领袖峰会上所言:“未来的竞争将是数据的竞争,只有实现业务的数据化和数据的业务化,企业才能在激烈的市场竞争中脱颖而出。”字节跳动的商业数据分析岗位,正是这一趋势的体现,提供35K的薪资,吸引着众多数据精英。 ... [详细]
  • 深入解析Tomcat:开发者的实用指南
    深入解析Tomcat:开发者的实用指南 ... [详细]
  • 从用户转型为开发者:一场思维升级的旅程 | 专访 StarRocks Committer 周威
    从用户转变为开发者,不仅是一次角色的转换,更是一场深刻的思维升级之旅。本次专访中,StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式,为开源社区贡献自己的力量。 ... [详细]
  • 如何在微信收到消息时设置屏幕显示通知?
    如何在微信收到消息时设置屏幕显示通知? ... [详细]
  • 在当前各种算法实现和开源软件包层出不穷的背景下,算法对程序员的重要性是否有所减弱?回顾历史,早期程序员必须熟练掌握算法并频繁自行编写。然而,随着技术的发展,算法逐渐成为一种“商品”,现代开发者更多依赖现成的库和商业算法解决方案。有观点认为,机器学习领域中,许多算法已经被高度封装,不再需要深入理解其背后的数学原理。然而,这种趋势也引发了关于技术深度与广度平衡的讨论,强调了基础理论知识在应对复杂问题时的不可替代性。 ... [详细]
author-avatar
mobiledu2502857673
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有