数据分析师沃克·哈里森(Walker Harrison)用数据分析的方法统计研究了纽约街道上的口香糖渍与收入水平的关系。
当嘴里的口香糖嚼到无味时,你会选择用纸包起来扔掉,还是直接吐到路面上?在纽约,街道路面上的口香糖渍表明,总会有人会选择第二种懒惰又缺少公德心的行为。数据分析师沃克·哈里森(Walker Harrison)用数据分析的方法统计研究了纽约街道上的口香糖渍与收入水平的关系,发现随地吐口香糖的人,可能不仅素质低,而且还比较穷。
布满口香糖渍的纽约街道
当嘴里的口香糖嚼到没味的时候,你通常有两种选择:要么做一个文明市民,把口香糖用纸包起来,再丢进垃圾箱;要么不在乎什么素质,直接把黏黏的口香糖吐到地上,粘到桌子下面或墙壁上。大部分人可能这两种都干过。
在美国纽约,随处吐口香糖这种懒惰又缺少公德的行为,在过去的数十年间几乎随处可见。城市中几乎每一寸人行道上都布满了黑色斑点,它们代表着每一枚被缓慢而拥挤的行人踩入地面的口香糖。
下面三张图片可以帮助你回忆起那些恼人的口香糖渍。葛莱美西公园被称为美国“最美的私人公园”,只有附近缴纳年费的住户才拥有公园的钥匙,公众一般不允许入内。但即便如此,公园的路面上依然有一些口香糖渍。不过,如果和大中央车站地区的路面对比,葛莱美西公园的口香糖渍只能算小巫见大巫了。
从左到右分别是纽约大中央车站、联合广场、葛莱美西公园的路面
纽约的路面怎么会有这么多嚼过的口香糖?这有点让人难以置信。这些口香糖不仅没有扔进垃圾箱,而且也没有粘到某个倒霉蛋的鞋底而被带走。它们就这样长久地被留在了城市的道路上。
大量的行人长年累月行走在这片人行道上,这种日积月累的增量会使得任何在一开始不太可能的事情最终变成现实。所以,即便我们仅仅假设一百万人里面只有一人会把口香糖吐到地面上,五年的总量也是惊人的。而这也让人行道成了我们现在看到的样子。
我们试着模拟了一下这个过程,假设每周两百万行人穿过一片平地,只有百万分之一的人会在这里留下痕迹,那么在五年之中,路面上的口香糖渍就会像下面这个动图所显示的这样(其中痕迹的位置和半径都是随机设定的):
在260周(5年)的模拟试验中,一共产生了54个口香糖痕迹。我们又做了几百次相同的模拟试验,其中有95次模拟都产生了40以上个口香糖渍。也许我们的“实验地点”只是一个虚拟的地理位置,但它仍然具有现实意义:在纽约,几十个商业区的客流量要远比我们假设的多。
比口香糖渍的普遍性更有趣的,则是它们的分布特征:哪些地区分布密集、哪些地区稀疏?在哪里会出现这种不平衡?为什么会这样呢?
我们真的去数了这些口香糖渍!
我们遇到的第一个难题就是选择样本。在时刻变化的城市地形地貌中,我们需要选择具有一定连贯性的实验对象:最好是能找到一条足够长的人行道,然后观察口香糖渍的数量随着穿过的社区的不同,而产生的变化——比如一条横穿城市的公园大街(Park Avenue)。
公园大街有着象征富贵的悠久历史,多年来,已经成为“旧贵”(old money)的代名词。虽然如今很多其他街区也开始变得富有,但根据一项2014年的街区富裕程度排行,公园大街横穿曼哈顿地区平均家庭收入最富有的两个街区Lenox Hill和Carnegie Hill,百年来依然是财富最聚集的地区。
我们现在将根据街道上的口香糖渍数量来评价街区。但本着统计学家的精神,我们不会统计公园大街上的每一寸街道,而是选择有代表性的样本进行抽样。考虑到人行道上铺设的方砖都是同样大小且遵循着相同的规律,我们选择了系统抽样(systematic sampling)的方法。我们真的去数了这些口香糖渍!
每块方砖大约都是5英尺见方。通常人行道的宽度是3到4块砖。其中,靠近路边的一行,一般会覆盖一些植被或者宠物的粪便;而靠近建筑物的一行,则是为了区分店家的私有区域与公共区域。所以,中间的一两排才是我们的抽样样本。
大部分街区都被分成几列,这方便了我们进行抽样统计
但需要注意的是,并非全部方砖都有相同的大小,有些很小,有些已经出现巨大裂缝,还有些为了好看,选择了用对角方格花纹来装饰。这就意味着有些口香糖渍的数目只能从稍小的面积中统计,因此各社区间的样本量大小也可能有所不同。
更糟的是,由于方砖是不同材料制成的,有些地方的口香糖渍根本无法统计:无色方砖上只需要找黑点就可以,但有些材料(比如某种水泥和石子混合材料的方砖)的目的,就是“用来在主要交通繁忙区域掩盖口香糖渍”。干(ling)得(ren)漂(zhua)亮(kuang)!下面是三张不同材料方砖的照片:
辨别口香糖渍的难度从左到右依次是:容易、困难、非常困难
要如何克服这些困难呢?这就要在采集样本时候尽可能的标准化——多大的、颜色多深的点可以认定为口香糖渍,并且祈祷最终发现的规律特征不会受到数据采集的误差所影响过大。虽然数据搜集的过程存在一些不严谨的地方,但当样本量足够大,靠着从大量数据中发现的明显差异,这些不足并不会影响我们的发现。
街区交叉口和商业区有更多的口香糖渍
下图是第17街区一直到130街区的口香糖渍统计结果。淡蓝色的线代表每条街平均每块方砖上口香糖渍的点数变化;深蓝色的平滑线则是计算了每条街区以及它南北各两条街区,共五条街区的平均值。
深蓝色代表的这条近似函数曲线,使我们模型的数据变化不那么突兀,分散了浅蓝色折现的峰值水平。当统计了超过五英里的口香糖渍后,你除了感觉自己快要发疯外,还会注意到一些事情:每个街区的最后一块方砖上,也就是两条街道交叉口的方砖上,口香糖渍总是比其他地方多。
在统计过程中还发现一些规律,虽然它们可能无法用数据表现出来:在靠近垃圾桶,报箱及公交站牌的地方,口香糖渍都会多起来。而不平整的路面则不容易留下口香糖渍,至于是因为口香糖不容易粘在不平整表面,还是容易脱落,还是不容易被发现,还不能确定。
另一项更大更重要的发现是商业区(大致为60号街道南部或者120号街道北部)要比住宅区口香糖渍多。这一趋势与日常感觉一致:有店面的街道产生更多垃圾,更多行人经过,比起家里人们也倾向于在这些街道上“放飞自我”。
每多一个口香糖渍,街区的人均年收入就少2万美元
商业区的脏乱差使得原本就很微妙的趋势更模糊不清。商业区口香糖渍数量的激增是一个重要发现,但从口香糖渍的整体上看,这个发现也容易让我们忽略其他有趣的点。例如,第28大道和公园大街的交叉口与第124大道与公园大街的交叉口无论在地理上还是社会经济地位上都天差地别,但因为都是商业区,就使得每方砖上的口香糖渍数量都达到40,这不利于我们通过人行道上的情况来观察差别。
所以,引入人均收入作交叉分析是个办法。下面我们来看看公园大街上第60大道到第120大道之间的传统住宅区。美国人口普查局公布的地区人均收入调查是以某个街区为核心,统计其周围覆盖的数千人的情况,这组数据对于我们的研究是相对精确的,两组数据结合后,趋势如下:
结果可能和你预想的一致:在比较富裕的Upper East Side街上只有少数口香糖渍;而在相对不富裕的街区,例如,第96大道以北,口香糖渍大量出现。甚至还有与收入相称的微趋势:第70大道以人均年收入10万美元领跑临近街区,口香糖渍也大幅回落;第93、94大道上较低的口香糖渍总数也反应了这一地区人均年收入16万6621美元领跑的事实。
当我们把地理因素抛弃掉,仅仅考虑街区的口香糖渍数量和人均收入的时候,我们可以更清楚的看到他们之间的关系:
这两项数据的相关系数达到了-0.78,已经达到了一个强线性负相关的水平。图上趋势线的斜率为-0.0000465,即每增加一个口香糖渍意味着人均收入减少2万美元。
仅看这张图的话,我们可能轻易下这样的结论:第96大道上的高净值人群要比穷人更干净也更文明。这可能正确,毕竟收入4位数的人比起收入7位数的人更可能随地吐口香糖。
然而影响因素不止收入这么简单。路过街区的行人并不只有住在附近的居民。根据破窗理论,在原本就已经有很多口香糖渍的街区,人们更可能跟着随地吐。另外,在那些有制服门卫的街区做这种事也比较有公德风险。再加上高净值人群不是在家就是在办公室要么就是在车里,他们缺少机会制造这些口香糖渍。
最后,口香糖渍的区别不仅在于吐口香糖的比例,也包括清理的比例。即使人行道的建设是公共开销,但养护费用则是由附近居民承担的。Lenox Hill的这些富人为了保持他们所在街区的高端形象会定期花费数千元请专业清洁工人来把口香糖铲掉。East Harlem区的穷人恐怕既不想、也付不起人行道的清理费用。这些人也许作为清洁工去过Lenox Hill多次。
原文发布时间为:2017-03-31
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号