谷歌的两名工程师开发出一款名为PlaNet的照片识别系统,这个系统可以通过分析照片上的像素确定照片的拍摄地点。
人们通常很难仅凭肉眼观察照片上的景物判断出照片的拍摄地点。例如,这张照片上有着白色的沙滩,人们可能会以为这是在加勒比海的岸边拍摄的,但实际上这张照片是在马尔代夫拍摄的。
很多人需要通过地标性景物比如自由女神像或者马丘比丘才能判断照片的拍摄地点,但是谷歌的PlaNet系统就不存在这个问题。虽然它还处于早期开发阶段,但是它的识别能力已经相当强了。
托比亚斯·韦安德(Tobias Weyand)和詹姆斯·菲尔宾(James Philbin)是谷歌的两名软件工程师,他们与开发员伊利娅·科斯特里科夫(Ilya Kostrikov)一同建立了PlaNet系统。韦安德对《麻省理工科技评论》说:“我们认为PlaNet比人有优势,因为它见过的地方比任何人去过的地方都要多,而且还能识别出不同地方的景色的细微差别,即便是最喜欢旅游、去过很多地方的人也很难看出那些细微差别。”
韦安德领导的开发团队将全世界划分成一个网格,这个网格由26000个不同大小的方块组成,各个方块的大小由该地点拍摄的照片的数量决定。每一个方块都代表着一个具体的地理区域。
然后开发团队利用从互联网上的搜集到的各地区的照片建立了一个数据库,然后整理和归入对应的网格方块中。整个系统一共使用了1.26亿张照片。
开发团队以人脑为模型建立了一个强大计算机系统,并从数据库中提取了9100万张照片来建立核心网络。他们希望最终能够达到这样一种效果:将一张照片输入这个核心网络,马上就能得到照片的拍摄地点或者至少得到最有可能的拍摄地点的列表。
这个计算机系统会将照片与这个核心网络中的照片进行比对,然后得出初步的识别结果,之后再利用数据库中剩余的3400万张照片对识别结果进行验证,得到最终的识别结果。
为了测试PlaNet,谷歌开发团队从网络照片库Flickr中提取了230万张带有地理标记的照片,然后让PlaNet对它们进行识别。
韦安德领导的研发团队在学术报告中写道:“PlaNet能够以街道级精度确定3.6%的照片的拍摄地点,如果从城市级精度来说,识别率为10.1%。”
这样的结果并不理想,但是PlaNet的表现还是超过了常人。
平均而言,PlaNet判断的拍摄地点与照片实际拍摄地点的平均差距在1131.7公里以内,而10名见多识广的旅行家判断的结果与实际结果之间的平均差距在2320.75公里以内。
韦安德的团队写道:“总的来说,PlaNet在50轮人机比试中赢了28轮,平均误差为1131.7公里;人的平均误差为2320.75公里。这场小规模的测试表明,PlaNet在识别街景照片拍摄地点的能力上面已经超过了常人。”