"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
"大数据"首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。 研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。
大数据不是关于如何定义,最重要的是如何使用,如何获取这些大数据。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
那么如此有价值的数据要靠什么手段获得呢?有没有什么软件可以帮助我们获得这些数据呢?在采集大数据的过程中,我们发现一些数据采集软件还不错,在海量采集数据的同时还是免费的。之前用的一款叫做后羿的采集器采集了猫眼电影的实时票房,没想到这款采集软件对于表格形式的网页也可以直接智能识别出来轻松采集,重点是导出的时候还没有限制,真的做到了免费。
想要用这款软件,首先去他们官网上下载最新版的软件,然乎注册登录。不登录也可以使用的,就是担心数据会丢。
然后复制猫眼电影实时票房的网址,打开软件点击智能模式输入网址,软件会对网页进行自动识别。
网页识别出来之后,因为字段的名称是系统认定的,可以自己再设置一下,也可以做一些其他操作。
字段设置好之后可以点击开始采集直接运行数据了。
等待数据自己运行,运行完毕之后会有提示,此时再导出数据就行。
给你们展示一下用Excel表格导出的效果,还真的很好,感觉可以直接用,还不用怎么加工了。