作者:小小的家雀 | 来源:互联网 | 2023-08-13 19:02
大数据不仅仅是大量数据。在这里,Big这个词指的是大范围的数据。这个领域的一个众所周知的谚语是用字母V开头的三个单词来描述大数据:数据量大,速度和变化。但分析和数据科学界已经看到数
大数据不仅仅是大量数据。在这里,Big这个词指的是大范围的数据。这个领域的一个众所周知的谚语是用字母V开头的三个单词来描述大数据:数据量大,速度和变化。但分析和数据科学界已经看到数据在其他方面有所不同,除了大数据的三个基础,如准确性,可变性,波动性,可视化和价值。到目前为止提到的不同Vs解释如下:
1.数据量大(Volume):这是指以秒为单位生成的数据量。今天世界上90%的数据都是在过去两年中创建的。从那时起,世界上的数据每两年翻一番。如此大量的数据主要由机器,网络,社交媒体和传感器生成,包括结构化,半结构化和非结构化数据。
2.速度(Velocity):这是指数据生成,存储,分析和移动的速度。随着互联网连接设备的可用性,无线或有线机器和传感器可以在创建数据后立即传递。这可以实现实时数据流,并帮助企业做出有价值的快速决策。
3.品种(Variety):这是指不同的数据格式。数据曾经以数据源(如文件系统,电子表格和数据库)的.txt,.csv和.dat格式存储。这种类型的数据驻留在记录或文件中的固定字段中,称为结构化数据。如今,数据并不总是采用传统的结构化格式。较新的半结构化或非结构化数据形式也是通过各种方法生成的,例如电子邮件,照片,音频,视频,PDF,SMS,甚至是我们不知道的东西。这些种类的数据格式会产生存储和分析数据的问题。这是我们需要在大数据领域克服的主要挑战之一。
4.准确性(Veracity):这指的是数据的质量,例如数据中的可信度,偏差,噪声和异常。损坏的数据很正常。它可能由于多种原因而产生,例如拼写错误,缺失或不常见的缩写,数据重新处理和系统故障。但是,忽略这些恶意数据可能会导致数据分析不准确,最终导致错误的决策。因此,确保数据在数据试听和校正方面是正确的,对于大数据分析非常重要。
5.可变性(Variability):这是指数据的变化。这意味着相同的数据在不同的上下文中可能具有不同的含义。在进行情绪分析时,这一点尤为重要。分析算法能够理解上下文并发现该上下文中数据的确切含义和值。
6.波动性(Volatility):这指的是数据有效和存储的时间。这对于实时分析尤为重要。它需要确定数据的目标时间窗口,以便分析人员可以专注于特定问题并从分析中获得良好的性能。
7.可视化(visualization):这指的是使数据易于理解的方式。
可视化不仅意味着普通的图形或饼图;它还使得易于理解的多维视图中的大量数据易于理解。可视化是一种显示数据变化的创新方法。它需要大数据分析师和业务领域专家之间的大量交互,对话和共同努力,以使可视化变得有意义。
8.价值(Value):这是指从大数据的数据分析中获得的知识。大数据的价值在于组织如何将自己转变为大数据驱动型公司,并利用大数据分析的洞察力来决策。
总之,大数据不仅仅涉及大量数据,而是从现有数据中发现新见解并指导新数据分析的实践。大数据驱动型企业将更加敏捷和竞争,以克服挑战并赢得竞争。