热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据类型与数据分析方法的区别,数据分析的数据类型

例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续型变量,其数值只能用测量或计量的方法取得。截面数据不要求统计对象及其范围相同,但要求统计的时间相同。在特定研究中我们把从

1.分类型数据和数值型数据 按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。归属于某一类别的数据称为分类型数据(categorical data),其结果均表现为类别,也称为品质数据(quality data)。描述现象的数量、大小或多少的数据称为数值型数据(quantitative data),由于定距尺度和定比尺度属于同一测量层次,所以可以把后两种尺度测度的数据看作是同一类数据,统称为定量数据或数值型数据。数值型数据可能是离散的也可能是连续的,在一定区间内可以任意取值的变量叫连续型变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续型变量,其数值只能用测量或计量的方法取得。如果数值只能用自然数或整数单位计算的则为离散型变量。例如,企业个数,职工人数、设备台数等、只能按计量单位数计数、这种变量的数值一般用计数方法取得。区分测量的层次和数据的类型十分重要,因为对不同类型的数据将采用不同的统计方法来处理和分析。适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对分类型数据通常是计算众数;反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。比如,测度数量型数据可以计算平均数,但对于分类型数据则不能计算平均数。 2.截面数据和时间序列数据 截面数据(cross section data)是在同一时间和时点上搜集的数据。截面数据是按照统计单位排列。截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。表1-1中的数据是截面数据,因为它描述了上市公司行业分类的多个变量在同一时间上的情况。时间序列数据(time series data)是在不同时点上搜集的数据。图1-1是2003-2013年消费价格指数曲线。我们注意到,三项指数在2008年达到最高,表明在当年物价水平上涨较快;2009年急剧下降,物价水平处在低谷。在经济统计和各种出版物中,我们经常可以看到时间序列图形,这些图形帮助人们了解过去发生的情况,分析现象随时间变化的趋势和规律,推测时间序列的未来发展水平。
描述统计 为了使统计数据更易于理解,一般采取表格、图形或数值的形式汇总数据的统计方法称为描述统计(descriptive statistics)。描述统计是统计研究的基础,它为推断统计、咨询和决策提供了必要的事实依据。
用描述统计的方法对表1-1中部分行业的上市公司平均市盈率数据进行分析,如图1-2是数据集的条形图。通过数据统计图形,使数据更容易分析和解释。从图1-2中,我们很容易获得这样的一些信息,有一些行业平均市盈率相对于公司数量而言是偏高的,而有一些行业偏低,理财顾问和投资者通过这些数据的分析,很容易找到某一个行业那些上市公司估值偏高了,那些公司的估值偏低,进而做出投资决策。
推断统计 在统计研究中,我们需要有关研究对象的全部数据信息,出于对时间、成本和其他因素的考虑,只能搜集到研究对象的一部分数据。在特定研究中我们把从全部总体中搜集的一部分个体称为样本(sample)。而利用样本数据对总体特征进行估计和推断,并做出假设检验的过程被称为推断统计(statistical inference)。统计推断是统计学的基本方法,在统计研究中得到了极为广泛的应用。作为推断统计的一个例子,我们考察由西门子电气公司所作的一项研究。西门子电气公司生产一种广泛应用于一些电气设备的高亮度灯泡。为了提高灯泡的使用寿命,产品研发部门开发出一种新型灯丝的灯泡。在该项研究中,我们把总体定义为全部的使用新型灯丝生产的灯泡。为了估计新灯丝的优点,抽取了200只新灯丝灯泡组成样本,并进行了测试,记录每只灯泡灯丝被烧断之前的时间,样本数据见表1-2。

假设西门子电气公司希望利用样本数据对全部新型灯泡总体的平均寿命进行推断,以确认所有产品的质量是否合格。基本的思路是将表1-2所有数据相加再除以200,可得到灯泡样本数据的平均使用寿命为76小时。我们同样可以利用这一样本结果估计灯泡总体的平均使用寿命也是76小时。利用样本数据对我们感兴趣的总体特征进行估计时,还要考虑估计的质量和精确性。以西门子电气为例,研究人员可能指出,新灯泡的平均使用寿命的点估计值是76小时,误差的边际是 6小时,这样,新灯泡的总体平均使用寿命的区间估计是70~82小时,在这个估值区间内,还可以给出有多大的比例包含了总体平均数。
推荐阅读
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图
    微信公众号:「Python读财」如有问题或建议,请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]
  • Shodan简单用法Shodan简介Shodan是互联网上最可怕的搜索引擎,与谷歌不同的是,Shodan不是在网上搜索网址,而是直接进入互联网的背后通道。Shodan可以说是一款“ ... [详细]
  • ☞░前往老猿Python博客https:blog.csdn.netLaoYuanPython░一、引言在写该文之前,老猿就图像的一些运算已经单独边学边发了࿰ ... [详细]
  • 本文介绍了如何使用PHP向系统日历中添加事件的方法,通过使用PHP技术可以实现自动添加事件的功能,从而实现全局通知系统和迅速记录工具的自动化。同时还提到了系统exchange自带的日历具有同步感的特点,以及使用web技术实现自动添加事件的优势。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • Python字典推导式及循环列表生成字典方法
    本文介绍了Python中使用字典推导式和循环列表生成字典的方法,包括通过循环列表生成相应的字典,并给出了执行结果。详细讲解了代码实现过程。 ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • 本文介绍了Perl的测试框架Test::Base,它是一个数据驱动的测试框架,可以自动进行单元测试,省去手工编写测试程序的麻烦。与Test::More完全兼容,使用方法简单。以plural函数为例,展示了Test::Base的使用方法。 ... [详细]
author-avatar
励志要成为明星的张佳楠
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有