用PHP使Web数据分析进入更高境界

作者：想飞的糊涂虫 | 来源：互联网 | 2017-06-25 22:31

文章标题：用PHP使Web数据分析进入更高境界。Linux是中国IT实验室的一个技术频道。包含桌面应用，Linux系统管理，内核研究，嵌入式系统和开源等一些基本分类

　　设计您的数据分析，做比简单原始计数更多的事
　　对 Web 数据进行有效和多层次的分析是许多面向 Web 企业能够生存的关键因素，数据分析检验的设计（和决策）通常是系统管理员和内部应用程序设计人员的工作，而他们可能除了能够把原始计数制成表格之外，对统计学没有更多的了解。在本文中，Paul Meagher 向 Web 开发人员传授了将推论统计学应用到 Web 数据流所需的技能和概念。
　　
　　动态网站不断生成大量的数据 — 访问日志、民意测验和调查结果、客户概要信息、订单及其它，Web 开发人员的工作不仅是创建生成这些数据的应用程序，而且还要开发使这些数据流有意义的应用程序和方法。
　　
　　通常，对于由管理站点所产生的不断增长的数据分析需求，Web 开发人员的应对是不够的。一般而言，除了报告各种描述性统计信息之外，Web 开发人员并没有其它更好的方法来反映数据流特征。有许多推论统计步骤（根据样本数据估计总体参数的方法）可以被充分利用，但目前却没有应用它们。
　　
　　例如，Web 访问统计信息（按当前所编辑的）只不过是以各种方式进行分组的频率计数。以原始计数和百分比表示民意测验和调查结果的情况比比皆是。
　　
　　开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了，我们不应期望太多。毕竟，有从事较复杂的数据流分析的专业人士；他们是统计师和受过训练的分析师。当组织需要的不仅仅是描述性统计时，可以请他们加入。
　　
　　但另一种应对是承认对推论统计学日益加深的了解正成为 Web 开发人员工作描述的一部分。动态站点正在生成越来越多的数据，事实表明，设法将这些数据变成有用的知识正是 Web 开发人员和系统管理员的责任。
　　
　　我提倡采取后一种应对；本文旨在帮助 Web 开发人员和系统管理员学习（或重温，如果知识已遗忘的话）将推论统计学应用到 Web 数据流所需的设计和分析技能。
　　
　　使 Web 数据与实验设计相关
　　将推论统计学应用到 Web 数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要：测量尺度是什么？样本的代表性如何？总体是什么？正在检验的假设是什么？
　　
　　要将推论统计学应用到 Web 数据流，需要先把结果看作是由实验设计生成的；然后选择适用于该实验设计的分析过程。即使您可能认为将 Web 民意测验和访问日志数据看作实验的结果是多此一举，但这样做确实很重要。为什么？
　　
　　1.这将帮助您选择适当的统计检验方法。
　　2.这将帮助您从收集的数据中得出适当的结论。
　　
　　在确定要使用哪些适当的统计检验时，实验设计的一个重要方面是选择数据收集的衡量尺度。
　　
　　衡量标准的示例
　　测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。例如，千克尺度允许您给一个物体分配数字，根据测量仪器的标准化的偏移量指示该物体的重量。
　　
　　有四种重要的衡量标准：
　　
　　定比尺度（ratio）— 千克尺度是定比尺度的一个示例 ? 分配给物体属性的符号具有数字意义。您可以对这些符号执行各种运算（如计算比率），而对于通过使用功能不那么强大的衡量标准获得的数值，您不能使用这些运算。
　　
　　定距尺度（interval）— 在定距尺度中，任意两个相邻测量单位之间的距离（也称为间距）是相等的，但零点是任意的。定距尺度的示例包括对经度和潮汐高度的度量，以及不同年份始末的度量。定距尺度的值可以加减，但乘除则没有意义。
　　
　　定序尺度（rank）— 定序尺度可应用于一组有顺序的数据，有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。常见的示例包括“好恶”民意测验，其中将数字分配给各个属性（从 1 = 非常厌恶到 5 = 非常喜欢）。通常，一组有序数据的类别有自然的顺序，但尺度上相邻点之间的差距不必总是相同的。对于有顺序的数据，您可以计数和排序，但不能测量。
　　
　　定类尺度（nominal）— 衡量标准的定类尺度是衡量标准中最弱的一种形式，主要指将项目分配给组或类别。这种测量不带数量信息，并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。
　　
　　下表对比了每种衡量标准的特征：
　　
　　衡量标准尺度属性具有绝对的数字含义吗？能执行大多数数学运算吗？
　　定比尺度是。是。
　　定距尺度对于定距尺度是这样；零点是任意的。加和减。
　　定序尺度不是。计数和排序。
　　定类尺度不是。只能计数。
　　
　　在本文中，我将主要讨论通过使用测量的定类尺度收集的数据，以及适用于定类数据的推论技术。
　　
　　使用定类尺度
　　几乎所有 Web 用户 — 设计人员、客户和系统管理员 — 都熟悉定类尺度。Web 民意测验和访问日志类似，因为它们常常使用定类尺度作为衡量标准。在 Web 民意测验中，用户常常通过请求人们选择回答选项（如“您偏爱品牌 A、品牌 B，还是品牌 C？”）来衡量人们的偏好。通过对各类回答的频率进行计数来汇总数据。
　　
　　类似的，测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天，然后对每一天出现的点击或访问的数目计数。另外，您可以（也确实可以）通过浏览器类型、操作系统类型和访问者所在的国家或地区 — 以及任何您想得到的分类尺度 — 对点击计数。
　　
　　因为 Web 民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数，所以可以用相似的无参数统计检验（允许您根据分布形状而不是总体参数作出推论的检验）来分析它们。
　　
　　David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一书（第 19 页, 1997）中，是这样区分参数检验和非参数检验的：
　　
　　本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。作为通用规则，评估类别／定类尺度数据和顺序／等级-顺序数据的推论统计检验被归类为非参数检验，而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。
　　
　　当作为参数检验基础的某些假设值得怀疑时，非参数检验也很有用；当不满足参数假设时，非参数检验在检测总体差异时有很大的作用。对于 Web 民意测验的示例，我使用了非参数分析过程，因为 Web 民意测验通常使用定类尺度来记录投票者的偏好。
　　
　　我并不是在建议 Web 民意测验和 Web 访问统计信息应该始终使用定类尺度衡量标准，或者说非参数统计检验是唯一可用于分析这类数据的方法。不难设想有（譬如）这样的民意测验和调查，它们要求用户对每个选项提供数值评分（从 1 到 100），对此，参数性的统计检验就比较合适。
　　
　　尽管如此，许多 Web 数据流包括编辑类别计数数据，而且通过定义定距尺度（譬如从 17 到 21）并将每个数据点分配给一个定距尺度（如“年轻人”），可以将这些数据（通过使用功能更强大的衡量标准测量）变成定类尺度数据。频率数据的普遍存在（已经是 Web 开发人员经验的一部分），使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。
　　
　　为了使本文保持合理的篇幅，我将把对 Web 数据流分析的讨论局限于 Web 民意测验。但是请记住，许多 Web 数据流都可以用定类计数数据表示，而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。
　　
　　从抽样开始
　　假设您在您的站点 www.NovaScotiaBeerDrinkers.com 上进行每周一次的民意测验，询问成员对各种主题的意见。您已经创建了一个民意测验，询问成员喜爱的啤酒品牌（在加拿大新斯科舍省（Nova Scotia）有三种知名的啤酒品牌：Keiths、Olands 和 Schooner）。为了使调查尽可能范围广泛，您在回答中包括“其它”。
　　
　　您收到 1,000 条回答，请观察到表 1 中的结果。（本文显示的结果只作为演示之用，并不基于任何实际调查。）
　　
　　表 1. 啤酒民意测验Keiths Olands Schooner 其它
　　285（28.50%） 250（25.00%） 215（21.50%） 250（25.00%）
　　
　　这些数据看上去支持这样的结论：Keiths 是最受新斯科舍省居民欢迎的品牌。根据这些数字，您能得出这一结论吗？换句话说，您能根据从样本获得的结果对新斯科舍省的啤酒消费者总体作出推论吗？
　　
　　许多与样本收集方式有关的因素会使相对受欢迎程度的推论不正确。可能样本中包含了过多 Keiths 酿酒厂的雇员；可能您没有完全预防一个人投多次票的情况，而这个人可能使结果出现偏差；或许被挑选出来投票的人与没有被挑选出来投票的人不同；或许上网的投票人与不上网的投票人不同。
　　
　　大多数 Web 民意测验都存在这些解释上的困难。当您试图从样本统计数据得出有关总体参数的结论时，就会出现这些解释上的困难。从实验设计观点看，在收集数据之前首先要问的一个问题是：能否采取步骤帮助确保样本能够代表所研究的总体。
　　
　　如果对所研究的总体得出结论是您做 Web 民意测验的动机（而不是为站点访问者提供的消遣），那么您应该实现一些技术，以确保一人一票（所以，他们必须用唯一的标识登录才能投票），并确保随机选择投票者样本（例如，随机选择成员的子集，然后给他们发电子邮件，鼓励他们投票）。
　　
　　最终，目标是消除（至少减少）各种偏差，它们可能会削弱对所研究总体得出结论的能力。
　　
　　检验假设
　　假设新斯科舍省啤酒消费者统计样本没有发生偏差，您现在能够得出 Keiths 是最受欢迎品牌这一结论吗？
　　
　　要回答这个问题，请考虑一个相关的问题：如果您要获得另一个

推荐阅读

php
OPPO黄页服务即将停止

OPPO黄页服务因业务调整即将停止，用户需了解具体卸载路径及受影响的机型。 ... [详细]

蜡笔小新 2024-12-28 13:37:31
php
【考研数学】高等数学知识点整理——第一章函数、极限、连续

1函数1.1函数的定义设xxx和yyy是两个变量，D，icod ... [详细]

蜡笔小新 2024-12-28 13:18:38
php
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
js
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
js
极大似然估计（MLE）及其3D可视化解析

本文详细介绍了极大似然估计（Maximum Likelihood Estimation, MLE）的推导过程，并通过3D可视化展示其在概率密度函数中的应用。我们将探讨如何利用MLE来估计参数，以及它在实际问题中的重要性。 ... [详细]

蜡笔小新 2024-12-28 12:03:58
js
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
perl
解决 IIS 中 PHP 页面无法访问的问题

本文介绍如何解决在 IIS 环境下 PHP 页面无法找到的问题。主要步骤包括配置 Internet 信息服务管理器中的 ISAPI 扩展和 Active Server Pages 设置，确保 PHP 脚本能够正常运行。 ... [详细]

蜡笔小新 2024-12-28 11:54:54
perl
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
perl
周期性出现的时间戳字段异常问题

探讨一个老旧 PHP MySQL 系统中，时间戳字段不定期出现异常值的问题及其可能原因。 ... [详细]

蜡笔小新 2024-12-28 11:46:54
js
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
text
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
text
郑州大学在211高校中的地位与排名解析

本文将详细解读郑州大学作为一所位于河南省的211和双一流B类高校，在全国211高校中的地位与排名，帮助高三学生更好地了解这所知名学府的实力与发展前景。 ... [详细]

蜡笔小新 2024-12-28 10:08:34
js
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
js
优化ASM字节码操作：简化类转换与移除冗余指令

本文探讨如何利用ASM框架进行字节码操作，以优化现有类的转换过程，简化复杂的转换逻辑，并移除不必要的加0操作。通过这些技术手段，可以显著提升代码性能和可维护性。 ... [详细]

蜡笔小新 2024-12-28 09:35:00
js
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26

想飞的糊涂虫

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章