当前位置: 开发笔记 > 编程语言 > 正文

统计学有多无聊？谷歌统计学家带你证明

作者：牛妈是007 | 来源：互联网 | 2023-10-12 15:23

https:www.toutiao.coma6678870676780089869大数据文摘出品来源：medium编译：王缘缘、蔡婕、小七统计学是

https://www.toutiao.com/a6678870676780089869/

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

大数据文摘出品

来源&＃xff1a;medium

编译&＃xff1a;王缘缘、蔡婕、小七

统计学是通过搜索、整理、分析、描述数据等手段&＃xff0c;以达到推断所测对象的本质&＃xff0c;甚至预测对象未来的一门综合性科学。

嗯&＃xff0c;以上是统计学课本中对统计学的定义&＃xff01;

但是近日&＃xff0c;一位来自谷歌的统计学家却发长文表示“统计学很无聊。“

这位统计学家叫Cassie Kozyrkov&＃xff0c;目前是Google的首席决策师。在这篇文章中&＃xff0c;她提到&＃xff1a;“别看我们平时都是在做一些看起来&＃39;高大上&＃39;的计算&＃xff0c;其实核心都很单调的&＃xff1b;另外&＃xff0c;数据是很无聊的&＃xff0c;人性化的事情才是难点。”

让我们先普及一些统计学的入门级概念&＃xff0c;然后跟着这位统计学家一起&＃xff0c;看看她的逻辑证明。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

总体

当一个普通人想到“population”这个词时&＃xff0c;他会想到什么&＃xff1f;人&＃xff0c;对吗&＃xff1f;不只是一两个&＃xff0c;而是很多&＃xff0c;几乎是所有的人&＃xff01;在我们的学科中&＃xff0c;它更像是所有的事物的集合。总体可以是人、像素、南瓜、神奇宝贝&＃xff0c;或者任何你喜欢的东西。

总体是我们感兴趣的所有项目的集合。

先停一下&＃xff0c;在总体的确定上是需要花点时间的&＃xff0c;因为这是研究的基础。

规则是这样的&＃xff1a;通过写下你对总体的描述&＃xff0c;你就确定了你的总体是什么&＃xff0c;除此之外没有任何东西可以影响你的决定。通过进一步阅读&＃xff0c;你就能接受这些术语和相应的限定条件了。

提出你感兴趣的总体并没有听起来那么令人望而生畏&＃xff0c;请记住&＃xff0c;是由你自己来选择你想要感兴趣的事物。没有错误的选择&＃xff0c;只要它是具体和全面的就可以是一个总体。接下来我会讲得很详尽&＃xff0c;并且建议以下图中的树木作为本文感兴趣的总体。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

如果我的总体是这片森林中的树木&＃xff0c;那么它们就代表了我所关心的关于这个决定的一切。我对这些树感到很兴奋。坦白地说&＃xff0c;这种兴奋是绝对真实的: 我非常喜欢这个图形&＃xff0c;因为我在自己的讲座中使用它很多年了。请允许我再怀念它一次……当然&＃xff0c;飞机上漂浮着一些树木&＃xff0c;从空间上来说是非常合理的。

由于这是我的总体&＃xff0c;我应该记住&＃xff0c;我并没有理由从自己的分析中得出我已经从其他森林中的树木了解到的结论。我的发现充其量只适用于这些树木。最糟糕的是&＃xff0c;嗯......我只想说数据科学家的生活中有时候是需要去构建特征的&＃xff0c;不只是描述表面特征。

这里有你看不到的树吗&＃xff1f;这样的研究没意义。它不是我们总体的一部分。挑选任何一棵树&＃xff1f;同样没有意义&＃xff0c;因为这不是你的整个总体。只有他们同时在一起对我们来说才是有意义的。这就是总体的概念。

样本

来自总体中的任意项目集合的样本。

样本是你拥有的数据&＃xff0c;而总体是你“希望”拥有的数据。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

这些橙色树木集合中的任何一个都是样本。我希望你们能有一些直觉知道哪个更好。在之后的文章中&＃xff0c;我将告诉你如何使样本成为一个好样本。我将用这个例子的其余部分刺激专业人士来证明这一点。

观测值

观测值是对样品中单个项目的测量。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

我们在这个蓝色标记的树上进行的测量是一个观测值。坚持使用精确语言的人会注意到&＃xff0c;“sample”是一组观察结果的集合名词。从理论上讲&＃xff0c;“samples”作为复数并不表示“观测到的多个值”&＃xff0c;而是表示“多个观测值的集合”。

统计数据

啊哈&＃xff01;统计数据&＃xff01;这当然是很重要的&＃xff0c;因为我们在研究了这些数据之后命名了我们的学科&＃xff01;

统计数据是通过任意一种方法去获得样本数据。

那么什么是统计数据&＃xff1f;这只是统计我们拥有的数据的一种方式。是不是很失望&＃xff0c;不用失望&＃xff0c;事实证明&＃xff0c;统计和统计学科是两码事。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

统计数据的示例&＃xff1a;如果我们对树的高度感兴趣&＃xff0c;那么看到所有这些橙色标记树的平均高度等统计数据就不会感到惊讶。如果你愿意&＃xff0c;你也可以采用那些样本树高&＃xff0c;找到最高的前三个&＃xff0c;把它们加起来&＃xff0c;取对数&＃xff0c;加上最低的两个树高的差值的平方根&＃xff0c;通过这样的计算加工可以产生另一个统计数据&＃xff01;也许有用&＃xff0c;也许不是那么有用&＃xff0c;但也是一个统计数据。

如何证明统计学是无聊的

假设我们对树的平均高度感兴趣&＃xff0c;对于这个样本&＃xff0c;树的平均高度恰好是22.5米。这个数字对我们意义吗&＃xff1f;

让我们回顾一下总体的概念&＃xff1a;只对总体的研究是感兴趣的。这个样本是总体吗&＃xff1f;不是。因此&＃xff0c;它对我们来说并不重要。我们从一些无聊的树上取了一些无聊的测量值&＃xff0c;然后我们把这些无聊的测量值进行加工计算……从这个过程中得出的结果也很无聊。

所以&＃xff0c;我已经向你们证明了你们心中一直知道的事实:统计学是无聊的&＃xff01;证明完毕。

用词不当&＃xff01;

统计学家们疯了吗&＃xff1f;为什么我们要用一些无聊的数字来命名我们的学科呢&＃xff1f;实际上&＃xff0c;这是用词不当。

如今我们对这些术语进行深度剖析&＃xff0c;分析的是关于计算统计数据的学科&＃xff0c;但统计学不仅仅是研究那些数据&＃xff0c;而是要从那些数据中挖掘信息&＃xff0c;从而实现对未知领域的探索&＃xff0c;但也有可能这只是伊卡洛斯式的飞跃&＃xff0c;最后得不到任何成果。

我们学科的真实名称&＃xff08;这个名称更能体现学科的含义&＃xff09;更加晦涩&＃xff1a;统计数据的消化……但这听起来有点恶心&＃xff0c;所以我们把它简化为平易近人的说法。

让我来解释一下。

参数

接下来讲我们的主角&＃xff1a;参数。这个东西太花哨太闪亮。是那种演出结束后会获得一个花束的角色&＃xff0c;它甚至有属于自己的希腊字母&＃xff08;通常是θ&＃xff09;。你可以将参数看作是总体里的一个统计量&＃xff0c;它是由所有我们感兴趣的总体计算得来的&＃xff0c;但是通常无法直接获得。

参数总结了总体特征

我们承认这些树木使我们深感兴奋&＃xff0c;现在要我总结一下你关心的一切。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

参数值显示&＃xff1a;所有树木的真实平均高度恰好是21.1米。

想象一下&＃xff0c;这是周六早上&＃xff0c;你站在这片森林的空地中间。你还没测量过任何树木&＃xff0c;但你超想知道这个数字&＃xff0c;这是你梦寐以求的一切。

知道参数需要什么&＃xff1f;

你必须精确的测量所有树&＃xff01;一旦做完了&＃xff0c;你会有任何不确定的吗&＃xff1f;不&＃xff0c;你拥有了所有的信息。你可以通过分析继续计算平均值。因为你的样本是总体&＃xff0c;这样统计量就是参数。你正在处理的纯粹是事实问题。由于拥有准确和完整的数据&＃xff0c;因此无需进行复杂的计算。

我碰巧住在纽约市&＃xff0c;尽可能远离树木。因此&＃xff0c;当我面临像“精确测量所有这些树木”这样令人生畏的任务时&＃xff0c;惰性就开始了。我真心想知道这个参数&＃xff0c;但我反问自己&＃xff1a;“我真的需要完全了解它还是只要测量一些树木&＃xff1f;也许我只需对整个画面进行局部观察&＃xff0c;以形成对该参数的最佳猜测......这表面上就足以完成工作要求了。”

当我这么想的时候&＃xff0c;我在用统计学的方式思考&＃xff01;我永远不会知道答案。我的懒惰意味着我必须放弃获取事实或确定答案&＃xff0c;但希望我最终会得到一些仍然有助于做决策的结果。我仍然可以把它变成一个合理的行动。这就是统计学的精髓。

无中生有&＃xff1f;

你们当中有些人希望我会说&＃xff0c;“有了这个神奇的公式&＃xff0c;你就可以将不确定的变成确定&＃xff01;”不&＃xff0c;当然不会。没有任何神奇的东西可以无中生有。

当我们不知道事实时&＃xff0c;我们所能希望的是将数据与假设结合起来做出合理的决策。

假设

一个假设是描述宇宙可能的样子&＃xff0c;但它不一定是真的。我们需要搞清楚&＃xff0c;我们的样本是否使得之前的假设看上去很荒谬&＃xff0c;以此判断是否要改变我们的想法&＃xff0c;但这超出了本篇博文的范围&＃xff0c;在这里提一下思路。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

我在这里说了一些乱七八糟的话&＃xff0c;如“所有树木的真正平均高度不到20米。”这是一个假设。你知道真相&＃xff08;我错了&＃xff01;&＃xff09;因为你在这个例子中无所不知......但我什么都不知道。我的陈述是一个完全有效的假设&＃xff0c;描述了潜在的真实性。我将会在得到一些数据后才能知道自己的假设是否合理。

估计和估计量

如果知道参数&＃xff0c;我们就不用做这些了。我们正在寻找事实&＃xff0c;但不幸的是事实并不总能获得准确结果。由于我们无法计算参数&＃xff0c;只能使用统计信息对其进行最佳猜测。

估计是对最佳猜测的一个华丽的表述

估计只是对参数真实值的最佳猜测的一个华丽表述。这是你的猜测值&＃xff0c;而估计量是你用于获得该数字的公式。

让我告诉你&＃xff0c;你在统计估计方面已经非常了不起。准备好了吗&＃xff1f;

假设你只知道其中一棵树高23米。你能告诉我对所有树木的真实平均高度的估计吗&＃xff1f;

23米&＃xff1f;对&＃xff0c;我也这么觉得&＃xff01;

如果这是我们唯一的信息&＃xff0c;我们只能猜测23米&＃xff1b;如果我们猜测其他任何数字&＃xff0c;我们就是在胡诌。23米是我们知道的全部&＃xff0c;所以我们只能猜23米。为了得到别的东西&＃xff0c;我们必须结合更多的信息&＃xff08;在这个例子中没有&＃xff09;或者做出假设......这就又是另外的事情了。

好的&＃xff0c;我们做另一个尝试&＃xff01;假设我们有一个样本&＃xff0c;我们所知道的是它的高度平均为22.5米。现在你最好的猜测是什么。

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

22.5米&＃xff1f;

根据几个教科书中的估计方法&＃xff0c;包括矩法估计法&＃xff0c;极大似然估计法等得到的最后答案和你的直觉是相同的&＃xff01;在现实生活中99&＃xff05;以上的案例表明&＃xff0c;只需将你的样本视为你的总体并随意使用其中的任何内容即可获得最佳猜测。你不需要任何特殊课程。棒棒哒&＃xff0c;我们完成了&＃xff01;

你总是需要统计学&＃xff0c;这是一个谎言&＃xff1b;你不需要。如果你只是想得到最好的猜测而获得灵感&＃xff0c;分析是你的最佳选择。摆脱p值&＃xff0c;你不需要不必要的压力。

相反&＃xff0c;你可以选择按照这些原则生活&＃xff1a;越多&＃xff08;相关&＃xff09;数据越好&＃xff0c;并且你的直觉非常适合做出最好的猜测&＃xff0c;但不知道这些猜测有多准确......所以要保持谦虚。

但是&＃xff0c;请不要认为我在抨击我的学科。我花了十多年的时间致力于统计学&＃xff0c;它并不是一门一无是处的学科。

所以&＃xff0c;在合适的时候使用统计方法才是有用的&＃xff0c;非常有用的。

最后&＃xff0c;你什么时候真的需要统计学呢&＃xff1f;Cassie也给出了这张决策图&＃xff0c;拿好不谢

统计学有多无聊&＃xff1f;谷歌统计学家带你证明

推荐阅读

cmd
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
text
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
php
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
php
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
instance
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
version
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
version
浙大陈姥姥版数据结构：第四章二叉搜索树与平衡二叉树

本文深入探讨了二叉搜索树（Binary Search Tree, BST）及其操作，包括查找、插入和删除节点。同时，文章还介绍了平衡二叉树（AVL树）的概念及调整方法，并详细讨论了如何判断两个序列是否构成相同的二叉搜索树。 ... [详细]

蜡笔小新 2024-12-28 13:49:45
format
深入探讨DB2数据库性能优化策略

本文详细介绍了IBM DB2数据库在大型应用系统中的应用，强调其卓越的可扩展性和多环境支持能力。文章深入分析了DB2在数据利用性、完整性、安全性和恢复性方面的优势，并提供了优化建议以提升其在不同规模应用程序中的表现。 ... [详细]

蜡笔小新 2024-12-28 13:22:19
format
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
text
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
text
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
replace
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
replace
MyBatis：深入解析与应用

在当前众多持久层框架中，MyBatis（前身为iBatis）凭借其轻量级、易用性和对SQL的直接支持，成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]

蜡笔小新 2024-12-27 12:17:16
replace
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
format
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40

牛妈是007

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章