正负数据如何归一化_数据分析面试考点！敲黑板！划重点！

作者：恨之无用_367 | 来源：互联网 | 2023-09-01 12:53

文末扫码领【阿里巴巴笔试题解析】xyjisaw|作者OmegaXYZ|来源https:www.omegaxyz.com20200217data-analysis-interview

文末扫码领【阿里巴巴笔试题&＃43;解析】

xyjisaw | 作者

OmegaXYZ | 来源

https://www.omegaxyz.com/2020/02/17/data-analysis-interview/

业务逻辑

数据分析遵循一定的流程&＃xff0c;不仅可以保证数据分析每一个阶段的工作内容有章可循&＃xff0c;而且还可以让分析最终的结果更加准确&＃xff0c;更加有说服力。一般情况下&＃xff0c;数据分析分为以下几个步骤&＃xff1a;

业务理解&＃xff0c;确定目标、明确分析需求
数据理解&＃xff0c;收集原始数据、描述数据、探索数据、检验数据质量
数据准备&＃xff0c;选择数据、清洗数据、构造数据、整合数据、格式化数据
建立模型&＃xff0c;选择建模技术、参数调优、生成测试计划、构建模型
评估模型&＃xff0c;对模型进行较为全面的评价&＃xff0c;评价结果、重审过程
成果部署&＃xff0c;分析结果应用

特征工程

包括特征提取、特征构建、特征选择。特征工程的目的是筛选出更好的特征&＃xff0c;获取更好的训练数据。因为好的特征具有更强的灵活性&＃xff0c;可以用简单的模型做训练&＃xff0c;更可以得到好的结果。

数据采集 / 清洗 / 采样

1. 数据采集

数据采集前需要明确采集哪些数据&＃xff0c;一般的思路为&＃xff1a;哪些数据对最后的结果预测有帮助&＃xff1f;数据我们能够采集到吗&＃xff1f;线上实时计算的时候获取是否快捷&＃xff1f;

举例1&＃xff1a;我现在要预测用户对商品的下单情况&＃xff0c;或者我要给用户做商品推荐&＃xff0c;那我需要采集什么信息呢&＃xff1f;
店家&＃xff1a;店铺的评分、店铺类别……
商品&＃xff1a;商品评分、购买人数、颜色、材质、领子形状……
用户&＃xff1a;历史信息(购买商品的最低价最高价)、消费能力、商品停留时间……

2. 数据清洗

数据清洗也是很重要的一步&＃xff0c;机器学习算法大多数时候就是一个加工机器&＃xff0c;至于最后的产品如何&＃xff0c;取决于原材料的好坏。数据清洗就是要去除脏数据&＃xff0c;比如某些商品的刷单数据。

那么如何判定脏数据呢&＃xff1f;

简单属性判定&＃xff1a;一个人身高3米&＃43;的人&＃xff1b;一个人一个月买了10w的发卡。
组合或统计属性判定&＃xff1a;你要判定一个人是否会买篮球鞋&＃xff0c;样本中女性用户85%&＃xff1f;
补齐可对应的缺省值&＃xff1a;不可信的样本丢掉&＃xff0c;缺省值极多的字段考虑不用。

数据清洗标准&＃xff1a;

数据的完整性—-例如人的属性中缺少性别、籍贯、年龄等
数据的唯一性—-例如不同来源的数据出现重复的情况
数据的权威性—-例如同一个指标出现多个来源的数据&＃xff0c;且数值不一样
数据的合法性—-例如获取的数据与常识不符&＃xff0c;年龄大于150岁
数据的一致性—-例如不同来源的不同指标&＃xff0c;实际内涵是一样的&＃xff0c;或是同一指标内涵不一致

3. 数据采样

采集、清洗过数据以后&＃xff0c;正负样本是不均衡的&＃xff0c;要进行数据采样。采样的方法有随机采样和分层抽样。但是随机采样会有隐患&＃xff0c;因为可能某次随机采样得到的数据很不均匀&＃xff0c;更多的是根据特征采用分层抽样。

正负样本不平衡处理办法&＃xff1a;

正样本 >> 负样本&＃xff0c;且量都挺大 &＃61;> downsampling
正样本 >> 负样本&＃xff0c;量不大 &＃61;>

数据标准化和归一化

max-min&＃xff1a;这种方法有一个缺陷就是当有新数据加入时&＃xff0c;可能导致max和min的变化&＃xff0c;需要重新定义。

Z-score&＃xff1a;最常见的标准化方法就是Z标准化&＃xff0c;也是SPSS中最为常用的标准化方法&＃xff0c;spss默认的标准化方法就是z-score标准化。也叫标准差标准化&＃xff0c;这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布&＃xff0c;即均值为0&＃xff0c;标准差为1&＃xff0c;其转化函数为&＃xff1a;x∗&＃61;x−μσ&＃xff0c;其中μ为所有样本数据的均值&＃xff0c;σ为所有样本数据的标准差。z-score标准化方法适用于属性A的最大值和最小值未知的情况&＃xff0c;或有超出取值范围的离群数据的情况。

ROC与AOC

ROC(Receiver Operating Characteristic)曲线即受试者工作特征曲线 (receiver operating characteristic curve&＃xff0c;简称ROC曲线)&＃xff0c;又称为感受性曲线(sensitivity curve)&＃xff0c;用来评价一个二值分类器(binary classifier)的优劣。

AUC(Area Under Curve)被定义为ROC曲线下的面积&＃xff0c;这个面积的数值不会大于1。又由于ROC曲线一般都处于y&＃61;x这条直线的上方&＃xff0c;所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好&＃xff0c;而作为一个数值&＃xff0c;对应AUC更大的分类器效果更好。为什么呢&＃xff0c;因为ROC曲线越接近左上角&＃xff0c;AUC面积就越大&＃xff0c;分类器性能就越好。

辛普森悖论

分组比较中都占优势的一方&＃xff0c;在总评中有时反而是失势的一方。即&＃xff0c;数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象。

如下图&＃xff0c;按照性别分组的结果与总体的结果不同。

- END -

本文为转载分享&推荐阅读&＃xff0c;若侵权请联系后台删除

推荐阅读

config
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54
config
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
input
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
js
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
main
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
range
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
list
18. ChartData类详解（MPAndroidChart中文版解析）

在《ChartData类详解》一文中，我们将深入探讨 MPAndroidChart 中的 ChartData 类。本文将详细介绍如何设置图表颜色（Setting Colors）以及如何格式化数据值（Formatting Data Values），通过 ValueFormatter 的使用来提升图表的可读性和美观度。此外，我们还将介绍一些高级配置选项，帮助开发者更好地定制和优化图表展示效果。 ... [详细]

蜡笔小新 2024-11-09 20:54:36
list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
post
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
js
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
js
深入浅出解读奇异值分解，助你轻松掌握核心概念

深入浅出解读奇异值分解，助你轻松掌握核心概念 ... [详细]

蜡笔小新 2024-11-03 15:12:45
sum
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
js
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
schema
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
schema
如何使用mysql_nd：Python连接MySQL数据库的优雅指南

无论是进行机器学习、Web开发还是爬虫项目，数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面： ... [详细]

蜡笔小新 2024-11-06 15:19:37

恨之无用_367

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章