热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

机器学习之数据探索——数据特征分析(帕累托分析)

帕累托分析,即贡献度分析,在所有因素中找寻对结果起关键性或决定性作用的少部分因素。有一常见的法则————二八定律,各行各业都在诠释着该法

帕累托分析,即贡献度分析,在所有因素中找寻对结果起关键性或决定性作用的少部分因素。

有一常见的法则————二八定律,各行各业都在诠释着该法则的深刻含义:
例如:
1 公司的80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润;
2 世界上大约80%的资源是由世界上20%的人口所耗尽的;
3 世界财富的80%为20%的人所拥有;
4 20%的人口或20%的疾病,会消耗80%的医疗资源。
在一些特殊领域,二八定律可能会衍生为一九定律乃至差距更大。

在数据挖掘方面,同样需要依据二八定律的思想寻找在最大程度上影响因变量的自变量元素。

正如上例中所看到的,前7项的利润占比已经达到了80%。
特别是在商品销售方面,帕累托分析的结果可用于指导商家在商品打造上将注意力移至关键性的产品上。


推荐阅读
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • 聚焦法是一种采用穷尽搜索策略的Filter型特征选择方法,其核心在于寻找能有效区分不同样本的最小特征集合。此方法的评估标准主要依赖于一致性测量。 ... [详细]
  • 本文深入探讨了数据挖掘领域内的十个经典算法,包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础,也在实践中展现出强大的应用价值。 ... [详细]
  • 掌握Python岗位,你需要了解的关键技能
    最近,在社交平台脉脉上,一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值,并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]
  • 致信息安全爱好者的成长指南
    本文旨在为信息安全爱好者提供一份详尽的成长指南,涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]
  • 本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程,重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 本文探讨了最大互信息系数(MIC)在评估基因间线性和非线性关系中的应用。与传统的互信息(Mutual Information, MI)相比,MIC在检测复杂关联方面表现出更高的精确度。 ... [详细]
  • 构建基于Python的用户画像系统
    用户画像在现代企业运营中扮演着重要角色,尤其在大数据分析和精准营销领域。本文旨在介绍用户画像的基础概念及其重要性,并通过Python编程语言实现一个基础的用户画像系统。 ... [详细]
  • 本文探讨了数据挖掘的全面理解和其理论基础,强调了数据挖掘在现代社会和经济活动中扮演的关键角色。通过对数据的深入分析,我们可以揭示隐藏在大量信息背后的模式和趋势。 ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • CISSP 第8章 软件开发安全概述与实践
    本文探讨了软件开发中的安全问题,包括但不限于满足功能需求与安全性之间的平衡、SDLC(软件开发生命周期)中安全的重要性、OWASP的最佳实践、不同的开发模型、能力成熟度模型、变更控制流程、软件托管服务以及不同代际的编程语言等。此外,还涉及了Web环境下的特定威胁、多层次的攻击防御、数据仓库与数据挖掘技术及其应用模型、恶意软件的识别与防范措施等内容。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
author-avatar
红枫1983_1
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有