基于收支数据的聚类分析研究

作者：久居我心入我怀 | 来源：互联网 | 2024-11-02 21:07

通过对收支数据进行聚类分析，研究发现聚类结果的解释和验证是关键步骤。为了确保分群的合理性和有效性，需要结合业务背景和实际需求，灵活选择合适的聚类数量。该研究利用Python中的Pandas和Matplotlib库对数据进行了预处理和可视化，为决策提供了科学依据。

聚类方法仍需要对分群结果进行解读&＃xff0c;通过业务合理性来选择分群的数量

import pandas as pd import matplotlib.pyplot as plt

dataset&＃61;pd.read_csv("customers.csv")

dataset.head()CustomerID Genre Age Annual Income (k$) Spending Score (1-100) 0 1 Male 19 15 39 1 2 Male 21 15 81 2 3 Female 20 16 6 3 4 Female 23 16 77 4 5 Female 31 17 40

dataset.describe()CustomerID Age Annual Income (k$) Spending Score (1-100) count 200.000000 200.000000 200.000000 200.000000 mean 100.500000 38.850000 60.560000 50.200000 std 57.879185 13.969007 26.264721 25.823522 min 1.000000 18.000000 15.000000 1.000000 25% 50.750000 28.750000 41.500000 34.750000 50% 100.500000 36.000000 61.500000 50.000000 75% 150.250000 49.000000 78.000000 73.000000 max 200.000000 70.000000 137.000000 99.000000

X &＃61; dataset.iloc[:, [3, 4]].values #全部行&＃xff0c;第四第五列 Annual Income (k$) 和 Spending Score (1-100)

from sklearn.cluster import KMeans kmeans &＃61; KMeans(n_clusters &＃61; 5, init &＃61; &＃39;k-means&＃43;&＃43;&＃39;, random_state &＃61; 42)#k&＃61;5 # random_state &＃61; 42设置完之后&＃xff0c;建模生成的随机数都是一样的 # n_clusters分成多少组 # Kmeans随机选几个点&＃xff0c;然后开始算距离&＃xff0c;距离离得近的属于一类&＃xff0c;给每个类别打上标签&＃xff0c;算出聚类中心。离的很近或者小于阈值&＃xff0c;聚类结束。 # Kmean&＃43;&＃43; 第一个随机选择。n&＃43;1是选择离第一个远的距离。 y_kmeans &＃61; kmeans.fit_predict(X) #每个记录x都给预测了一个聚类的值

plt.scatter(X[y_kmeans &＃61;&＃61; 0, 0], X[y_kmeans &＃61;&＃61; 0, 1], s &＃61; 100, c &＃61; &＃39;red&＃39;, label &＃61; &＃39;Standard&＃39;) plt.scatter(X[y_kmeans &＃61;&＃61; 1, 0], X[y_kmeans &＃61;&＃61; 1, 1], s &＃61; 100, c &＃61; &＃39;blue&＃39;, label &＃61; &＃39;Traditional&＃39;) plt.scatter(X[y_kmeans &＃61;&＃61; 2, 0], X[y_kmeans &＃61;&＃61; 2, 1], s &＃61; 100, c &＃61; &＃39;green&＃39;, label &＃61; &＃39;Normal&＃39;) plt.scatter(X[y_kmeans &＃61;&＃61; 3, 0], X[y_kmeans &＃61;&＃61; 3, 1], s &＃61; 100, c &＃61; &＃39;cyan&＃39;, label &＃61; &＃39;Youth&＃39;) plt.scatter(X[y_kmeans &＃61;&＃61; 4, 0], X[y_kmeans &＃61;&＃61; 4, 1], s &＃61; 100, c &＃61; &＃39;magenta&＃39;, label &＃61; &＃39;TA&＃39;) #分成五类&＃xff0c;分别把值选出来。0,1,2,3,4,5代表5类&＃xff1b;0,1代表数字x的值&＃xff1b;s点的大小。c是颜色&＃xff0c;label是标签 plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s &＃61; 300, c &＃61; &＃39;black&＃39;, label &＃61; &＃39;Centroids&＃39;) #cluster_centers聚类中心 plt.title(&＃39;Clusters of customers&＃39;) plt.xlabel(&＃39;Annual Income (k$)&＃39;) plt.ylabel(&＃39;Spending Score (1-100)&＃39;) plt.legend() plt.show()

在这里插入图片描述

import matplotlib.pyplot as pltwcss &＃61; []for i in range(1, 11): #循环使用不同k测试结果kmeans &＃61; KMeans(n_clusters &＃61; i, init &＃61; &＃39;k-means&＃43;&＃43;&＃39;, random_state &＃61; 42)kmeans.fit(X)wcss.append(kmeans.inertia_) #inertia簇内误差平方和plt.plot(range(1, 11), wcss)plt.title(&＃39;The Elbow Method&＃39;)plt.xlabel(&＃39;Number of clusters&＃39;)plt.ylabel(&＃39;WCSS&＃39;)plt.show() #内核的数量应该怎么选比较合适&＃xff0c;在课堂中是尝试 10 个内核&＃xff0c;取值是1到11。反正就是多测试几次&＃xff0c;出现最佳正确答案就可以了。取得这个值没有定数。

在这里插入图片描述
结论: 5个分群比较好

推荐阅读

select
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
select
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
random
社交网络中的级联行为

社交网络中的级联行为 ... [详细]

蜡笔小新 2024-12-22 16:47:55
random
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
random
python3小游戏源代码_python 点球小游戏代码

#点球小游戏fromrandomimportchoiceimporttimescore[0,0]direction[left,center,right]defkick() ... [详细]

蜡笔小新 2024-12-23 19:17:34
config
基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发

本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]

蜡笔小新 2024-12-22 15:31:28
format
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
random
使用TensorFlow实现非线性回归模型

本文介绍了如何利用TensorFlow框架构建一个简单的非线性回归模型。通过生成200个随机数据点进行训练，模型能够学习并预测这些数据点的非线性关系。 ... [详细]

蜡笔小新 2024-12-20 11:54:20
random
Keras 实战：自编码器入门指南

本文介绍了使用 Keras 框架实现自编码器的基本方法。自编码器是一种用于无监督学习的神经网络模型，主要功能包括数据降维、特征提取等。通过实际案例，我们将展示如何使用全连接层和卷积层来构建自编码器，并讨论不同维度对重建效果的影响。 ... [详细]

蜡笔小新 2024-12-18 17:30:35
char
Java中字符计数与增补字符处理

本文探讨了Java中char数据类型的特点，包括其表示范围以及如何处理超出16位字符限制的情况。通过引入代码点和代码单元的概念，详细解释了Java处理增补字符的方法。 ... [详细]

蜡笔小新 2024-12-15 20:26:33
config
springMVC JRS303验证

springMVC JRS303验证 ... [详细]

蜡笔小新 2024-12-20 09:07:39
config
理解与应用：独热编码（One-Hot Encoding）

本文详细介绍了独热编码（One-Hot Encoding）与哑变量编码（Dummy Encoding）两种方法，用于将分类变量转换为数值形式，以便于机器学习算法处理。文章不仅解释了这两种编码方式的基本原理，还探讨了它们在实际应用中的差异及选择依据。 ... [详细]

蜡笔小新 2024-12-19 13:40:33
select
ML学习笔记20210824分类算法模型选择与调优

3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]

蜡笔小新 2024-12-19 09:10:33
include
WPF/E CTP与SDK即将发布，引领RIA新时代？

Microsoft即将发布WPF/E的CTP（Community Technology Preview）和SDK，标志着RIA（Rich Internet Application）技术的新里程碑。更多详情及下载链接请参见MSDN官方页面。 ... [详细]

蜡笔小新 2024-12-16 16:06:18
header
利用R语言进行股票价格数据的线性回归分析

本文介绍了如何使用R语言对Excel中的股票价格数据集执行线性回归分析。通过具体的代码示例，展示了数据的导入、处理及模型构建的过程。 ... [详细]

蜡笔小新 2024-12-15 21:32:26

久居我心入我怀

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章