当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:降维案例

作者：崔佳丽童鞋 | 来源：互联网 | 2023-09-18 20:00

篇首语：本文由编程笔记#小编为大家整理，主要介绍了降维案例相关的知识，希望对你有一定的参考价值。一、数据集介绍该案例描述的是一段时间

篇首语：本文由编程笔记#小编为大家整理，主要介绍了降维案例相关的知识，希望对你有一定的参考价值。

一、数据集介绍

该案例描述的是一段时间内客户的订单，预测用户下一次将会买那些订单。

数据集的信息如下：

products.csv 商品信息

order_products__prior.csv 订单与商品关系信息

orders.csv 订单信息

aisles.csv 商品所属的具体类别

1、 products.csv

import pandas as pd
product_df = pd.read_csv(r‘I:machine_learnexample_products.csv‘)
product_df.head(10)

技术图片

该文件是产品数据，里面的字段有product_id（产品ID），product_name（产品名称），aisle_id（产品类型）等。

2、order_products__prior.csv

order_products__prior_df = pd.read_csv(r‘I:machine_learnexample_order_products__prior.csv‘)
order_products__prior_df.head(10)

技术图片

该文件是产品和订单数据，里面的字段有product_id（产品ID），order_id（订单ID）等。

3、orders.csv

orders_df = pd.read_csv(r‘I:machine_learnexample_orders.csv‘)
orders_df .head(10)

技术图片

该文件是订单数据，里面的字段有user_id（用户ID），order_id（订单ID）等。

4、aisles.csv

aisles_df = pd.read_csv(r‘I:machine_learnexample_aisles.csv‘)
aisles_df .head(10)

技术图片

该文件是产品类型数据，里面的字段有aisle_id（产品数据类型ID），aisle（产品类型名称）。

二、预测

现在探究的是用户和物品类型的关系：

技术图片

1、读取四张表

import pandas as pd
from sklearn.depositions import PCA
product_df = pd.read_csv(r‘I:machine_learnexample_products.csv‘)
order_products__prior_df = pd.read_csv(r‘I:machine_learnexample_order_products__prior.csv‘)
orders_df = pd.read_csv(r‘I:machine_learnexample_orders.csv‘)
aisles_df = pd.read_csv(r‘I:machine_learnexample_aisles.csv‘)

2、合并四张表

_mg = pd.merge(order_products__prior_df,product_df,on=[‘product_id‘,‘product_id‘])
_mg = pd.merge(_mg,orders_df,on=[‘order_id‘,‘order_id‘])
_ma = pd.merge(_mg,aisles_df,on=[‘aisle_id‘,‘aisle_id‘])
_ma.head(10) #输出

技术图片

　　上面就是用户（user_id）与产品类型（aisle）的关系，但是现在需要统计的每一个用户的产品类型，所以用到交叉表（特殊的分组表）。可以查出每一个用户aisle（产品类型）的个数。

crossTab_df = pd.crosstab(_ma["user_id"],_ma["aisle"])

crossTab_df #输出

技术图片

3、主成分分析

pca = PCA(n_compOnents=0.9)
data = pca.fit_transform(crossTab_df)
data #输出

技术图片

可以看看输出的行列：

data.shape
"""
(206209, 27)
"""

推荐阅读

io
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
io
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
io
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38
io
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
io
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
io
Django Admin 管理后台使用指南

本文详细介绍了如何在 Django 项目中使用 Admin 管理后台，包括创建超级用户、启动项目、管理数据模型和修改用户密码等步骤。 ... [详细]

蜡笔小新 2024-11-12 13:27:04
io
MATLAB字典学习工具箱SPAMS：稀疏与字典学习的详细介绍、配置及应用实例

SPAMS（Sparse Modeling Software）是一个强大的开源优化工具箱，专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB，提供了丰富的算法和函数，适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例，帮助用户更好地理解和使用这一工具箱。 ... [详细]

蜡笔小新 2024-11-09 16:17:27
io
解决针织难题：R语言编程技巧与常见错误分析

解决针织难题：R语言编程技巧与常见错误分析 ... [详细]

蜡笔小新 2024-11-08 15:02:19
io
脑机接口技术在物联网行业中的应用与前景分析

近期，国际研究人员开发了一种轻便的脑电图（EEG）采集与信号处理系统，并在物联网领域进行了初步应用研究。该系统配备了8个可扩展的采集电极和1个参考电极，具备高灵敏度的放大功能，能够有效捕捉和处理脑电信号。通过与物联网技术的结合，该系统有望在智能家居、健康监测和人机交互等领域发挥重要作用，展现出广阔的应用前景。 ... [详细]

蜡笔小新 2024-11-08 11:36:01
io
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
io
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
io
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
io
利用Apache POI高效读取Excel文件中的数据

本文介绍了如何利用Apache POI库高效读取Excel文件中的数据。通过实际测试，除了分数被转换为小数存储外，其他数据均能正确读取。若在使用过程中发现任何问题，请及时留言反馈，以便我们进行更新和改进。 ... [详细]

蜡笔小新 2024-11-04 20:52:26
io
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
io
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54

崔佳丽童鞋

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章