热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:降维案例

篇首语:本文由编程笔记#小编为大家整理,主要介绍了降维案例相关的知识,希望对你有一定的参考价值。一、数据集介绍 该案例描述的是一段时间

篇首语:本文由编程笔记#小编为大家整理,主要介绍了降维案例相关的知识,希望对你有一定的参考价值。



一、数据集介绍

 该案例描述的是一段时间内客户的订单,预测用户下一次将会买那些订单。

数据集的信息如下:



  • products.csv  商品信息

  • order_products__prior.csv 订单与商品关系信息

  • orders.csv 订单信息

  • aisles.csv 商品所属的具体类别


1、 products.csv


import pandas as pd
product_df
= pd.read_csv(rI:machine_learnexample_products.csv)
product_df.head(
10)

技术图片

该文件是产品数据,里面的字段有product_id(产品ID),product_name(产品名称),aisle_id(产品类型)等。


2、order_products__prior.csv


order_products__prior_df = pd.read_csv(rI:machine_learnexample_order_products__prior.csv)
order_products__prior_df.head(
10)

技术图片

该文件是产品和订单数据,里面的字段有product_id(产品ID),order_id(订单ID)等。


 3、orders.csv


orders_df = pd.read_csv(rI:machine_learnexample_orders.csv)
orders_df .head(
10)

技术图片

 该文件是订单数据,里面的字段有user_id(用户ID),order_id(订单ID)等。


4、aisles.csv


aisles_df = pd.read_csv(rI:machine_learnexample_aisles.csv)
aisles_df .head(
10)

技术图片

 该文件是产品类型数据,里面的字段有aisle_id(产品数据类型ID),aisle(产品类型名称)。


二、预测

现在探究的是用户和物品类型的关系:

技术图片


1、读取四张表


import pandas as pd
from sklearn.depositions import PCA
product_df
= pd.read_csv(rI:machine_learnexample_products.csv)
order_products__prior_df
= pd.read_csv(rI:machine_learnexample_order_products__prior.csv)
orders_df
= pd.read_csv(rI:machine_learnexample_orders.csv)
aisles_df
= pd.read_csv(rI:machine_learnexample_aisles.csv)


2、合并四张表


_mg = pd.merge(order_products__prior_df,product_df,on=[product_id,product_id])
_mg
= pd.merge(_mg,orders_df,on=[order_id,order_id])
_ma
= pd.merge(_mg,aisles_df,on=[aisle_id,aisle_id])
_ma.head(
10) #输出

技术图片

  上面就是用户(user_id)与产品类型(aisle)的关系,但是现在需要统计的每一个用户的产品类型,所以用到交叉表(特殊的分组表)。可以查出每一个用户aisle(产品类型)的个数。


crossTab_df = pd.crosstab(_ma["user_id"],_ma["aisle"])

crossTab_df #输出

技术图片

技术图片


3、主成分分析 


pca = PCA(n_compOnents=0.9)
data
= pca.fit_transform(crossTab_df)
data
#输出

技术图片

可以看看输出的行列:


data.shape
"""
(206209, 27)
"""

 


推荐阅读
  • [转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 在该项目中,参与者需结合历史使用模式和天气数据,以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集,包括用户骑行记录和气象信息,为后续模型构建提供基础。通过深入的数据预处理和特征工程,确保数据质量和模型准确性,最终实现对自行车租赁需求的有效预测。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 原文网址:https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么?2、需求3、解决办法1:使用静态代理4 ... [详细]
  • 本文详细介绍了如何在 Django 项目中使用 Admin 管理后台,包括创建超级用户、启动项目、管理数据模型和修改用户密码等步骤。 ... [详细]
  • MATLAB字典学习工具箱SPAMS:稀疏与字典学习的详细介绍、配置及应用实例
    SPAMS(Sparse Modeling Software)是一个强大的开源优化工具箱,专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB,提供了丰富的算法和函数,适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例,帮助用户更好地理解和使用这一工具箱。 ... [详细]
  • 解决针织难题:R语言编程技巧与常见错误分析 ... [详细]
  • 脑机接口技术在物联网行业中的应用与前景分析
    近期,国际研究人员开发了一种轻便的脑电图(EEG)采集与信号处理系统,并在物联网领域进行了初步应用研究。该系统配备了8个可扩展的采集电极和1个参考电极,具备高灵敏度的放大功能,能够有效捕捉和处理脑电信号。通过与物联网技术的结合,该系统有望在智能家居、健康监测和人机交互等领域发挥重要作用,展现出广阔的应用前景。 ... [详细]
  • 数字图书馆近期展出了一批精选的Linux经典著作,这些书籍虽然部分较为陈旧,但依然具有重要的参考价值。如需转载相关内容,请务必注明来源:小文论坛(http://www.xiaowenbbs.com)。 ... [详细]
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 本文介绍了如何利用Apache POI库高效读取Excel文件中的数据。通过实际测试,除了分数被转换为小数存储外,其他数据均能正确读取。若在使用过程中发现任何问题,请及时留言反馈,以便我们进行更新和改进。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]
author-avatar
崔佳丽童鞋
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有