当前位置: 开发笔记 > 编程语言 > 正文

python的小程序分析_Python学习：JData入门小程序解析(续)

作者：mobiledu2502889793 | 来源：互联网 | 2023-09-23 19:42

接着上一篇文章：第二个.py文件是explore_data.py它实现的功能很简单，就是简单的处理NEW_USER_FILE，他的内容

接着上一篇文章&＃xff1a;

第二个.py文件是explore_data.py

它实现的功能很简单&＃xff0c;就是简单的处理NEW_USER_FILE&＃xff0c;他的内容如下&＃xff1a;

c4c9d93d715a

user_id 用户ID 脱敏

age 年龄段 -1表示未知

sex 性别 0表示男&＃xff0c;1表示女&＃xff0c;2表示保密

user_lv_cd 用户等级有顺序的级别枚举&＃xff0c;越高级别数字越大

user_reg_tm 用户注册日期粒度到天

可以看到"age"的内容是数字&＃43;中文的&＃xff0c;这样不便于处理&＃xff0c;explore_data.py的功能就是把"age"的内容进行映射&＃xff0c;其映射规则如下&＃xff1a;

def convert_age(age_str):

if age_str &＃61;&＃61; u&＃39;-1&＃39;:

return -1

elif age_str &＃61;&＃61; u&＃39;15岁以下&＃39;:

return 0

elif age_str &＃61;&＃61; u&＃39;16-25岁&＃39;:

return 1

elif age_str &＃61;&＃61; u&＃39;26-35岁&＃39;:

return 2

elif age_str &＃61;&＃61; u&＃39;36-45岁&＃39;:

return 3

elif age_str &＃61;&＃61; u&＃39;46-55岁&＃39;:

return 4

elif age_str &＃61;&＃61; u&＃39;56岁以上&＃39;:

return 5

else:

return -1

函数的调用方式如下&＃xff1a;

def tranform_user_age():

# Load data, header&＃61;0 means that the file has column names

df &＃61; pd.read_csv(USER_FILE, header&＃61;0, encoding&＃61;"gbk")

#对df[&＃39;age&＃39;]每一个元素都进行convert_age函数处理

df[&＃39;age&＃39;] &＃61; df[&＃39;age&＃39;].map(convert_age)

df[&＃39;user_reg_tm&＃39;] &＃61; pd.to_datetime(df[&＃39;user_reg_tm&＃39;])

min_date &＃61; min(df[&＃39;user_reg_tm&＃39;])

df[&＃39;user_reg_diff&＃39;] &＃61; [i for i in (df[&＃39;user_reg_tm&＃39;] - min_date).dt.days]

df.to_csv(NEW_USER_FILE, index&＃61;False)

可以看到在map()中调用了convert_age&＃xff0c;它会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数&＃xff0c;返回包含每次 function 函数返回值的新列表。

最后得到的NEW_USER_FILE是这样的&＃xff1a;

c4c9d93d715a

第三个.py文件是create_user_table.py

它的功能和create_item_table.py的差不多&＃xff0c;create_item_table.py是对商品数据特征统计分析&＃xff0c;而create_user_table.py是对用户数据特征统计分析。

运行create_user_table.py的前提是先运行explore_data.py生成NEW_USER_FILE&＃xff0c;其过程与create_item_table.py很是相似&＃xff0c;这里就不再多说了&＃xff0c;merge_action_data()后生成的表的内容如下&＃xff1a;

c4c9d93d715a

然后同样让user_base与user_behavior进行左连接运算&＃xff0c;最后得到这样的一张表&＃xff1a;

c4c9d93d715a

接下来就可以进行数据清洗了和数据分析了

数据清洗&＃xff1a;

这一步骤作者的清洗策略只在data_cleaning.ipynb中有说明&＃xff0c;并没有写在data_cleaning.py中&＃xff0c;大家可以使用自己的清洗策略&＃xff0c;比如去除掉浏览数为0的僵尸用户什么的。

数据分析&＃xff1a;

作者介绍了一些分析的方法&＃xff1a;

周一到周日各天购买情况&＃xff1a;

def merge_weekday_action_data():

df_ac &＃61; []

df_ac.append(get_from_action_data(fname&＃61;ACTION_201602_FILE))

df_ac.append(get_from_action_data(fname&＃61;ACTION_201603_FILE))

df_ac.append(get_from_action_data(fname&＃61;ACTION_201603_EXTRA_FILE))

df_ac.append(get_from_action_data(fname&＃61;ACTION_201604_FILE))

df_ac &＃61; pd.concat(df_ac, ignore_index&＃61;True)

# data type

print(df_ac)

print(df_ac.dtypes)

# Monday &＃61; 0, Sunday &＃61; 6

df_ac[&＃39;time&＃39;] &＃61; pd.to_datetime(

df_ac[&＃39;time&＃39;]).apply(lambda x: x.weekday() &＃43; 1)

df_user &＃61; df_ac.groupby(&＃39;time&＃39;)[&＃39;user_id&＃39;].nunique()

# df_ac &＃61; pd.DataFrame({&＃39;weekday&＃39;: df_ac.index, &＃39;user_num&＃39;: df_ac.values})

df_user &＃61; df_user.to_frame().reset_index()

df_user.columns &＃61; [&＃39;weekday&＃39;, &＃39;user_num&＃39;]

print(df_user)

df_item &＃61; df_ac.groupby(&＃39;time&＃39;)[&＃39;sku_id&＃39;].nunique()

df_item &＃61; df_item.to_frame().reset_index()

df_item.columns &＃61; [&＃39;weekday&＃39;, &＃39;item_num&＃39;]

print(df_item)

df_ui &＃61; df_ac.groupby(&＃39;time&＃39;, as_index&＃61;False).size()

df_ui &＃61; df_ui.to_frame().reset_index()

df_ui.columns &＃61; [&＃39;weekday&＃39;, &＃39;user_item_num&＃39;]

print(df_ui)

bar_width &＃61; 0.2

# 透明度

opacity &＃61; 0.4

plt.bar(df_user[&＃39;weekday&＃39;], df_user[&＃39;user_num&＃39;], bar_width,

alpha&＃61;opacity, color&＃61;&＃39;c&＃39;, label&＃61;&＃39;user&＃39;)

plt.bar(df_item[&＃39;weekday&＃39;] &＃43; bar_width, df_item[&＃39;item_num&＃39;],

bar_width, alpha&＃61;opacity, color&＃61;&＃39;g&＃39;, label&＃61;&＃39;item&＃39;)

plt.bar(df_ui[&＃39;weekday&＃39;] &＃43; bar_width * 2, df_ui[&＃39;user_item_num&＃39;],

bar_width, alpha&＃61;opacity, color&＃61;&＃39;m&＃39;, label&＃61;&＃39;user_item&＃39;)

plt.xlabel(&＃39;weekday&＃39;)

plt.ylabel(&＃39;number&＃39;)

plt.title(&＃39;A Week Purchase Table&＃39;)

plt.xticks(df_user[&＃39;weekday&＃39;] &＃43; bar_width * 3 / 2., (1, 2, 3, 4, 5, 6, 7))

plt.tight_layout()

plt.legend(prop&＃61;{&＃39;size&＃39;: 9})

plt.show()

输出结果&＃xff1a;

c4c9d93d715a

可以看到一周用户购买数量分布相对比较均衡&＃xff0c;周六周日购买数相对较少&＃xff0c;可能是此时大家都去过周末玩了,而平时可以逛京东作为消遣。

也可以按月分析&＃xff1a;

def month_action_data_statistic():

# 二月

df_ac &＃61; get_from_action_data(fname&＃61;ACTION_201602_FILE)

df_ac[&＃39;time&＃39;] &＃61; pd.to_datetime(df_ac[&＃39;time&＃39;]).apply(lambda x: x.day)

df_user &＃61; df_ac.groupby(&＃39;time&＃39;)[&＃39;user_id&＃39;].nunique()

df_user &＃61; df_user.to_frame().reset_index()

df_user.columns &＃61; [&＃39;day&＃39;, &＃39;user_num&＃39;]

df_item &＃61; df_ac.groupby(&＃39;time&＃39;)[&＃39;sku_id&＃39;].nunique()

df_item &＃61; df_item.to_frame().reset_index()

df_item.columns &＃61; [&＃39;day&＃39;, &＃39;item_num&＃39;]

df_ui &＃61; df_ac.groupby(&＃39;time&＃39;, as_index&＃61;False).size()

df_ui &＃61; df_ui.to_frame().reset_index()

df_ui.columns &＃61; [&＃39;day&＃39;, &＃39;user_item_num&＃39;]

bar_width &＃61; 0.2

# 透明度

opacity &＃61; 0.4

# 天数

day_range &＃61; range(1, len(df_user[&＃39;day&＃39;]) &＃43; 1, 1)

# 设置图片大小

plt.figure(figsize&＃61;(14, 10))

plt.bar(df_user[&＃39;day&＃39;], df_user[&＃39;user_num&＃39;], bar_width,

alpha&＃61;opacity, color&＃61;&＃39;c&＃39;, label&＃61;&＃39;user&＃39;)

plt.bar(df_item[&＃39;day&＃39;] &＃43; bar_width, df_item[&＃39;item_num&＃39;],

bar_width, alpha&＃61;opacity, color&＃61;&＃39;g&＃39;, label&＃61;&＃39;item&＃39;)

plt.bar(df_ui[&＃39;day&＃39;] &＃43; bar_width * 2, df_ui[&＃39;user_item_num&＃39;],

bar_width, alpha&＃61;opacity, color&＃61;&＃39;m&＃39;, label&＃61;&＃39;user_item&＃39;)

plt.xlabel(&＃39;day&＃39;)

plt.ylabel(&＃39;number&＃39;)

plt.title(&＃39;February Purchase Table&＃39;)

plt.xticks(df_user[&＃39;day&＃39;] &＃43; bar_width * 3 / 2., day_range)

# plt.ylim(0, 80)

plt.tight_layout()

plt.legend(prop&＃61;{&＃39;size&＃39;: 9})

plt.show()

输出结果&＃xff1a;

c4c9d93d715a

分析: 从上面可以发现,在2月6号到2月10号之间是我们的农历新年,快递在这几天不上班,因而购物数量相对较少,在我们实际分析时, 可以暂时将这部分数据作为异常数据不去考虑,不加入我们的训练样本中.

查看特定用户对特定商品的活动轨迹&＃xff1a;

def spec_ui_action_data(fname, user_id, item_id, chunk_size&＃61;100000):

reader &＃61; pd.read_csv(fname, header&＃61;0, iterator&＃61;True)

chunks &＃61; []

loop &＃61; True

while loop:

try:

chunk &＃61; reader.get_chunk(chunk_size)[

["user_id", "sku_id", "type", "time"]]

chunks.append(chunk)

except StopIteration:

loop &＃61; False

print("Iteration is stopped")

df_ac &＃61; pd.concat(chunks, ignore_index&＃61;True)

df_ac &＃61; df_ac[(df_ac[&＃39;user_id&＃39;] &＃61;&＃61; user_id) & (df_ac[&＃39;sku_id&＃39;] &＃61;&＃61; item_id)]

return df_ac

def explore_user_item_via_time():

user_id &＃61; 230678

item_id &＃61; 112141

df_ac &＃61; []

df_ac.append(spec_ui_action_data(ACTION_201602_FILE, user_id, item_id))

df_ac.append(spec_ui_action_data(ACTION_201603_FILE, user_id, item_id))

df_ac.append(spec_ui_action_data(

ACTION_201603_EXTRA_FILE, user_id, item_id))

df_ac.append(spec_ui_action_data(ACTION_201604_FILE, user_id, item_id))

df_ac &＃61; pd.concat(df_ac, ignore_index&＃61;False)

print(df_ac.sort_values(by&＃61;&＃39;time&＃39;))

可以看到230678用户对112141商品有过如下行为&＃xff1a;

c4c9d93d715a

type

1.浏览&＃xff08;指浏览商品详情页&＃xff09;&＃xff1b;

2.加入购物车&＃xff1b;

3.购物车删除&＃xff1b;

4.下单&＃xff1b;

5.关注&＃xff1b;

6.点击

可以看到该用户对该商品从2016-03-25 16:17:27开始反复的点击、浏览&＃xff0c;并于2016-03-31 23:59:00下单购买该商品&＃xff0c;随后又对其进行了反复的点击、浏览。

以上都是本萌新的个人理解&＃xff0c;如有错误欢迎指出。

推荐阅读

header
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
format
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
io
MATLAB字典学习工具箱SPAMS：稀疏与字典学习的详细介绍、配置及应用实例

SPAMS（Sparse Modeling Software）是一个强大的开源优化工具箱，专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB，提供了丰富的算法和函数，适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例，帮助用户更好地理解和使用这一工具箱。 ... [详细]

蜡笔小新 2024-11-09 16:17:27
header
DirectShow Filter 开发指南

本文总结了 DirectShow Filter 的开发经验，重点介绍了 Source Filter、In-Place Transform Filter 和 Render Filter 的实现方法。通过使用 DirectShow 提供的类，可以简化 Filter 的开发过程。 ... [详细]

蜡笔小新 2024-11-16 23:50:16
header
使用 Mui.js 获取复选框值的方法

本文介绍如何使用 Mui.js 框架来获取复选框的值，并通过数组进行处理和展示。 ... [详细]

蜡笔小新 2024-11-16 11:40:37
header
java解析json转Map

java解析json转Map前段时间在做json报文处理的时候，写了一个针对不同格式json转map的处理工具方法，总结记录如下：1、单节点单层级、单节点多层级json转mapim ... [详细]

蜡笔小新 2024-11-15 18:21:27
format
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
io
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
header
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
io
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
header
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
header
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
header
Python 伦理黑客技术：深入探讨后门攻击（第三部分）

在《Python 伦理黑客技术：深入探讨后门攻击（第三部分）》中，作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流，难以确定消息批次的结束点，这给后门攻击的实现带来了挑战。为了解决这一问题，文章提出了一系列有效的技术方案，包括使用特定的分隔符和长度前缀，以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性，还为安全研究人员提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 16:33:02
io
在C#中开发MP3播放器时，如何选择字典或数组来处理元数据？

在C#中开发MP3播放器时，我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构，如字典或数组，对于优化性能至关重要。字典能够提供快速的键值对查找，而数组则在连续存储和遍历方面表现优异。根据具体需求，合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-11-05 12:43:40
default
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58

mobiledu2502889793

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章