热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python的小程序分析_Python学习:JData入门小程序解析(续)

接着上一篇文章:第二个.py文件是explore_data.py它实现的功能很简单,就是简单的处理NEW_USER_FILE,他的内容

接着上一篇文章:

第二个.py文件是explore_data.py

它实现的功能很简单,就是简单的处理NEW_USER_FILE,他的内容如下:

c4c9d93d715a

user_id 用户ID 脱敏

age 年龄段 -1表示未知

sex 性别 0表示男,1表示女,2表示保密

user_lv_cd 用户等级有顺序的级别枚举,越高级别数字越大

user_reg_tm 用户注册日期粒度到天

可以看到"age"的内容是数字+中文的,这样不便于处理,explore_data.py的功能就是把"age"的内容进行映射,其映射规则如下:

def convert_age(age_str):

if age_str == u'-1':

return -1

elif age_str == u'15岁以下':

return 0

elif age_str == u'16-25岁':

return 1

elif age_str == u'26-35岁':

return 2

elif age_str == u'36-45岁':

return 3

elif age_str == u'46-55岁':

return 4

elif age_str == u'56岁以上':

return 5

else:

return -1

函数的调用方式如下:

def tranform_user_age():

# Load data, header=0 means that the file has column names

df = pd.read_csv(USER_FILE, header=0, encoding="gbk")

#对df['age']每一个元素都进行convert_age函数处理

df['age'] = df['age'].map(convert_age)

df['user_reg_tm'] = pd.to_datetime(df['user_reg_tm'])

min_date = min(df['user_reg_tm'])

df['user_reg_diff'] = [i for i in (df['user_reg_tm'] - min_date).dt.days]

df.to_csv(NEW_USER_FILE, index=False)

可以看到在map()中调用了convert_age,它会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。

最后得到的NEW_USER_FILE是这样的:

c4c9d93d715a

第三个.py文件是create_user_table.py

它的功能和create_item_table.py的差不多,create_item_table.py是对商品数据特征统计分析,而create_user_table.py是对用户数据特征统计分析。

运行create_user_table.py的前提是先运行explore_data.py生成NEW_USER_FILE,其过程与create_item_table.py很是相似,这里就不再多说了,merge_action_data()后生成的表的内容如下:

c4c9d93d715a

然后同样让user_base与user_behavior进行左连接运算,最后得到这样的一张表:

c4c9d93d715a

接下来就可以进行数据清洗了和数据分析了

数据清洗:

这一步骤作者的清洗策略只在data_cleaning.ipynb中有说明,并没有写在data_cleaning.py中,大家可以使用自己的清洗策略,比如去除掉浏览数为0的僵尸用户什么的。

数据分析:

作者介绍了一些分析的方法:

周一到周日各天购买情况:

def merge_weekday_action_data():

df_ac = []

df_ac.append(get_from_action_data(fname=ACTION_201602_FILE))

df_ac.append(get_from_action_data(fname=ACTION_201603_FILE))

df_ac.append(get_from_action_data(fname=ACTION_201603_EXTRA_FILE))

df_ac.append(get_from_action_data(fname=ACTION_201604_FILE))

df_ac = pd.concat(df_ac, ignore_index=True)

# data type

print(df_ac)

print(df_ac.dtypes)

# Monday = 0, Sunday = 6

df_ac['time'] = pd.to_datetime(

df_ac['time']).apply(lambda x: x.weekday() + 1)

df_user = df_ac.groupby('time')['user_id'].nunique()

# df_ac = pd.DataFrame({'weekday': df_ac.index, 'user_num': df_ac.values})

df_user = df_user.to_frame().reset_index()

df_user.columns = ['weekday', 'user_num']

print(df_user)

df_item = df_ac.groupby('time')['sku_id'].nunique()

df_item = df_item.to_frame().reset_index()

df_item.columns = ['weekday', 'item_num']

print(df_item)

df_ui = df_ac.groupby('time', as_index=False).size()

df_ui = df_ui.to_frame().reset_index()

df_ui.columns = ['weekday', 'user_item_num']

print(df_ui)

bar_width = 0.2

# 透明度

opacity = 0.4

plt.bar(df_user['weekday'], df_user['user_num'], bar_width,

alpha=opacity, color='c', label='user')

plt.bar(df_item['weekday'] + bar_width, df_item['item_num'],

bar_width, alpha=opacity, color='g', label='item')

plt.bar(df_ui['weekday'] + bar_width * 2, df_ui['user_item_num'],

bar_width, alpha=opacity, color='m', label='user_item')

plt.xlabel('weekday')

plt.ylabel('number')

plt.title('A Week Purchase Table')

plt.xticks(df_user['weekday'] + bar_width * 3 / 2., (1, 2, 3, 4, 5, 6, 7))

plt.tight_layout()

plt.legend(prop={'size': 9})

plt.show()

输出结果:

c4c9d93d715a

c4c9d93d715a

可以看到一周用户购买数量分布相对比较均衡,周六周日购买数相对较少,可能是此时大家都去过周末玩了,而平时可以逛京东作为消遣。

也可以按月分析:

def month_action_data_statistic():

# 二月

df_ac = get_from_action_data(fname=ACTION_201602_FILE)

df_ac['time'] = pd.to_datetime(df_ac['time']).apply(lambda x: x.day)

df_user = df_ac.groupby('time')['user_id'].nunique()

df_user = df_user.to_frame().reset_index()

df_user.columns = ['day', 'user_num']

df_item = df_ac.groupby('time')['sku_id'].nunique()

df_item = df_item.to_frame().reset_index()

df_item.columns = ['day', 'item_num']

df_ui = df_ac.groupby('time', as_index=False).size()

df_ui = df_ui.to_frame().reset_index()

df_ui.columns = ['day', 'user_item_num']

bar_width = 0.2

# 透明度

opacity = 0.4

# 天数

day_range = range(1, len(df_user['day']) + 1, 1)

# 设置图片大小

plt.figure(figsize=(14, 10))

plt.bar(df_user['day'], df_user['user_num'], bar_width,

alpha=opacity, color='c', label='user')

plt.bar(df_item['day'] + bar_width, df_item['item_num'],

bar_width, alpha=opacity, color='g', label='item')

plt.bar(df_ui['day'] + bar_width * 2, df_ui['user_item_num'],

bar_width, alpha=opacity, color='m', label='user_item')

plt.xlabel('day')

plt.ylabel('number')

plt.title('February Purchase Table')

plt.xticks(df_user['day'] + bar_width * 3 / 2., day_range)

# plt.ylim(0, 80)

plt.tight_layout()

plt.legend(prop={'size': 9})

plt.show()

输出结果:

c4c9d93d715a

分析: 从上面可以发现,在2月6号到2月10号之间是我们的农历新年,快递在这几天不上班,因而购物数量相对较少,在我们实际分析时, 可以暂时将这部分数据作为异常数据不去考虑,不加入我们的训练样本中.

查看特定用户对特定商品的活动轨迹:

def spec_ui_action_data(fname, user_id, item_id, chunk_size=100000):

reader = pd.read_csv(fname, header=0, iterator=True)

chunks = []

loop = True

while loop:

try:

chunk = reader.get_chunk(chunk_size)[

["user_id", "sku_id", "type", "time"]]

chunks.append(chunk)

except StopIteration:

loop = False

print("Iteration is stopped")

df_ac = pd.concat(chunks, ignore_index=True)

df_ac = df_ac[(df_ac['user_id'] == user_id) & (df_ac['sku_id'] == item_id)]

return df_ac

def explore_user_item_via_time():

user_id = 230678

item_id = 112141

df_ac = []

df_ac.append(spec_ui_action_data(ACTION_201602_FILE, user_id, item_id))

df_ac.append(spec_ui_action_data(ACTION_201603_FILE, user_id, item_id))

df_ac.append(spec_ui_action_data(

ACTION_201603_EXTRA_FILE, user_id, item_id))

df_ac.append(spec_ui_action_data(ACTION_201604_FILE, user_id, item_id))

df_ac = pd.concat(df_ac, ignore_index=False)

print(df_ac.sort_values(by='time'))

可以看到230678用户对112141商品有过如下行为:

c4c9d93d715a

type

1.浏览(指浏览商品详情页);

2.加入购物车;

3.购物车删除;

4.下单;

5.关注;

6.点击

可以看到该用户对该商品从2016-03-25 16:17:27开始反复的点击、浏览,并于2016-03-31 23:59:00下单购买该商品,随后又对其进行了反复的点击、浏览。

以上都是本萌新的个人理解,如有错误欢迎指出。



推荐阅读
  • 本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁,以及如何利用XPath解析HTML并提取所需信息。 ... [详细]
  • Python 序列图分割与可视化编程入门教程
    本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例,详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表,帮助非编程背景的用户也能轻松上手。 ... [详细]
  • MATLAB字典学习工具箱SPAMS:稀疏与字典学习的详细介绍、配置及应用实例
    SPAMS(Sparse Modeling Software)是一个强大的开源优化工具箱,专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB,提供了丰富的算法和函数,适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例,帮助用户更好地理解和使用这一工具箱。 ... [详细]
  • DirectShow Filter 开发指南
    本文总结了 DirectShow Filter 的开发经验,重点介绍了 Source Filter、In-Place Transform Filter 和 Render Filter 的实现方法。通过使用 DirectShow 提供的类,可以简化 Filter 的开发过程。 ... [详细]
  • 使用 Mui.js 获取复选框值的方法
    本文介绍如何使用 Mui.js 框架来获取复选框的值,并通过数组进行处理和展示。 ... [详细]
  • java解析json转Map前段时间在做json报文处理的时候,写了一个针对不同格式json转map的处理工具方法,总结记录如下:1、单节点单层级、单节点多层级json转mapim ... [详细]
  • vue引入echarts地图的四种方式
    一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例:  Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入:   importechartsfrom"echarts";4、如果用到map(地图),还 ... [详细]
  • Leetcode学习成长记:天池leetcode基础训练营Task01数组
    前言这是本人第一次参加由Datawhale举办的组队学习活动,这个活动每月一次,之前也一直关注,但未亲身参与过,这次看到活动 ... [详细]
  • Cookie学习小结
    Cookie学习小结 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • PTArchiver工作原理详解与应用分析
    PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制,探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略,实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例,为用户提供了实用的操作建议和技术支持。 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 在C#中开发MP3播放器时,我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构,如字典或数组,对于优化性能至关重要。字典能够提供快速的键值对查找,而数组则在连续存储和遍历方面表现优异。根据具体需求,合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]
  • 机器学习算法:SVM(支持向量机)
    SVM算法(SupportVectorMachine,支持向量机)的核心思想有2点:1、如果数据线性可分,那么基于最大间隔的方式来确定超平面,以确保全局最优, ... [详细]
author-avatar
mobiledu2502889793
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有