作者:垚垚8858 | 来源:互联网 | 2023-07-13 16:19
1序言数据分析的基本步骤是:提出问题——理解数据——数据清洗——构建模型——数据可视化。本文基于Python中的Pandas包,对某医院销售数据进行分析。2分析目的根据原始销售数据
1 序言
数据分析的基本步骤是:提出问题——理解数据——数据清洗——构建模型——数据可视化。本文基于Python中的Pandas包,对某医院销售数据进行分析。
2 分析目的
根据原始销售数据,分析月均消费次数、月均消费金额、客单价、消费趋势4个业务指标。
3 理解数据
首先导入销售数据表:
# 导入pandas包,从文件读取Excel数据
import pandas as pd
fileNameStr='./朝阳医院2018年销售数据.xlsx'
xls = pd.ExcelFile(fileNameStr, dtype='object')
salesDf = xls.parse('Sheet1',dtype='object')
# 查看数据基本信息
salesDf.head()
# 查看数据集大小
salesDf.shape
(6578, 7)
# 查看数据类型
salesDf.dtypes
购药时间 object
社保卡号 object
商品编码 object
商品名称 object
销售数量 object
应收金额 object
实收金额 object
dtype: object
4 数据清洗
数据清洗的一般步骤包括:选择子集—列名重命名—缺失数据处理—数据类型转换—数据排序—异常值处理。下面将通过此例逐步实践上述过程。
1) 选择子集
本案例数据集能够满足分析要求,不需要选择子集。
2) 列名重命名
#创建旧列名和新列名对应关系,并在原数据框中进行重命名
colNameDict = {'购药时间':'销售时间'}
salesDf.rename(columns = colNameDict,inplace=True)
salesDf.head()
3) 缺失数据处理
pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据,可以用isnull()和notnull()函数来判断缺失情况。
对于缺失数据的一般处理方法是删除或者填充。本例对缺失数据进行删除处理。
print('删除缺失值前大小',salesDf.shape)
删除缺失值前大小 (6578, 7)
# 删除列(销售时间,社保卡号)中为空的行
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')
print('删除缺失后大小',salesDf.shape)
删除缺失后大小 (6575, 7)
4) 数据类型转换
读取数据时是按照字符串格式读取的,需要将数据列从字符串格式转换为数值型。
#字符串转换为数值(浮点型)
salesDf['销售数量'] = salesDf['销售数量'].astype('float')
salesDf['应收金额'] = salesDf['应收金额'].astype('float')
salesDf['实收金额'] = salesDf['实收金额'].astype('float')
print('转换后的数据类型:\n',salesDf.dtypes)
转换后的数据类型:
销售时间 object
社保卡号 object
商品编码 object
商品名称 object
销售数量 float64
应收金额 float64
实收金额 float64
dtype: object
数据集中,销售时间的格式为“2018-01-01 星期五”,分析中并不需要星期信息,因此需通过字符串分割,将其删除,只保留日期“2018-01-01”。
def splitSaletime(timeColSer):
timeList=[]
for value in timeColSer:
#例如2018-01-01 星期五,分割后为:2018-01-01
dateStr=value.split(' ')[0]
timeList.append(dateStr)
#将列表转行为一维数据Series类型
timeSer=pd.Series(timeList)
return timeSer
#获取“销售时间”列
timeSer=salesDf.loc[:,'销售时间']
#对字符串进行分割,获取销售日期
dateSer=splitSaletime(timeSer)
#修改销售时间这一列的值
salesDf.loc[:,'销售时间']=dateSer
salesDf.head()
# 将“销售时间”转换为日期格式
# format 是原始数据中日期的格式
salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],
format='%Y-%m-%d',
errors='coerce')
salesDf.dtypes
销售时间 datetime64[ns]
社保卡号 object
商品编码 object
商品名称 object
销售数量 float64
应收金额 float64
实收金额 float64
dtype: object
# 转换后出现空行,将其删除
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')
5) 数据排序
# 按销售日期进行升序排列
salesDf=salesDf.sort_values(by='销售时间',
ascending=True)
salesDf.head()
#重命名行名(index):排序后的列索引值是之前的行号,需要修改成从0到N按顺序的索引值
salesDf=salesDf.reset_index(drop=True)
salesDf.head()
6) 异常值处理
# 查看数据统计信息,“销售数量”值不能小于0
salesDf.describe()
# 删除异常值:通过条件判断筛选出数据
# 查询条件
querySer=salesDf.loc[:,'销售数量']>0
# 应用查询条件
salesDf=salesDf.loc[querySer,:]
4 构建模型
1) 业务指标1:月均消费次数=总消费次数 / 月份数
# 同一天、同一个社保卡号视为一次消费,因此需删除重复记录
kpi1_Df=salesDf.drop_duplicates(
subset=['销售时间', '社保卡号']
)
# 总消费次数:有多少行
totalI=kpi1_Df.shape[0]
print('总消费次数=',totalI)
总消费次数= 5342
# 计算月份数
# 按销售时间升序排序
kpi1_Df=kpi1_Df.sort_values(by='销售时间',
ascending=True)
# 重命名行名(index)
kpi1_Df=kpi1_Df.reset_index(drop=True)
# 获取时间范围
startTime=kpi1_Df.loc[0,'销售时间']
endTime=kpi1_Df.loc[totalI-1,'销售时间']
#天数
daysI=(endTime-startTime).days
#月份数
monthsI=daysI//30
print('月份数:',monthsI)
月份数: 6
#业务指标1:月均消费次数=总消费次数 / 月份数
kpi1_I=totalI // monthsI
print('业务指标1:月均消费次数=',kpi1_I)
业务指标1:月均消费次数= 890
2) 业务指标2:月均消费金额 = 总消费金额 / 月份数
#总消费金额
totalMoneyF=salesDf.loc[:,'实收金额'].sum()
#月均消费金额
monthMoneyF=totalMoneyF / monthsI
print('业务指标2:月均消费金额=',monthMoneyF)
业务指标2:月均消费金额= 50668.35166666666
3) 业务指标3:客单价 = 总消费金额 / 总消费次数
pct=totalMoneyF / totalI
print('客单价:',pct)
客单价: 56.909417821040805
4) 业务指标4:消费趋势
# 数据分组
groupDf=salesDf
# 重命名行名(index)为销售时间所在列的值
groupDf.index=groupDf['销售时间']
gb=groupDf.groupby(groupDf.index.month)
monthDf=gb.sum()
monthDf
import matplotlib.pyplot as plt
x = monthDf.loc[:,'销售数量']
x
plt.plot(x,marker='o',markerfacecolor='blue', markersize=8)
plt.title('Trend of change in sales volume')
plt.xlabel('Months')
plt.ylabel('sales volume')
plt.show()
y = monthDf.loc[:,'实收金额']
y
plt.plot(y,marker='o',markerfacecolor='blue', markersize=8)
plt.title('Trend of change in sales amount')
plt.xlabel('Months')
plt.ylabel('sales amount')
plt.show()