Python数据分析实战——医院销售数据分析

作者：kaining_huang_750 | 来源：互联网 | 2023-08-30 09:00

用Python中的NumPy和Pandas数据分析包对某医院的销售数据进行分析，数据分析的基本流程为：提出问题、理解数据（数据采集、数据导入、查看数据集信息）、数据清洗、建构模型、

用Python中的NumPy和Pandas数据分析包对某医院的销售数据进行分析，数据分析的基本流程为：提出问题、理解数据（数据采集、数据导入、查看数据集信息）、数据清洗、建构模型、数据可视化。

import numpy as np import pandas as pd

从销售数据中分析出以下任务指标：

1）月均消费次数 2）月均消费金额 3）客单价

读取数据

#读取Ecxcel数据，统一先按照字符串读入，之后转换 fileNameStr='./朝阳医院2018年销售数据.xlsx' xls = pd.ExcelFile(fileNameStr, dtype='object') salesDf = xls.parse('Sheet1',dtype='object') ''' 查看数据基本信息 ''' #打印出前5行，以确保数据运行正常 salesDf.head()

《Python数据分析实战——医院销售数据分析》
读取并查看数据

#有多少行，多少列 salesDf.shape (6578, 7) #查看每一列的数据类型 salesDf.dtypes 购药时间 object 社保卡号 object 商品编码 object 商品名称 object 销售数量 object 应收金额 object 实收金额 object dtype: object

数据清洗

#subSalesDf=salesDf.loc[0:4,'购药时间':'销售数量'] #选择子集 #列名重命名 #字典：旧列名和新列名对应关系 colNameDict = {'购药时间':'销售时间'} ''' inplace=False，数据框本身不会变，而会创建一个改动后新的数据框，默认的inplace是False inplace=True，数据框本身会改动 ''' salesDf.rename(columns = colNameDict,inplace=True) salesDf.head()

《Python数据分析实战——医院销售数据分析》
列名重命名

缺失值处理

print('删除缺失值前大小',salesDf.shape) 删除缺失值前大小 (6578, 7) #删除列（销售时间，社保卡号）中为空的行 #how='any' 在给定的任何一列中有缺失值就删除 salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any') print('删除缺失后大小',salesDf.shape) 删除缺失后大小 (6575, 7)

数据类型转化

#字符串转换为数值（浮点型） salesDf['销售数量'] = salesDf['销售数量'].astype('float') salesDf['应收金额'] = salesDf['应收金额'].astype('float') salesDf['实收金额'] = salesDf['实收金额'].astype('float') #字符串分割 testList='2018-06-03 星期五'.split(' ') def splitSaletime(timeColSer): timeList=[] for value in timeColSer: #例如2018-01-01 星期五，分割后为：2018-01-01 dateStr=value.split(' ')[0] timeList.append(dateStr) #将列表转行为一维数据Series类型 timeSer=pd.Series(timeList) return timeSer timeSer=salesDf.loc[:,'销售时间'] dateSer=splitSaletime(timeSer) salesDf.loc[:,'销售时间']=dateSer ''' 数据类型转换:字符串转换为日期 ''' #errors='coerce' 如果原始数据不符合日期的格式，转换后的值为空值NaT #format 是你原始数据中日期的格式 salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'], format='%Y-%m-%d', errors='coerce') salesDf.dtypes

销售时间 datetime64[ns]
社保卡号 object
商品编码 object
商品名称 object
销售数量 float64
应收金额 float64
实收金额 float64
dtype: object

''' 转换日期过程中不符合日期格式的数值会被转换为空值，这里删除列（销售时间，社保卡号）中为空的行 ''' salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

数据排序

''' by：按那几列排序 ascending=True 表示降序排列， ascending=False表示升序排列 ''' #按销售日期进行升序排列 salesDf=salesDf.sort_values(by='销售时间',ascending=True) #重命名行名（index）：排序后的列索引值是之前的行号，需要修改成从0到N按顺序的索引值 salesDf=salesDf.reset_index(drop=True) salesDf.head()

异常值处理

salesDf.describe() #发现存在销售数量<0的异常值 #删除异常值：通过条件判断筛选出数据 #查询条件 querySer=salesDf.loc[:,'销售数量']>0 #应用查询条件 print('删除异常值前：',salesDf.shape) salesDf=salesDf.loc[querySer,:] print('删除异常值后：',salesDf.shape) 删除异常值前： (6533, 7) 删除异常值后： (6506, 7)

构建模型

指标1：月均消费次数

''' 总消费次数：同一天内，同一个人发生的所有消费算作一次消费 #根据列名（销售时间，社区卡号），如果这两个列值同时相同，只保留1条，将重复的数据删除 ''' kpi1_Df=salesDf.drop_duplicates(subset=['销售时间', '社保卡号']) #总消费次数：有多少行 totalI=kpi1_Df.shape[0] print('总消费次数=',totalI) 总消费次数= 5342 #月份数 startTime=kpi1_Df.loc[0,'销售时间'] endTime=kpi1_Df.loc[totalI-1,'销售时间'] daysI=(endTime-startTime).days mOnthsI=daysI//30 print('月份数：',monthsI) 月份数： 6 #业务指标1：月均消费次数=总消费次数 / 月份数 kpi1_I=totalI // monthsI print('业务指标1：月均消费次数=',kpi1_I) 业务指标1：月均消费次数= 890

指标2：月均消费金额

#总消费金额 totalMOneyF=salesDf.loc[:,'实收金额'].sum() #月均消费金额 mOnthMoneyF=totalMoneyF / monthsI print('业务指标2：月均消费金额=',monthMoneyF) 业务指标2：月均消费金额= 50668

指标3：客单价

''' totalMoneyF：总消费金额 totalI：总消费次数 ''' pct=totalMoneyF / totalI print('客单价：',pct) 客单价： 57

推荐阅读

list
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
io
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
io
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
io
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 19:49:05
io
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
io
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
io
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
list
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
list
Kotlin中扩展函数的惯用用法及其合理性

本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下，定义扩展函数没有意义，但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法，并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑，并给出了自己的反驳。最后，文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]

蜡笔小新 2023-12-12 19:17:21
io
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
io
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
list
Python拼接字符串的七种方式

这篇文章主要介绍了Python拼接字符串的七种方式，包括使用%、format()、join()、f-string等方法。每种方法都有其特点和限制，通过本文的介绍可以帮助读者更好地理解和运用字符串拼接的技巧。 ... [详细]

蜡笔小新 2023-12-12 11:15:18
io
IOS开发之短信发送与拨打电话的方法详解

本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式，一种是使用系统底层发送，虽然无法自定义短信内容和返回原应用，但是简单方便；另一种是使用第三方框架发送，需要导入MessageUI头文件，并遵守MFMessageComposeViewControllerDelegate协议，可以实现自定义短信内容和返回原应用的功能。 ... [详细]

蜡笔小新 2023-12-11 20:15:47
io
手把手教你使用GraphPad Prism和Excel绘制回归分析结果的森林图

本文介绍了使用GraphPad Prism和Excel绘制回归分析结果的森林图的方法。通过展示森林图，可以更加直观地将回归分析结果可视化。GraphPad Prism是一款专门为医学专业人士设计的绘图软件，同时也兼顾统计分析的功能，操作便捷，可以帮助科研人员轻松绘制出高质量的专业图形。文章以一篇发表在JACC杂志上的研究为例，利用其中的多因素回归分析结果来绘制森林图。通过本文的指导，读者可以学会如何使用GraphPad Prism和Excel绘制回归分析结果的森林图。 ... [详细]

蜡笔小新 2023-12-10 18:32:57
io
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16

kaining_huang_750

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章