作者:若v0丷會飛的獨角獸 | 来源:互联网 | 2024-11-09 10:52
在本任务中,我们将深入探讨数据重塑的技巧及其实际应用,特别是在处理复杂数据集时。通过使用泰坦尼克号数据集,我们将展示如何利用数据聚合和运算来计算男性和女性乘客的平均票价。具体来说,我们将编写代码以实现这一目标,并通过`groupby`方法对数据进行分组和统计分析,从而获得更深入的洞察。此外,我们还将介绍其他相关技术,如数据透视表和多级索引,以提升数据处理的效率和准确性。
数据聚合与运算
计算泰坦尼克号男性与女性的平均票价
# 写入代码
df = text['Fare'].groupby(text['Sex'])
means = df.mean()
means
计算客舱不同等级的存活人数
# 写入代码
survived_pclass = text['Survived'].groupby(text['Pclass'])
survived_pclass.sum()
统计在不同等级的票中的不同年龄的船票花费的平均值
text.groupby(['Pclass','Age'])['Fare'].mean().head()
得出不同年龄的总的存活人数,然后找出存活人数的最高的年龄,最后计算存活人数最高的存活率(存活人数/总人数)
#不同年龄的存活人数
survived_age = text['Survived'].groupby(text['Age']).sum()
survived_age.head()
#找出最大值的年龄段
survived_age[survived_age.values==survived_age.max()]
_sum = text['Survived'].sum()
print(_sum)
342
#首先计算总人数
_sum = text['Survived'].sum()
print("sum of person:"+str(_sum))
precetn =survived_age.max()/_sum
print("最大存活率:"+str(precetn))