Matplotlib作业数据.csv文件查看百度网盘:链接:https://pan.baidu.com/s/1oFB_KwhiJNlJAgXg7RaYuw?pwd=abcd
提取码:abcd
1.作业描述
作业:根据Matplotlib作业数据.csv做出4种不同类型的组合图像
要求:根据情况适当添加信息,如:标题,坐标轴信息,图例信息,特殊值标注等。
可参考制作内容包括并不限于:
评分最高的20部电影的投票人数分布(柱状图,条形图)
不同国家2012-2016年发行电影数量(折线图,簇状柱形图)
不同类型电影2012-2016年发行数量(簇状柱形图)
不同类型电影所占比值(饼图)
电影时长分布分析(直方图)
电影时长,豆瓣评分与投票人数的相关关系(气泡图)
2.参考代码:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import pandas as pd
import seaborn as sbn
matplotlib.rcParams['font.family'] = 'SIMHEI'
matplotlib.rcParams['font.size'] = 18
提示:如果报错,请检查包是否下载完成,在python环境中输入:
pip install xxx
df = pd.read_csv(r"E:/Matplotlib作业数据.csv",encoding="gbk",index_col="名字").dropna()
df1 = df.sort_values(by="评分",ascending=False)
df2 = df1.iloc[0:20,:]
df3 = df["产地"].value_counts()
df4 = df["类型"].value_counts()
df5 = df[["时长","评分","投票人数"]].corr()
plt.figure(figsize = (25,35),dpi = 150)
plt.subplot2grid(shape=(3,3),loc=(0,0),colspan=3)
a = [s[:5] for s in df2.index]
b = df2["投票人数"]
plt.barh(a, width =b,height = 0.5,color = 'orange',edgecolor = 'silver',linewidth = 3)
plt.yticks(a,fontsize = 12)
plt.grid(True)
plt.title('评分最高的20部电影的投票人数分布',fontweight="bold")
plt.ylabel('电影名称')
plt.xlabel('人数')
plt.subplot2grid((3,3),(1,0),colspan=2)
a = df3.index
b = df3.to_list()
plt.plot(a,b,color = 'g', linestyle = '-.',linewidth = 3,
marker = 'h', markerfacecolor = 'c', markersize = 15)
bm = np.argmax(b)
plt.text(a[bm],b[bm],'最大值', fontproperties = 'Kaiti', fontsize = 15)
plt.xticks(a,rotation = 45)
plt.title('不同国家2012-2016年发行电影数量',fontweight="bold")
plt.xlabel('国家')
plt.ylabel('电影数量')
plt.grid(True)
plt.subplot2grid((3,3),(1,2),rowspan=2)
a = df["时长"]
d = 20
num_bins = np.ceil((np.ptp(a))/d).astype(np.int64)
b = np.arange(min(a),max(a)+d,d)
plt.hist(a,num_bins,range = (min(a),min(a)+d*num_bins),density = False,color="coral")
plt.xticks(b)
plt.grid()
plt.xlabel("分钟")
plt.ylabel("数量")
plt.title("不同电影时长分布",fontweight="bold")
plt.subplot2grid((3,3),(2,0),colspan=1)
sbn.heatmap(df5,cmap='GnBu',annot=True,linewidths=0.3, linecolor='gray')
plt.title("相关关系热力图",fontweight="bold")
plt.subplot2grid((3,3),(2,1),colspan=1)
sizes = df4.to_list()
labels = df4.index
explode = [0.05,0,0,0,0,0,0,0,0,0,0]
colors = matplotlib.cm.rainbow(np.arange(len(sizes))/len(sizes))
plt.pie(sizes,
labels = labels,
explode = explode,
colors = colors,
labeldistance = 1,
autopct = '%.1f%%',
counterclock = False,
startangle = 170,
shadow = False)
plt.title('不同类型电影所占比值',fontweight="bold");
最终效果如图: