使用集搜客搜大数据导航,http://hao.199it.com/
在酷云EYE挖掘全天频道收视的数据(http://eye.kuyun.com/#/)
采集下来的原始数据如下:
导入excel数据:
导入时血的教训:1,千万要记得把Excel的“sheet1”还是“Sheet1”搞清楚,不然
2,在excel的隐藏的列在jupyter note也会有所体现
import pandas as pd
fileNameStr='C:/21.xlsx'
xls=pd.ExcelFile(fileNameStr,dtype='object')
oscar=xls.parse('sheet1',dtype='object')
#有多少行,多少列
oscar.shape
(100, 5)
#查看每一列的数据类型
oscar.dtypes
排名 object
节目 object
频道 object
关注度 object
市占率 object
dtype: object
#导入有序字典
from collections import OrderedDict
#定义一个有序字典
oscarorder=OrderedDict(oscar)
#定义数据框:传入字典,列名
oscar=pd.DataFrame(oscarorder)
oscar
排名 节目 频道 关注度 市占率 0 1 天气预报 CCTV-1 2.9012% 2.9012% 1 2 新闻联播 CCTV-1 2.7197% 2.7197% 2 3 快乐大本营 湖南卫视 1.9982% 1.9982% 3 4 今日说法 CCTV-1 1.8073% 1.8073% 4 5 我家那小子 湖南卫视 1.5778% 1.5778% 5 6 焦点访谈 CCTV-1 1.5370% 1.5370% 6 7 午间天气预报 CCTV-1 1.3742% 1.3742% 7 8 新闻30分 CCTV-1 1.3377% 1.3377% 8 9 还珠格格第二部 45 湖南卫视 1.3110% 1.3110% 9 10 今日关注 CCTV-4 1.2357% 1.2357% 10 11 2018机智过人 CCTV-1 1.2273% 1.2273% 11 12 海峡两岸 CCTV-4 1.2072% 1.2072% 12 13 中国新闻 CCTV-4 1.1664% 1.1664% 13 14 执行利剑 24 25 26 CCTV-8 1.1584% 1.1584% 14 15 星光大道 CCTV-3 1.1531% 1.1531% 15 16 摇啊笑啊桥 湖南卫视 1.1133% 1.1133% 16 17 甜蜜暴击 34 湖南卫视 1.0861% 1.0861% 17 18 天气预报 CCTV-新闻 1.0778% 1.0778% 18 19 新闻联播 CCTV-新闻 1.0772% 1.0772% 19 20 卫视气象站 湖南卫视 1.0693% 1.0693% 20 21 非诚勿扰 江苏卫视 1.0507% 1.0507% 21 22 冲天火 CCTV-6 1.0333% 1.0333% 22 23 平凡岁月 35 36 37 38 CCTV-1 1.0012% 1.0012% 23 24 深度国际 CCTV-4 0.9441% 0.9441% 24 25 解放 46 47 48 49 50 CCTV-4 0.9431% 0.9431% 25 26 还珠格格 42 43 44 湖南卫视 0.9307% 0.9307% 26 27 中国新闻 CCTV-4 0.9223% 0.9223% 27 28 晚间新闻 CCTV-1 0.7923% 0.7923% 28 29 共同关注 CCTV-新闻 0.7838% 0.7838% 29 30 西游记 5 6 7 8 CCTV-1 0.7786% 0.7786% … … … … … … 70 71 最优的我们 浙江卫视 0.4854% 0.4854% 71 72 非诚勿扰 江苏卫视 0.4836% 0.4836% 72 73 全国主要城市天气预报 CCTV-新闻 0.4825% 0.4825% 73 74 天气向导 浙江卫视 0.4801% 0.4801% 74 75 中央台新闻联播 湖南卫视 0.4774% 0.4774% 75 76 熊熊乐园 7 CCTV-少儿 0.4749% 0.4749% 76 77 无极限之危情速递 CCTV-6 0.4734% 0.4734% 77 78 新闻直播间 CCTV-新闻 0.4711% 0.4711% 78 79 新闻当事人 湖南卫视 0.4692% 0.4692% 79 80 外国人在中国 CCTV-4 0.4667% 0.4667% 80 81 平凡的世界 13 14 CCTV-8 0.4652% 0.4652% 81 82 爱情进化论 18 浙江卫视 0.4647% 0.4647% 82 83 湖南新闻联播 湖南卫视 0.4645% 0.4645% 83 84 中国新闻 CCTV-4 0.4643% 0.4643% 84 85 早间天气预报 CCTV-新闻 0.4620% 0.4620% 85 86 熊熊乐园 5 CCTV-少儿 0.4610% 0.4610% 86 87 非诚勿扰 江苏卫视 0.4549% 0.4549% 87 88 中国电影报道 CCTV-6 0.4535% 0.4535% 88 89 光影星播客 CCTV-6 0.4503% 0.4503% 89 90 熊熊乐园 6 CCTV-少儿 0.4492% 0.4492% 90 91 全国主要城市天气预报 CCTV-新闻 0.4480% 0.4480% 91 92 熊熊乐园 3 CCTV-少儿 0.4464% 0.4464% 92 93 暑期好味到 CCTV-3 0.4463% 0.4463% 93 94 熊熊乐园 8 CCTV-少儿 0.4457% 0.4457% 94 95 综艺喜乐汇 CCTV-3 0.4455% 0.4455% 95 96 熊熊乐园 4 CCTV-少儿 0.4427% 0.4427% 96 97 中华医药 CCTV-4 0.4425% 0.4425% 97 98 是真的吗 CCTV-2 0.4387% 0.4387% 98 99 2018中国好声音炫彩时刻 浙江卫视 0.4358% 0.4358% 99 100 探索·发现 CCTV-10 0.4338% 0.4338% 100 rows × 5 columns
#获取第1行,:代表所有列
oscar.iloc[0,:]
排名 1
节目 天气预报
频道 CCTV-1
关注度 2.9012%
市占率 2.9012%
Name: 0, dtype: object
#获取第1列,:代表所有行
oscar.iloc[:,3]
0 2.9012%
1 2.7197%
2 1.9982%
3 1.8073%
4 1.5778%
5 1.5370%
6 1.3742%
7 1.3377%
8 1.3110%
9 1.2357%
10 1.2273%
11 1.2072%
12 1.1664%
13 1.1584%
14 1.1531%
15 1.1133%
16 1.0861%
17 1.0778%
18 1.0772%
19 1.0693%
20 1.0507%
21 1.0333%
22 1.0012%
23 0.9441%
24 0.9431%
25 0.9307%
26 0.9223%
27 0.7923%
28 0.7838%
29 0.7786%
...
70 0.4854%
71 0.4836%
72 0.4825%
73 0.4801%
74 0.4774%
75 0.4749%
76 0.4734%
77 0.4711%
78 0.4692%
79 0.4667%
80 0.4652%
81 0.4647%
82 0.4645%
83 0.4643%
84 0.4620%
85 0.4610%
86 0.4549%
87 0.4535%
88 0.4503%
89 0.4492%
90 0.4480%
91 0.4464%
92 0.4463%
93 0.4457%
94 0.4455%
95 0.4427%
96 0.4425%
97 0.4387%
98 0.4358%
99 0.4338%
Name: 关注度, Length: 100, dtype: object
#获取第1列,:代表所有行
oscar.iloc[:,4]
0 2.9012%
1 2.7197%
2 1.9982%
3 1.8073%
4 1.5778%
5 1.5370%
6 1.3742%
7 1.3377%
8 1.3110%
9 1.2357%
10 1.2273%
11 1.2072%
12 1.1664%
13 1.1584%
14 1.1531%
15 1.1133%
16 1.0861%
17 1.0778%
18 1.0772%
19 1.0693%
20 1.0507%
21 1.0333%
22 1.0012%
23 0.9441%
24 0.9431%
25 0.9307%
26 0.9223%
27 0.7923%
28 0.7838%
29 0.7786%
...
70 0.4854%
71 0.4836%
72 0.4825%
73 0.4801%
74 0.4774%
75 0.4749%
76 0.4734%
77 0.4711%
78 0.4692%
79 0.4667%
80 0.4652%
81 0.4647%
82 0.4645%
83 0.4643%
84 0.4620%
85 0.4610%
86 0.4549%
87 0.4535%
88 0.4503%
89 0.4492%
90 0.4480%
91 0.4464%
92 0.4463%
93 0.4457%
94 0.4455%
95 0.4427%
96 0.4425%
97 0.4387%
98 0.4358%
99 0.4338%
Name: 市占率, Length: 100, dtype: object
#获取“商品名称”这一列
#salesDf.loc[:,'商品名称']
#简单方法:获取“商品名称”这一列
oscar['节目']
0 天气预报
1 新闻联播
2 快乐大本营
3 今日说法
4 我家那小子
5 焦点访谈
6 午间天气预报
7 新闻30分
8 还珠格格第二部 45
9 今日关注
10 2018机智过人
11 海峡两岸
12 中国新闻
13 执行利剑 24 25 26
14 星光大道
15 摇啊笑啊桥
16 甜蜜暴击 34
17 天气预报
18 新闻联播
19 卫视气象站
20 非诚勿扰
21 冲天火
22 平凡岁月 35 36 37 38
23 深度国际
24 解放 46 47 48 49 50
25 还珠格格 42 43 44
26 中国新闻
27 晚间新闻
28 共同关注
29 西游记 5 6 7 8
...
70 最优的我们
71 非诚勿扰
72 全国主要城市天气预报
73 天气向导
74 中央台新闻联播
75 熊熊乐园 7
76 无极限之危情速递
77 新闻直播间
78 新闻当事人
79 外国人在中国
80 平凡的世界 13 14
81 爱情进化论 18
82 湖南新闻联播
83 中国新闻
84 早间天气预报
85 熊熊乐园 5
86 非诚勿扰
87 中国电影报道
88 光影星播客
89 熊熊乐园 6
90 全国主要城市天气预报
91 熊熊乐园 3
92 暑期好味到
93 熊熊乐园 8
94 综艺喜乐汇
95 熊熊乐园 4
96 中华医药
97 是真的吗
98 2018中国好声音炫彩时刻
99 探索·发现
Name: 节目, Length: 100, dtype: object
#通过列表来选择某几列的数据
oscar[['节目','市占率']]
节目 市占率 0 天气预报 2.9012% 1 新闻联播 2.7197% 2 快乐大本营 1.9982% 3 今日说法 1.8073% 4 我家那小子 1.5778% 5 焦点访谈 1.5370% 6 午间天气预报 1.3742% 7 新闻30分 1.3377% 8 还珠格格第二部 45 1.3110% 9 今日关注 1.2357% 10 2018机智过人 1.2273% 11 海峡两岸 1.2072% 12 中国新闻 1.1664% 13 执行利剑 24 25 26 1.1584% 14 星光大道 1.1531% 15 摇啊笑啊桥 1.1133% 16 甜蜜暴击 34 1.0861% 17 天气预报 1.0778% 18 新闻联播 1.0772% 19 卫视气象站 1.0693% 20 非诚勿扰 1.0507% 21 冲天火 1.0333% 22 平凡岁月 35 36 37 38 1.0012% 23 深度国际 0.9441% 24 解放 46 47 48 49 50 0.9431% 25 还珠格格 42 43 44 0.9307% 26 中国新闻 0.9223% 27 晚间新闻 0.7923% 28 共同关注 0.7838% 29 西游记 5 6 7 8 0.7786% … … … 70 最优的我们 0.4854% 71 非诚勿扰 0.4836% 72 全国主要城市天气预报 0.4825% 73 天气向导 0.4801% 74 中央台新闻联播 0.4774% 75 熊熊乐园 7 0.4749% 76 无极限之危情速递 0.4734% 77 新闻直播间 0.4711% 78 新闻当事人 0.4692% 79 外国人在中国 0.4667% 80 平凡的世界 13 14 0.4652% 81 爱情进化论 18 0.4647% 82 湖南新闻联播 0.4645% 83 中国新闻 0.4643% 84 早间天气预报 0.4620% 85 熊熊乐园 5 0.4610% 86 非诚勿扰 0.4549% 87 中国电影报道 0.4535% 88 光影星播客 0.4503% 89 熊熊乐园 6 0.4492% 90 全国主要城市天气预报 0.4480% 91 熊熊乐园 3 0.4464% 92 暑期好味到 0.4463% 93 熊熊乐园 8 0.4457% 94 综艺喜乐汇 0.4455% 95 熊熊乐园 4 0.4427% 96 中华医药 0.4425% 97 是真的吗 0.4387% 98 2018中国好声音炫彩时刻 0.4358% 99 探索·发现 0.4338% 100 rows × 2 columns
#查看每一列的统计数值
oscar.describe()
排名 节目 频道 关注度 市占率 count 100 100 100 100 100 unique 100 75 15 99 99 top 100 新闻直播间 CCTV-新闻 0.5441% 0.5441% freq 1 5 19 2 2
#打印出前3行,以确保数据运行正常
oscar.head(3)
排名 节目 频道 关注度 市占率 0 1 天气预报 CCTV-1 2.9012% 2.9012% 1 2 新闻联播 CCTV-1 2.7197% 2.7197% 2 3 快乐大本营 湖南卫视 1.9982% 1.9982%
#通过条件判断筛选
#第1步:构建查询条件
lzh=oscar.loc[:,'排名']>80
type(lzh)
pandas.core.series.Series
lzh
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 False
15 False
16 False
17 False
18 False
19 False
20 False
21 False
22 False
23 False
24 False
25 False
26 False
27 False
28 False
29 False
...
70 False
71 False
72 False
73 False
74 False
75 False
76 False
77 False
78 False
79 False
80 True
81 True
82 True
83 True
84 True
85 True
86 True
87 True
88 True
89 True
90 True
91 True
92 True
93 True
94 True
95 True
96 True
97 True
98 True
99 True
Name: 排名, Length: 100, dtype: bool