② 剧集信息
![5fb238ec71af4a3292c4d64b08800f6f.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/0b98aab11f952ee3.jpeg)
③ 演员信息
![dcb5476d29b94c7a84ed35c01a53cf4f.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/1cbd6661b4e12431.jpeg)
通过爬取以上三个页面的数据,我们可以获得完整的电视剧评分及演员信息数据,用于之后的数据对比及可视化。
我们以爬取第一部分的代码为例,展示整体爬取思路:
driver = webdriver.Chrome()
driver.maximize_window()
driver.close()
driver.switch_to_window(driver.window_handles[0])
url = 'https://movie.douban.com/tag/#/?sort=U&range=2,10&tags=%E7%94%B5%E8%A7%86%E5%89%A7,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86'
js='window.open("'+url+'")'
driver.execute_(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
whileTrue:
try:
js="var q=document.documentElement.scrollTop=10000000"
driver.execute_(js)
driver.find_element_by_class_name('more').click()
time.sleep(2)
except:
break
name = [k.text fork indriver.find_elements_by_class_name('title')]
score = [k.text fork indriver.find_elements_by_class_name('rate')]
url = [k.get_attribute('href') fork indriver.find_elements_by_class_name('item')]
pd.DataFrame({'name':name,'score':score,'url':url}).to_excel('电视剧名称.xlsx')
02 剧集对比
我们在剧集对比部分主要展示两部分数据。
首先是TOP15以及BOTTOM15的剧集评分及拍摄年代:
![f5703a9876b3428b85f0f739fe03dde2.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/17163e6883503abf.jpeg)
![5973090ab3af4ff9be537b61362fee04.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/e6dc8a6712c0b9c4.jpeg)
可以看到十分鲜明的对比,评分较高的剧集大多拍摄年份剧集都有一定的年头,并且历经时间的考验,愈发展示其独特的魅力。
相反,一些评分较低的剧集,往往都是近年来拍摄的,可能这也与剧集增多有关。
需要提醒的是榜单中的《寻秦记》不是古天乐版本,那是经典中的经典,至于榜单中出现的版本,大家可以有机会亲自去了解一下。
正所谓没有无缘无故的爱,也没有无缘无故的恨。
我们也选取了豆瓣当中对于剧集的一些有意思的点评。
通过点评,让我们了解这些评分产生的原因。
TOP篇
1
许多年以后观看发现,其中造型与性格塑造完美,准确把握原著,时代影响力巨大,印象极其深刻。------《西游记》
2
老一代影艺人是以一种虔诚的态度对待红楼梦的,87版之后,世间再无真人版红楼。------《红楼梦》
3
这就是我的圣经,思想启蒙之作 ------《我爱我家》
4
鞋儿破 帽儿破 身上的袈裟破 你笑我 他笑我 一把扇儿破 经典 ---《活佛济公》
5
绝对是国产情景喜剧无法超越的巅峰之作!其中每个角色都是无法复制的! ------《武林外传》
BOTTOM篇
1
没见到甜蜜,倒是这个演技每一秒都是暴击 ------《甜蜜暴击》
2
现在还是有这么多粗糙的偶像剧,玩了几十年的老套桥段还在用 ------《极光之恋》
3
瞟了半集被吓死了,演技跟痴呆似的= = ------《路跑甜心》
4
剧情奇葩,演技浮夸,特技粗糙。一剧融合了以上的所有元素,导演简直就是演艺圈的火锅店老板 ------《来自星星的继承者们》
5
于妈拍的那版.....其实还挺好看的! ------《新笑傲江湖》
03 演员对比
我们此次根据演员参演的剧集评分,考虑演员在其中角色的重要性进行赋权,结合剧集评论数量,加权平均得到每个演员的评分情况。
首先是我们评选的评分靠前的演员及其出生年份。
![17cd7ddb4c984d9ebdf9a0ef90860422.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/79899d714c2ea39c.jpeg)
估计大部分年轻的读者,可能对这些名单中的演员很多都不是很熟悉。
在此小编建议各位可以去看一下这些老戏骨的剧集,感受他们所散发的魅力。
同时我们也专门对比了下80后、90后(包含00后)的评分,找寻其中的佼佼者。
![73795162cb474708b99d800041f7094c.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/01eb9913e27c00d3.jpeg)
![6866007d2d454d33a940b0b4772a2226.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/d4f0ebc558a9fc7b.jpeg)
刘昊然在评分中领跑其他的90后,考虑到其今年只有20岁出头,我们也期望他在未来能给我们带来更多经典的作品。
可能很多读者对TOP20的演员并不是很熟悉,其实大可不必,因为下面的榜单中相信大多都会是你所熟悉的。
![37e87bd829e7410e8d633c212658dea0.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/e1cbdf4ef3bc9a8d.jpeg)
想必看到这里,各位会找到熟悉的感觉,我们相信榜上的各位演员其实也是最具潜力的演员。
只要努力雕琢演技,未来一定会受到观众对其演技的认可。
我们同时分别对比了一下男、女演员。
![11498d014eb040c1889f5048a8c85c1d.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/17af0051f51df2db.jpeg)
![bd10a170410f41579526ac323160c116.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/47fb9893a3cbf1e7.jpeg)
在此需要指出的是,余文乐和赵又廷上榜并不是因为其剧集评分真的偏低,主要是其参与的大陆制作剧集评分较低。
并且我们此次没有统计港台剧。
我们也希望榜单中的各位演员未来更加精彩的表现。
04 星座分布
感谢豆瓣给我们提供了演员星座的数据,小编周围也有许多对星座十分感兴趣的朋友,不妨我们看一下星座的分布情况。
![7a3a0ac1f9db4a99998c1a3549732adc.jpg](https://img8.php1.cn/3cdc5/1e804/ae9/77bf41733a1211fd.jpeg)
看来星座整体分布还是比较平均的,只是天秤座和天蝎座略多于其他星座。
关于星座,至于你信不信,反正小编是不怎么信的
关于矩形树图的实现,可以参考以下代码。
frompyecharts importTreeMap
star_stat = actor_data.groupby('xingzuo').agg({'name':'count'}).reset_index().sort_values('name'
,ascending=False)[0:12].reset_index()
data = [{'value':star_stat['name'][i],
'name':star_stat['xingzuo'][i]+' '+str(star_stat['name'][i])} fori inrange(star_stat.shape[0])]
treemap = TreeMap("星座分布图", width=1200, height=600)
treemap.add("星座分布", data, is_label_show=True, label_pos='inside')
treemap.render('星座分布.html')
05 城市分布
我们在看完了星座分布之后,再继续来看一下演员的城市分布。
看看有多少自己的老乡在参演着电视剧。
![bfca8a7808a24f93b699094ee867bd63.jpg](https://img8.php1.cn/3cdc5/1e804/ae9/4e1401817d05f95a.jpeg)
不出意外,北京和上海两大中心城市的演员数量也是最多的,而第三名就是小编的家乡青岛了。
之前每当小编提及青岛,总是会提起青岛的明星多,这次的数据更加使得小编未来有了交流(chuixu)的底气。
我们下面分别来看一下TOP5的各个城市明星名单。
北京
![913cfd138b0f4c79bda2d9e361a39b86.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/cb3a23117e4522b0.jpeg)
上海
![24671e3cfbaf4444a19b5748de69d2b8.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/3416ba9aee57bac3.jpeg)
青岛
![a0cafdb25476471c9457d8daa761151c.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/53396bbda097f470.jpeg)
哈尔滨
![6871792ddd954c6c8734884737d780e7.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/0cd8e24081cf7309.jpeg)
西安
![8a4f2877952f4ca4abe41c152f969b4d.jpeg](https://img8.php1.cn/3cdc5/1e804/ae9/e87b9ca50f67e97e.jpeg)
-END-
转载声明:本文转载自「数据森麟」。