当前位置: 开发笔记 > 编程语言 > 正文

python数据分析实际案例_Python数据分析I全国旅游景点分析案例，哪里好玩一目了然...

作者：六尾11 | 来源：互联网 | 2023-07-20 20:16

前言文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：刘亦菲的老公PS：如有需要

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者&＃xff1a; 刘亦菲的老公

PS&＃xff1a;如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

http://note.youdao.com/noteshare?id&＃61;3054cce4add8a909e784ad934f956cef

数据获取

爬取了携程网上关于全国大概16000条景点数据和美团网上五个城市的大概5000条酒店数据&＃xff0c;然后导出为.csv表格形式方便用

pandas.read_csv()

来读取其中的数据。

数据预处理和清洗

景点数据

原始数据中&＃xff0c;景点数据长这样

由于数据按省份分为三十多个.csv文件&＃xff0c;并且其中还有不需要的列&＃xff0c;用以下代码来读取(其他省份同样&＃xff0c;只列出上海的)

import pandas as pd上海 &＃61; pd.read_csv(&＃39;上海.csv&＃39;, engine&＃61;&＃39;python&＃39;, usecols&＃61;[&＃39;省份&＃39;, &＃39;spot-info&＃39;, &＃39;spot-info1&＃39;, &＃39;spot-info2&＃39;, &＃39;价格&＃39;, &＃39;已售&＃39;, &＃39;desc&＃39;, &＃39;spot-comment&＃39;, &＃39;spot-label1&＃39;])

再将全部数据组合在一起

China_scenic &＃61; pd.concat([上海, 云南, 内蒙古, 北京, 台湾, 吉林, 四川, 天津, 宁夏, 安徽, 山东, 山西, 广东, 广西, 新疆, 江苏, 河北, 河南, 浙江, 海南, 湖北, 湖南, 澳门, 甘肃, 福建, 西藏, 贵州, 辽宁, 重庆, 陕西, 青海, 香港, 黑龙江], sort&＃61;True, ignore_index&＃61;True).reset_index().drop(columns&＃61;&＃39;index&＃39;)

接下来删除那些重复和没有评分的地点。

# 删除重复地点China_scenic &＃61; China_scenic.drop_duplicates(subset&＃61;&＃39;spot-info&＃39;)# 删除没有评分的地点China_scenic &＃61; China_scenic[China_scenic[&＃39;spot-comment&＃39;].notnull()]

再将评分转换为好评率&＃xff0c;将没有景区等级的景点标为无等级

def grade_change(i): i &＃61; i.replace(&＃39;分&＃39;, &＃39;&＃39;) return float(i) / 5# 将评分转换为好评率China_scenic[&＃39;spot-comment&＃39;] &＃61; China_scenic[&＃39;spot-comment&＃39;].apply(grade_change)# 将没有景区等级的景区标为无等级China_scenic[&＃39;spot-info2&＃39;] &＃61; China_scenic[&＃39;spot-info2&＃39;].fillna(&＃39;无等级&＃39;)

由于有许多景点是不需要购票进入的&＃xff0c;这里再将所有景点分成两部分以便之后的操作

# 选取免费景点China_scenic_free &＃61; China_scenic[China_scenic[&＃39;价格&＃39;].isna()].reset_index().drop(columns&＃61;&＃39;index&＃39;)# 选取收费景点China_scenic_charge &＃61; China_scenic[China_scenic[&＃39;价格&＃39;].notnull()].reset_index().drop(columns&＃61;&＃39;index&＃39;)

接下来把消费景点的销售量转换为具体数值&＃xff0c;把免费景点的销售量和价格这两列删除

def sold_change(i): if &＃39;万&＃43;&＃39; in i: i &＃61; i.replace(&＃39;.&＃39;, &＃39;&＃39;) i &＃61; i.replace(&＃39;万&＃43;&＃39;, &＃39;000&＃39;) return int(i) else: return int(i)# 将已售数据转换为整形China_scenic_charge[&＃39;已售&＃39;] &＃61; China_scenic_charge[&＃39;已售&＃39;].apply(sold_change)# 删除两列China_scenic_free &＃61; China_scenic_free.drop(columns&＃61;&＃39;已售&＃39;).drop(columns&＃61;&＃39;价格&＃39;)

酒店数据

酒店数据&＃xff0c;这里仅仅爬取了我选取的五个城市的酒店数据(为了机器学习的例子仅选了五个城市)

接下来读取数据&＃xff0c;并且把价格转换为具体数值&＃xff0c;把销量转换为具体数值(对每个城市的操作都相同&＃xff0c;只展示一个城市的操作)

def price_change(i): i &＃61; i.replace(&＃39;起&＃39;, &＃39;&＃39;) return int(i)def sold_change(i): if &＃39;&＃43;消费&＃39; in i: i &＃61; i.replace(&＃39;&＃43;消费&＃39;, &＃39;&＃39;) return int(i) else: i &＃61; i.replace(&＃39;消费&＃39;, &＃39;&＃39;) return int(i)Zhangjiajie_Hotel &＃61; pd.read_csv(&＃39;张家界酒店.csv&＃39;, engine&＃61;&＃39;python&＃39;, usecols&＃61;[&＃39;标题&＃39;, &＃39;poi-address&＃39;, &＃39;poi-type&＃39;, &＃39;poi-price&＃39;, &＃39;poi-buy-num&＃39;, &＃39;service-icons1&＃39;,&＃39;service-icons3&＃39;, &＃39;service-icons5&＃39;]).dropna()Zhangjiajie_Hotel[&＃39;地址&＃39;] &＃61; &＃39;张家界&＃39;Zhangjiajie_Hotel[&＃39;poi-price&＃39;] &＃61; Changsha_Hotel[&＃39;poi-price&＃39;].apply(price_change)Zhangjiajie_Hotel[&＃39;poi-buy-num&＃39;] &＃61; Changsha_Hotel[&＃39;poi-buy-num&＃39;].apply(sold_change)

数据分析

景点数据

# 景区等级评价scenic_level_comment &＃61; China_scenic.groupby(&＃39;spot-info2&＃39;).mean().sort_values(&＃39;spot-comment&＃39;, ascending&＃61;False)# # 收费景点# 销量前五十的景点China_scenic_50 &＃61; China_scenic_charge.sort_values(&＃39;已售&＃39;, ascending&＃61;False).head(50).reset_index().drop(columns&＃61;&＃39;index&＃39;)# 平均门票最贵的省份China_scenic_exp &＃61; China_scenic_charge.groupby(&＃39;省份&＃39;).mean().sort_values(&＃39;价格&＃39;, ascending&＃61;False)[&＃39;价格&＃39;]# 最受欢迎的省份Hot_province &＃61; China_scenic_charge.groupby(&＃39;省份&＃39;).sum().sort_values(&＃39;已售&＃39;, ascending&＃61;False)[&＃39;已售&＃39;]# 最受欢迎的付费景点类型Hot_kind_charge &＃61; China_scenic_charge.groupby(&＃39;spot-label1&＃39;).mean().sort_values(&＃39;已售&＃39;, ascending&＃61;False).head(10)[&＃39;已售&＃39;]# # 免费景点China_scenic_free &＃61; China_scenic_free.drop(columns&＃61;&＃39;已售&＃39;).drop(columns&＃61;&＃39;价格&＃39;)# 评分最高的五十个免费景点free_scenic_50 &＃61; China_scenic_free.sort_values(&＃39;spot-comment&＃39;, ascending&＃61;False).head(50)# 评分最高的的免费景点类型Hot_kind_free &＃61; China_scenic_free.groupby([&＃39;spot-label1&＃39;]).mean().sort_values(&＃39;spot-comment&＃39;, ascending&＃61;False).head(15)

再将这些分析出的数据用.to_csv()导出&＃xff0c;用PPT画图(自己的数据可视化做得很丑。。。。) 。。。)

酒店数据

将五个城市酒店数据组合&＃xff0c;再进行分析如下

All_Hotel &＃61; pd.concat([Changsha_Hotel, Zhangjiajie_Hotel, Hangzhou_Hotel, Suzhou_Hotel, Changzhou_Hotel], axis&＃61;0, sort&＃61;False).dropna().reset_index().drop(columns&＃61;&＃39;index&＃39;)kind_price &＃61; All_Hotel.groupby([&＃39;地址&＃39;, &＃39;poi-type&＃39;]).mean()[&＃39;poi-price&＃39;]

把‘kind_price’导出画图

机器学习

假设去某个景点旅游&＃xff0c;需要考虑出行方式、酒店住宿、门票价格等因素&＃xff0c;由此可以大概计算出一个数值来表示该趟旅游“值不值 ”(爬取到的数据中&＃xff0c;关于免费景点只有评分一条可以评定其价值&＃xff0c;不太具有真实意义&＃xff0c;所以不取免费景点)

从景点数据随机选取一个&＃xff0c;酒店数据随机选取一个&＃xff0c;出行方式随机选取一种。(由此来组合成一行&＃xff0c;模拟成一个人选择某种方式去了某地游玩了某个景点又选择了某个酒店)

由于数据的不完整&＃xff0c;所以这里主要从“钱花得最少&＃xff0c;去的景点评分最高”这样的角度来判断“值不值”。

“值不值”的恒定标准为:

代数意义

PS&＃xff1a;这里本应该每个值附上自己的权重&＃xff0c;由于时间关系&＃xff0c;我仅将他们(0,1)规格化了&＃xff0c;这样就是1:1:1:1的关系&＃xff0c;以后有时间在调整其权重问题。

再由Score值来分类&＃xff1a;

代码实现

先从全国景点数据中&＃xff0c;找到五个例子城市的景点数据。 (方法五个都一样&＃xff0c;这里只展示以张家界为例)

def find_zhangjiajie(i): if &＃39;张家界&＃39; in i: return True else: return Falsezhangjiajie_scenic &＃61; China_scenic_charge[China_scenic_charge[&＃39;spot-info1&＃39;].apply(find_zhangjiajie)].reset_index().drop(columns&＃61;&＃39;index&＃39;)

导出后画图如下

接下来是获取出行数据&＃xff0c;由于机票价格波动太大&＃xff0c;并且某些城市还没有普火&＃xff0c;这里主要是取平均值&＃xff0c;zhangjiajie_traffic数据大概这个样子

现在&＃xff0c;对于张家界的景点、出行、酒店数据已经准备完毕左右拼接在一起&＃xff0c;创建随机数据集 zhangjiajie_travel&＃xff1a;

def price_02(i): i &＃61; (i - zhangjiajie_travel[&＃39;价格&＃39;].min()) / (zhangjiajie_travel[&＃39;价格&＃39;].max() - zhangjiajie_travel[&＃39;价格&＃39;].min()) return idef comment_02(i): i &＃61; (i - zhangjiajie_travel[&＃39;spot-comment&＃39;].min()) / ( zhangjiajie_travel[&＃39;spot-comment&＃39;].max() - zhangjiajie_travel[&＃39;spot-comment&＃39;].min()) return idef hotel_02(i): i &＃61; (i - zhangjiajie_travel[&＃39;poi-price&＃39;].min()) / ( zhangjiajie_travel[&＃39;poi-price&＃39;].max() - zhangjiajie_travel[&＃39;poi-price&＃39;].min()) return idef traffic_02(i): i &＃61; (i - zhangjiajie_travel[&＃39;出行价格&＃39;].min()) / (zhangjiajie_travel[&＃39;出行价格&＃39;].max() - zhangjiajie_travel[&＃39;出行价格&＃39;].min()) return i# 每个表随机采样一万行zhangjiajie_scenic_test &＃61; zhangjiajie_scenic.sample(n&＃61;10000, axis&＃61;0, random_state&＃61;1, replace&＃61;True).reset_index().drop( columns&＃61;&＃39;index&＃39;)zhangjiajie_hotel_test &＃61; zhangjiajie_hotel.sample(n&＃61;10000, axis&＃61;0, random_state&＃61;1, replace&＃61;True).reset_index().drop( columns&＃61;&＃39;index&＃39;)zhangjiajie_traffic_test &＃61; zhangjiajie_traffic.sample(n&＃61;10000, axis&＃61;0, random_state&＃61;1, replace&＃61;True).reset_index().drop( columns&＃61;&＃39;index&＃39;)# 合在一起成为张家界的“假旅游数据集”zhangjiajie_travel &＃61; pd.concat([zhangjiajie_scenic_test, zhangjiajie_hotel_test, zhangjiajie_traffic_test], sort&＃61;False, axis&＃61;1).drop(columns&＃61;&＃39;Unnamed: 0&＃39;)

重点&＃xff1a;把五个城市的测试数据集建立完毕后&＃xff0c;上下拼接在一起成为总的数据集(五万条)&＃xff0c;再将Score值算出&＃xff0c;并对其打上标签

import pandas as pdimport numpy as npdef Score_change(i): if i <&＃61; np.percentile(lfw_Happy_travel[&＃39;Score&＃39;], (25)): return 0 elif i >&＃61; np.percentile(lfw_Happy_travel[&＃39;Score&＃39;], (25)) and i <&＃61; np.percentile(lfw_Happy_travel[&＃39;Score&＃39;], (50)): return 1 elif i >&＃61; np.percentile(lfw_Happy_travel[&＃39;Score&＃39;], (50)) and i <&＃61; np.percentile(lfw_Happy_travel[&＃39;Score&＃39;], (75)): return 2 elif i >&＃61; np.percentile(lfw_Happy_travel[&＃39;Score&＃39;], (75)): return 3lfw_Happy_travel &＃61; pd.concat([changsha_travel, zhangjiajie_travel, suzhou_travel, hangzhou_travel, changzhou_travel], axis&＃61;0, sort&＃61;False).dropna()lfw_Happy_travel[&＃39;Score&＃39;] &＃61; lfw_Happy_travel[&＃39;spot-comment&＃39;] / (lfw_Happy_travel[&＃39;价格&＃39;] * lfw_Happy_travel[&＃39;poi-price&＃39;] * lfw_Happy_travel[&＃39;出行价格&＃39;])lfw_Happy_travel[&＃39;Score&＃39;] &＃61; lfw_Happy_travel[&＃39;Score&＃39;].apply(Score_change)

最后&＃xff0c;利用SVM支持向量机来对整个数据集进行评分&＃xff0c;以总花费和景点评分作为属性&＃xff0c;Score值作为标签

from sklearn import model_selectionfrom sklearn import svmlfw_Happy_travel_num &＃61; pd.DataFrame( {&＃39;景点评分&＃39;: lfw_Happy_travel[&＃39;spot-comment&＃39;], &＃39;花费&＃39;: lfw_Happy_travel[&＃39;cost&＃39;], &＃39;Score&＃39;: lfw_Happy_travel[&＃39;Score&＃39;] })x &＃61; lfw_Happy_travel_num.iloc[:, 0:2].values.tolist()y &＃61; lfw_Happy_travel_num.iloc[:, -1].tolist()x_train, x_test, y_train, y_test &＃61; model_selection.train_test_split(x, y, random_state&＃61;1, test_size&＃61;0.3)clf &＃61; svm.SVC(C&＃61;0.1, kernel&＃61;&＃39;linear&＃39;, decision_function_shape&＃61;&＃39;ovr&＃39;)# clf &＃61; svm.SVC(kernel&＃61;&＃39;rbf&＃39;, gamma&＃61;0.1, decision_function_shape&＃61;&＃39;ovo&＃39;, C&＃61;0.8)clf.fit(x_train, y_train)print("SVM-输出训练集的准确率为&＃xff1a;

推荐阅读

replace
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
go
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
express
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
byte
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
select
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
select
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
byte
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
go
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
uri
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
request
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
byte
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
byte
Python 中 UTF-8 编码的中文字符被误识别为 GB2312

探讨了 Python 中 UTF-8 编码的中文字符在某些情况下被误识别为 GB2312 的问题，并提供了详细的代码示例和环境信息。 ... [详细]

蜡笔小新 2024-11-12 20:45:01
byte
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
byte
Android 开发教程：SQLite 数据库使用详解

本视频教程将带你快速了解 Android 开发的基础知识，并详细讲解如何在 Android 应用中使用 SQLite 数据库进行数据存储和管理。 ... [详细]

蜡笔小新 2024-11-12 18:59:48
byte
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39

六尾11

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章