当前位置: 开发笔记 > 前端 > 正文

关于美团数据的爬取

作者：漂漂雪飘飘业_348 | 来源：互联网 | 2023-02-07 11:34

打开美团官网，搜索足道这里是网站：美团网站，这里举例足疗美团数据加载方式Ajax请求美团的数据请求方式是Ajax的请求方式，属于数据异步加载方式，这是一个动态页面，而解决这种方式

打开美团官网，搜索足道

这里是网站：美团网站，这里举例足疗

进入到这个页面

美团数据加载方式Ajax请求
美团的数据请求方式是Ajax的请求方式，属于数据异步加载方式，这是一个动态页面，而解决这种方式有两种，一种selenium，一种使用requests进行抓包。在这里我们使用requests进行抓包

F12，打开开发者工具，进入Network

在这里插入图片描述

这里显示的所有就是这个页面的数据包，各种数据都在这里，图片，视频等等，我们找到我们要找的数据包

在这里插入图片描述

从而里面出现给的就是数据所在的位置，点击即可找到数据包

在这里插入图片描述

数据所在的位置，查看即可，然后找到数据包对应的url，和请求方式

这里我们可以看到url和请求方式，请求方式是get，所以在我们使用requests的时候我们就要使用get方式来请求这个url

发现这个？后面有很多参数，所以url我们选择到？之前，剩下的参数我们选择传入，在开发者工具中找到参数将所有参数复制粘贴到代码中

在这里插入图片描述

下面开始敲代码**

在这里插入图片描述

url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/1?' data = {#将传入的参数复制到这里 #上一张图片的形式写入 } #headers表示的是请求头，用来避免识别你是程序 #Referer是表示从那个页面跳转过来的 headers = { 'Referer': 'https://bj.meituan.com/', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36', } #发起请求对数据网址 resp = requests.get(url, params=data, headers=headers)

我们参数和请求头的准备好，已经对网址进行了get请求

现在开始分析数据报格式，拿到数据的格式

在这里插入图片描述

可以看到数据是json格式，是在data里面的searchResult中，所以我们先把数据定位到searchResult中

因为数据是json格式，索引我们应该先把拿到的响应数据转换成json格式，然后再定位到searchResult中

searchresult = resp.json()['data']['searchResult']

这样就可以得到searchResult中的数据了

例如这个样式

在这里插入图片描述

然后我们就可以根据字典的获取元素的方式来拿到响应得到数据元素

searchresult = resp.json()['data']['searchResult'] for item in searchresult: # pprint.pprint(item) shop_id = item['id'] shop_url = f'https://www.meituan.com/xiuxianyule/{shop_id}' dict = { '商店id': item['id'], '标题': item['title'], '类型': item['backCateName'], '评分': item['avgscore'], '地区': item['areaname'], '商店链接': shop_url }

这就可以拿到美团搜索到的数据的封面的响应数据，详情页面的数据需要进一步访问，详情页的数据是静态数据，可以直接获取

这样基本上表面封面的数据就得心应手了接下来就可以进行数据存储了

在这里我最后存储的格式是csv格式的数据，所以要引入csv包

import csv f=open('meituan.csv','a',encoding='utf-8',newline='') csv_writer=csv.DictWriter(f,fieldnames=['商店id','标题','类型','评分','地区','商店链接']) csv_writer.writeheader()#写入标头 csv_writer.writerow(dict)#写入爬取的数据

这样我们的爬取过程就完成了，针对于爬取多页，可以自行查看参数的变化规律，进行修改即可

爬取文件大概就是这个样子

在这里插入图片描述

最后展示完整代码

import requests import csv f=open('meituan.csv','a',encoding='utf-8',newline='') csv_writer=csv.DictWriter(f,fieldnames=['商店id','标题','类型','评分','地区','商店链接']) csv_writer.writeheader()#写入标头 url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/1?' #美团的每一页网址不会变更，但变更的是offect,步值是32，没加一页，offect的值就加32 data = { #传入的参数全部写到这里，使用键值对的形式 } headers = { 'Referer': 'https://bj.meituan.com/', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36', } resp = requests.get(url, params=data, headers=headers) # print(resp.text) # pprint.pprint(resp.json()) searchresult = resp.json()['data']['searchResult'] for item in searchresult: # pprint.pprint(item) shop_id = item['id'] shop_url = f'https://www.meituan.com/xiuxianyule/{shop_id}' dict = { '商店id': item['id'], '标题': item['title'], '类型': item['backCateName'], '评分': item['avgscore'], '地区': item['areaname'], '商店链接': shop_url } csv_writer.writerow(dict)#写入对应表头的数据 print(dict)

如果没有requests库需要pip install requests,安装这个库。

搜索
ajax

推荐阅读

html
深入解析JQuery Mobile特有的事件与方法

本文详细介绍了JQuery Mobile框架中特有的事件和方法，帮助开发者更好地理解和应用这些特性，提升移动Web开发的效率。 ... [详细]

蜡笔小新 2024-11-21 14:24:21
html
如何从Ajax加载的网页中提取数据

近期尝试从www.hub.sciverse.com网站通过编程手段获取数据时遇到问题，起初尝试使用WebBrowser控件进行数据抓取，但发现使用GET方法翻页时，返回的HTML代码始终相同。进一步探究后了解到，该网站的数据是通过Ajax异步加载的，可通过HTTP查看详细的JSON响应。 ... [详细]

蜡笔小新 2024-11-21 10:36:30
html
理解浏览器历史记录（2）hashchange、pushState

阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后，本打算去研究pushState，偶然在一些信息中发现了锚点变 ... [详细]

蜡笔小新 2024-11-20 20:05:37
html
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
json
解决Ajax POST请求数据映射问题

本文介绍了如何正确配置Ajax POST请求，以确保前端发送的数据能够被后端正确解析。重点在于前端JSON对象的键名需要与后端实体类的字段名严格匹配。 ... [详细]

蜡笔小新 2024-11-20 16:56:50
js
利用JavaScript for循环构建九九乘法表

本文介绍如何使用JavaScript中的for循环来创建一个九九乘法表，适合初学者学习循环结构的应用。 ... [详细]

蜡笔小新 2024-11-20 16:16:22
html
php + layui 文件上传以及拖拽上传

HTML:　　将文件拖拽到此区域 ... [详细]

蜡笔小新 2024-11-20 14:27:32
html
Bootstrap Paginator 分页插件详解与应用

本文深入探讨了Bootstrap Paginator这款流行的JavaScript分页插件，提供了详细的使用指南和示例代码，旨在帮助开发者更好地理解和利用该工具进行高效的数据展示。 ... [详细]

蜡笔小新 2024-11-20 13:39:53
html
使用 XMLHttpRequest 进行 AJAX POST 和 GET 请求

本文介绍了如何通过 XMLHttpRequest 对象在不同浏览器中实现 AJAX 的 POST 和 GET 请求，并详细说明了 XMLHttpRequest 的五个状态及其含义。 ... [详细]

蜡笔小新 2024-11-19 18:08:23
html
如何在提交原生表单时进行有效调试

本文探讨了在使用HTML原生表单提交数据时，前端开发者应如何有效地调试和检查表单字段的数据传输情况。 ... [详细]

蜡笔小新 2024-11-19 15:50:07
html
Spring Boot使用AJAX从数据库读取数据异步刷新前端表格

　　近期项目需要是实现一个通过筛选选取所需数据刷新表格的功能，因为表格只占页面的一小部分，不希望整个也页面都随之刷新，所以首先想到了使用AJAX来实现。　　以下介绍解决方法（请忽视 ... [详细]

蜡笔小新 2024-11-19 10:11:02
html
Selenium 2 测试用例详解

本文详细介绍了使用 Selenium 2 进行测试的各种类型和注意事项，包括静态内容测试、链接测试、功能测试、动态元素测试、Ajax 测试以及断言与验证的区别。 ... [详细]

蜡笔小新 2024-11-18 21:59:48
html
使用 jQuery 实现页面加载进度条

页面加载进度条是提升用户体验的重要工具，通过在页面头部显示一个加载状态，并在页面完全加载后隐藏，可以有效减少用户的等待焦虑。本文将详细介绍如何使用 jQuery 实现这一功能。 ... [详细]

蜡笔小新 2024-11-18 20:00:09
html
HTML5 Canvas 图片导出与上传至远程服务器的方法

在现代Web开发中，HTML5 Canvas常用于图像处理和绘图任务。本文将详细介绍如何将Canvas中的图像导出并上传至服务器，适用于拼图、图片编辑等场景。 ... [详细]

蜡笔小新 2024-11-18 18:04:32
html
jQuery ajax $.get或$.post 实现timeout超时设置的方法

jQuery ajax $.get或$.post 实现timeout超时设置的方法 ... [详细]

蜡笔小新 2024-11-18 13:48:03

漂漂雪飘飘业_348

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

关于美团数据的爬取

打开美团官网，搜索足道

美团数据加载方式Ajax请求美团的数据请求方式是Ajax的请求方式，属于数据异步加载方式，这是一个动态页面，而解决这种方式有两种，一种selenium，一种使用requests进行抓包。在这里我们使用requests进行抓包

F12，打开开发者工具，进入Network

这样基本上表面封面的数据就得心应手了接下来就可以进行数据存储了

美团数据加载方式Ajax请求
美团的数据请求方式是Ajax的请求方式，属于数据异步加载方式，这是一个动态页面，而解决这种方式有两种，一种selenium，一种使用requests进行抓包。在这里我们使用requests进行抓包