当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:Python爬虫系列初探：爬取旅游评论

作者：Yuki_沐1824355667 | 来源：互联网 | 2023-10-12 08:02

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python爬虫系列-初探：爬取旅游评论相关的知识，希望对你有一定的参考价值。Python爬虫目前是基于reques

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python爬虫系列 - 初探：爬取旅游评论相关的知识，希望对你有一定的参考价值。

Python爬虫目前是基于requests包，下面是该包的文档，查一些资料还是比较方便。

http://docs.python-requests.org/en/master/

爬取某旅游网站的产品评论，通过分析，获取json文件需要POST指令。简单来说：

GET是将需要发送的信息直接添加在网址后面发送

POST方式是发送一个另外的内容到服务器

那么通过POST发送的内容可以大概有三种，即form、json和multipart，目前先介绍前两种

1.content in form

Content-Type: application/x-www-form-urlencoded

将内容放入dict，然后传递给参数data即可。

payload = {‘key1‘: ‘value1‘, ‘key2‘: ‘value2‘}
r = requests.post(url, data=payload)

2. content in json

Content-Type: application/json

将dict转换为json，传递给data参数。

payload = {‘some‘: ‘data‘}
r = requests.post(url, data=json.dumps(payload))

或者将dict传递给json参数。

payload = {‘some‘: ‘data‘}
r = requests.post(url, json=payload)

然后贴一下简单的代码供参考。

import requests
import json
def getCommentStr():
url = r"https://package.com/user/comment/product/queryComments.json"
header = {
‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0‘,
‘Accept‘: r‘application/json, text/Javascript, */*; q=0.01‘,
‘Accept-Language‘: r‘en-US,en;q=0.5‘,
‘Accept-Encoding‘: r‘gzip, deflate, br‘,
‘Content-Type‘: r‘application/x-www-form-urlencoded; charset=UTF-8‘,
‘X-Requested-With‘: r‘XMLHttpRequest‘,
‘Content-Length‘: ‘65‘,
‘DNT‘: ‘1‘,
‘Connection‘: r‘keep-alive‘,
‘TE‘: r‘Trailers‘
}
params = {
‘pageNo‘: ‘2‘,
‘pageSize‘: ‘10‘,
‘productId‘: ‘2590732030‘,
‘rateStatus‘: ‘ALL‘,
‘type‘: ‘all‘
}

r = requests.post(url, headers = header, data = params)
print(r.text)
getCommentStr()

小技巧

对于COOKIEs，感觉可以用浏览器的编辑功能，逐步删除每次发送的COOKIEs信息，判断哪些是没有用的？

对于测试代码阶段，我还是比较习惯于将爬取的数据存为str，也算是为了服务器减负吧。

推荐阅读

服务器
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
timestamp
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
list
使用Fetch进行HTTP请求的基本示例

本文介绍了如何使用JavaScript的Fetch API与Express服务器进行交互，涵盖了GET、POST、PUT和DELETE请求的实现，并展示了如何处理JSON响应。 ... [详细]

蜡笔小新 2024-12-22 12:55:37
list
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
php
PHP序列化与反序列化的使用方法

本文详细介绍了如何在PHP中使用serialize()和unserialize()函数，以及它们在数据传输和存储中的应用。 ... [详细]

蜡笔小新 2024-12-23 11:22:20
list
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
list
性能对比：Jsonapi-rb与AMS

本文探讨了Jsonapi-rb与ActiveModelSerializers (AMS)在性能上的差异，并分享了详细的基准测试结果。 ... [详细]

蜡笔小新 2024-12-23 10:11:22
list
Python 游戏开发实战：构建游戏主程序模块

在本教程中，我们将深入探讨如何使用 Python 构建游戏的主程序模块。通过逐步实现各个关键组件，最终完成一个功能完善的游戏界面。 ... [详细]

蜡笔小新 2024-12-23 09:29:59
match
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
controller
Spring Boot集成Redis及其应用实例

本文介绍如何在Spring Boot项目中集成Redis，并通过具体案例展示其配置和使用方法。包括添加依赖、配置连接信息、自定义序列化方式以及实现仓储接口。 ... [详细]

蜡笔小新 2024-12-22 17:35:23
controller
基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发

本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]

蜡笔小新 2024-12-22 15:31:28
default
优化C++项目中的JSON处理：选择高性能的RapidJSON库

在高并发需求的C++项目中，我们最初选择了JsonCpp进行JSON解析和序列化。然而，在处理大数据量时，JsonCpp频繁抛出异常，尤其是在多线程环境下问题更为突出。通过分析发现，旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估，我们最终选择了RapidJSON作为替代方案，并实现了显著的性能提升。 ... [详细]

蜡笔小新 2024-12-21 18:13:59
php
深入理解ExtJS：从入门到精通

本文详细介绍了ExtJS的功能及其在大型企业前端开发中的应用。通过实例和详细的文件结构解析，帮助初学者快速掌握ExtJS的核心概念，并提供实用技巧和最佳实践。 ... [详细]

蜡笔小新 2024-12-21 15:41:04
controller
ElasticSearch 集群监控与优化

本文详细介绍了如何有效地监控 ElasticSearch 集群，涵盖了关键性能指标、集群健康状况、统计信息以及内存和垃圾回收的监控方法。 ... [详细]

蜡笔小新 2024-12-21 13:43:04
controller
Pug 模板中 JSON 插值的实现与应用

本文探讨了如何在 Pug 模板中正确地使用 JSON 插值，并解决了相关文档不足的问题。我们将介绍通过 gulp-pug 处理 JSON 数据的具体方法，以及如何在模板中插入和显示这些数据。 ... [详细]

蜡笔小新 2024-12-21 17:32:12

Yuki_沐1824355667

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章