Python爬虫之GET和POST的区别

作者：情系50后_989 | 来源：互联网 | 2023-09-13 23:43

今天就跟大家聊聊有关Python爬虫之GET和POST的区别，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文

今天就跟大家聊聊有关Python爬虫之GET和POST的区别，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

爬虫——GET请求和POST请求

urllib.parse.urlencode()和urllib.parse.unquote()

编码工作使用urllib.parse的urlencode()函数，帮我们将key:value这样的键值对转换成"key=value"这样的字符串，解码工作可以使用urllib的unquote()函数。

# python3.5控制台中测试结果
>>> import urllib
>>> word = {"wd":"爬虫"}
# 通过urllib.parse.urlencode()方法，将字典键值对按URL编码转换，从而能被wed服务器接受。
>>> urllib.parse.urlencode(word)
&＃39;wd=%E7%88%AC%E8%99%AB&＃39;
# 通过urllib.parse.unquote()方法，把URL编码字符串，转换回原先的字符串。
>>> urllib.parse.unquote(word)
&＃39;wd=爬虫&＃39;

一般HTTP请求提交数据，需要编码成URL编码格式，然后做为URL的一部分，或者作为参数传到Request对象中。

GET方式

GET请求一般用于我们向服务器获取数据，比如说，我们用百度搜索爬虫：https://www.baidu.com/s?wd=爬虫（https://www.baidu.com/s?wd=%E7%88%AC%E8%99%AB）

我们可以看到在请求部分里，http://www.baidu.com/s? 之后出现一个长长的字符串，其中就包含我们要查询的关键词“爬虫”，于是我们可以尝试用默认的GET方式来发送请求。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
 
# 导入库
import urllib.request
import urllib
 
url = "http://www.baidu.com/s?"
word = {"wd":"爬虫"}
# 转换成url编码格式
word = urllib.parse.urlencode(word)
# 拼接成完整的url
full_url = url + word
# chrome 的 User-Agent，包含在 header里
header = {&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36&＃39;}
# url 连同 headers，一起构造Request请求，这个请求将附带 chrome 浏览器的User-Agent
request = urllib.request.Request(full_url, headers = header)
# 向服务器发送这个请求
response = urllib.request.urlopen(request)
 
html = response.read()
fo = open("baidu.html", "wb")
fo.write(html)
fo.close()

批量爬取贴吧页面数据

首先我们创建一个python文件：tiebaSpider.py，我们要完成的功能是，输入一个百度贴吧的地址，比如：百度贴吧LOL吧

第一页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

……

爬取以上页面的内容

#!/usr/bin/python3
# -*- coding:utf-8 -*-
 
"""
功能：批量爬取贴吧页面数据
目标地址：百度贴吧LOL吧
分析：
    第一页：https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0
    第二页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50
    第三页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100
    ……
规律：
    贴吧中每个页面URL不同之处，就是最后的pn值，其余的都是一样的。其pn = (page - 1) * 50
    url = "https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn="
    pn = (page - 1) * 50
    full_url = url + str(pn)
"""
 
# 导入库
import urllib
import urllib.request
 
# 根据url地址，获取服务器响应文件
def loadPage(url):
    """
    功能：根据url地址，获取服务器响应文件
    :param url: url地址
    :return: 获取的服务器响应文件信息
    """
    # chrome 的User-Agent 头
    header = {&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36&＃39;}
    # url 连同 headers，一起构造Request请求，这个请求将附带 chrome 浏览器的User-Agent
    request = urllib.request.Request(url, headers = header)
    # 向服务器发送这个请求
    reponse = urllib.request.urlopen(request)
    # 获取响应文件中的全部内容
    html = reponse.read()
 
    return html
 
# 存储文件
def writeFile(html, file_name):
    """
    功能：存服务器响应文件到本地磁盘文件里
    :param html: 服务器响应文件内容
    :param file_name: 本地磁盘文件名
    :return: None
    """
    with open(file_name, "wb") as f:
        f.write(html)
 
 
# 贴吧爬虫函数
def tiebaSpider(url, begin_page, end_page):
    """
    功能：处理从begin_page到end_page的url页面
    :param url: url地址
    :param begin_page: 需爬取的起始页
    :param end_page: 需爬取的终止页
    :return:
    """
    for page in range(begin_page, end_page + 1):
        pn = (page - 1) * 50
        full_url = url + str(pn)
        file_name = "第" + str(page) + "页.html"
        print("正在爬取" + file_name)
        # 获取full_url对应的html文件信息
        html = loadPage(full_url)
        print("正在存储" + file_name)
        # 存储full_url对应的html文件信息
        writeFile(html, file_name)
 
# 主函数
if __name__ == &＃39;__main__&＃39;:
    url = "https://tieba.baidu.com/f?"
    # 输入需爬取的贴吧
    kw = input("请输入需要爬取的贴吧：")
    # 输入需爬取的起始页和终止页
    begin_page = int(input("请输入起始页："))
    end_page = int(input("请输入终止页："))
    key = urllib.parse.urlencode({"kw":kw})
    # 组合的的url示例：https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=
    url = url + key + "&ie=utf-8&pn="
    # 调用贴吧爬虫函数，爬取数据
    tiebaSpider(url, begin_page, end_page)

POST方式

Request请求对象里有data参数，这就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要有匹配键值对。

以下以有道词典翻译网站为例为模拟POST请求。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
  
"""
POST方式：以有道词典翻译网站为例
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessiOnFrom=null"
"""
 
# 导入库
import urllib.request
import urllib
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessiOnFrom=null"
# chrome 的 User-Agent，包含在 header里
header = {&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36&＃39;}
 
word = input("请输入需要翻译的词条：")
 
from_data = {
    "i":word,
    "from":"AUTO",
    "to":"AUTO",
    "smartresult":"dict",
    "doctype":"json",
    "version":"2.1",
    "keyfrom":"fanyi.wed"
}
data = urllib.parse.urlencode(from_data)
data = data.encode(encoding="utf-8")  # str转bytes
 
request = urllib.request.Request(url, data = data, headers = header)
 
response = urllib.request.urlopen(request)
 
html = response.read().decode(encoding = "utf-8").strip()
 
print(html)

获取AJAX加载的内容

有些网页内容是使用AJAX加载的，AJAX一般返回的是JSON，直接对AJAX地址进行POST或GET，就能返回JSON数据。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
  
"""
获取AJAX加载的数据
有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了。
以豆瓣为例：
url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100:90&action&start=0&limit=100"
"""
 
# 导入库
import urllib
import urllib.request
 
url = "https://movie.douban.com/j/chart/top_list?"
# chrome 的 User-Agent，包含在 header里
header = {&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36&＃39;}
from_data = {
    &＃39;type&＃39;:&＃39;11&＃39;,
    &＃39;interval_id&＃39;:&＃39;100:90&＃39;,
    &＃39;action&＃39;:&＃39;&＃39;,
    &＃39;start&＃39;:&＃39;0&＃39;,
    &＃39;limit&＃39;:&＃39;100&＃39;
}
data = urllib.parse.urlencode(from_data)
data = data.encode(encoding="utf-8")  # str转bytes
 
request = urllib.request.Request(url, data = data, headers = header)
 
response = urllib.request.urlopen(request)
 
html = response.read().decode(encoding = "utf-8")
 
print(html)

看完上述内容，你们对Python爬虫之GET和POST的区别有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注编程笔记行业资讯频道，感谢大家的支持。

推荐阅读

uri
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
python
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
python
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
timestamp
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
utf-8
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
python
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
uri
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
uri
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
instance
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
config
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
uri
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
python
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
ip
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
install
Unity与MySQL连接过程中出现的新挑战及解决方案探析

Unity与MySQL连接过程中出现的新挑战及解决方案探析 ... [详细]

蜡笔小新 2024-11-11 09:55:19
ip
DNS服务器证书与SSL证书：IP地址、域名注册、查询及CDN加速技术详解

在配置Nginx的SSL证书后，虽然HTTPS访问能够正常工作，但HTTP请求却会遇到400错误。本文详细解析了这一问题，并提供了Nginx配置的具体示例。此外，还深入探讨了DNS服务器证书、SSL证书的申请与安装流程，以及域名注册、查询方法和CDN加速技术的应用，帮助读者全面了解相关技术细节。 ... [详细]

蜡笔小新 2024-11-10 08:22:07

情系50后_989

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章