当前位置: 开发笔记 > 前端 > 正文

Python爬虫headers处理及网络超时问题解决方案

作者：刘刚michaelup_340 | 来源：互联网 | 2022-03-12 06:56

这篇文章主要介绍了Python爬虫headers处理及网络超时问题解决方案,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

1、请求headers处理

　　我们有时请求服务器时，无论get或post请求，会出现403错误，这是因为服务器拒绝了你的访问，这时我们可以通过模拟浏览器的头部信息进行访问，这样就可以解决反爬设置的问题。

import requests
# 创建需要爬取网页的地址
url = 'https://www.baidu.com/'   
# 创建头部信息
headers = {'User-Agent':'OW64; rv:59.0) Gecko/20100101 Firefox/59.0'}
# 发送网络请求
respOnse= requests.get(url, headers=headers)  
# 以字节流形式打印网页源码
print(response.content)

结果：

b'\n\n\n  \n  \n

2、网络超时问题

　　在访问一个网页时，如果该网页长时间未响应，系统就会判断该网页超时，而无法打开网页。下面通过代码来模拟一个网络超时的现象。

import requests
# 循环发送请求50次
for a in range(1, 50):
  # 捕获异常
  try:
    # 设置超时为0.5秒
    respOnse= requests.get('https://www.baidu.com/', timeout=0.5)
    # 打印状态码
    print(response.status_code)
  # 捕获异常
  except Exception as e:
    # 打印异常信息
    print('异常'+str(e))

结果：

以上代码中，模拟进行了50次循环请求，设置超时时间为0.5秒，在0.5秒内服务器未作出相应视为超时，程序会将超时信息打印在控制台中。

　　说起网络异常信息，requests模块同样提供了三种常见的网络异常类，示例代码如下：

import requests
# 导入requests.exceptions模块中的三种异常类
from requests.exceptions import ReadTimeout,HTTPError,RequestException
# 循环发送请求50次
for a in range(1, 50):
  # 捕获异常
  try:
    # 设置超时为0.5秒
    respOnse= requests.get('https://www.baidu.com/', timeout=0.5)
    # 打印状态码
    print(response.status_code)
  # 超时异常
  except ReadTimeout:
    print('timeout')
  # HTTP异常
  except HTTPError:
    print('httperror')
  # 请求异常
  except RequestException:
    print('reqerror')

结果：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

firefox
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
firefox
Selenium与Python结合实现网页滚动条的自动化控制

本文介绍了如何利用Selenium和Python通过执行JavaScript代码来控制网页中的滚动条，包括垂直和水平滚动条的控制，以及特定元素的聚焦技术。 ... [详细]

蜡笔小新 2024-12-14 14:25:02
firefox
Ubuntu 7.10 常用软件安装指南

本文详细介绍了在Ubuntu 7.10操作系统上安装多种常用软件的方法，包括RAR压缩工具、即时通讯软件Pidgin、办公软件永中Office 2007试用版、多线程下载软件MultiGet及d4x、FTP客户端gFTP与FireFTP插件，以及P2P下载工具aMule。每部分都提供了具体的安装步骤和配置方法。 ... [详细]

蜡笔小新 2024-12-09 10:29:31
firefox
深入学习Shiro：并发登录人数限制实现

本文详细介绍了如何在Apache Shiro框架中实现对并发登录人数的限制，包括配置和自定义过滤器的具体步骤。 ... [详细]

蜡笔小新 2024-12-06 17:14:41
css
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
css
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
html
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
html
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
firefox
WPF/E CTP与SDK即将发布，引领RIA新时代？

Microsoft即将发布WPF/E的CTP（Community Technology Preview）和SDK，标志着RIA（Rich Internet Application）技术的新里程碑。更多详情及下载链接请参见MSDN官方页面。 ... [详细]

蜡笔小新 2024-12-16 16:06:18
firefox
利用CSS3和React实现数字滚动动画组件

在前端开发中，数字滚动动画是一个常见的需求。本文将详细介绍如何使用CSS3和React构建一个数字滚动动画组件，包括组件的代码实现和样式设计。如果您对HTML版本感兴趣，欢迎留言获取。 ... [详细]

蜡笔小新 2024-12-13 13:48:05
firefox
Scroll Event Fails to Retrieve Mouse Coordinates

Exploring the issue where the onScroll event does not correctly capture clientX and clientY values across different browsers. ... [详细]

蜡笔小新 2024-12-10 10:44:30
firefox
解决HTML5 WebSocket频繁断开连接的问题

本文探讨了在使用HTML5 WebSocket技术构建浏览器内聊天室时遇到的连接不稳定问题，并提供了可能的解决方案和调试方法。 ... [详细]

蜡笔小新 2024-12-07 17:07:00
html
程序员思维：深入解析与应用

本文探讨了如何像程序员一样思考，强调了将复杂问题分解为更小模块的重要性，并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]

蜡笔小新 2024-12-28 01:48:10
html
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
html
Maven多模块项目管理最佳实践

本文详细介绍了如何使用Maven高效管理多模块项目，涵盖项目结构设计、依赖管理和构建优化等方面。通过具体的实例和配置说明，帮助开发者更好地理解和应用Maven在复杂项目中的优势。 ... [详细]

蜡笔小新 2024-12-27 19:29:15

刘刚michaelup_340

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章