当前位置: 开发笔记 > 编程语言 > 正文

python访问网站添加请求头_python爬虫添加请求头代码实例

作者：阿里根本_436 | 来源：互联网 | 2023-08-28 14:03

这篇文章主要介绍了python爬虫添加请求头代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下requesti

这篇文章主要介绍了python爬虫添加请求头代码实例,文中通过示例代码介绍的非常详细&＃xff0c;对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

request

importrequests

headers&＃61;{#&＃39;Accept&＃39;: &＃39;application/json, text/Javascript, */*; q&＃61;0.01&＃39;,

#&＃39;Accept&＃39;: &＃39;*/*&＃39;,

#&＃39;Accept-Language&＃39;: &＃39;zh-CN,zh;q&＃61;0.9,en;q&＃61;0.8,en-US;q&＃61;0.7&＃39;,

#&＃39;Cache-Control&＃39;: &＃39;no-cache&＃39;,

#&＃39;accept-encoding&＃39;: &＃39;gzip, deflate, br&＃39;,

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36&＃39;,&＃39;Referer&＃39;: &＃39;https://www.google.com/&＃39;}

resp&＃61; requests.get(&＃39;http://httpbin.org/get&＃39;, headers&＃61;headers)print(resp.content)

urllib

importurllib, urllib2defget_page_source(url):

headers&＃61; {&＃39;Accept&＃39;: &＃39;*/*&＃39;,&＃39;Accept-Language&＃39;: &＃39;en-US,en;q&＃61;0.8&＃39;,&＃39;Cache-Control&＃39;: &＃39;max-age&＃61;0&＃39;,&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36&＃39;,&＃39;Connection&＃39;: &＃39;keep-alive&＃39;,&＃39;Referer&＃39;: &＃39;http://www.baidu.com/&＃39;}

req&＃61;urllib2.Request(url, None, headers)

response&＃61;urllib2.urlopen(req)

page_source&＃61;response.read()return page_source

phantomjs请求页面

from selenium importwebdriverfrom selenium.webdriver.common.desired_capabilities importDesiredCapabilitiesdefget_headers_driver():

desire&＃61;DesiredCapabilities.PHANTOMJS.copy()

desire[&＃39;phantomjs.page.customHeaders.{}&＃39;.format(key)] &＃61;value

driver&＃61; webdriver.PhantomJS(desired_capabilities&＃61;desire, service_args&＃61;[&＃39;--load-images&＃61;yes&＃39;])#将yes改成no可以让浏览器不加载图片

return driver

主要介绍了python爬虫添加请求头代码实例,文中通过示例代码介绍的非常详细&＃xff0c;对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

以上就是本文的全部内容&＃xff0c;希望对大家的学习有所帮助&＃xff0c;也希望大家多多支持python博客。

1、为什么要设置headers?

在请求网页爬取的时候&＃xff0c;输出的text信息中会出现抱歉&＃xff0c;无法访问等字眼&＃xff0c;这就是禁止爬取&＃xff0c;需要通过反爬机制去解决这个问题。

headers是解决requests请求反爬的方法之一&＃xff0c;相当于我们进去这个网页的服务器本身&＃xff0c;假装自己本身在爬取数据。

对反爬虫网页&＃xff0c;可以设置一些headers信息&＃xff0c;模拟成浏览器取访问网站。

2、 headers在哪里找&＃xff1f;

谷歌或者火狐浏览器&＃xff0c;在网页面上点击&＃xff1a;右键–>检查–>剩余按照图中显示操作&＃xff0c;需要按Fn&＃43;F5刷新出网页来

有的浏览器是点击&＃xff1a;右键->查看元素&＃xff0c;刷新

以上就是python爬虫请求头设置代码的详细内容&＃xff0c;更多关于python爬虫请求头如何设置的资料请关注脚本之家其它相关文章&＃xff01;

推荐阅读

get
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
java
pyecharts 介绍

一、pyecharts介绍ECharts，一个使用JavaScript实现的开源可视化库，可以流畅的运行在PC和移动设备上，兼容当前绝大部 ... [详细]

蜡笔小新 2023-10-16 08:29:03
python
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
get
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
function
Voicewo在线语音识别转换jQuery插件的特点和示例

本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件，该插件具有快速、架构、风格、扩展和兼容等特点，适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]

蜡笔小新 2023-12-13 20:01:16
python
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
get
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
java
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
java
2022年的风口：你看不起的行业，真的很挣钱！

本文介绍了2022年的风口，探讨了一份稳定的副业收入对于普通人增加收入的重要性，以及如何抓住风口来实现赚钱的目标。文章指出，拼命工作并不一定能让人有钱，而是需要顺应时代的方向。 ... [详细]

蜡笔小新 2023-12-11 18:31:31
java
JavaScript简介及语言特点

本文介绍了JavaScript的起源和发展历程，以及其在前端验证和服务器端开发中的应用。同时，还介绍了ECMAScript标准、DOM对象和BOM对象的作用及特点。最后，对JavaScript作为解释型语言和编译型语言的区别进行了说明。 ... [详细]

蜡笔小新 2023-12-10 17:45:49
java
Mono为何能跨平台

概念JIT编译(JITcompilation)，运行时需要代码时，将Microsoft中间语言(MSIL)转换为机器码的编译。CLR(CommonLa ... [详细]

蜡笔小新 2023-10-17 22:25:26
java
Linux下部署Symfoy2对app/cache和app/logs目录的权限设置，symfoy2logs

php教程|php手册xml文件php教程-php手册Linux下部署Symfoy2对appcache和applogs目录的权限设置，symfoy2logs黑色记事本源码,vsco ... [详细]

蜡笔小新 2023-10-17 20:32:59
java
Oracle 和 mysql的9点区别【MySQL】

数据库|mysql教程oracle,Oracle,money,mysql,coun数据库-mysql教程1.组函数用法规则mysql中组函数在select语句中可以随意使用，但在o ... [详细]

蜡笔小新 2023-10-17 19:49:32
java
开发笔记:Python之路第一篇：初识Python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之路第一篇：初识Python相关的知识，希望对你有一定的参考价值。Python简介& ... [详细]

蜡笔小新 2023-10-17 18:58:48
java
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58

阿里根本_436

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章