查看网页是否压缩gzip+编码方式

作者：维尼饭爱nichkhun_774 | 来源：互联网 | 2023-05-19 16:28

一、查看网页是否压缩gziprequrllib.request.Request(url)htmlurllib.request.urlopen(req)print(html.info().g

一、查看网页是否压缩gzip

req = urllib.request.Request(url)
html = urllib.request.urlopen(req)
print(html.info().get('Content-Encoding'))  #print(html.info())能查看更多信息

二、查看网页编码方式

在学习Python爬取网页的时候，我们经常会遇到编码方式的困扰，为了解决这个编码方式的问题，首先是要获取网页的编码方式，下面就获取网页的编码方式重点说一下三种方法。

一，使用chardet模块（python3自己实现，亲测成功）

import chardet 
import urllib.request

data = urllib.request.urlopen('http://www.baidu.com').read()
chardit = chardet.detect(data)
print (chardit['encoding'])

在工作中进行以下实现：

import urllib.request
import chardet  #用于获取网页编码方式

urls = open("f:/1.txt") #从1.txt取urls数据
for url in urls:    
    request = urllib.request.Request(url)  
    respOnse= urllib.request.urlopen(request)
    data = response.read()
    chardit = chardet.detect(data) #chardit为获取网页编码相关信息的字典
    rule = chardit["encoding"]
    if rule:
        print(rule)
    else:
        print("error!没有获得网页编码格式信息")

二，使用urllib模块的getparam方法

import urllib
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

三，利用BeautifulSoup模块方法

>from bs4 import BeautifulSoup
>import urllib2
>cOntent=urllib2.urlopen(url)#这里url是你需要获取的网页
>soup=BeautifulSoup(content)
>print soup.original_encoding #这里的输出就是网页的编码方式
 
  1
  2
  3
  4
  5
 
 
  1
  2
  3
  4
  5

这里爬取网页内容出现的乱码问题，可以参考博客文章。

这里获取网页html内容，可以参考博客文章。

转载自：http://blog.csdn.net/winterto1990/article/details/47658887

推荐阅读

python
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
python
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
jsp
django视图函数的使用方法

本文介绍了django中视图函数的使用方法，包括如何接收Web请求并返回Web响应，以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]

蜡笔小新 2023-12-12 16:02:59
jsp
延迟注入工具（python）的SQL脚本

本文介绍了一个延迟注入工具（python）的SQL脚本，包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试，并通过延迟时间来判断注入是否成功。 ... [详细]

蜡笔小新 2023-12-12 10:36:42
python
Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图

微信公众号：「Python读财」如有问题或建议，请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]

蜡笔小新 2023-10-17 17:48:15
python
python数据可视化matplotlib专题：带数据标签的双batch的Bar图绘制示例

基于matplotlib的双Batch带标签bar图生成函数李俊才邮箱：291148484163.com【代码实现】importmatplotlibimpor ... [详细]

蜡笔小新 2023-10-16 11:19:27
python
python教程分享Python获取时光网电影数据的实例代码

一、前言有时候觉得电影真是人类有史以来最伟大的发明，我喜欢看电影，看电影可以让我们增长见闻，学习知识。从某种角度上而言，电影凭借自身独有的魅力大大延长了人类的”寿命&r ... [详细]

蜡笔小新 2023-09-23 17:00:11
python
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
string
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
string
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
string
开发笔记:Java是如何读取和写入浏览器Cookies的

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Java是如何读取和写入浏览器Cookies的相关的知识，希望对你有一定的参考价值。首先我 ... [详细]

蜡笔小新 2023-12-12 20:18:02
string
网络请求模块选择——axios框架的基本使用和封装

本文介绍了选择网络请求模块axios的原因，以及axios框架的基本使用和封装方法。包括发送并发请求的演示，全局配置的设置，创建axios实例的方法，拦截器的使用，以及如何封装和请求响应劫持等内容。 ... [详细]

蜡笔小新 2023-12-12 10:16:43
python
python限制递归次数（python最大公约数递归）

本文目录一览：1、python为什么要进行递归限制 ... [详细]

蜡笔小新 2023-12-11 17:39:02
python
Sleuth+zipkin链路追踪SpringCloud微服务的解决方案

在庞大的微服务群中，随着业务扩展，微服务个数增多，系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来，实现请求链路跟踪。通过Feign调用和Request传递TraceId，将整个调用链路的服务日志归组合并，提供定位和追踪的功能。 ... [详细]

蜡笔小新 2023-12-09 19:14:50
python
python3 中encode 和decode的使用方法。

编码：　　将文本转换成字节流的过程。即Unicode----------->特定格式的编码方式，产生特定的字节流保存在硬盘中(一般为utf-8格式)。解码：　　将硬盘中的字节流转换成文本的过程。 ... [详细]

蜡笔小新 2023-10-09 19:42:30

维尼饭爱nichkhun_774

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章