python3爬虫1--简单网页源代码获取

作者：张群羽圣文 | 来源：互联网 | 2022-12-28 09:09

1、直接获取.read()requests.get()1.1输出Unicode格式importurllib.requestrequesturllib.request.Reque

1、直接获取 .read()/requests.get()

1.1 输出Unicode格式

import urllib.request
request=urllib.request.Request('http://www.baidu.com')
response=urllib.request.urlopen(request)
html=response.read()
print(html)

输出是Unicode格式

>>> print(dir(urllib))
['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__',
'__package__', '__path__', '__spec__']

奇怪，为什么urllib展开没有request

>>> help(urllib)
Help on package urllib:

NAME
    urllib

PACKAGE CONTENTS
    error
    parse
    request
    response
    robotparser

原来要用help

知识点：
1、urllib.request

1.2 为了显示中文，更改了输出格式

import urllib.request
import io  
import sys  

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码 

request=urllib.request.Request('http://www.cc98.org/index.asp')

respOnse=urllib.request.urlopen(request)
html=response.read()

print(html.decode('utf-8'))

这里边，把utf标准输出转化为gb18030，详细见参考4。

问题：
1.爬http://www.baidu.com和爬https://www.baidu.com 得到的内容不同；
2.爬http://www.baidu.com得到的内容和直接用浏览器看源代码的内容不同，感觉直接用python爬，内容缺少。

1.3采用requests.get()

import requests  
import io  
import sys  

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码 
html = requests.get('http://www.baidu.com')  
html.encoding = 'utf-8' #这一行是将编码转为utf-8否则中文会显示乱码。 
print(html.text)

1.4采用修改http 的requests.get()

import requests  
import re  
import io
from imp import reload
#下面三行是编码转换的功能 
import sys  
reload(sys)  

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码 
#hea是我们自己构造的一个字典，里面保存了user-agent。 
#让目标网站误以为本程序是浏览器，并非爬虫。 
#从网站的Requests Header中获取。【审查元素】 
hea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}  

html = requests.get('http://www.baidu.com/',headers = hea)  

html.encoding = 'utf-8' #这一行是将编码转为utf-8否则中文会显示乱码。 
print(html.text)

2.带正则表达式的提取

import requests
import re
import io
#下面三行是编码转换的功能
import sys
from imp import reload
reload(sys)
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码 

#hea是我们自己构造的一个字典，里面保存了user-agent。
#让目标网站误以为本程序是浏览器，并非爬虫。
#从网站的Requests Header中获取。【审查元素】
hea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}

html = requests.get('http://www.douban.com/',headers = hea)

html.encoding = 'utf-8' #这一行是将编码转为utf-8否则中文会显示乱码。

#此为正则表达式部分。找到规律，利用正则，内容就可以出来
title = re.findall('
',html.text,re.S)
for each in title: 
    print(each)

知识点：
1.from imp import reload
2.sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码

3.requests.post()表单提交法

#-*-coding:utf8-*- 
import requests  
import re  

#需要使用Chrome浏览器中的：审查元素->Network 
#很多信息，如url、page、提交方法等都必须从里得到 

#原来的目标网址，但不能作为目标url 
# url = 'https://www.crowdfunder.com/browse/deals' 

#Post表单向此链接提交数据 
url = 'https://www.crowdfunder.com/browse/deals&template=false'  

#get方法比较 
# html = requests.get(url).text 
# print html 


#注意这里的page后面跟的数字需要放到引号里面。 
#page的数据可以改动 
data = {  
    'entities_only':'true',  
    'page':'2'  
}  

html_post = requests.post(url,data=data)  
title = re.findall('"card-title">(.*?)

',html_post.text,re.S)  
for each in title:  
    print(each)

参考：
1.Python3 urllib模块的使用；
2.Requests快速上手；
3.Requests高级用法；
4.编码gbk错误问题
5.Requests获取网页源码

推荐阅读

range
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
get
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
range
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
foreach
PHP二维数组根据某个字段排序的方法

本文介绍了一种在PHP中对二维数组根据某个字段进行排序的方法，以年龄字段为例，按照倒序的方式进行排序，并给出了具体的代码实现。 ... [详细]

蜡笔小新 2023-12-11 10:56:01
uri
全面介绍Windows内存管理机制及C++内存分配实例（四）：内存映射文件

本文旨在全面介绍Windows内存管理机制及C++内存分配实例中的内存映射文件。通过对内存映射文件的使用场合和与虚拟内存的区别进行解析，帮助读者更好地理解操作系统的内存管理机制。同时，本文还提供了相关章节的链接，方便读者深入学习Windows内存管理及C++内存分配实例的其他内容。 ... [详细]

蜡笔小新 2023-12-10 18:30:17
uri
DSP中cmd文件的命令文件组成及其作用

本文介绍了DSP中cmd文件的命令文件的组成和作用，包括链接器配置文件的存放链接器配置信息、命令文件的组成、MEMORY和SECTIONS两个伪指令的使用、CMD分配ROM和RAM空间的目的以及MEMORY指定芯片的ROM和RAM大小和划分区间的方法。同时强调了根据不同芯片进行修改的必要性，以适应不同芯片的存储用户程序的需求。 ... [详细]

蜡笔小新 2023-12-10 15:31:37
header
php将utf8转为gbk,php utf8怎么转gbk

phputf8转gbk的方法：首先创建一个PHP示例文件；然后通过“iconv(UTF-8,gbkTRANSLIT,$str);”方法将字符串的 ... [详细]

蜡笔小新 2023-10-17 21:19:24
web
asp中如何嵌入python的简单介绍

本文目录一览：1、如何在IIS中执行Python脚本 ... [详细]

蜡笔小新 2023-10-17 19:41:52
web
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
web
C#之数据集：DataSet对象的使用及相关方法详解

本文介绍了C#中数据集DataSet对象的使用及相关方法详解，包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成，以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读，读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]

蜡笔小新 2023-12-14 12:09:13
get
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
jar
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
go
拥抱Android Design Support Library新变化（导航视图、悬浮ActionBar）

转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一，为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]

蜡笔小新 2023-12-13 16:11:00
input
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
get
com.evernote.android.job.JobRequest.getTransientExtras()方法的使用及代码示例

本文整理了Java中com.evernote.android.job.JobRequest.getTransientExtras()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-12-09 10:33:37