Python3.4爬虫编程

作者：达人多多宝_836 | 来源：互联网 | 2023-05-17 10:30

感谢@林炳文Evankaka转载于http:blog.csdn.netevankaka一、第一个示例，我们要来进行简单的爬虫来爬别人的网页#python3.4爬

感谢@林炳文Evankaka
转载于http://blog.csdn.net/evankaka

一、第一个示例，我们要来进行简单的爬虫来爬别人的网页

    #python3.4 爬虫教程  
    #一个简单的示例爬虫  
    #林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)  
    import urllib.request 
    url = "http://www.douban.com/"  
    webPage=urllib.request.urlopen(url)  
    data = webPage.read() 
    data = data.decode('UTF-8') 
    print(data) 
    print(type(webPage)) 
    print(webPage.geturl())  
    print(webPage.info())  
    print(webPage.getcode())

这是爬回来的网页输出：
这里写图片描述
这中间到底发生了什么事呢？让我们打开Fiddler来看看吧：

左边标红的就表示我们本次访问成功，为http 200

右边上方这是python生成的请求报头，不清楚看下面：
这里写图片描述
这里响应回来的就是我们上面在python的idle中打印出来的网页了！

二、伪装成浏览器来爬网页

有些网页，比如登录的。如果你不是从浏览器发起的起求，这就不会给你响应，这时我们就需要自己来写报头。然后再发给网页的服务器，这时它就以为你就是一个正常的浏览器。从而就可以爬了！

#python3.4 爬虫教程  
#一个简单的示例爬虫  
#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)  
import urllib.request  
weburl = "http://www.douban.com/"  
webheader = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}   
req = urllib.request.Request(url=weburl, headers=webheader)    
webPage=urllib.request.urlopen(req)  
data = webPage.read()  
data = data.decode('UTF-8')  
print(data)  
print(type(webPage))  
print(webPage.geturl())  
print(webPage.info())  
print(webPage.getcode())

来看看请求报头，就是和我们设置的一个样。
这里写图片描述
返回的是一样的：

再来一个复杂一点的请求报头：

#python3.4 爬虫教程
#一个简单的示例爬虫
#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)
import urllib.request
weburl = "http://www.douban.com/"
webheader1 = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
webheader2 = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
    #'Accept-Encoding': 'gzip, deflate',
    'Host': 'www.douban.com',
    'DNT': '1'
    }
req = urllib.request.Request(url=weburl, headers=webheader2)  
webPage=urllib.request.urlopen(req)
data = webPage.read()
data = data.decode('UTF-8')
print(data)
print(type(webPage))
print(webPage.geturl())
print(webPage.info())
print(webPage.getcode())

看看生成的结果:
这里写图片描述
返回还是：

3、爬取网站上的图片

前面我们可以爬网页了，下一步我们就可以批量的自动下载该网页上的各种数据了～，比如，这里我要下载该网页上的所有图片

#python3.4 爬虫教程
#爬取网站上的图片
#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)
import urllib.request  
import socket  
import re  
import sys  
import os  
targetDir = r"D:\PythonWorkPlace\load"  #文件保存路径
def destFile(path):  
    if not os.path.isdir(targetDir):  
        os.mkdir(targetDir)  
    pos = path.rindex('/')  
    t = os.path.join(targetDir, path[pos+1:])  
    return t  
if __name__ == "__main__":  #程序运行入口
    weburl = "http://www.douban.com/"
    webheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} 
    req = urllib.request.Request(url=weburl, headers=webheaders)  #构造请求报头
    webpage = urllib.request.urlopen(req)  #发送请求报头
    cOntentBytes= webpage.read()  
    for link, t in set(re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes))):  #正则表达式查找所有的图片
        print(link)
        try: 
            urllib.request.urlretrieve(link, destFile(link)) #下载图片
        except:
            print('失败') #异常抛出

这是正在运行的过程：
这里写图片描述
打开电脑上对应的文件夹，然后来看看图片，这里只是一部分哦

真实的网页上的图片

4、保存爬取回来的报文

    def saveFile(data):  
        save_path = 'D:\\temp.out'  
        f_obj = open(save_path, 'wb') # wb 表示打开方式 
        f_obj.write(data)  
        f_obj.close()  

    # 这里省略爬虫代码 
    # ... 

    # 爬到的数据放到 dat 变量里 
    # 将 dat 变量保存到 D 盘下 
    saveFile(dat)

比如：

    #python3.4 爬虫教程 
    #一个简单的示例爬虫 
    #林炳文Evankaka(博客：http://blog.csdn.net/evankaka/) 
    import urllib.request  
    def saveFile(data):  
        save_path = 'D:\\temp.out'  
        f_obj = open(save_path, 'wb') # wb 表示打开方式 
        f_obj.write(data)  
        f_obj.close()  
    weburl = "http://www.douban.com/"  
    webheader1 = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}  
    webheader2 = {  
        'Connection': 'Keep-Alive',  
        'Accept': 'text/html, application/xhtml+xml, */*',  
        'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',  
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',  
        #'Accept-Encoding': 'gzip, deflate', 
        'Host': 'www.douban.com',  
        'DNT': '1'  
        }  
    req = urllib.request.Request(url=weburl, headers=webheader2)    
    webPage=urllib.request.urlopen(req)  
    data = webPage.read()  
    saveFile(data)# 将data变量保存到 D 盘下 
    data = data.decode('UTF-8')  
    print(data)  
    print(type(webPage))  
    print(webPage.geturl())  
    print(webPage.info())  
    print(webPage.getcode())

然后看看D盘：

这里写图片描述
用NotePad打开：

三、Python3.x 自动登录

这里写图片描述
普通情况下我们输入邮箱和密码后，登录。来看看。这就是提交表单的内容

python3.4代码编写：

import gzip
import re
import http.COOKIEjar
import urllib.request
import urllib.parse
#解压函数
def ungzip(data):
    try:        # 尝试解压
        print('正在解压.....')
        data = gzip.decompress(data)
        print('解压完毕!')
    except:
        print('未经压缩, 无需解压')
    return data
#获取_xsrf 
def getXSRF(data):
    cer = re.compile('name=\"_xsrf\" value=\"(.*)\"', flags = 0)
    strlist = cer.findall(data)
    return strlist[0]
#构造文件头
def getOpener(head):
    #设置一个COOKIE处理器，它负责从服务器下载COOKIE到本地，并且在发送请求时带上本地的COOKIE
    cj = http.COOKIEjar.COOKIEJar()
    pro = urllib.request.HTTPCOOKIEProcessor(cj)
    opener = urllib.request.build_opener(pro)
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener
#构造header，一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。 
header = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'Accept-Encoding': 'gzip, deflate',
    'Host': 'www.zhihu.com',
    'DNT': '1'
}

url = 'http://www.zhihu.com/'
opener = getOpener(header)
op = opener.open(url)
data = op.read()
data = ungzip(data)     # 解压
_xsrf = getXSRF(data.decode())
#post数据接收和处理的页面（我们要向这个页面发送我们构造的Post数据）
url += 'login/email'
id = '这里写自己的邮箱'
password = '这里写自己的密码'
#构造Post数据，他也是从抓大的包里分析得出的。
postDict = {
        '_xsrf':_xsrf, #特有数据，不同网站可能不同 
        'email': id,
        'password': password,
        'rememberme': 'y'
}
#需要给Post数据编码 
postData = urllib.parse.urlencode(postDict).encode()
op = opener.open(url, postData)
data = op.read()
data = ungzip(data)

print(data.decode())

来看看结果：

这时运行返回的

这里写图片描述
发送出去的请求头

返回的数据是什么意思呢：
很简单，我们转码下：

推荐阅读

java
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
java
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
main
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
main
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
instance
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
cookie
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
post
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新 2024-11-12 16:31:32
install
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
timestamp
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
java
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
object
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
java
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
java
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
install
深入解析Android 4.4中的Fence机制及其应用

在Android 4.4中，Fence机制是处理缓冲区交换和同步问题的关键技术。该机制广泛应用于生产者-消费者模式中，确保了不同组件之间高效、安全的数据传输。通过深入解析Fence机制的工作原理和应用场景，本文探讨了其在系统性能优化和资源管理中的重要作用。 ... [详细]

蜡笔小新 2024-11-09 19:30:27
instance
理解和优化进程与线程状态转换机制

在Cisco IOS XR系统中，存在提供服务的服务器和使用这些服务的客户端。本文深入探讨了进程与线程状态转换机制，分析了其在系统性能优化中的关键作用，并提出了改进措施，以提高系统的响应速度和资源利用率。通过详细研究状态转换的各个环节，本文为开发人员和系统管理员提供了实用的指导，旨在提升整体系统效率和稳定性。 ... [详细]

蜡笔小新 2024-11-09 18:33:35

达人多多宝_836

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章