利用cookies获取登录后的网页

作者：赵以书的话_256 | 来源：互联网 | 2023-09-02 18:53

众所周知，HTTP连接是无状态的，那么问题来了，怎么记录用户的登录信息呢？通常的做法是用户第一次发送HTTP请求时，在HTTPServer端生成一个SessionID，SessionID会对应每

　　众所周知，HTTP连接是无状态的，那么问题来了，怎么记录用户的登录信息呢？通常的做法是用户第一次发送HTTP请求时，在HTTP Server端生成一个SessionID，SessionID会对应每个会话的状态（比如是否登录，等等），并且将SessionID保存在浏览器的COOKIEs中。我们登录一个网页后，打开另外一个窗口访问相同的网页不需要登录，就是因为两个网页都对应同一个COOKIEs。

　　有时在做python爬虫时，需要访问登录后才可以访问的网页，利用已经登录的COOKIE文件就可以达到此目的。下面以迅雷网为例来做实验，实验平台为Linux。

　　1. 首先在Firefox浏览器端登录迅雷网，使用Firebug插件导出COOKIEs。

　　2. 修改COOKIEs的格式，假设文件名为xunlei.txt，正确的格式如下：

 1 # Netscape HTTP COOKIE File.
 2 # Generated by Wget on 2015-06-27 23:54:34.
 3 # Edit at your own risk.
 4 
 5 .dynamic.i.xunlei.com   TRUE    /   FALSE   1498494348  __utma  74633479.1276576155.1435422349.1435422349.1435422349.1
 6 .i.xunlei.com   TRUE    /   FALSE   1498494325  __utma  112570076.1792933177.1435422325.1435422325.1435422325.1
 7 .dynamic.i.xunlei.com   TRUE    /   FALSE   1435424148  __utmb  74633479.1.10.1435422349
 8 .i.xunlei.com   TRUE    /   FALSE   1435424125  __utmb  112570076.1.10.1435422325
 9 .dynamic.i.xunlei.com   TRUE    /   FALSE   1498494348  __utmc  74633479
10 .i.xunlei.com   TRUE    /   FALSE   1498494348  __utmc  112570076
11 .i.xunlei.com   TRUE    /   FALSE   1435422925  __utmt  1
12 .dynamic.i.xunlei.com   TRUE    /   FALSE   1451190348  __utmz  74633479.1435422349.1.1.utmcsr=i.xunlei.com|utmccn=(referral)|utmcmd=referral|utmcct=/login.html
13 .i.xunlei.com   TRUE    /   FALSE   1451190325  __utmz  112570076.1435422325.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)
14 dynamic.i.xunlei.com    FALSE   /   FALSE   1498494348  __xltjbr    1435422347556
15 dynamic.i.xunlei.com    FALSE   /   FALSE   1435424148  _s19    1435770994546b1435422324953b2bhttp%3A//dynamic.i.xunlei.com/user
# COOKIEs行数比较多，就不写了，有三个地方注意：
# 1.第一行不能少，并且一个字符都不能错。
# 2.格式要严格为（空白处为TAB）：

域 [TRUE或FALSE]　　/　[TRUE或FALSE]　　过期时间戳　　名称　　内容

　　3. 使用python代码读取xunlei.txt，并访问登录后才能访问的网页，例如：http://dynamic.i.xunlei.com/user

下面为源代码：

 1 import COOKIElib, urllib2
 2 
 3 COOKIE = COOKIElib.MozillaCOOKIEJar()
 4 COOKIE.load("xunlei.txt")
 5 handle=urllib2.HTTPCOOKIEProcessor(COOKIE)
 6 opener = urllib2.build_opener(handle)
 7 urllib2.install_opener(opener)
 8 
 9 url = "http://dynamic.i.xunlei.com/user"
10 req = urllib2.Request(url)
11 respOnse= urllib2.urlopen(req)
12 print response.read()

　　4. 打印出来的代码即为我登录后，在http://dynamic.i.xunlei.com/user看到的内容。

　　以上的原理与CSRF攻击的原理类似，CSRF攻击的就是利用非法获得用户COOKIEs，伪装成用户进行操作。针对这种攻击，web站点可以生成token，HTTP Server会验证每次请求的token，来避免CSRF攻击，例如Django的CsrfViewMiddleware。

　　但是token依然被放在了COOKIEs中，依然可以进行CSRF攻击，只不过攻击的方式复杂了些。

推荐阅读

python
Selenium与Python结合实现网页滚动条的自动化控制

本文介绍了如何利用Selenium和Python通过执行JavaScript代码来控制网页中的滚动条，包括垂直和水平滚动条的控制，以及特定元素的聚焦技术。 ... [详细]

蜡笔小新 2024-12-14 14:25:02
get
ASP.NET Core 3.1 中的Startup类

Startup 类配置服务和应用的请求管道。Startup类ASP.NETCore应用使用 Startup 类，按照约定命名为 Startup。 Startup 类：可选择性地包括 ... [详细]

蜡笔小新 2024-12-25 02:13:25
export
Ubuntu 7.10 常用软件安装指南

本文详细介绍了在Ubuntu 7.10操作系统上安装多种常用软件的方法，包括RAR压缩工具、即时通讯软件Pidgin、办公软件永中Office 2007试用版、多线程下载软件MultiGet及d4x、FTP客户端gFTP与FireFTP插件，以及P2P下载工具aMule。每部分都提供了具体的安装步骤和配置方法。 ... [详细]

蜡笔小新 2024-12-09 10:29:31
include
2016年10月25日数学考试：斐波那契数列与矩阵快速幂的应用

本次考试于2016年10月25日上午7:50至11:15举行，主要涉及数学专题，特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目，并提供解题思路和代码实现。 ... [详细]

蜡笔小新 2024-12-25 13:08:21
settings
Eclipse 开发环境配置与插件安装指南

本文详细介绍了如何准备和安装 Eclipse 开发环境及其相关插件，包括 JDK、Tomcat、Struts 等组件的安装步骤及配置方法。 ... [详细]

蜡笔小新 2024-12-24 19:47:22
tags
深入理解网易NEC CSS框架：规范、应用与学习心得

本文将介绍网易NEC CSS框架的规范及其在实际项目中的应用。通过详细解析其分类和命名规则，探讨如何编写高效、可维护的CSS代码，并分享一些实用的学习心得。 ... [详细]

蜡笔小新 2024-12-24 18:08:51
get
UC浏览器分享图片显示问题及解决方案

本文探讨了在UC浏览器中调用分享面板后，图片无法正常显示的问题，并提供了详细的解决方法和代码示例。 ... [详细]

蜡笔小新 2024-12-24 17:24:36
export
React 表单验证：构建无第三方库的表单处理机制

本文将深入探讨如何在不依赖第三方库的情况下，使用 React 处理表单输入和验证。我们将介绍一种高效且灵活的方法，涵盖表单提交、输入验证及错误处理等关键功能。 ... [详细]

蜡笔小新 2024-12-24 15:48:48
python
探讨GET与POST请求数据传输的最大容量

在Web开发领域，GET和POST是最常见的两种数据传输方法。本文将深入探讨这两种请求方式在不同环境下的数据传输能力及其限制。 ... [详细]

蜡笔小新 2024-12-15 12:05:33
post
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
get
Perl基础爬虫：从丁香园获取意大利新冠数据

本文介绍如何使用Perl编写一个简单的爬虫，从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容，最终提取所需数据。 ... [详细]

蜡笔小新 2024-12-25 12:06:26
audio
优化Windows系统以提升DAW性能

配置Windows操作系统以确保DAW（数字音频工作站）硬件和软件的高效运行可能是一个复杂且令人沮丧的过程。本文提供了一系列专业建议，帮助你优化Windows系统，确保录音和音频处理的流畅性。 ... [详细]

蜡笔小新 2024-12-25 09:41:14
get
百度搜索结果链接提取工具 UrlGetter V1.43

该工具专为获取百度搜索引擎的结果页面中的网址链接而设计，能够解析并转换为原始URL。通过正则表达式匹配技术，精准提取网页链接，并提供详细的使用说明和下载资源。 ... [详细]

蜡笔小新 2024-12-24 18:46:35
python
提升Tumblr爬虫效率与功能

本文介绍了对之前开发的Tumblr爬虫脚本进行升级，整合了两个脚本的功能，实现了自动分页爬取博客内容，并支持配置文件以下载多个博客的不同格式文件。此外，还优化了图片下载逻辑。 ... [详细]

蜡笔小新 2024-12-24 16:29:06
testing
解决HTML5 WebSocket频繁断开连接的问题

本文探讨了在使用HTML5 WebSocket技术构建浏览器内聊天室时遇到的连接不稳定问题，并提供了可能的解决方案和调试方法。 ... [详细]

蜡笔小新 2024-12-07 17:07:00

赵以书的话_256

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章