当前位置: 开发笔记 > 编程语言 > 正文

pythonurllib新浪微博_定向爬虫Python模拟新浪微博登录

作者：Rosalind33 | 来源：互联网 | 2023-09-09 13:45

阅读目录当我们试图从新浪微博抓取数据时，我们会发现网页上提示未登录，无法查看其他用户的信息。模拟登录是定向爬虫制作中一个必须克服的问题，

阅读目录

当我们试图从新浪微博抓取数据时&＃xff0c;我们会发现网页上提示未登录&＃xff0c;无法查看其他用户的信息。

模拟登录是定向爬虫制作中一个必须克服的问题&＃xff0c;只有这样才能爬取到更多的内容。

实现微博登录的方法有很多&＃xff0c;一般我们在模拟登录时首选WAP版。

因为PC版网页源码中包括很多的js代码&＃xff0c;提交的内容也更多&＃xff0c;不适合机器模拟登录。

我们实现微博登录的大体思路是这样的&＃xff1a;

用抓包工具把正常登录时要提交的字段都记录下来;

模拟提交这些字段;

判断是否登录成功;

原理很简单&＃xff0c;让我们一步一步来实现吧。

一.抓包利器Fiddler

在电脑和互联网之间的通信是通过不同的数据包收发来实现的。

Fiddler可以从中间对数据进行拦截&＃xff0c;拷贝一份数据以后再将数据发送给目的端。(这也是为什么说咖啡馆的公共WIFI不安全的原因)

同类的还有WireShark。为何这儿不用WireShark呢&＃xff1f;

Wireshark太过于专业了&＃xff0c;它可以实现抓取各种包&＃xff0c;抓下来的包也很乱&＃xff0c;针对性没Fiddler那么强。

下载安装

2.安装方法&＃xff1a;fiddler依赖.Net环境&＃xff0c;如果已经有则无需配置&＃xff0c;直接点击下一步就行。

使用方法

1.启动Fiddler

2.配置Fiddler

点击左上角的“ WinConfig”&＃xff0c;找到你使用的浏览器并勾选&＃xff0c;点击“Save Changes”

3.使用Fiddler开始抓包

打开浏览器访问WAP版新浪微博网站weibo.cn

Fiddler窗口左侧找到weibo.cn /pub/的数据包&＃xff0c;并双击&＃xff0c;这时我们就能够在右侧看到抓取到的信息.

找到COOKIEs字段&＃xff0c;这正是我们需要的.

二.COOKIEs与保持登录

关于COOKIEs

维基百科是这样解释的&＃xff1a;

COOKIE&＃xff08;复数形态COOKIEs&＃xff09;&＃xff0c;中文名称为“小型文本文件”或“小甜饼”&＃xff0c;指某些网站为了辨别用户身份而储存在用户本地终端&＃xff08;Client Side&＃xff09;上的数据&＃xff08;通常经过加密&＃xff09;。

通俗来说就是服务器端为了确认用户终端的身份而设定的一种加密标识&＃xff0c;它是存储在本地终端上的。

当然&＃xff0c;随着COOKIEs技术的发展&＃xff0c;COOKIEs的作用已经不止于用户身份标识。

当登陆一个网站时&＃xff0c;网站往往会请求用户输入用户名和密码&＃xff0c;并且用户可以勾选“下次自动登录”。

如果勾选了&＃xff0c;那么下次访问同一个网站时&＃xff0c;用户会发现没输入用户名和密码就已经登录了。

这正是因为前一次登陆时服务器发送了包含登录凭据&＃xff08;用户名&＃43;密码的某种加密形式&＃xff09;的COOKIE到用户的硬盘上。

第二次登录时&＃xff0c;如果该COOKIEs尚未到期&＃xff0c;浏览器会发送该COOKIEs&＃xff0c;服务器验证凭据&＃xff0c;于是不必输入用户名和密码就让用户登录了。

三.COOKIEs模拟登录

下面将介绍使用 Fiddler 获取新浪微博 COOKIEs&＃xff0c;然后使用 Requests 提交 COOKIEs 从而实现模拟登录。

抓取登录数据包

使用Fiddler抓取数据包.

获取COOKIEs

打开新浪微博WAP版页面&＃xff08;weibo.cn&＃xff09;&＃xff0c;点击登录&＃xff0c;然后填写账号密码&＃xff0c;勾选“记住登录状态”&＃xff0c;切记要勾选此项.

登录成功后&＃xff0c;从Fiddler中选择最新的那个weibo.cn&＃xff0c;然后复制COOKIEs字段的内容&＃xff0c;填写到代码内.

代码如下&＃xff1a;

#!/usr/bin/env python

#coding&＃61;utf8

""" Simulate a user login to Sina Weibo with COOKIE.

You can use this method to visit any page that requires login.

"""

import urllib2

import re

# get your COOKIE from Fiddler11

COOKIE &＃61; &＃39;your-COOKIE&＃39;

headers &＃61; {

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0&＃39;,

&＃39;COOKIE&＃39;: COOKIE

}

def visit():

url &＃61; &＃39;http://weibo.com&＃39;

req &＃61; urllib2.Request(url, headers&＃61;headers)

text &＃61; urllib2.urlopen(req).read()

# print the title, check if you login to weibo sucessfully

pat_title &＃61; re.compile(&＃39;

(.&＃43;?)&＃39;)

r &＃61; pat_title.search(text)

if r:

print(r.group(1))

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

visit()

四.使用 Post 提交数据的方法实现模拟登录

由于使用COOKIEs登录存在很多的弊端&＃xff0c;一般我们都使用Post提交数据的方法来实现模拟登录.

通过Fiddler来抓取http数据包来分析该网站的登录流程&＃xff1b;

分析抓到的post包的数据结构和header&＃xff0c;要根据提交的数据结构和heander来构造自己的post数据和header&＃xff1b;

构造自己的HTTP数据包&＃xff0c;并发送给指定url&＃xff1b;

通过urllib2等几个模块提供的API来实现request请求的发送和相应的接收&＃xff1b;

大部分网站登录时需要携带COOKIE&＃xff0c;所以我们还必须设置COOKIE处理器来保证COOKIE.

notice:如果遇到登录后网站重定向到其他url这种情况&＃xff0c;我们可以使用chrome的审查元素功能找出重定向后的网站url和该网站的提交数据&＃xff0c;再次使用post方法就行.

代码如下&＃xff1a;

#!/usr/bin/python

import HTMLParser

import urlparse

import urllib

import urllib2

import COOKIElib

import string

import re

#登录的主页面

hosturl &＃61; &＃39;******&＃39; //自己填写

#post数据接收和处理的页面&＃xff08;我们要向这个页面发送我们构造的Post数据&＃xff09;

posturl &＃61; &＃39;******&＃39; //从数据包中分析出&＃xff0c;处理post请求的url

#设置一个COOKIE处理器&＃xff0c;它负责从服务器下载COOKIE到本地&＃xff0c;并且在发送请求时带上本地的COOKIE

cj &＃61; COOKIElib.LWPCOOKIEJar()

COOKIE_support &＃61; urllib2.HTTPCOOKIEProcessor(cj)

opener &＃61; urllib2.build_opener(COOKIE_support, urllib2.HTTPHandler)

urllib2.install_opener(opener)

#打开登录主页面&＃xff08;他的目的是从页面下载COOKIE&＃xff0c;这样我们在再送post数据时就有COOKIE了&＃xff0c;否则发送不成功&＃xff09;

h &＃61; urllib2.urlopen(hosturl)

#构造header&＃xff0c;一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。

headers &＃61; {&＃39;User-Agent&＃39; : &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1&＃39;,

&＃39;Referer&＃39; : &＃39;******&＃39;}

#构造Post数据&＃xff0c;他也是从抓大的包里分析得出的。

postData &＃61; {&＃39;op&＃39; : &＃39;dmlogin&＃39;,

&＃39;f&＃39; : &＃39;st&＃39;,

&＃39;user&＃39; : &＃39;******&＃39;, //你的用户名

&＃39;pass&＃39; : &＃39;******&＃39;, //你的密码

&＃39;rmbr&＃39; : &＃39;true&＃39;, //特有数据&＃xff0c;不同网站可能不同

&＃39;tmp&＃39; : &＃39;0.7306424454308195&＃39; //特有数据&＃xff0c;不同网站可能不同

}

#需要给Post数据编码

postData &＃61; urllib.urlencode(postData)

#通过urllib2提供的request方法来向指定Url发送我们构造的数据&＃xff0c;并完成登录过程

request &＃61; urllib2.Request(posturl, postData, headers)

print request

response &＃61; urllib2.urlopen(request)

text &＃61; response.read()

print text

推荐阅读

text
深入理解HTTP协议及其数据包

HTTP（超文本传输协议）是互联网上用于客户端和服务器之间交换数据的主要协议。本文详细介绍了HTTP的工作原理，包括其请求-响应机制、不同版本的发展历程以及HTTP数据包的具体结构。 ... [详细]

蜡笔小新 2024-11-30 10:36:22
header
Android中Cookie的应用与管理

本文详细介绍了如何在Android应用中处理和使用Cookie，包括登录时获取Cookie并将其存储，以及在WebView中同步这些Cookie以保持用户会话。 ... [详细]

蜡笔小新 2024-12-05 17:01:55
const
React 实现掘金移动版，支持 SSR 和 PWA

这是一个基于 React 构建的掘金移动版应用，主要模仿了掘金的 UI 设计，并进行了部分自定义调整。项目专注于移动端体验，同时支持服务端渲染和渐进式网络应用（PWA）功能。 ... [详细]

蜡笔小新 2024-12-07 18:53:09
request
如何在Apache HttpClient 4.x中配置默认上下文

本文探讨了在使用Apache HttpClient 4.x（作为commons-httpclient 3.x的后续版本）时，如何配置默认的HttpContext，以确保每次执行请求时无需显式传递上下文。 ... [详细]

蜡笔小新 2024-11-25 14:19:17
jsp
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
request
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
controller
Feign远程调用请求头丢失问题分析与解决方案

本文详细探讨了在微服务架构中，使用Feign进行远程调用时出现的请求头丢失问题，并提供了具体的解决方案。重点讨论了单线程和异步调用两种场景下的处理方法。 ... [详细]

蜡笔小新 2024-12-19 10:17:16
header
探索Squid反向代理中的远程代码执行漏洞

本文深入探讨了在网站渗透测试过程中发现的Squid反向代理系统中存在的远程代码执行漏洞，旨在帮助网站管理者和开发者了解此类漏洞的危害及防范措施。 ... [详细]

蜡笔小新 2024-12-16 19:01:38
header
黑客如何利用AI在暗网重建你的数字身份

随着技术的发展，黑客开始利用AI技术在暗网中创建用户的‘数字孪生’，这一现象引起了安全专家的高度关注。 ... [详细]

蜡笔小新 2024-12-12 17:45:26
header
Python初学者指南：利用requests模块进行高效网络请求

本文将详细介绍Python中一个非常实用的HTTP客户端库——requests模块，它不仅易于使用，而且功能强大，非常适合用于开发网络应用或进行Web数据抓取。 ... [详细]

蜡笔小新 2024-12-07 13:14:51
header
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
header
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
scala
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
scala
辽源市民迈入智能城市新时代

为了深入了解辽源市市民对智能城市建设的感受和建议，国家统计局辽源调查队近期开展了一项针对200位市民的问卷调查。结果显示，大部分市民对智能城市的认知度较高，并对其带来的便利表示肯定。 ... [详细]

蜡笔小新 2024-12-26 20:57:21
request
请看|差别_Android 6.0 运行时权限处理解析

请看|差别_Android 6.0 运行时权限处理解析 ... [详细]

蜡笔小新 2024-12-11 18:02:56

Rosalind33

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章