Python爬虫教程——新浪微博登陆

作者：蚁走天涯路 | 来源：互联网 | 2023-08-28 15:15

一、前期准备：编译环境:Python3.4Python库：requests、re、urllib、BeautifulSoup二、实现分析：尝试爬虫登陆网站时，会涉及到很多Javascript、验证码、

一、前期准备：

编译环境:Python 3.4

Python库：requests、re、urllib、BeautifulSoup

二、实现分析：

尝试爬虫登陆网站时，会涉及到很多Javascript、验证码、COOKIEs等很多的问题，为了避免太麻烦的登陆方式，我建议大家访问对应网站的移动版。比如访问新浪微博的移动版:http://weibo.cn ，登陆网址为http://login.weibo.cn/login/，登陆界面为:

登陆界面比较简单，不涉及验证码和Javascript处理的问题。

分析网页源码，登陆主要需要填写一个表格的数据，表单数据名分别为： 'tryCount'、'submit'、'vk'、'password_7659'、'backURL'、'remember'、'mobile'、'backTitle'，这其中'password_7659'和'mobile'需要自己填写对应的密码和账户名，其余的直接提取原网页的数据即可。

这里，新浪对输入元素名做了处理，每次访问得到的password元素名都不相同，连接了一个四位的随机数字，所以提取password时需要用正则匹配出来。

登陆后需要保存COOKIE，我这里使用的request库的session模块，可以维持一个长时间的登陆状态。

三、源码

此源码实践时，请填入自己的账号密码。

#!/usr/bin/python3
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
 
#头信息，可以伪装为浏览器访问
myHeaders = {}
myHeaders["User-Agent"] ="Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:42.0) Gecko/20100101Firefox/42.0"
myHeaders["Accept"] ="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
#登陆网址
login_url ="http://login.weibo.cn/login/"
print("====> The login_url: "+ login_url)
print("====> Visit login_url...")
login_repOnse=requests.get(login_url,headers = myHeaders)
#转化为BeautifulSoup对象
bsObj = BeautifulSoup(login_reponse.text,"lxml")
#提取出表单中的post网址
action_url =bsObj.find("form").attrs["action"]
action_url = login_url + action_url
print("====> The action_url: "+ action_url)
print("====> Visit action_url...")
#提取表单中的元素散列
submit_dict = {}
input_values = bsObj.find("form").findAll("input")
for in_value in input_values:
         #name值作为主键，value作为值
         if"name" in in_value.attrs:
                   if"value" in in_value.attrs:
                            submit_dict[in_value.attrs["name"]]= in_value.attrs["value"]
                   else:
                            submit_dict[in_value.attrs["name"]]= ""
                   #对于随机的password元素名，需要用正则提取
                   ifre.match(r"password.*",in_value.attrs["name"]):
                            #这里填入自己的密码
                            submit_dict[in_value.attrs["name"]]= "************"
                   ifin_value.attrs["name"] == "remember":
                            submit_dict[in_value.attrs["name"]]= "on"
                   ifin_value.attrs["name"] == "mobile":
                            #这里填入自己的账号
                            submit_dict[in_value.attrs["name"]]= "*************"
session = requests.Session()
s = session.post(action_url,params =submit_dict,headers = myHeaders)
print("Login Success")
#输出登陆成功后微博主页的内容
print(s.text)
 
#我们这里尝试发一条微博
s =session.get("http://weibo.cn/")
submit_url =BeautifulSoup(s.text,"lxml").find("form",action =re.compile("/mblog/sendmblog\?st=.*")).attrs["action"]
weibo_cOntent={"rl":"0"}
weibo_content["content"] = "微博测试~"
s = session.post("http://weibo.cn/"+submit_url,params= weibo_content,headers = myHeaders)

微博发布成功结果：

现在就可以开始分析微博数据了，也可以访问http://weibo.com，转向电脑版网页，这时登陆状态还是维持着的。

推荐阅读

copy
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
get
Qt 5.15.2 在银河麒麟龙芯平台打包的实战经验

本文详细记录了在银河麒麟操作系统和龙芯架构上使用 Qt 5.15.2 进行项目打包时遇到的问题及解决方案，特别关注于 linuxdeployqt 工具的应用。 ... [详细]

蜡笔小新 2024-12-26 10:54:04
jsp
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
header
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
get
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
get
在Ubuntu 16.04 LTS上配置Qt Creator开发环境

本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator，涵盖了从下载到安装的全过程，并提供了常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-27 13:19:53
get
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
php
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
get
Java集成第三方库的示例：Log4j的日志记录

本文介绍如何在Java项目中使用Log4j库进行日志记录。我们将详细说明Log4j库的引入、配置及简单应用，帮助开发者快速上手。 ... [详细]

蜡笔小新 2024-12-26 10:59:04
get
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
copy
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
php
PHP Eloquent ORM 中的关联查询扩展

本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询，并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率，还简化了代码逻辑。 ... [详细]

蜡笔小新 2024-12-25 18:14:14
require
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
get
Perl基础爬虫：从丁香园获取意大利新冠数据

本文介绍如何使用Perl编写一个简单的爬虫，从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容，最终提取所需数据。 ... [详细]

蜡笔小新 2024-12-25 12:06:26
get
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24

蚁走天涯路

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章