热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python爬虫教程——新浪微博登陆

一、前期准备:编译环境:Python3.4Python库:requests、re、urllib、BeautifulSoup二、实现分析:尝试爬虫登陆网站时,会涉及到很多Javascript、验证码、

  • 一、前期准备:

编译环境:Python 3.4

Python库:requests、re、urllib、BeautifulSoup


  • 二、实现分析:

尝试爬虫登陆网站时,会涉及到很多Javascript、验证码、COOKIEs等很多的问题,为了避免太麻烦的登陆方式,我建议大家访问对应网站的移动版。比如访问新浪微博的移动版:http://weibo.cn ,登陆网址为http://login.weibo.cn/login/,登陆界面为:



登陆界面比较简单,不涉及验证码和Javascript处理的问题。

分析网页源码,登陆主要需要填写一个表格的数据,表单数据名分别为: 'tryCount'、'submit'、'vk'、'password_7659'、'backURL'、'remember'、'mobile'、'backTitle',这其中'password_7659'和'mobile'需要自己填写对应的密码和账户名,其余的直接提取原网页的数据即可。

这里,新浪对输入元素名做了处理,每次访问得到的password元素名都不相同,连接了一个四位的随机数字,所以提取password时需要用正则匹配出来。

登陆后需要保存COOKIE,我这里使用的request库的session模块,可以维持一个长时间的登陆状态。

  • 三、源码

此源码实践时,请填入自己的账号密码。

 

#!/usr/bin/python3
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re

#头信息,可以伪装为浏览器访问
myHeaders = {}
myHeaders["User-Agent"] ="Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:42.0) Gecko/20100101Firefox/42.0"
myHeaders["Accept"] ="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
#登陆网址
login_url ="http://login.weibo.cn/login/"
print("====> The login_url: "+ login_url)
print("====> Visit login_url...")
login_repOnse=requests.get(login_url,headers = myHeaders)
#转化为BeautifulSoup对象
bsObj = BeautifulSoup(login_reponse.text,"lxml")
#提取出表单中的post网址
action_url =bsObj.find("form").attrs["action"]
action_url = login_url + action_url
print("====> The action_url: "+ action_url)
print("====> Visit action_url...")
#提取表单中的元素散列
submit_dict = {}
input_values = bsObj.find("form").findAll("input")
for in_value in input_values:
#name值作为主键,value作为值
if"name" in in_value.attrs:
if"value" in in_value.attrs:
submit_dict[in_value.attrs["name"]]= in_value.attrs["value"]
else:
submit_dict[in_value.attrs["name"]]= ""
#对于随机的password元素名,需要用正则提取
ifre.match(r"password.*",in_value.attrs["name"]):
#这里填入自己的密码
submit_dict[in_value.attrs["name"]]= "************"
ifin_value.attrs["name"] == "remember":
submit_dict[in_value.attrs["name"]]= "on"
ifin_value.attrs["name"] == "mobile":
#这里填入自己的账号
submit_dict[in_value.attrs["name"]]= "*************"
session = requests.Session()
s = session.post(action_url,params =submit_dict,headers = myHeaders)
print("Login Success")
#输出登陆成功后微博主页的内容
print(s.text)

#我们这里尝试发一条微博
s =session.get("http://weibo.cn/")
submit_url =BeautifulSoup(s.text,"lxml").find("form",action =re.compile("/mblog/sendmblog\?st=.*")).attrs["action"]
weibo_cOntent={"rl":"0"}
weibo_content["content"] = "微博测试~"
s = session.post("http://weibo.cn/"+submit_url,params= weibo_content,headers = myHeaders)


 

微博发布成功结果:


现在就可以开始分析微博数据了,也可以访问http://weibo.com,转向电脑版网页,这时登陆状态还是维持着的。


推荐阅读
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • 本指南介绍了 `requests` 库的基本使用方法,详细解释了其七个主要函数。其中,`requests.request()` 是构建请求的基础方法,支持其他高级功能的实现。此外,我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容,这是进行网页数据抓取和解析的重要步骤。通过这些基础方法,读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]
  • Python默认字符解析:深入理解Python中的字符串处理
    在Python中,字符串是编程中最基本且常用的数据类型之一。尽管许多初学者是从C语言开始接触字符串,通常通过经典的“Hello, World!”程序入门,但Python对字符串的处理方式更为灵活和强大。本文将深入探讨Python中的字符串处理机制,包括字符串的创建、操作、格式化以及编码解码等方面,帮助读者全面理解Python字符串的特性和应用。 ... [详细]
  • 浅析PHP中$_SERVER[
    在PHP后端开发中,`$_SERVER["HTTP_REFERER"]` 是一个非常有用的超级全局变量,它可以获取用户访问当前页面之前的URL。本文将详细介绍该变量的使用方法及其在不同场景下的应用,如页面跳转跟踪、安全验证和用户行为分析等。通过实例解析,帮助开发者更好地理解和利用这一功能。 ... [详细]
  • 本文将详细介绍如何利用JMeter高效执行API接口测试,涵盖JMeter的基础介绍、安装方法、中文环境配置、主要元件及其作用域和执行顺序等内容,并分享一系列实用的测试技巧,帮助读者全面掌握JMeter接口测试的全过程。 ... [详细]
  • 零拷贝技术是提高I/O性能的重要手段,常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]
  • FreeBSD环境下PHP GD库安装问题的详细解决方案
    在 FreeBSD 环境下,安装 PHP GD 库时可能会遇到一些常见的问题。本文详细介绍了从配置到编译的完整步骤,包括解决依赖关系、配置选项以及常见错误的处理方法。通过这些详细的指导,开发者可以顺利地在 FreeBSD 上完成 PHP GD 库的安装,确保其正常运行。此外,本文还提供了一些优化建议,帮助提高安装过程的效率和稳定性。 ... [详细]
  • 在 CentOS 7 系统中安装 Scrapy 时遇到了一些挑战。尽管 Scrapy 在 Ubuntu 上安装简便,但在 CentOS 7 上需要额外的配置和步骤。本文总结了常见问题及其解决方案,帮助用户顺利安装并使用 Scrapy 进行网络爬虫开发。 ... [详细]
  • Python 程序转换为 EXE 文件:详细解析 .py 脚本打包成独立可执行文件的方法与技巧
    在开发了几个简单的爬虫 Python 程序后,我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标,首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中,我选择了 Qt 作为 GUI 框架,因为之前对此并不熟悉,希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程,包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]
  • CSS3 @font-face 字体应用技术解析与实践
    在Web前端开发中,HTML教程和CSS3的结合使得网页设计更加多样化。长期以来,Web设计师受限于“web-safe”字体的选择。然而,CSS3中的`@font-face`规则允许从服务器端加载自定义字体,极大地丰富了网页的视觉效果。通过这一技术,设计师可以自由选择和使用各种字体,提升用户体验和页面美观度。本文将深入解析`@font-face`的实现原理,并提供实际应用案例,帮助开发者更好地掌握这一强大工具。 ... [详细]
  • Node.js 配置文件管理方法详解与最佳实践
    本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践,涵盖常见的配置文件格式及其优缺点,并提供了多种实用技巧和示例代码,帮助开发者高效地管理和维护项目配置,具有较高的参考价值。 ... [详细]
  • 掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中,了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先,确保你正在使用PHP 5.3或更高版本,最好是最新版本,以充分利用其性能优化和新特性。此外,我们还将探讨代码结构、安全性和性能优化等方面的内容,帮助你成为一名更高效的PHP开发者。 ... [详细]
  • 本文通过具体的代码示例,详细解析了如何在Java中利用AspectJ实现面向切面编程(AOP)。AspectJ是Java平台上的一个AOP框架,通过引入连接点(JoinPoint)、通知(Advice)和切面(Aspect)等核心概念,扩展了Java语言的功能。文章首先介绍了AspectJ的基本概念,然后通过实际编码示例展示了如何定义和应用切面,帮助读者更好地理解和掌握这一技术。 ... [详细]
author-avatar
蚁走天涯路
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有