热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用Python高效抓取微博文本与动态网页图像数据

本文介绍了使用Python编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码,展示了如何利用爬虫技术获取微博内容和动态图片,为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者,本文具有较高的参考价值。

  python爬取微博内容,python爬取动态网页图片

  这篇文章主要为大家介绍了如何利用计算机编程语言中的爬虫实现微博动态图片的爬取,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起动手试一试

  由于微博的网页端有反爬虫,需要登录,所以我们换个思路,曲线救国。

  我们找到微博在浏览器上面用于手机端的调试的APL,如何找到呢?

  我这边直接附上微博的手机端的地址:https://m.weibo.cn/

  1.模拟搜索用户

  搜索一个用户获取到的api:

  https://m.weibo.cn/api/container/getIndex?cOntainerid=100103type=1q=半半子page_type=searchall

  1.1 对美国石油学会(美国石油协会)内参数进行处理

  cOntainerid=100103type=1q=半半子——容器id=100103类型=1 & ampq=半半子_

  这个参数需要提前转码,否则无法获取数据

  1.2 对用户名进行判断,通过后提取用户界面设计(用户界面设计的缩写)

  2.获取more参数

  得到

  API : https://m.weibo.cn/profile/info?uid=2830125342

  2.1 提取并处理更多参数

  3.循环提取图片id

  得到

  API : https://m.weibo.cn/api/container/getIndex?container id=2304132830125342 _-_ WEIBO _ SECOND _ PROFILE _ WEIBO page _ type=03 page=1

  3.1 提取图片id——pic_id

  3.2 获取发送图片用户

  3.3 根据动态创建时间生成用户唯一识别码

  4.下载图片

  我们从浏览器抓包中就会获取到后台服务器发给浏览器的图片链接

  https://wx2.sinaimg.cn/large/pic_id.jpg

  浏览器打开这个链接就可以直接下载图片

  爬取完整代码:

  导入操作系统

  导入系统

  导入时间

  从urllib.parse导入引号

  导入请求

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/95。0 .4638 .69 Safari/537.36

  }

  定义时间到字符串:

  ti=time.strptime(c_at, %a %b %d %H:%M:%S 0800 %Y )

  time _ str=时间。strftime( % Y % M % d % H % M % S ,ti)

  返回时间_字符串

  # 1.搜索用户,获取用户界面设计(用户界面设计的缩写)

  # 2.通过用户界面设计(用户界面设计的缩写)获取空间动态关键参数

  # 3.获取动态内容

  # 4.提取图片参数

  # 5.下载图片

  # 1.搜索用户,获取用户界面设计(用户界面设计的缩写)

  #=========用户名=========

  # 输入不同的用户名可切换下载的用户图片

  # 用户名需要完全匹配

  name=半半子_

  #=========================

  con_id=f100103type=1q={name}

  # 这个条件需要转码

  con_id=quote(con_id, utf-8 )

  user _ URL=f https://m。微博。 cn/API/container/getIndex?容器id={ con _ id } page _ type=search all

  user _ JSON=请求。get(URL=user _ URL,headers=headers).json()

  user _ cards=user _ JSON[ data ][ cards ]

  对于范围内的卡号(len(用户卡)):

  如果用户卡[卡号]:中有"移动日志"

  if user _ cards[card _ num][ mblog ][ user ][ screen _ name ]==name :

  打印(f 正在获取{姓名}的空间)

  # 2.通过用户界面设计(用户界面设计的缩写)获取空间动态关键参数

  user _ id=user _ cards[card _ num][ mblog ][ user ][ id ]

  info _ URL=f https://m。微博。cn/profile/info?uid={user_id}

  info _ JSON=请求。get(URL=info _ URL,headers=headers).json()

  more _ card=info _ JSON[ data ][ more ].split(/)[-1]

  破裂

  文件名=微博

  如果不是os.path.exists(文件名):

  os.mkdir(文件名)

  如果len(更多_卡)==0:

  sys.exit()

  page_type=03

  page=0

  而True:

  # 3.获取动态内容

  页面=1

  URL=f https://m。微博。cn/API/container/getIndex?容器id={ more _ card } page _ type={ page _ type } page={ page }

  param=requests.get(url=url,headers=headers).json()

  cards=param[data][cards]

  打印(f 第{第页}页)

  适用于范围内的我(信用卡):

  卡片=卡片[我]

  如果卡[card_type]!=9:

  继续

  mb_log=card[mblog]

  # 4.提取图片参数

  # 获取本人的图片

  pic_ids=mb_log[pic_ids]

  用户名=mb_log[用户][屏幕名]

  created _ at=MB _ log[ created _ at ]

  如果len(pic_ids)==0:

  # 获取转发的图片

  如果"转发状态"不在mb_log:中

  继续

  如果"图片标识"不在MB _ log[ retweeted _ status ]:中

  继续

  pic _ ids=MB _ log[ retweeted _ status ][ pic _ ids ]

  user _ name=MB _ log[ retweed _ status ][ user ][ screen _ name ]

  created _ at=MB _ log[ retweeted _ status ][ created _ at ]

  时间名称=时间到字符串(创建时间)

  pic_num=1

  print(f ========={用户名}=======)

  # 5.下载图片

  对于pic_ids:中的图片_id

  pic _ URL=f https://wx2。新浪img。 cn/large/{ pic _ id } . jpg

  pic_data=requests.get(pic_url,headers)

  # 文件名用户名_日期(年月日时分秒)_编号。使用联合图象专家组文件交换格式存储的编码图像文件扩展名

  # 例:半半子__20220212120146_1.jpg

  打开时(f"{文件名}/{用户名} _ {时间名} _ {照片号}。jpg ,mode=wb )作为f:

  f.write(pic_data.content)

  打印(f 正在下载:{图片id} .jpg’)

  pic_num=1

  时间。睡眠(2)

  到此这篇关于计算机编程语言实现微博动态图片爬取详解的文章就介绍到这了,更多相关计算机编程语言微博图片爬取内容请搜索盛行信息技术软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行信息技术软件开发工作室!



推荐阅读
  • Requests库的基本使用方法
    本文介绍了Python中Requests库的基础用法,包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers,以及如何解析JSON响应。相比urllib库,Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]
  • 对于初学者而言,搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]
  • OBS Studio自动化实践:利用脚本批量生成录制场景
    本文探讨了如何利用OBS Studio进行高效录屏,并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]
  • 本文详细介绍了笔记本电脑上多种实用的快捷键,包括屏幕调整、图形设置、分辨率更改、驱动更新、导航操作、音量控制及屏幕锁定等,旨在帮助用户更高效地使用笔记本电脑。 ... [详细]
  • 本文介绍了一种方法,通过使用Python的ctypes库来调用C++代码。具体实例为实现一个简单的加法器,并详细说明了从编写C++代码到编译及最终在Python中调用的全过程。 ... [详细]
  • 深入解析层次聚类算法
    本文详细介绍了层次聚类算法的基本原理,包括其通过构建层次结构来分类样本的特点,以及自底向上(凝聚)和自顶向下(分裂)两种主要的聚类策略。文章还探讨了不同距离度量方法对聚类效果的影响,并提供了具体的参数设置指导。 ... [详细]
  • 二维码的实现与应用
    本文介绍了二维码的基本概念、分类及其优缺点,并详细描述了如何使用Java编程语言结合第三方库(如ZXing和qrcode.jar)来实现二维码的生成与解析。 ... [详细]
  • 入门指南:使用FastRPC技术连接Qualcomm Hexagon DSP
    本文旨在为初学者提供关于如何使用FastRPC技术连接Qualcomm Hexagon DSP的基础知识。FastRPC技术允许开发者在本地客户端实现远程调用,从而简化Hexagon DSP的开发和调试过程。 ... [详细]
  • 理解浏览器历史记录(2)hashchange、pushState
    阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后,本打算去研究pushState,偶然在一些信息中发现了锚点变 ... [详细]
  • Windows操作系统提供了Encrypting File System (EFS)作为内置的数据加密工具,特别适用于对NTFS分区上的文件和文件夹进行加密处理。本文将详细介绍如何使用EFS加密文件夹,以及加密过程中的注意事项。 ... [详细]
  • 回顾两年前春节期间的一个个人项目,该项目原本计划参加竞赛,但最终作为练习项目完成。独自完成了从编码到UI设计的全部工作,尽管代码量不大,但仍有一定的参考价值。本文将详细介绍该项目的背景、功能及技术实现。 ... [详细]
  • 深入解析WebP图片格式及其应用
    随着互联网技术的发展,无论是PC端还是移动端,图片数据流量占据了很大比重。尤其在高分辨率屏幕普及的背景下,如何在保证图片质量的同时减少文件大小,成为了亟待解决的问题。本文将详细介绍Google推出的WebP图片格式,探讨其在实际项目中的应用及优化策略。 ... [详细]
  • 小编给大家分享一下Vue3中如何提高开发效率,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获, ... [详细]
  • PyCharm 安装与首个 Python 程序实践
    本文将指导您如何安装 PyCharm,并通过创建一个简单的 'Hello, World' 程序来初步体验这一强大的 Python 集成开发环境。 ... [详细]
  • 本文详细介绍了PHPStorm在Mac和Windows系统下的快捷键使用技巧,帮助开发者提高编程效率。 ... [详细]
author-avatar
陈可不能哭
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有