热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用Python高效抓取微博文本与动态网页图像数据

本文介绍了使用Python编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码,展示了如何利用爬虫技术获取微博内容和动态图片,为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者,本文具有较高的参考价值。

  python爬取微博内容,python爬取动态网页图片

  这篇文章主要为大家介绍了如何利用计算机编程语言中的爬虫实现微博动态图片的爬取,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起动手试一试

  由于微博的网页端有反爬虫,需要登录,所以我们换个思路,曲线救国。

  我们找到微博在浏览器上面用于手机端的调试的APL,如何找到呢?

  我这边直接附上微博的手机端的地址:https://m.weibo.cn/

  1.模拟搜索用户

  搜索一个用户获取到的api:

  https://m.weibo.cn/api/container/getIndex?cOntainerid=100103type=1q=半半子page_type=searchall

  1.1 对美国石油学会(美国石油协会)内参数进行处理

  cOntainerid=100103type=1q=半半子——容器id=100103类型=1 & ampq=半半子_

  这个参数需要提前转码,否则无法获取数据

  1.2 对用户名进行判断,通过后提取用户界面设计(用户界面设计的缩写)

  2.获取more参数

  得到

  API : https://m.weibo.cn/profile/info?uid=2830125342

  2.1 提取并处理更多参数

  3.循环提取图片id

  得到

  API : https://m.weibo.cn/api/container/getIndex?container id=2304132830125342 _-_ WEIBO _ SECOND _ PROFILE _ WEIBO page _ type=03 page=1

  3.1 提取图片id——pic_id

  3.2 获取发送图片用户

  3.3 根据动态创建时间生成用户唯一识别码

  4.下载图片

  我们从浏览器抓包中就会获取到后台服务器发给浏览器的图片链接

  https://wx2.sinaimg.cn/large/pic_id.jpg

  浏览器打开这个链接就可以直接下载图片

  爬取完整代码:

  导入操作系统

  导入系统

  导入时间

  从urllib.parse导入引号

  导入请求

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/95。0 .4638 .69 Safari/537.36

  }

  定义时间到字符串:

  ti=time.strptime(c_at, %a %b %d %H:%M:%S 0800 %Y )

  time _ str=时间。strftime( % Y % M % d % H % M % S ,ti)

  返回时间_字符串

  # 1.搜索用户,获取用户界面设计(用户界面设计的缩写)

  # 2.通过用户界面设计(用户界面设计的缩写)获取空间动态关键参数

  # 3.获取动态内容

  # 4.提取图片参数

  # 5.下载图片

  # 1.搜索用户,获取用户界面设计(用户界面设计的缩写)

  #=========用户名=========

  # 输入不同的用户名可切换下载的用户图片

  # 用户名需要完全匹配

  name=半半子_

  #=========================

  con_id=f100103type=1q={name}

  # 这个条件需要转码

  con_id=quote(con_id, utf-8 )

  user _ URL=f https://m。微博。 cn/API/container/getIndex?容器id={ con _ id } page _ type=search all

  user _ JSON=请求。get(URL=user _ URL,headers=headers).json()

  user _ cards=user _ JSON[ data ][ cards ]

  对于范围内的卡号(len(用户卡)):

  如果用户卡[卡号]:中有"移动日志"

  if user _ cards[card _ num][ mblog ][ user ][ screen _ name ]==name :

  打印(f 正在获取{姓名}的空间)

  # 2.通过用户界面设计(用户界面设计的缩写)获取空间动态关键参数

  user _ id=user _ cards[card _ num][ mblog ][ user ][ id ]

  info _ URL=f https://m。微博。cn/profile/info?uid={user_id}

  info _ JSON=请求。get(URL=info _ URL,headers=headers).json()

  more _ card=info _ JSON[ data ][ more ].split(/)[-1]

  破裂

  文件名=微博

  如果不是os.path.exists(文件名):

  os.mkdir(文件名)

  如果len(更多_卡)==0:

  sys.exit()

  page_type=03

  page=0

  而True:

  # 3.获取动态内容

  页面=1

  URL=f https://m。微博。cn/API/container/getIndex?容器id={ more _ card } page _ type={ page _ type } page={ page }

  param=requests.get(url=url,headers=headers).json()

  cards=param[data][cards]

  打印(f 第{第页}页)

  适用于范围内的我(信用卡):

  卡片=卡片[我]

  如果卡[card_type]!=9:

  继续

  mb_log=card[mblog]

  # 4.提取图片参数

  # 获取本人的图片

  pic_ids=mb_log[pic_ids]

  用户名=mb_log[用户][屏幕名]

  created _ at=MB _ log[ created _ at ]

  如果len(pic_ids)==0:

  # 获取转发的图片

  如果"转发状态"不在mb_log:中

  继续

  如果"图片标识"不在MB _ log[ retweeted _ status ]:中

  继续

  pic _ ids=MB _ log[ retweeted _ status ][ pic _ ids ]

  user _ name=MB _ log[ retweed _ status ][ user ][ screen _ name ]

  created _ at=MB _ log[ retweeted _ status ][ created _ at ]

  时间名称=时间到字符串(创建时间)

  pic_num=1

  print(f ========={用户名}=======)

  # 5.下载图片

  对于pic_ids:中的图片_id

  pic _ URL=f https://wx2。新浪img。 cn/large/{ pic _ id } . jpg

  pic_data=requests.get(pic_url,headers)

  # 文件名用户名_日期(年月日时分秒)_编号。使用联合图象专家组文件交换格式存储的编码图像文件扩展名

  # 例:半半子__20220212120146_1.jpg

  打开时(f"{文件名}/{用户名} _ {时间名} _ {照片号}。jpg ,mode=wb )作为f:

  f.write(pic_data.content)

  打印(f 正在下载:{图片id} .jpg’)

  pic_num=1

  时间。睡眠(2)

  到此这篇关于计算机编程语言实现微博动态图片爬取详解的文章就介绍到这了,更多相关计算机编程语言微博图片爬取内容请搜索盛行信息技术软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行信息技术软件开发工作室!



推荐阅读
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • Startup 类配置服务和应用的请求管道。Startup类ASP.NETCore应用使用 Startup 类,按照约定命名为 Startup。 Startup 类:可选择性地包括 ... [详细]
  • 自己用过的一些比较有用的css3新属性【HTML】
    web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久,虽然大多数的css3属性在很多流行的浏览器中不支持,但我个人觉得还是要尽量开 ... [详细]
  • 一个登陆界面
    预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]
  • 本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法,并提供了多个实际代码示例,帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目,具有很高的参考价值。 ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • Kubernetes 持久化存储与数据卷详解
    本文深入探讨 Kubernetes 中持久化存储的使用场景、PV/PVC/StorageClass 的基本操作及其实现原理,旨在帮助读者理解如何高效管理容器化应用的数据持久化需求。 ... [详细]
author-avatar
陈可不能哭
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有