热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

怎么爬取weibo的“微博实时热点”内容?

我要爬取weibo首页的“微博实时热点”内容,如“李小璐虹桥一姐求合照时,甜馨妈也是依旧这么少女,还记得《奋斗》中李小璐这小舞一跳,小歌一唱,真的太可爱了[心][心][心]​#明星特别任务#ht
我要爬取weibo首页的“微博实时热点”内容,如“李小璐 虹桥一姐求合照时,甜馨妈也是依旧这么少女,还记得《奋斗》中李小璐这小舞一跳,小歌一唱,真的太可爱了[心][心][心] ​#明星特别任务# http:\/\/t.cn\/RO6NYeh”,要怎么处理?

#coding:utf-8

import re
import urllib
from urllib import request
from bs4 import BeautifulSoup as bs
from pymongo import MongoClient

client = MongoClient('127.0.0.1',27017)
#client = MongoClient()
mydb= client.test
myC = mydb.UTWeiboHot

values={"username":"xxxx","password":"xxxxx"}
data=urllib.parse.urlencode(values).encode(encoding='UTF8')
user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
referer='http://weibo.com'
url= "http://weibo.com/login"
headers={"User-Agent":user_agent,'Referer':referer}
request=request.Request(url,data,headers)
resp=urllib.request.urlopen(request)

html_data= resp.read().decode('utf-8')
soup=bs(html_data,"html.parser")

for strs in soup.find_all('div', class_='\"des_main S_txt2\">'):
print (strs)

我以上代码爬不到内容,哪里有问题呢?
----------------------------------------------------------------------------------------
李小璐 虹桥一姐<\/a><\/h3>\n                李小璐 虹桥一姐求合照时,甜馨妈也是依旧这么少女,还记得《奋斗》中李小璐这小舞一跳,小歌一唱,真的太可爱了[心][心][心] ​#明星特别任务# http:\/\/t.cn\/RO6NYeh ​​​​<\/div>\n            <\/div>\n        <\/div>\n                \n            \n                <\/a>\n            <\/div>\n            \n                长期单身的姑娘<\/a><\/h3>\n                【情感帖】长期单身的姑娘大概就是这样吧! ​ ​​​​<\/div>\n            <\/div>\n        <\/div>\n                \n            \n                <\/a>\n            <\/div>\n            \n                日本女高中生必须用iPhone<\/a><\/h3>\n                【日本女高中生必须用iPhone:原因竟是这样】日本网络小说“野草莓”网站9月公布的一份调查问卷显示,iPhone稳居日本年轻人最受欢迎手机之首,其中绝大部分是女高中生。不过这个原因实在是没想到,具体的我们看文章#此处有码# :http:\/\/t.cn\/ROJJM0B ​​​​<\/div>\n            <\/div>

2 个解决方案

#1


你要看页面内容是不是用utf8编码的中文,然后就对应的解码,

#2


引用 1 楼 oyljerry 的回复:
你要看页面内容是不是用utf8编码的中文,然后就对应的解码,


我这样用“ soup.find_all('div', class_='\"des_main S_txt2\">'):”对吗?

没有“\”能获取,有了之后怎么处理?

推荐阅读
  • 如何在Java中高效构建WebService
    本文介绍了如何利用XFire框架在Java中高效构建WebService。XFire是一个轻量级、高性能的Java SOAP框架,能够简化WebService的开发流程。通过结合MyEclipse集成开发环境,开发者可以更便捷地进行项目配置和代码编写,从而提高开发效率。此外,文章还详细探讨了XFire的关键特性和最佳实践,为读者提供了实用的参考。 ... [详细]
  • 可转债数据智能抓取与分析平台优化
    本项目旨在优化可转债数据的智能抓取与分析平台。通过爬取集思录上的可转债信息(排除已发布赎回的债券),并结合安道全教授提出的三条安全线投资策略,新增了建仓线、加仓线和重仓线,以提供更精准的投资建议。 ... [详细]
  • 深入解析 Django 中用户模型的自定义方法与技巧 ... [详细]
  • 本文探讨了在Android应用中实现动态滚动文本显示控件的优化方法。通过详细分析焦点管理机制,特别是通过设置返回值为`true`来确保焦点不会被其他控件抢占,从而提升滚动文本的流畅性和用户体验。具体实现中,对`MarqueeText.java`进行了代码层面的优化,增强了控件的稳定性和兼容性。 ... [详细]
  • Python网络爬虫入门:利用urllib库进行数据抓取
    Python网络爬虫入门:利用urllib库进行数据抓取在数据科学和Web开发领域,Python凭借其简洁高效的特性成为首选语言。本文主要介绍了如何在Windows环境下使用Python的urllib库进行基本的网络数据抓取。考虑到命令行操作的不便,作者选择了Jupyter Notebook作为开发环境,不仅简化了配置过程,还提供了直观的数据处理和可视化功能。通过实例演示,读者可以轻松掌握urllib的基本用法,为深入学习网络爬虫技术打下坚实基础。 ... [详细]
  • 深入解析Gradle中的Project核心组件
    在Gradle构建系统中,`Project` 是一个核心组件,扮演着至关重要的角色。通过使用 `./gradlew projects` 命令,可以清晰地列出当前项目结构中包含的所有子项目,这有助于开发者更好地理解和管理复杂的多模块项目。此外,`Project` 对象还提供了丰富的配置选项和生命周期管理功能,使得构建过程更加灵活高效。 ... [详细]
  • 本课程详细介绍了如何使用Python Flask框架从零开始构建鱼书应用,涵盖高级编程技巧和实战项目。通过视频教学,学员将学习到Flask的高效用法,包括数据库事务处理和书籍交易模型的实现。特别感谢AI资源网提供的课程下载支持。 ... [详细]
  • 如何构建基于Spring MVC框架的Java Web应用项目
    在构建基于Spring MVC框架的Java Web应用项目时,首先应创建一个新的动态Web项目。接着,需将必要的JAR包导入至WebContent/WEB-INF/lib目录下,确保包括Spring核心库及相关依赖。如遇缺失的JAR包,可向社区求助或通过Maven等工具自动下载。正确配置后,即可开始搭建应用结构与功能模块。 ... [详细]
  • 本文深入探讨了 Python Watchdog 库的使用方法和应用场景。通过详细的代码示例,展示了如何利用 Watchdog 监控文件系统的变化,包括文件的创建、修改和删除等操作。文章不仅介绍了 Watchdog 的基本功能,还探讨了其在实际项目中的高级应用,如日志监控和自动化任务触发。读者将能够全面了解 Watchdog 的工作原理及其在不同场景下的应用技巧。 ... [详细]
  • voc生成xml 代码
    目录 lxmlwindows安装 读取示例 可视化 生成示例 上面是代码,下面有调用示例 api调用代码,其实只有几行:这个生成代码也很简 ... [详细]
  • 本文提供了 RabbitMQ 3.7 的快速上手指南,详细介绍了环境搭建、生产者和消费者的配置与使用。通过官方教程的指引,读者可以轻松完成初步测试和实践,快速掌握 RabbitMQ 的核心功能和基本操作。 ... [详细]
  • 深入解析Wget CVE-2016-4971漏洞的利用方法与安全防范措施
    ### 摘要Wget 是一个广泛使用的命令行工具,用于从 Web 服务器下载文件。CVE-2016-4971 漏洞涉及 Wget 在处理特定 HTTP 响应头时的缺陷,可能导致远程代码执行。本文详细分析了该漏洞的成因、利用方法以及相应的安全防范措施,包括更新 Wget 版本、配置防火墙规则和使用安全的 HTTP 头。通过这些措施,可以有效防止潜在的安全威胁。 ... [详细]
  • 使用cpphttplib构建HTTP服务器以处理带有查询参数的URL请求 ... [详细]
  • MySQL性能优化与调参指南【数据库管理】
    本文详细探讨了MySQL数据库的性能优化与参数调整技巧,旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面,结合实际案例进行深入分析,提供实用的操作建议。此外,还介绍了常见的性能监控工具和方法,助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]
  • 如何在Django和Vue中配置共享全局变量以实现跨组件数据传递
    在Django和Vue项目中,为了实现跨组件的数据传递,可以通过配置共享全局变量来达到目的。具体做法是在Django项目的主目录下创建一个专门用于存储全局变量的Python文件。例如,可以在该文件中定义一个函数 `templates_global`,该函数返回需要在多个组件间共享的数据。此外,还可以利用Vue的Vuex状态管理库来进一步增强数据的管理和传递效率,确保数据的一致性和可维护性。 ... [详细]
author-avatar
wb91cmy
这个家伙很懒,什么也没留下!
Tags | 热门标签
RankList | 热门文章
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有