首页
技术博客
PHP教程
数据库技术
前端开发
HTML5
Nginx
php论坛
新用户注册
|
会员登录
PHP教程
技术博客
编程问答
PNG素材
编程语言
前端技术
Android
PHP教程
HTML5教程
数据库
Linux技术
Nginx技术
PHP安全
WebSerer
职场攻略
JavaScript
开放平台
业界资讯
大话程序猿
登录
极速注册
取消
热门标签 | HotTags
flutter
select
include
python
javascript
hashset
case
httprequest
match
netty
foreach
main
perl
client
email
testing
random
string
cmd
actionscrip
bytecode
list
char
eval
byte
yaml
erlang
merge
chat
copy
header
config
export
post
cpython
vbscript
get
search
typescript
replace
nodejs
bitmap
format
fetch
heap
integer
hash
audio
go
jar
cookie
php5
frameworks
int
ip
tags
spring
join
grid
timezone
instance
heatmap
keyword
future
php7
loops
usb
expression
stream
default
uri
window
bit
blob
sum
golang
cSharp
vba
express
当前位置:
开发笔记
>
编程语言
> 正文
怎么爬取weibo的“微博实时热点”内容?
作者:wb91cmy | 来源:互联网 | 2023-05-18 05:27
我要爬取weibo首页的“微博实时热点”内容,如“李小璐虹桥一姐求合照时,甜馨妈也是依旧这么少女,还记得《奋斗》中李小璐这小舞一跳,小歌一唱,真的太可爱了[心][心][心]#明星特别任务#ht
我要爬取weibo首页的“微博实时热点”内容,如“李小璐 虹桥一姐求合照时,甜馨妈也是依旧这么少女,还记得《奋斗》中李小璐这小舞一跳,小歌一唱,真的太可爱了[心][心][心] #明星特别任务# http:\/\/t.cn\/RO6NYeh”,要怎么处理?
#coding:utf-8
import re
import urllib
from urllib import request
from bs4 import BeautifulSoup as bs
from pymongo import MongoClient
client = MongoClient('127.0.0.1',27017)
#client = MongoClient()
mydb= client.test
myC = mydb.UTWeiboHot
values={"username":"xxxx","password":"xxxxx"}
data=urllib.parse.urlencode(values).encode(encoding='UTF8')
user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
referer='http://weibo.com'
url= "http://weibo.com/login"
headers={"User-Agent":user_agent,'Referer':referer}
request=request.Request(url,data,headers)
resp=urllib.request.urlopen(request)
html_data= resp.read().decode('utf-8')
soup=bs(html_data,"html.parser")
for strs in soup.find_all('div', class_='\"des_main S_txt2\">'):
print (strs)
我以上代码爬不到内容,哪里有问题呢?
----------------------------------------------------------------------------------------
李小璐 虹桥一姐<\/a><\/h3>\n
李小璐 虹桥一姐求合照时,甜馨妈也是依旧这么少女,还记得《奋斗》中李小璐这小舞一跳,小歌一唱,真的太可爱了[心][心][心] #明星特别任务# http:\/\/t.cn\/RO6NYeh <\/div>\n <\/div>\n <\/div>\n
\n
\n
<\/a>\n <\/div>\n
\n
长期单身的姑娘<\/a><\/h3>\n
【情感帖】长期单身的姑娘大概就是这样吧! <\/div>\n <\/div>\n <\/div>\n
\n
\n
<\/a>\n <\/div>\n
\n
日本女高中生必须用iPhone<\/a><\/h3>\n
【日本女高中生必须用iPhone:原因竟是这样】日本网络小说“野草莓”网站9月公布的一份调查问卷显示,iPhone稳居日本年轻人最受欢迎手机之首,其中绝大部分是女高中生。不过这个原因实在是没想到,具体的我们看文章#此处有码# :http:\/\/t.cn\/ROJJM0B <\/div>\n <\/div>
2 个解决方案
#1
你要看页面内容是不是用utf8编码的中文,然后就对应的解码,
#2
引用 1 楼 oyljerry 的回复:
你要看页面内容是不是用utf8编码的中文,然后就对应的解码,
我这样用“ soup.find_all('div', class_='\"des_main S_txt2\">'):”对吗?
没有“\”能获取,有了之后怎么处理?
http
utf-8
import
request
pymongo
go
client
windows
login
写下你的评论吧 !
吐个槽吧,看都看了
会员登录
|
用户注册
推荐阅读
string
技术分享:从动态网站提取站点密钥的解决方案
本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ...
[详细]
蜡笔小新 2024-12-28 04:11:47
list
深入解析Spring Cloud Ribbon负载均衡机制
本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ...
[详细]
蜡笔小新 2024-12-27 16:01:25
python
FinOps 与 Serverless 的结合:破解云成本难题
本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理,提出了首个 Serverless 函数总成本估计模型,并分享了多种有效的成本优化策略。 ...
[详细]
蜡笔小新 2024-12-24 12:44:26
byte
HTTP请求与响应机制详解
本文深入探讨了HTTP请求和响应对象的使用,详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外,还涵盖了文件下载、请求重定向、请求转发等高级功能。 ...
[详细]
蜡笔小新 2024-12-23 20:40:08
string
Servlet 表单处理:GET 和 POST 请求的深入解析
本文详细探讨了HTML表单中GET和POST请求的区别,包括它们的工作原理、数据传输方式、安全性及适用场景。同时,通过实例展示了如何在Servlet中处理这两种请求。 ...
[详细]
蜡笔小新 2024-12-23 18:09:59
byte
采用IKE方式建立IPsec安全隧道
一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ...
[详细]
蜡笔小新 2024-12-22 20:24:15
list
Yii2 GridView 实现列表页数据直接编辑的完整指南
本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤,帮助开发者快速掌握这一实用技巧。 ...
[详细]
蜡笔小新 2024-12-27 16:27:52
list
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ...
[详细]
蜡笔小新 2024-12-27 16:07:12
byte
深入理解Redis的数据结构与对象系统
本文详细探讨了Redis中的数据结构和对象系统的实现,包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型,以及它们所使用的底层数据结构。通过分析源码和相关文献,帮助读者更好地理解Redis的设计原理。 ...
[详细]
蜡笔小新 2024-12-25 04:11:22
char
PHP 过滤器详解
本文深入探讨了 PHP 中的过滤器机制,包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时,详细介绍了各种过滤器的用途和用法。 ...
[详细]
蜡笔小新 2024-12-23 19:05:02
char
MySQL PMM:MyISAM 和 Aria 存储引擎的性能优化
本文探讨了 MyISAM 和 Aria 存储引擎在 MySQL 中的关键性能指标,包括密钥缓冲区效率、页面缓存读写性能以及事务日志同步策略。通过优化这些参数,可以显著提升数据库的整体性能。 ...
[详细]
蜡笔小新 2024-12-23 15:04:32
string
递推算法与大数处理
本问题探讨了在特定条件下排列儿童队伍的方法数量。题目要求计算满足条件的队伍排列总数,并使用递推算法和大数处理技术来解决这一问题。 ...
[详细]
蜡笔小新 2024-12-23 12:18:55
client
如何在 Angular 6 HttpClient 中获取响应头
本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头,包括代码示例和常见问题的解决方案。 ...
[详细]
蜡笔小新 2024-12-22 15:33:55
char
使用Fetch进行HTTP请求的基本示例
本文介绍了如何使用JavaScript的Fetch API与Express服务器进行交互,涵盖了GET、POST、PUT和DELETE请求的实现,并展示了如何处理JSON响应。 ...
[详细]
蜡笔小新 2024-12-22 12:55:37
char
解决C# Windows Forms客户端连接SignalR服务器时出现的错误
在尝试使用C# Windows Forms客户端通过SignalR连接到ASP.NET服务器时,遇到了内部服务器错误(500)。本文将详细探讨问题的原因及解决方案。 ...
[详细]
蜡笔小新 2024-12-21 16:55:52
wb91cmy
这个家伙很懒,什么也没留下!
Tags | 热门标签
flutter
select
include
python
javascript
hashset
case
httprequest
match
netty
foreach
main
perl
client
email
testing
random
string
cmd
actionscrip
bytecode
list
char
eval
byte
yaml
erlang
merge
chat
copy
RankList | 热门文章
1
OpenSSL密码库算法笔记——第4.1.4章 模指数函数介绍
2
win10安装Ubuntu18双系统安装程序向硬盘复制文件时遇到错误:[Error 5] Input/output error
3
MySQL锁--(深入浅出读书笔记)
4
tar.gz解压失败
5
pm2常用的命令用法介绍
6
k8s进阶之搭建私有镜像仓库
7
量子计算机攻克医学难题,关注量子计算|量子计算还有多远?中国攻克难题,已领先美国15年...
8
OpenStack Q版本新功能以及各核心组件功能对比
9
jqueryajax怎么通过header传递参数?
10
国行PS4与海外版PS4的区别在哪里?
11
Linux下ODBC安装配置
12
Ubuntu18.04 下载与安装
13
手推式扫地机金洁cjs70(m713扫地机)
14
动态多点××× 单云双HUB
15
app中嵌入的h5页面a的超链接用window.location.href代替,跳转后需要返回两次才能返回到点击链接的页面啊
PHP1.CN | 中国最专业的PHP中文社区 |
DevBox开发工具箱
|
json解析格式化
|
PHP资讯
|
PHP教程
|
数据库技术
|
服务器技术
|
前端开发技术
|
PHP框架
|
开发工具
|
在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |
京公网安备 11010802041100号
|
京ICP备19059560号-4
| PHP1.CN 第一PHP社区 版权所有