爬取哔哩哔哩热点搜索的小demo（练手）python

作者：男人着责任 | 来源：互联网 | 2023-08-20 10:06

爬取流程先找到浏览器标识头（User-Agent也可以网上搜这个头子）红圈是头，复制出来（关键）找传回数据的

爬取流程

先找到浏览器标识头&＃xff08;User-Agent也可以网上搜这个头子&＃xff09;
红圈是头&＃xff0c;复制出来
&＃xff08;关键&＃xff09;找传回数据的url
目标网站&＃xff1a;b站搜索
爬取这个&＃xff1a;
开始我直接通过网页渲染数据爬取框内内容&＃xff0c;发现这些内容是ajax请求渲染&＃xff0c;网站加载完成才渲染出数据&＃xff0c;不能第一时间爬取到&＃xff0c;然后我开始另辟蹊径。。。找了好久终于找到

找到传回数据后面就好办了。。。。
代码实现
先导需要的库 &＃xff0c;mysql连python用到&＃xff1a; pip install pymysql

#python程序 #字典 import requests import json import pymysql.cursors#加头标识 headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36&＃39; }product&＃61;[] #获取传回数据 resp&＃61;requests.get(&＃39;https://s.search.bilibili.com/main/hotword?mid&＃61;&buvid&＃61;98E676EF-F586-403E-8440-52A6836FA68713451infoc&jsonp&＃61;jsonp&callback&＃61;jsonCallback_bili_58910703464582290&＃39;,headers&＃61;headers)rest&＃61;resp.text.replace(&＃39;jsonCallback_bili_58910703464582290(&＃39;,&＃39;&＃39;).replace(&＃39;)&＃39;,&＃39;&＃39;)#转换json键值对json_data&＃61;json.loads(rest)comments&＃61;json_data["list"] # #把想要的数据装入列表中 proDict&＃61;[] for item in comments:proDict.append(item[&＃39;keyword&＃39;]&＃43;&＃39; &＃39;) product.extend(proDict)# 把数组里所有数据都转入字符串中&＃xff08;这里是学习用的&＃xff0c;可以去除&＃xff09; p&＃61;&＃39;&＃39;.join(proDict)print(p)# 数据入库 # 连接数据库 conn &＃61; pymysql.connect(host&＃61;&＃39;127.0.0.1&＃39;,port&＃61;3306,user&＃61;&＃39;root&＃39;,passwd&＃61;&＃39;root&＃39;,db&＃61;&＃39;bilidb&＃39;,charset&＃61;&＃39;utf8&＃39;,cursorclass&＃61;pymysql.cursors.Cursor,)cur&＃61;conn.cursor() #这里用replace解决数据入库时重复数据的问题&＃xff0c;注意hotword字段要设置唯一约束 for item in proDict:cur.execute("replace into hot(hotword) values(&＃39;%s&＃39;)" %(item)) #事务提交&＃xff08;这里尝试性的用了一个异常处理&＃xff0c;嘿嘿可以去掉&＃xff09; try: conn.commit() except AttributeError:print("错误") cur.close()

数据库结构
在这里插入图片描述

数据库上记得把字段设置编码方式为utf-8&＃xff0c;以解决中文乱码问题。

推荐阅读

cookie
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
header
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
header
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
header
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
string
C#导入、导出功能

导出功能protectedvoidbtnExport(objectsender,EventArgse){用来打开下载窗口stringfileName中 ... [详细]

蜡笔小新 2023-12-12 14:34:29
string
Java后台Jsonp处理方法及其应用场景

本文介绍了Java后台Jsonp处理方法及其应用场景。首先解释了Jsonp是一个非官方的协议，它允许在服务器端通过Script tags返回至客户端，并通过javascript callback的形式实现跨域访问。然后介绍了JSON系统开发方法，它是一种面向数据结构的分析和设计方法，以活动为中心，将一连串的活动顺序组合成一个完整的工作进程。接着给出了一个客户端示例代码，使用了jQuery的ajax方法请求一个Jsonp数据。 ... [详细]

蜡笔小新 2023-12-10 10:55:21
post
NetCore WebAPI开发探索及部署方法详解

本文介绍了NetCore WebAPI开发的探索过程，包括新建项目、运行接口获取数据、跨平台部署等。同时还提供了客户端访问代码示例，包括Post函数、服务器post地址、api参数等。详细讲解了部署模式选择、框架依赖和独立部署的区别，以及在Windows和Linux平台上的部署方法。 ... [详细]

蜡笔小新 2023-12-09 18:38:28
list
工作经验谈之-让百度地图API调用数据库内容及详解

这段时间，所在项目中要用到的一个模块，就是让数据库中的内容在百度地图上展现出来，如经纬度。主要实现以下几点功能：1.读取数据库中的经纬度值在百度上标注出来。2.点击标注弹出对应信息。3 ... [详细]

蜡笔小新 2023-10-17 19:33:18
list
ppurl

Allegro总结:1.防焊层(SolderMask):又称绿油层,PCB非布线层,用于制成丝网印板,将不需要焊接的地方涂上防焊剂.在防焊层上预留的焊盘大小要比实际的焊盘大一些,其差值一般 ... [详细]

蜡笔小新 2023-10-17 18:30:39
const
项目管理工具dhtmlxGantt甘特图入门教程（十）：服务器端数据集成（下）

这篇文章给大家讲解如何利用dhtmlxGantt在服务器端集成数据。脚本数据保存如果您已初始化dataProcessor，则用户或以编程方式所做的任何更改都将自动 ... [详细]

蜡笔小新 2023-10-16 21:03:51
list
Python爬取豆瓣数据实现过程解析

这篇文章主要介绍了Python爬取豆瓣数据实现过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值, ... [详细]

蜡笔小新 2023-10-16 12:46:01
settings
爬虫05 /scrapy框架

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]

蜡笔小新 2023-10-13 22:01:54
install
如何在Windows环境下配置php+apache环境

本文介绍了在Windows环境下如何配置php+apache环境，包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]

蜡笔小新 2023-12-13 10:39:24
header
响应式页面的概述和实现方式

本文介绍了响应式页面的概念和实现方式，包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点，提出了选择方案的建议。同时，对于响应式页面的需求和背景进行了讨论，解释了为什么需要响应式页面。 ... [详细]

蜡笔小新 2023-12-11 12:37:10
header
php将utf8转为gbk,php utf8怎么转gbk

phputf8转gbk的方法：首先创建一个PHP示例文件；然后通过“iconv(UTF-8,gbkTRANSLIT,$str);”方法将字符串的 ... [详细]

蜡笔小新 2023-10-17 21:19:24

男人着责任

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章