爬虫学习笔记爬B站评论

作者：用巛户khm8pcnjp9 | 来源：互联网 | 2023-09-23 13:26

由于松爱协会的小伙伴邀请，我研究了一下爬取b站上协会的一些精彩评论由于评论是动态的，所以要用到selenium之前的博文里已经有关于selenium的安

由于松爱协会的小伙伴邀请&＃xff0c;我研究了一下爬取b站上协会的一些精彩评论

由于评论是动态的&＃xff0c;所以要用到 selenium 之前的博文里已经有关于selenium的安装注意事项

还要用到Firefox的firebug 去获取xpath信息

target &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;recommend_report&＃39;]/div[1]/span") app.execute_script("arguments[0].scrollIntoView();", target)#定位到特定的元素 time.sleep(3)

这里注意一下由于有些信息要下拉滚动条才可以获取到那么这里有一个下拉滚动条定位到某一元素的方法

贴上代码

#coding&＃61;utf-8 from selenium import webdriver import sys import time from selenium.webdriver.common.keys import Keys reload(sys) sys.setdefaultencoding("utf-8")# fp &＃61; webdriver.PhantomJS() # fp.set_preference("permissions.default.stylesheet",2) # fp.set_preference("permissions.default.image",2) app &＃61; webdriver.Firefox() app.get("https://www.bilibili.com/video/av3553625/?from&＃61;search&seid&＃61;10292605247919873793")target &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;recommend_report&＃39;]/div[1]/span") app.execute_script("arguments[0].scrollIntoView();", target)#定位到特定的元素 time.sleep(3)target2 &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;bbComment&＃39;]/div[1]/div[4]/div[4]/span/a"); app.execute_script("arguments[0].scrollIntoView();", target2) time.sleep(3) target2.click() # js&＃61;"var q&＃61;document.documentElement.scrollTop&＃61;100000" # app.execute_script(js) # time.sleep(3)for i in range(20):if(i&＃61;&＃61;7):continuename &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;bbComment&＃39;]/div[1]/div[4]/div["&＃43;str(i&＃43;1)&＃43;"]/div[2]/div[1]/a[1]")test &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;bbComment&＃39;]/div[1]/div[4]/div["&＃43;str(i&＃43;1)&＃43;"]/div[2]/p")if (i !&＃61; 13 and i !&＃61; 17):pinglun1 &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;bbComment&＃39;]/div[1]/div[4]/div["&＃43;str(i&＃43;1)&＃43;"]/div[2]/div[3]/div[1]/div/div[1]/span")if (i !&＃61; 13 and i !&＃61; 17):pinglun2 &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;bbComment&＃39;]/div[1]/div[4]/div["&＃43;str(i&＃43;1)&＃43;"]/div[2]/div[3]/div[2]/div/div[1]/span")if(i !&＃61;12 and i !&＃61;13 and i !&＃61; 17):pinglun3 &＃61; app.find_element_by_xpath(".//*[&＃64;id&＃61;&＃39;bbComment&＃39;]/div[1]/div[4]/div["&＃43;str(i&＃43;1)&＃43;"]/div[2]/div[3]/div[3]/div/div[1]/span")print ("作者&＃xff1a;")print (name.text.strip())print ("内容&＃xff1a;")print test.text.strip()print ("后续&＃xff1a;")if (i !&＃61; 13 and i !&＃61; 17):print pinglun1.text.strip()if (i !&＃61; 13 and i !&＃61; 17):print pinglun2.text.strip()if (i !&＃61; 12 and i !&＃61; 13 and i !&＃61; 17):print pinglun3.text.strip()print ("\n")time.sleep(3) # # tests &＃61; app.find_elements_by_css_selector("p.text") # for i in range(len(tests)): # test &＃61; tests[i].text.strip() # print test app.quit()

这里只抓取了一页的评论还可以再完善抓更多页面

推荐阅读

perl
Perl基础爬虫：从丁香园获取意大利新冠数据

本文介绍如何使用Perl编写一个简单的爬虫，从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容，最终提取所需数据。 ... [详细]

蜡笔小新 2024-12-25 12:06:26
perl
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
数组
React 表单验证：构建无第三方库的表单处理机制

本文将深入探讨如何在不依赖第三方库的情况下，使用 React 处理表单输入和验证。我们将介绍一种高效且灵活的方法，涵盖表单提交、输入验证及错误处理等关键功能。 ... [详细]

蜡笔小新 2024-12-24 15:48:48
数组
实现页面自动加载更多内容功能：类微博和Pinterest的设计

在现代Web应用中，当用户滚动到页面底部时，自动加载更多内容的功能变得越来越普遍。这种无刷新加载技术不仅提升了用户体验，还优化了页面性能。本文将探讨如何实现这一功能，并介绍一些实际应用案例。 ... [详细]

蜡笔小新 2024-12-23 17:01:04
数组
利用Selenium与ChromeDriver实现豆瓣网页全屏截图

本文介绍了一种使用Selenium和ChromeDriver结合Python代码，轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行，而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]

蜡笔小新 2024-12-22 15:17:55
string
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
string
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
cookie
使用WebBrowser控件实现点击输入框显示图片验证码的方法

本文探讨了如何通过WebBrowser控件在用户点击输入框时自动显示图片验证码。该过程可能涉及JavaScript事件的触发与响应。 ... [详细]

蜡笔小新 2024-12-17 18:28:07
cookie
WPF/E CTP与SDK即将发布，引领RIA新时代？

Microsoft即将发布WPF/E的CTP（Community Technology Preview）和SDK，标志着RIA（Rich Internet Application）技术的新里程碑。更多详情及下载链接请参见MSDN官方页面。 ... [详细]

蜡笔小新 2024-12-16 16:06:18
string
自定义 Panel 控件 - 实现滚动条位置自动保存

本文介绍了如何通过扩展 Panel 控件来实现滚动条位置的自动保存和恢复。类似于 Page 的 MaintainScrollPositionOnPostBack 属性，我们将在自定义的 TBPanel 控件中添加相同的功能。 ... [详细]

蜡笔小新 2024-12-16 10:11:17
string
探讨GET与POST请求数据传输的最大容量

在Web开发领域，GET和POST是最常见的两种数据传输方法。本文将深入探讨这两种请求方式在不同环境下的数据传输能力及其限制。 ... [详细]

蜡笔小新 2024-12-15 12:05:33
list
使用Python爬虫技术从网页中提取图片链接的方法与示例

本篇文章将详细介绍如何通过Python编程语言来实现从指定网页上抓取图片链接的功能，并提供了一个实用的代码示例。 ... [详细]

蜡笔小新 2024-12-15 11:58:32
list
Selenium与Python结合实现网页滚动条的自动化控制

本文介绍了如何利用Selenium和Python通过执行JavaScript代码来控制网页中的滚动条，包括垂直和水平滚动条的控制，以及特定元素的聚焦技术。 ... [详细]

蜡笔小新 2024-12-14 14:25:02
list
利用CSS3和React实现数字滚动动画组件

在前端开发中，数字滚动动画是一个常见的需求。本文将详细介绍如何使用CSS3和React构建一个数字滚动动画组件，包括组件的代码实现和样式设计。如果您对HTML版本感兴趣，欢迎留言获取。 ... [详细]

蜡笔小新 2024-12-13 13:48:05
list
为Firefox浏览器配置全局热键的方法

本文探讨了如何为Web浏览器（如Firefox）添加全局热键（例如媒体控制键），并详细说明了实现这一功能所需的步骤，包括可能需要的Firefox扩展和Greasemonkey脚本。 ... [详细]

蜡笔小新 2024-12-14 18:21:54

用巛户khm8pcnjp9

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章