使用rvest跟随“相对路径”的“下一步”链接-Following“next”linkwithrelativepathsusingrvest

作者：悍受蓁 | 来源：互联网 | 2023-09-16 05:26

Iamusingthervestpackagetoscrapeinformationfromthepagehttp:www.radiolab.orgseriespodc

I am using the rvest package to scrape information from the page http://www.radiolab.org/series/podcasts. After scraping the first page, I want to follow the "Next" link at the bottom, scrape that second page, move onto the third page, etc.

我正在使用rvest包从http://www.radiolab.org/series/podcasts页面中获取信息。在抓第一页后,我想按照底部的“下一步”链接,抓第二页,移到第三页等。

The following line gives an error:

以下行给出错误:

html_session("http://www.radiolab.org/series/podcasts") %>% follow_link("Next")
## Navigating to 
##     
##       ./2/  
## Error in parseURI(u) : cannot parse URI 
##     
##       ./2/

Inspecting the HTML shows there is some extra cruft around the "./2/" that rvest apparently doesn't like:

检查HTML显示在“.//”周围有一些额外的错误,其中rvest显然不喜欢:

html("http://www.radiolab.org/series/podcasts") %>% html_node(".pagefooter-next a")
## Next 

.Last.value %>% html_attrs()
##                   href 
## "\n    \n      ./2/  "

Question 1: How can I get rvest::follow_link to treat this link correctly like my browser does? (I could manually grab the "Next" link and clean it up with regex, but prefer to take advantage of the automation provided with rvest.)

问题1:如何像我的浏览器一样正确处理rvest :: follow_link? (我可以手动抓取“下一步”链接并使用正则表达式进行清理,但更喜欢利用rvest提供的自动化功能。)

At the end of the follow_link code, it calls jump_to. So I tried the following:

在follow_link代码的末尾,它调用jump_to。所以我尝试了以下内容:

html_session("http://www.radiolab.org/series/podcasts") %>% jump_to("./2/")
##  http://www.radiolab.org/series/2/
##   Status: 404
##   Type:   text/html; charset=utf-8
##   Size:   10744
## Warning message:
## In request_GET(x, url, ...) : client error: (404) Not Found

Digging into the code, it looks like the issue is with XML::getRelativeURL, which uses dirname to strip off the last part of the original path ("/podcasts"):

深入研究代码,问题似乎是XML :: getRelativeURL,它使用dirname去掉原始路径的最后一部分(“/ podcasts”):

XML::getRelativeURL("./2/", "http://www.radiolab.org/series/podcasts/")
## [1] "http://www.radiolab.org/series/./2"

XML::getRelativeURL("../3/", "http://www.radiolab.org/series/podcasts/2/")
## [1] "http://www.radiolab.org/series/3"

Question 2: How can I get rvest::jump_to and XML::getRelativeURL to correctly handle relative paths?

问题2:如何让rvest :: jump_to和XML :: getRelativeURL正确处理相对路径?

1 个解决方案

#1

Since this problem still seems to occur with RadioLab.com, your best solution is to create a custom function to handle this edge case. If you're only worried about this site - and this particular error - then you can write something like this:

由于RadioLab.com似乎仍然存在这个问题,因此您最好的解决方案是创建一个自定义函数来处理这种边缘情况。如果你只是担心这个网站 - 以及这个特殊的错误 - 那么你可以这样写:

library(rvest)

follow_next <- function(session, text ="Next", ...) {
    link <- html_node(session, xpath = sprintf("//*[text()[contains(.,'%s')]]", text))
    url <- html_attr(link, "href")
    url = trimws(url)
    url = gsub("^\\.{1}/", "", url)
    message("Navigating to ", url)
    jump_to(session, url, ...)
}

That would allow you to write code like this:

这将允许您编写如下代码:

html_session("http://www.radiolab.org/series/podcasts") %>%
    follow_next()

#> Navigating to 2/
#>  http://www.radiolab.org/series/podcasts/2/
#>   Status: 200
#>   Type:   text/html; charset=utf-8
#>   Size:   61261

This is not per se an error - the URL on RadioLab is malformed, and failing to parse a malformed URL is not a bug. If you want to be liberal in how you handle the issue you need to manually work around it.

这本身不是一个错误 - RadioLab上的URL格式错误,并且无法解析格式错误的URL不是错误。如果您想在处理问题方面保持自由,则需要手动解决问题。

Note that you could also use RSelenium to launch an actual browser (e.g. Chrome) and have that perform the URL parsing for you.

请注意,您还可以使用RSelenium启动实际的浏览器(例如Chrome)并为您执行URL解析。

推荐阅读

java
为 HelloWorld 项目添加视图组件

在本文中，我们将为 HelloWorld 项目添加视图组件，以确保控制器返回的视图路径能够正确映射到指定页面。这一步骤将为后续的测试和开发奠定基础。首先，我们将介绍如何配置视图解析器，以便 SpringMVC 能够识别并渲染相应的视图文件。 ... [详细]

蜡笔小新 2024-11-07 10:52:57
php
如何在PHP中获取数组中特定元素的索引位置

在PHP中获取数组中特定元素的索引位置有多种方法。首先，可以使用 `array_search()` 函数，其语法为 `array_search(目标值, $array)`，该函数将返回匹配元素的第一个键名（即下标）。其次，也可以利用 `array_keys()` 函数，通过 `array_keys($array, 目标值)` 语法来获取所有匹配元素的键名列表。这两种方法都能有效解决数组元素定位的问题，具体选择取决于实际需求和性能考虑。 ... [详细]

蜡笔小新 2024-11-11 17:25:16
java
Vue 开发技巧：实现数据过滤与排序功能详解

Vue 开发技巧：实现数据过滤与排序功能详解 ... [详细]

蜡笔小新 2024-11-11 16:43:09
stream
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
request
在Django中提交表单时遇到值错误问题如何解决？

在Django项目中，当用户提交包含多个选择目标的表单时，可能会遇到值错误问题。本文将探讨如何通过优化表单处理逻辑和验证机制来有效解决这一问题，确保表单数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-08 10:29:57
select
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
utf-8
利用纯CSS技术打造精致的小圆点与三角形图形

通过纯CSS技术，可以轻松创建精致的小圆点和三角形图形。本文详细介绍了如何利用CSS的伪元素、边框和背景属性，实现这些图形的高效绘制，并提供了多种应用场景和示例代码，帮助开发者在网页设计中增添更多视觉效果。 ... [详细]

蜡笔小新 2024-11-07 13:33:33
java
如何利用jQuery的JSONP技术实现跨域调用外部Web服务？

本文探讨了如何利用 jQuery 的 JSONP 技术实现跨域调用外部 Web 服务。通过详细解析 JSONP 的工作原理及其在 jQuery 中的应用，本文提供了实用的代码示例和最佳实践，帮助开发者解决跨域请求中的常见问题。 ... [详细]

蜡笔小新 2024-11-07 09:24:55
java
HTML 页面中调用 JavaScript 函数生成随机数值并自动展示

在HTML页面中，通过调用JavaScript函数生成随机数值，并将其自动展示在页面上。具体实现包括构建HTML页面结构，定义JavaScript函数以生成随机数，以及在页面加载时自动调用该函数并将结果呈现给用户。 ... [详细]

蜡笔小新 2024-11-06 12:20:41
java
Python HTML 过滤处理实例解析：深入探讨代码实现与应用场景

本文深入解析了Python在处理HTML过滤时的实现方法及其应用场景。通过具体实例，详细介绍了如何利用Python代码去除HTML字符串中的标签和其他无关信息，确保内容的纯净与安全。此外，文章还探讨了该技术在网页抓取、数据清洗等领域的实际应用，为开发者提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-05 08:23:37
plugins
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
future
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
io
紧急求助！如何运用正则表达式（regexp）进行高效匹配操作？

如何利用正则表达式（regexp）实现高效的模式匹配？本文探讨了正则表达式在编程中的应用，并分析了一个示例程序中存在的问题。通过具体的代码示例，指出该程序在定义和使用正则表达式时的不当之处，旨在帮助读者更好地理解和应用正则表达式技术。 ... [详细]

蜡笔小新 2024-11-04 16:53:48
php
掌握PHP编程必备知识与技巧——全面教程

掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中，了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先，确保你正在使用PHP 5.3或更高版本，最好是最新版本，以充分利用其性能优化和新特性。此外，我们还将探讨代码结构、安全性和性能优化等方面的内容，帮助你成为一名更高效的PHP开发者。 ... [详细]

蜡笔小新 2024-11-03 16:38:49
io
超分辨率技术的全球研究进展与应用现状综述

本文综述了图像超分辨率（Super-Resolution, SR）技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率（Low-Resolution, LR）图像中恢复出高质量的高分辨率（High-Resolution, HR）图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法，包括基于传统方法和深度学习的方法，并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]

蜡笔小新 2024-10-31 15:10:48

悍受蓁

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章