提取hrefattr或将节点转换为字符列表

作者：mobiledu2502928897 | 来源：互联网 | 2023-05-18 09:02

如何解决《提取hrefattr或将节点转换为字符列表》经验，为你挑选了1个好方法。

我尝试从网站上提取一些信息

library(rvest)
library(XML)
url <- "http://wiadomosci.onet.pl/wybory-prezydenckie/xcnpc"
html <- html(url)

nodes <- html_nodes(html, ".listItemSolr") 
nodes

我得到30个HTML代码的"列表".我希望从"list"提取最后一个href属性的每个元素,所以对于30.元素它将是

所以我想得到字符串

"http://wiadomosci.onet.pl/kraj/w-sobote-prezentacja-hasla-i-programu-wyborczego-komorowskiego/tvgcq"

问题是html_attr(nodes, "href")行不通(我得到NA的矢量).所以我想到了正则表达式,但问题nodes是不是字符列表.

class(nodes)
[1] "XMLNodeSet"

我试过了

xmlToList(nodes)

但它也不起作用.

所以我的问题是:如何使用为HTML创建的某个函数提取此URL？或者,如果不可能,我如何将XMLNodeSet转换为字符列表？

1> bergant..：

尝试在节点的子节点内搜索:

nodes <- html_nodes(html, ".listItemSolr") 

sapply(html_children(nodes), function(x){
  html_attr( x$a, "href")
})

更新

哈德利建议使用优雅的管道:

html %>%  
  html_nodes(".listItemSolr") %>% 
  html_nodes(xpath = "./a") %>% 
  html_attr("href")

推荐阅读

replace
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
request
JavaScript中的事件处理机制

事件是程序各部分之间的一种通信方式，也是异步编程的一种实现形式。本文将详细介绍EventTarget接口及其相关方法，以及如何使用监听函数处理事件。 ... [详细]

蜡笔小新 2024-11-15 04:27:01
request
开发笔记: URL参数处理与API请求示例

本文记录了如何在开发过程中处理URL参数，并通过GET和POST方法发送API请求的具体步骤。 ... [详细]

蜡笔小新 2024-11-15 11:39:59
format
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
js
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
js
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
format
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
version
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
process
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
js
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
js
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
js
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新 2024-11-14 12:33:11
schema
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
schema
探索Web 2.0新概念：Widget

尽管你可能尚未注意到Widget，但正如几年前对RSS的陌生一样，这一概念正逐渐走入大众视野。据美国某权威杂志预测，2007年将是Widget年。本文将详细介绍Widget的定义、功能及其未来发展趋势。 ... [详细]

蜡笔小新 2024-11-12 18:36:54
js
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16

mobiledu2502928897

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章