如何从R的数据框中的字符串中提取数字并将其放置在新列中？

作者：流血的云_-86097 | 来源：互联网 | 2022-10-19 12:08

如何解决《如何从R的数据框中的字符串中提取数字并将其放置在新列中？》经验，为你挑选了3个好方法。

我有一个简单的数据框：

df <- data.frame(test = c("test_A_1_1.txt", "test_A_2_1.txt", "test_A_3_1.txt"), value = c(0.51, 0.52, 0.56))

          test   value
1 test_A_1_1.txt  0.51
2 test_A_2_1.txt  0.52
3 test_A_3_1.txt  0.56

预期产量

我想将数字复制到第1列的字符串末尾，并将其分别放在第3列或第4列中，如下所示：

          test value  new new
1 test_A_1.txt  0.51   1  1
2 test_A_2.txt  0.52   2  1
3 test_A_3.txt  0.56   3  1

尝试

使用以下代码，我可以从字符串中提取数字：

library(stringr)
as.numeric(str_extract_all("test_A_3.txt", "[0-9]+")[[1]])[1] # Extracts the first number
as.numeric(str_extract_all("test_A_3.txt", "[0-9]+")[[1]])[2] # Extracts the second number

我想将此代码应用于第一列的所有值：

library(tidyverse)
df %>% mutate(new = as.numeric(str_extract_all(df$test, "[0-9]+")[[1]])[1])

但是，这导致new只有数字的列1。我究竟做错了什么？

1> Rui Barradas..：

为什么不使用基础R解决方案？

df$new <- as.numeric(gsub("[^[:digit:]]+", "", df$test))

df
#          test value new
#1 test_A_1.txt  0.51   1
#2 test_A_2.txt  0.52   2
#3 test_A_3.txt  0.56   3

编辑。

按照用户@camille的答案中的示例，其中字符串可能具有不同数量的数字，这是使用package的解决方案stringr。

df1 <- data.frame(test = c("test_A_1.txt", "test_A_2.txt", "test_A_3.txt"), value = c(0.51, 0.52, 0.56))
df2 <- data.frame(test = c("test_A_1_1.txt", "test_A_2_1.txt", "test_A_3_1.txt"), value = c(0.51, 0.52, 0.56))
df3 <- data.frame(test = c("test_A_1_1.txt", "test_A_2_1.txt", "test_A_3_1.txt", "test_A_4_2_1.txt"), value = c(0.51, 0.52, 0.56, 2))

num2cols <- function(DF, col = "test"){
  s <- stringr::str_extract_all(DF[[col]], "[[:digit:]]+")
  Max <- max(sapply(s, length))
  new <- do.call(rbind, lapply(s, function(x){
    as.numeric(c(x, rep(NA, Max - length(x))))
  }))
  names_new <- paste0("new", seq.int(ncol(new)))
  setNames(cbind(DF, new), c(names(DF), names_new))
}

num2cols(df1)
num2cols(df2)
num2cols(df3)

2> akrun..：

我们可以使用parse_number从readr

library(dplyr)
library(purrr)
library(stringr)
df %>%
    mutate(new = readr::parse_number(as.character(test)))

关于OP的问题，它仅从中选择第一个list元素（[[1]]）str_extract_all（返回list）。相反，最好使用，str_extract因为我们只需要提取一个或多个数字（\\d+）的第一个实例

df %>%
    mutate(new = as.numeric(str_extract(test, "[0-9]+")))

如果我们需要从得到的输出str_extract_all（万一），unlist将list到vector，然后应用as.numeric上vector

df %>%
     mutate(new = as.numeric(unlist(str_extract_all(test, "[0-9]+"))))

如果有多个实例，则它保持为list转换成之后numeric通过经循环list与元件map

df %>% 
     mutate(new = map(str_extract_all(test, "[0-9]+"), as.numeric))

注意：str_extract基于解决方案首先发布在这里。

在中base R，我们可以使用regexpr

df$new <- as.numeric(regmatches(df$test, regexpr("\\d+", df$test)))

更新资料

随着更新的例子，如果我们需要得到的数字的两个实例，第一个可以与提取str_extract，最后（stri_extract_last-从stringi可作为良好），通过提供一个正则表达式环视检查位数字加一个.和“TXT '

df %>% 
  mutate(new1 = as.numeric(str_extract(test, "\\d+")),
      new2 = as.numeric(str_extract(test, "\\d+(?=\\.txt)")))
#            test value new1 new2
#1 test_A_1_1.txt  0.51    1    1
#2 test_A_2_1.txt  0.52    2    1
#3 test_A_3_1.txt  0.56    3    1

3> sindri_baldu..：

稍微修改您现有的代码：

df %>% 
  mutate(new = as.integer(str_extract(test, "[0-9]+")))

或者简单地

df$new <- as.integer(str_extract(df$test, "[0-9]+"))

git
正则

推荐阅读

clone
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
ide
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
ide
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
ide
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
ide
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
windows
PHP中去除换行符的多种方法及应用场景

本文将详细介绍在PHP中去除换行符的各种方法，并结合实际应用场景进行说明。通过本文，您将了解如何根据不同操作系统的特点，选择最合适的换行符处理方式。 ... [详细]

蜡笔小新 2024-12-25 19:30:22
windows
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
windows
深入解析JMeter中的JSON提取器及其应用

本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时，JSON提取器是一个非常有用的工具。 ... [详细]

蜡笔小新 2024-12-25 16:34:37
windows
Perl基础爬虫：从丁香园获取意大利新冠数据

本文介绍如何使用Perl编写一个简单的爬虫，从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容，最终提取所需数据。 ... [详细]

蜡笔小新 2024-12-25 12:06:26
windows
SQL 类似查询语句中正则表达式解析

探讨如何使用正则表达式从类 SQL 查询语句中提取字段及其对应的值。 ... [详细]

蜡笔小新 2024-12-25 11:01:15
windows
Python正则表达式re库的使用指南

本文详细介绍了如何使用Python的re库进行正则表达式匹配，特别是针对URL中的特定参数提取。适合初学者理解和应用。 ... [详细]

蜡笔小新 2024-12-24 20:00:47
windows
百度搜索结果链接提取工具 UrlGetter V1.43

该工具专为获取百度搜索引擎的结果页面中的网址链接而设计，能够解析并转换为原始URL。通过正则表达式匹配技术，精准提取网页链接，并提供详细的使用说明和下载资源。 ... [详细]

蜡笔小新 2024-12-24 18:46:35
alias
深入解析Nginx中的Location指令及其属性

本文将详细探讨Nginx配置文件中关键的location指令，包括其三种匹配方式（精准匹配、普通匹配和正则匹配），以及如何在实际应用中灵活运用这些匹配规则。此外，还将介绍location下的重要子元素如root、alias和proxy_pass，并解释相关参数的使用方法。 ... [详细]

蜡笔小新 2024-12-24 17:53:47
alias
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新 2024-12-24 16:36:52
alias
基于jQuery的用户注册页面表单验证代码分享

本文介绍了一段使用jQuery实现的用户注册页面表单验证代码，适用于前端开发人员学习和参考。该示例结合了HTML、CSS和JavaScript，确保用户输入的数据格式正确。 ... [详细]

蜡笔小新 2024-12-24 14:37:46

流血的云_-86097

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章