R数据科学（八）reader包数据导入

作者：桑语敬 | 来源：互联网 | 2023-09-23 22:08

library(tidyverse)读取文件：read_csv()读取逗号分隔文件、read_csv2()读取分号分隔文件、read_tsv()读取制表符分隔文件、read_del

library(tidyverse)

读取文件：
read_csv() 读取逗号分隔文件、 read_csv2() 读取分号分隔文件、 read_tsv() 读取制表符分隔文件、 read_delim() 可以读取使用任意分隔符的文件。
read_fwf() 读取固定宽度的文件。既可以使用 fwf_widths() 函数按照宽度来设定域，也可
以使用 fwf_positions() 函数按照位置来设定域。
read_csv() 函数的第一个参数是最重要的，该参数是要读取的文件的路径：

有时文件开头会有好几行元数据。你可以使用 skip = n 来跳过前 n 行；或者使用
comment = &＃8220;#&＃8221; 来丢弃所有以 # 开头的行

数据没有列名称。可以使用 col_names = FALSE 来通知 read_csv() 不要将第一行作为列
标题，而是将各列依次标注为 X1 至 Xn：

&＃8220;\n&＃8221; 是非常便捷的快捷方式，用于添加新行。

na。它设定使用哪个值（或哪些值）来表示文件中的缺失值

# heights <- read_csv("data/heights.csv") read_csv("a,b,c 1,2,3 4,5,6") read_csv("The first line of metadata The second line of metadata x,y,z 1,2,3", skip = 2) read_csv("# A comment I want to skip x,y,z100 1,2,3", comment = "#") read_csv("1,2,3\n4,5,6", col_names = FALSE) read_csv("1,2,3\n4,5,6", col_names = c("x", "y", "z")) read_csv("a,b,c\n1,2,.", na = ".")

read_csv函数与read.csv函数相比的优势是：
1.速度较快（约快 10 倍）
2.它们可以生成 tibble，并且不会将字符向量转换为因子，不使用行名称，也不会随意
改动列名称。
3.更易于重复使用。

8.2.2　练习
(1) 如果一个文件中的域是由“|”分隔的，那么应该使用哪个函数来读取这个文件？
(2) 除了 file、 skip 和 comment，还有哪些参数是 read_csv() 和 read_tsv() 这两个函数共有的？
(3) read_fwf() 函数中最重要的参数是什么？
(4) 有时 CSV 文件中的字符串会包含逗号。为了防止引发问题，需要用引号（如 &＃8221; 或 &＃8216;）
将逗号围起来。按照惯例， read_csv() 默认引号为 &＃8220;，如果想要改变默认值，就要转而
使用 read_delim() 函数。要想将以下文本读入一个数据框，需要设定哪些参数？
&＃8220;x,y\n1,&＃8217;a,b'&＃8221;
(5) 找出以下每个行内 CSV 文件中的错误。如果运行代码，会发生什么情况？
read_csv(&＃8220;a,b\n1,2,3\n4,5,6&＃8221;)
read_csv(&＃8220;a,b,c\n1,2\n1,2,3,4&＃8221;)
read_csv(&＃8220;a,b\n&＃8221;1&＃8221;)
read_csv(&＃8220;a,b\n1,2\na,b&＃8221;)
read_csv(&＃8220;a;b\n1;3&＃8221;)

# (1) # read_delim() # (2) ?read_csv ?read_tsv # 参数col_names,col_types,locale,na,quoted_na,quote,等参数都一样 # (3) ?read_fwf # 最重要的是分割符参数col_positions，告诉列从哪开始和结束 # (4) x <- "x,y\n1,'a,b'" read_delim(x, ",", quote = "'") # read_csv也支持该参数 read_csv(x, quote = "'") read_csv("a,b\n1,2,3\n4,5,6") # 列名只有两个，其中的元素被舍弃 read_csv("a,b,c\n1,2\n1,2,3,4") # 元素少了一个，用NA补全 read_csv("a,b\n\"1") read_csv("a,b\n1,2\na,b") read_csv("a;b\n1;3")8.3　解析向量

parse_*() 函数族函数接受一个字符向量，并返回一个特定向量，如逻辑、整数或日期向量
也即指明输入的是何种类型的数据
na 参数设定了哪些字符串应该当作缺失值来处理

str(parse_logical(c("TRUE", "FALSE", "NA"))) str(parse_integer(c("1", "2", "3"))) str(parse_date(c("2010-01-01", "1979-10-14"))) parse_integer(c("1", "231", ".", "456"), na = ".")

parse_logical() 和 parse_integer() 函数分别解析逻辑值和整数。
parse_double() 是严格的数值型解析函数， parse_number() 则是灵活的数值型解析函数。
parse_character() 函数
parse_factor() 函数可以创建因子， R 使用这种数据结构来表示分类变量，该变量具有
固定数目的已知值。
parse_datetime()、 parse_date() 和 parse_time() 函数可以解析不同类型的日期和时间。

8.3.1　数值

parse_number() 可以忽略数值前后的非数值型字符。这个函数特别适合处理货币和百分比，也可以提取嵌在文本中的数值：

parse_number('$100') parse_number('1,233,400') # 也可以设置分组符号 parse_number( "123.456.789", locale = locale(grouping_mark = ".") )

8.3.2　字符串

计算机将字符从编码为十六进制数存储在计算机中，这个示例中的编码方式称为 ASCII。 ASCII 可以非常好地表示英文字符

UTF-8为目前通用的字符编码方法，

# 十六进制数 charToRaw("Hadley") x1 <- "El Ni\xf1o was particularly bad this year" x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd" # parse_character(x1) # parse_character(x2) #编码方式不对，乱码 # encoding设置编码方式 parse_character(x2,locale = locale(encoding = "Shift-JIS")) # guess_encoding函数可以猜测编码方式 guess_encoding(charToRaw(x2))

8.3.3　因子

R 使用因子表示取值范围是已知集合的分类变量

fruit <- c("apple", "banana") parse_factor(c("apple", "banana", "bananana")) parse_factor(c("apple", "banana", "bananana"), levels = fruit)

8.3.4　日期、日期时间与时间

parse_datetime() 期待的是符合 ISO 8601 标准的日期时间。 ISO 8601 是一种国际标准，
其中日期的各个部分按从大到小的顺序排列，即年、月、日、小时、分钟、秒

parse_datetime("2010-10-01T2010")

parse_date() 期待的是四位数的年份、一个 &＃8211; 或 /、月、一个 &＃8211; 或 /，然后是日

parse_date("2010-10-01")

parse_time() 期待的是小时、 :、分钟、可选的 : 和秒，以及一个可选的 a.m./p.m. 标识符

library(hms) parse_time("01:10 am") #> 01:10:00 parse_time("20:10:01") #> 20:10:01 # 创建解析函数进行尝试解析 parse_date("01/02/15", "%m/%d/%y") #> [1] "2015-01-02" parse_date("01/02/15", "%d/%m/%y") #> [1] "2015-02-01" parse_date("01/02/15", "%y/%m/%d") #> [1] "2001-02-15"

8.3.5　练习
(1) locale() 函数中最重要的参数是什么？
date and time formats: date_names, date_format, and time_format
time zone: tz
numbers: decimal_mark, grouping_mark
encoding: encoding

(2) 如果将 decimal_mark 和 grouping_mark 设为同一个字符，会发生什么情况？如果将 decimal_mark 设为 ,， grouping_mark 的默认值会发生什么变化？如果将 grouping_mark 设为 .，decimal_mark 的默认值会发生什么变化？
decimal_mark and grouping_mark must be different

(3) 我们没有讨论过 locale() 函数的 date_format 和 time_format 选项，它们的作用是什
么？构建一个示例，说明它们在何种情况下是有用的？

# 设置默认的时间和日期格式 locale() parse_date("1 janvier 2015", "%d %B %Y", locale = locale("fr")) #> [1] "2015-01-01" parse_date("14 oct. 1979", "%d %b %Y", locale = locale("fr")) #> [1] "1979-10-14"

(4) 如果你不是居住在美国，创建一个新的地区对象，并封装你最常读取的文件类型的相关
设置。

parse_date("02/01/2006") # 报错不能识别该格式 au_locale <- locale(date_format = "%d/%m/%Y") #设置新格式 parse_date("02/01/2006", locale = au_locale)

(5) read_csv() 和 read_csv2() 之间的区别是什么？
(6) 欧洲最常用的编码方式是什么？亚洲最常用的编码方式是什么？可以使用 google 找出
答案。Chinese: GB 2312, GBK, GB 18030
(7) 生成正确形式的字符串来解析以下日期和时间。

d1 <- "January 1, 2010" parse_date(d1,'%B %d, %Y') d2 <- "2015-Mar-07" parse_date(d2,"%Y-%b-%d") d3 <- "06-Jun-2017" parse_date(d3, "%d-%b-%Y") d4 <- c("August 19 (2015)", "July 1 (2015)") parse_date(d4,"%B %d (%Y)") d5 <- "12/30/14" # 2014年12月30日 parse_date(d5,"%m/%d/%y") t1 <- "1705" parse_time(t1, "%H%M") t2 <- "11:15:10.12 PM"

8.4　解析文件

readr 如何自动猜出文件每列的数据类型。
如何修改默认设置。
策略一：根据前面的行猜测

guess_parser("2010-10-01") # 猜测 str(parse_guess("2010-10-01")) # 解析 challenge <- read_csv(readr_example("challenge.csv")) # 不能读入 problems(challenge) #整数后面有拖尾字符 # 增加猜测行数 challenge2 <- read_csv( readr_example("challenge.csv"), guess_max = 1001 ) # 将所有行按字符串读入 challenge2 <- read_csv(readr_example("challenge.csv"), col_types = cols(.default = col_character()) ) # 然后用type_convert函数自动解析各列 type_convert(challenge2)8.5　写入文件

write_csv() 和 write_tsv()
如果想要将 CSV 文件导为 Excel 文件，可以使用 write_excel_csv() 函数
这几个函数中最重要的参数是 x（要保存的数据框）和 path（保存文件的位置）。还可以使
用 na 参数设定如何写入缺失值，如果想要追加到现有的文件，需要设置 append 参数

haven 可以读取 SPSS、 Stata 和 SAS 文件；
• readxl 可以读取 Excel 文件（.xls 和 .xlsx 均可）；
• 配合专用的数据库后端程序（如 RMySQL、 RSQLite、 RPostgreSQL 等）， DBI 可以对相
应数据库进行 SQL 查询，并返回一个数据框。

阅读推荐：
生信技能树公益视频合辑：学习顺序是linux，r，软件安装，geo，小技巧，ngs组学！
B站链接：https://m.bilibili.com/space/338686099
YouTube链接：https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程师入门最佳指南：https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA

推荐阅读

ascii
使用pymysql的Python无法向mysql数据库中的表添加字段

WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]

蜡笔小新 2023-12-12 13:45:10
ascii
高质量SQL书写的30条建议

本文提供了30条关于优化SQL的建议，包括避免使用select *，使用具体字段，以及使用limit 1等。这些建议是基于实际开发经验总结出来的，旨在帮助读者优化SQL查询。 ... [详细]

蜡笔小新 2023-12-13 13:24:33
java
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
java
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
java
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
java
MyBatis多表查询与动态SQL使用

本文介绍了MyBatis多表查询与动态SQL的使用方法，包括一对一查询和一对多查询。同时还介绍了动态SQL的使用，包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]

蜡笔小新 2023-12-12 17:12:51
go
移动端常用单位——rem的使用方法和注意事项

本文介绍了移动端常用的单位rem的使用方法和注意事项，包括px、%、em、vw、vh等其他常用单位的比较。同时还介绍了如何通过JS获取视口宽度并动态调整rem的值，以适应不同设备的屏幕大小。此外，还提到了rem目前在移动端的主流地位。 ... [详细]

蜡笔小新 2023-12-12 07:20:50
uri
SpringBoot uri统一权限管理的实现方法及步骤详解

本文详细介绍了SpringBoot中实现uri统一权限管理的方法，包括表结构定义、自动统计URI并自动删除脏数据、程序启动加载等步骤。通过该方法可以提高系统的安全性，实现对系统任意接口的权限拦截验证。 ... [详细]

蜡笔小新 2023-12-14 16:11:30
uri
解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法

本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题，并给出了正确的解决方法。详细描述了问题的出现情况和报错信息，并提供了解决该问题的步骤和注意事项。 ... [详细]

蜡笔小新 2023-12-13 16:31:57
uri
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
java
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
java
编写可保护的代码的重要性及优化方法

本文讨论了编写可保护的代码的重要性，包括提高代码的可读性、可调试性和直观性。同时介绍了优化代码的方法，如代码格式化、解释函数和提炼函数等。还提到了一些常见的坏代码味道，如不规范的命名、重复代码、过长的函数和参数列表等。最后，介绍了如何处理数据泥团和进行函数重构，以提高代码质量和可维护性。 ... [详细]

蜡笔小新 2023-12-11 18:32:44
input
如何在Laravel DB :: insert中返回OUTPUT子句的值？

本文介绍了在使用Laravel和sqlsrv连接到SQL Server 2016时，如何在插入查询中使用输出子句，并返回所需的值。同时讨论了使用CreatedOn字段返回最近创建的行的解决方法以及使用Eloquent模型创建后，值正确插入数据库但没有返回uniqueidentifier字段的问题。最后给出了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 10:09:09
java
如何使用Java代码获得只有年月日的Date对象

本文介绍了如何使用Java代码通过SimpleDateFormat类来获得只有年月日的Date对象，并解释了在日期格式化和解析过程中需要注意的问题。同时提供了示例代码和异常处理方法。 ... [详细]

蜡笔小新 2023-12-11 09:17:55
java
Spring Boot 中 Java8 LocalDateTime 序列化问题

LoginController页面如下：publicObjectlogin(@RequestBodyUseruser){returnxxxx ... [详细]

蜡笔小新 2023-10-17 11:21:44