这次的内容,涉及到 R 语言包的建立。事实上,CRAN 提供的官方参考指南,并不适合快速阅读,且内容繁杂。比较适合作为后期提高的 教材。而 http://r-pkgs.had.co.nz/ 上 的教程则更适合作为 R 包编写的帮助指南。这里,仅仅讲述整个过程中需要注意的一系列的问题:
目前,我个人只涉及到 Windows 系统,因此本文仅适用于 Windows 系统下,R 包的创建:Rtools 是必须具备的工具,当然这个工具也只适用于 Windows 系统。关于 Rtools 的安装并没有过多可强调的内容。需要明确的是:R 语言目前已经进入了 4.0 的时代,对应的也从 Rtools35 过渡到了 Rtools40.目前所有的配置要求必然是: 以及 旧版的 Rtools 需要在安装时勾选:Add rtools to system PATH, 但新版本并无此操作。仍然需要注意的是:
必须安装在 C 盘的默认路径下,不能更改安装路径!在完成安装之后,R 语言环境下,运行代码:
> Sys.which('make')
make
"C:\\rtools40\\usr\\bin\\make.exe"
返回上述信息,才能证明 Rtools 配置已完成。需要强调的是:不能修改安装路径!且 C 盘文档下的 .Renviron 不能删除!除此之外,还需要:设置 R 的 path 环境变量,这一步已经在 《R语言环境配置》一文讲过,因此,实在没有重复的必要性。并且,这篇文章也不是针对零基础而讲的。仅仅只会涉及到重点内容以及各种易错点。只有环境变量设置成功,后续才能调用 R CMD 进行一系列的操作。至此环境配置已完成,当然,还需要准备:RStudio
R 包的建立,最佳建议方案:在 RStudio 中通过新建项目来完成。法一:File > New Project > New Directory > R Package ,或者选择:R Package using devtools法二:
library(devtools)
create_package()
或者选择 create_package() 直接创建一个包所需要的基本内容。至于 create_package() 如何使用:RTFM基本的路径设置,绝对路径,相对文件,文件管理,如何保存到合适的位置,以及 R 语言包的建立,不能直接输入任何中文字符,这些都属于基础入门内容。不是现如今应该重复叙述的内容。从这篇文章开始,今后不会再涉及针对基础入门的帮助性文章。
需要说明的是:
1/ devtools 包必须使用,导入 devtools 的同时,会默认加载 usethis包
2/ 而 roxygen2 则被 RStudio 的操作环境下使用了,并没有被显式调用。
3/ 这三个包,构成了 R 包创建的整个工具支持。
整个项目文件夹下包括了:
---R
---man
---NAMESPACE
---DESCRIPTION
以及 Rproj 和 LICENSE
这些部分是包的创建所必须的,但 Data 和 vignette文件夹并不是默认需要的,这一点需要引起重视。
RStudio 界面的些许变化:只有在创建 R 包的项目文件中,Build 菜单栏才会显示与创建包相关的一系列选项!当然,除了鼠标点击执行以外,利用 代码操作,才是最直接了当的方式。
创建之前,需要把工作路径设置到创建包的路径下!
一般,第一步通常是修改:DESRITION 文件
Package:
Title:
Version:
Date:
Authors@R:
person(given = ,
family = ,
role = c("aut", "cre"),
email = )
Author: [aut,cre]
Depends: R (>= 4.0.0)
Description:
License:
Imports:
Encoding: UTF-8
LazyData: true
Roxygen: list(markdown = TRUE)
RoxygenNote: 7.1.1
相关的内容,需要个人补齐。这一块,不再强调。
Imports 内容,涉及到编写函数时使用到的其他包。必须在 Imports 项中指出,否则建立包时,会产生报错信息。
这一块,倒没有过多需要强调的内容。
在编写函数之前,需要确保当前环境下,所有的变量被清空:
rm(list = ls())
所有的代码均位于 R 文件夹下,通过一个个 .R 为后缀名的脚本来记录。但目前,仍然无法支持 R 文件夹下涉及子目录,也就意味着,所有的函数都必须通过处于同一级的 R 的脚本来保存。在编写函数之前,需要明确:R 包函数分为两大类:1/ 支持导出的函数2/ 仅在包内使用的内部函数创建文件及删除文件:
edit_file('./R/read.R')
file.remove('R/read.R')
当然设置路径是包的主路径,而 R 是子目录,所以创建 R 脚本是必须添加上子目录名称,而不需要时,则通过 file.remove() 删除路径。
需要说明的是:file.remove() 操作的文件,将直接被清理,不会进入回收站中,因此需要谨慎对待。
R 文件夹下的脚本名并不一定等于函数名。一个脚本下可以存在多个函数均被导出。
对于导出的函数,需要添加注释内容。而 R 包的内部函数,则不需要注释内容。
所有的注释内容,以 #' 开头,或者可以选择:##’ 开头。
简单的示例:
#' @title
#' @description
#' @param
#' @examples
#' @export
#' @author
scan.str function(string){
return(scan(text = string))
}
@ 后面的每一项内容都需要补齐,但 @author, @examples 并不是必须项。
其中,title, description, param, export 则是基础内容,需要完善,而 param 则是针对函数中参数内容的注释。
@return 用于解释函数的返回内容
@importFrom 则是至关重要的内容
例如:
#' @importFrom utils read.table
read.txt function(text,header = T,...) {
return(read.table(text = text, header = header,...))
}
函数中使用到了除 base 包以外的函数,均需要通过 @importFrom 进行指明!
格式为:@importFrom pkgname funtion1 function2 function3 ...
编写完成,保存后,下面进行自动生成相关信息的操作:
> rm(list = ls())
> document()
Updating ... documentation
Loading ...
Writing NAMESPACE
Writing NAMESPACE
document() 用于生成相关的内容:完善 NAMESPACE 文件以及 man 文件夹下的 rd 文件,但在此之前,必须保证当前环境不与所创建的包中的函数相冲突。所以建议习惯性执行:rm() 操作。
---end---