SAS是现今非常流行的数据分析和数据挖掘软件,想从事数据分析行业,掌握SAS很有必要。虽然SAS本身提供了丰富的人机交互界面,通过手动调用各个Menu能方便地完成数据统计分析的任务,但是,通过代码来调用各个功能模块无疑能为工作带来巨大的灵活性,并显著提高效率。
本文主要是根据网上找到的一个电子文档《SAS语句简介》(可能是某本书的其中一章)以及朱世武老师的《SAS编程技术教程》整理而成。
SAS 程序通常分为数据步和过程步,一段SAS 程序根据目的和需要可以有0到多个数据步(Data)和0到多个过程步(Proc),还可以有系统选项语句、ODS语句等全局语句。
1.数据步(Data Step)
以关键词Data 开头,可由多条语句构成,结束标志可以是空语句、Run 语句、过程步或下一步数据步。
数据步功能有:
(1)从外部文件中读取数据;
(2)将数据写入到外部文件中;
(3)读取SAS数据文件和视图;
(4)创建SAS数据文件和视图。
2.过程步(Proc Step)
以关键词Proc 开头,可由多条语句构成,结束标志是Run或Quit 语句。过程步的功能有:
(1)调用 SAS 过程(SAS Procedures)分析和处理SAS数据集形式的数据,或执行其他分析;
(2)将分析结果以报表、图表的形式输出,或输出成 SAS数据集、外部文件;
(3)生成SQL查询;
(4)数据操作和管理。
下面是一段代码示例,通过注释可以看出怎样写SAS语句。
1 /****************************\
2 | 10名学龄儿童的身高体重资料 |
3 \****************************/ /*这三行都是注释,SAS中的注释跟C语言一样,是用/*和*/来包括的*/
4 OPTIONS nodate number=0; /*系统选项语句,nodate参数指定不在结果标题中显示时间,number=0也可以写成nonumber,指定不在标题中显示页数*/
5 DATA SASTJFX48_1; /*数据步,以Data开始,SASTJFX48_1是用户自定义的SAS数据集的名字*/
6 INPUT name $ height weight @@; /*INPUT创建变量、读取数据值、给变量赋值的语句,name,height,weight是用户自定义变量,$表示name是字符变量,*/
/*@@是读取数据值的指针控制符号,指定在同一个数据行可以读取2个以上的观测数据*/
7 BMI=weight/(height/100)**2;
8 LABLE BMI=‘body mass index’; /*通过“LABEL”语句设置变量BMI 的标签为“body mass index”*/
9 DATALINES; /*指DATALINES单独占一行,指定其后为数据行*/
10 WangHB 149.4 30.8 WuCJ 167.6 46.6 /*此处开始为数据行*/
11 ChenF 146.3 33.1 GaoSY 170.7 44.0
12 ZhanZL 161.5 36.3 LiYZ 164.6 40.8
13 ShenJJ 155.5 36.7 ZhaoJH 158.5 35.4
14 ZhangHX 149.4 33.1 WangXS 156.4 31.8
15 ;
16 RUN;17 ODS HTML; /*ODS为输出语句,指定以HTML语句的格式输出*/
18 PROC MEANS data=SASTJFX48_1; /*PROC指示过程步的开始,后接过程名,MEANS为SAS过程名,’data’为数据集选项,*//*指定过程步分析的数据集为SASTJFX48_1*/
19 VAR bmi; /*VAR后跟变量名,指定分析的变量*/
20 OUTPUT out=result mean=BMImean; /*OUTPUT为将运行结果输出,out后为用户自定义的输出数据集名,mean为结果中的均数名,=后面是用户自定义的输出名*/
21 RUN;
22 PROC PRINT data=result (keep=BMImean); /*调用PRINT过程在窗口显示result数据集,keep=是数据集选项,指定保留的变量*/
23 FORMAT BMImean 4.1; /*FORMAT规定变量的输出格式,其后是变量名和输出格式,4.1表示标准数值型数据输出格式*/
24 RUN;ODS HTML CLOSE; /*与17行的ODS成对出现的语句,指示关闭HTML格式的输出*/
3.SAS程序书写规则
SAS程序在书写的时候要遵循如下几点规则:
(1)每条SAS语句以分号(;)结尾;
(2)SAS语句可以从任何一行、任何一列开始,一行上可以写多条SAS语句;
(3)一条SAS语句可以写在多行上,但不能把一个语法单位分开写在不同的行上;
(4)一般情况下,一条语句中不同的语法单位要用空格或换行符分隔,但是一些字符的前方或后方,可以不用空格分隔,SAS可以自动分析语句结构、识别语法单位;
(5)SAS语句书写不区分字母的大小写,但在一些特殊场合除外。
4.SAS的注释
下面的一幅图片很好的解释了SAS的注释语句。
5.SAS命名规则
SAS要遵循如下的命名规则:
(1)SAS 名以字母或下划线开头,后续字符可以是字母、数字或下划线(同C语言);
(2)SAS 名依据其使用的场合有一定长度限制,有的部位的SAS 名至多有32 个字节长度,有的部位的SAS 名至多有8 个字节长度;
(3)SAS 名不区分大、小写,例如BMI、Bmi、bmi 在SAS 名中都是一个词;
(4)SAS 名中不能出现空格,并且SAS 名中除了字母、数字、下划线外,不能含有其他特殊字符,如#、$、@、%等特殊字符不能出现在SAS 名中;
(5)SAS 保留了一些自动变量名及变量列表、SAS 数据集名和逻辑库引用名;
6.SAS变量
编程语言一般都离不开变量。变量相当于一个容器,用来保存一定结构的数据。SAS变量除了具备常规编程语言所具备的许多共性外,也有一些自己的特点,下面主要讲述它特别的地方:
(1)SAS中只有两种数据类型--数值型和字符型。变量后加美元号表示该变量时字符型,美元号可以紧跟变量名后面,也可以空格。
(2)变量默认长度为8个字节,通常一个普通英文字符占一个字节,一个汉字占两个字节;用户可以用Length,Attrib语句修改变量的长度。如果变量第一次出现在表达式左边,则变量长度与表达式右边的结果值的长度一致。
(3)输出格式:字符型变量默认输出格式是“BEST16.”,数值型变量默认的输出格式是“$w.”,可以用Format,Attrib语句或者Format过程定义或修改变量的输出格式。
(4)变量次序:指数据步创建或定义变量的次序。
(5)索引类型:决定这个变量是否是数据集索引的一部分的属性。这个属性可以用Contents 过程的‘OUT=’选项进行定义和修改。
7.SAS运算符
8.SAS文件系统
(1)逻辑库
逻辑库名是SAS名,长度不能超过8B。建立SAS逻辑库的语句:
LIBNAME libref
语法说明:
libref:逻辑库名
SAS-data-library:逻辑库对应的物理地址
engine:引擎名称(缺失时是默认引擎)
逻辑库又分为临时库和永久库:临时逻辑库指的是内容只在启动SAS时存在,一旦退出SAS时内容完全被删除。系统默认临时逻辑库是work,引用临时库work中的文件时,可以不加库名。永久库当然在SAS关闭后仍旧保留。
(2)数据集
SAS数据集分为两类:SAS数据文件和SAS数据视图。SAS数据文件同时描述信息和存储数据值,SAS视图并不实际存储数据,它相当于一个查询语句。
(3)数据集选项
数据集选项用在SAS数据集名称后的括号中,多个选项之间用空格隔开。括号中的数据集选项的作用:
重新命名变量;
选择需要的观测;
输出数据集中保留或删除的变量;
数据集加密。
语法格式:
Data-set-name(Data-set-options)
(option-1&#61;value-1<…option-n&#61;value-n>)
例子&#xff1a;
data scores(keep&#61;team game1 game2 game3);
/*scores中保留team, game1, game2, game3四个变量*/
proc print data&#61; new(drop&#61;year); /*去掉变量year*/
set old(rename&#61;(date&#61;Start_Date)); /*将date改名*/