热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

SAS自学系列SAS语句的语法

SAS是现今非常流行的数据分析和数据挖掘软件,想从事数据分析行业,掌握SAS很有必要。虽然SAS本身提供了丰富的人机交互界面,通过手动调用

        SAS是现今非常流行的数据分析和数据挖掘软件,想从事数据分析行业,掌握SAS很有必要。虽然SAS本身提供了丰富的人机交互界面,通过手动调用各个Menu能方便地完成数据统计分析的任务,但是,通过代码来调用各个功能模块无疑能为工作带来巨大的灵活性,并显著提高效率。

    本文主要是根据网上找到的一个电子文档《SAS语句简介》(可能是某本书的其中一章)以及朱世武老师的《SAS编程技术教程》整理而成。

    SAS 程序通常分为数据步和过程步,一段SAS 程序根据目的和需要可以有0到多个数据步(Data)和0到多个过程步(Proc),还可以有系统选项语句、ODS语句等全局语句。

        1.数据步(Data Step)

        以关键词Data 开头,可由多条语句构成,结束标志可以是空语句、Run 语句、过程步或下一步数据步。

          数据步功能有:

    (1)从外部文件中读取数据;

    (2)将数据写入到外部文件中;

    (3)读取SAS数据文件和视图;

    (4)创建SAS数据文件和视图。

    2.过程步(Proc Step)

    以关键词Proc 开头,可由多条语句构成,结束标志是Run或Quit 语句。过程步的功能有:

    (1)调用 SAS 过程(SAS Procedures)分析和处理SAS数据集形式的数据,或执行其他分析;

    (2)将分析结果以报表、图表的形式输出,或输出成 SAS数据集、外部文件;

    (3)生成SQL查询;

    (4)数据操作和管理。

    下面是一段代码示例,通过注释可以看出怎样写SAS语句。

1 /****************************\

2 | 10名学龄儿童的身高体重资料 |

3 \****************************/            /*这三行都是注释,SAS中的注释跟C语言一样,是用/*和*/来包括的*/

4 OPTIONS nodate number=0;                    /*系统选项语句,nodate参数指定不在结果标题中显示时间,number=0也可以写成nonumber,指定不在标题中显示页数*/

5 DATA SASTJFX48_1;                                   /*数据步,以Data开始,SASTJFX48_1是用户自定义的SAS数据集的名字*/

6   INPUT name $ height weight @@;        /*INPUT创建变量、读取数据值、给变量赋值的语句,name,height,weight是用户自定义变量,$表示name是字符变量,*/

                                                                           /*@@是读取数据值的指针控制符号,指定在同一个数据行可以读取2个以上的观测数据*/

7   BMI=weight/(height/100)**2;              

8 LABLE BMI=‘body mass index’;           /*通过“LABEL”语句设置变量BMI 的标签为“body mass index”*/

9 DATALINES;                                                  /*指DATALINES单独占一行,指定其后为数据行*/
10 WangHB 149.4 30.8 WuCJ 167.6 46.6    /*此处开始为数据行*/
11 ChenF 146.3 33.1 GaoSY 170.7 44.0        
12 ZhanZL 161.5 36.3 LiYZ 164.6 40.8
13 ShenJJ 155.5 36.7 ZhaoJH 158.5 35.4
14 ZhangHX 149.4 33.1 WangXS 156.4 31.8
15 ;
16 RUN;

17 ODS HTML;                                                  /*ODS为输出语句,指定以HTML语句的格式输出*/
18 PROC MEANS data=SASTJFX48_1;        /*PROC指示过程步的开始,后接过程名,MEANS为SAS过程名,’data’为数据集选项,*/

                                                                           /*指定过程步分析的数据集为SASTJFX48_1*/
19   VAR bmi;                                                    /*VAR后跟变量名,指定分析的变量*/
20   OUTPUT out=result mean=BMImean;   /*OUTPUT为将运行结果输出,out后为用户自定义的输出数据集名,mean为结果中的均数名,=后面是用户自定义的输出名*/
21 RUN;
22 PROC PRINT data=result (keep=BMImean); /*调用PRINT过程在窗口显示result数据集,keep=是数据集选项,指定保留的变量*/
23 FORMAT BMImean 4.1;               /*FORMAT规定变量的输出格式,其后是变量名和输出格式,4.1表示标准数值型数据输出格式*/
24 RUN;

ODS HTML CLOSE;                            /*与17行的ODS成对出现的语句,指示关闭HTML格式的输出*/

 

    3.SAS程序书写规则

    SAS程序在书写的时候要遵循如下几点规则:

    (1)每条SAS语句以分号(;)结尾;

    (2)SAS语句可以从任何一行、任何一列开始,一行上可以写多条SAS语句;
    (3)一条SAS语句可以写在多行上,但不能把一个语法单位分开写在不同的行上;
    (4)一般情况下,一条语句中不同的语法单位要用空格或换行符分隔,但是一些字符的前方或后方,可以不用空格分隔,SAS可以自动分析语句结构、识别语法单位;

    (5)SAS语句书写不区分字母的大小写,但在一些特殊场合除外。

    4.SAS的注释

    下面的一幅图片很好的解释了SAS的注释语句。

 

image

        5.SAS命名规则

    SAS要遵循如下的命名规则:

    (1)SAS 名以字母或下划线开头,后续字符可以是字母、数字或下划线(同C语言);
    (2)SAS 名依据其使用的场合有一定长度限制,有的部位的SAS 名至多有32 个字节长度,有的部位的SAS 名至多有8 个字节长度;

    (3)SAS 名不区分大、小写,例如BMI、Bmi、bmi 在SAS 名中都是一个词;
    (4)SAS 名中不能出现空格,并且SAS 名中除了字母、数字、下划线外,不能含有其他特殊字符,如#、$、@、%等特殊字符不能出现在SAS 名中;
    (5)SAS 保留了一些自动变量名及变量列表、SAS 数据集名和逻辑库引用名;

        6.SAS变量

    编程语言一般都离不开变量。变量相当于一个容器,用来保存一定结构的数据。SAS变量除了具备常规编程语言所具备的许多共性外,也有一些自己的特点,下面主要讲述它特别的地方:

    (1)SAS中只有两种数据类型--数值型和字符型。变量后加美元号表示该变量时字符型,美元号可以紧跟变量名后面,也可以空格。

    (2)变量默认长度为8个字节,通常一个普通英文字符占一个字节,一个汉字占两个字节;用户可以用Length,Attrib语句修改变量的长度。如果变量第一次出现在表达式左边,则变量长度与表达式右边的结果值的长度一致。

    (3)输出格式:字符型变量默认输出格式是“BEST16.”,数值型变量默认的输出格式是“$w.”,可以用Format,Attrib语句或者Format过程定义或修改变量的输出格式。

    (4)变量次序:指数据步创建或定义变量的次序。

    (5)索引类型:决定这个变量是否是数据集索引的一部分的属性。这个属性可以用Contents 过程的‘OUT=’选项进行定义和修改。

    7.SAS运算符

    8.SAS文件系统

    (1)逻辑库

    逻辑库名是SAS名,长度不能超过8B。建立SAS逻辑库的语句:

    LIBNAME libref ‘SAS-data-library’

    语法说明:

    libref:逻辑库名

    SAS-data-library:逻辑库对应的物理地址

    engine:引擎名称(缺失时是默认引擎)

    逻辑库又分为临时库和永久库:临时逻辑库指的是内容只在启动SAS时存在,一旦退出SAS时内容完全被删除。系统默认临时逻辑库是work,引用临时库work中的文件时,可以不加库名。永久库当然在SAS关闭后仍旧保留。

    (2)数据集

    SAS数据集分为两类:SAS数据文件和SAS数据视图。SAS数据文件同时描述信息和存储数据值,SAS视图并不实际存储数据,它相当于一个查询语句。

    (3)数据集选项

    数据集选项用在SAS数据集名称后的括号中,多个选项之间用空格隔开。括号中的数据集选项的作用:
    重新命名变量;

    选择需要的观测;

    输出数据集中保留或删除的变量;

    数据集加密。

    语法格式:

    Data-set-name(Data-set-options)

    (option-1&#61;value-1<…option-n&#61;value-n>)

例子&#xff1a;
    data scores(keep&#61;team game1 game2 game3);

    /*scores中保留team, game1, game2, game3四个变量*/

    proc print data&#61; new(drop&#61;year);   /*去掉变量year*/

    set old(rename&#61;(date&#61;Start_Date)); /*将date改名*/

   

 

转:https://www.cnblogs.com/superhuake/archive/2012/07/17/2594841.html



推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • 掌握Python岗位,你需要了解的关键技能
    最近,在社交平台脉脉上,一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值,并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]
  • 本文详细介绍了Python中的流程控制与条件判断技术,包括数据导入、数据变换、统计描述、假设检验、可视化以及自定义函数的创建等方面的内容。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发
    本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]
  • springMVC JRS303验证 ... [详细]
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 本文详细探讨了成为一名合格的初级Java工程师所需掌握的知识体系,以及从初级到中级乃至高级工程师的成长路径和职业发展前景。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • 探讨低代码行业发展现状,分析其未能催生大型企业的原因,包括市场需求、技术局限及商业模型等方面。 ... [详细]
  • 腾讯云移动推送TPNS(Tencent Push Notification Service)为APP开发者和运营人员提供了一站式、高效、稳定的推送解决方案,帮助提升用户活跃度和运营效率。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 数据集成策略:ETL与ELT架构对比及工具选择
    随着企业信息化的深入发展,‘数据孤岛’问题日益突出,阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题,重点分析了ETL与ELT两种数据处理架构的特点及适用场景,为企业选择合适的ETL工具提供了指导。 ... [详细]
author-avatar
mobiledu2502892183
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有