Apostila Sas IFMA

INSTITUTO FEDERAL DO MARANHÃO - IFMA
Treinamento e aperfeiçoamento em
Análise de Dados
NATANAEL SANTOS
(Prof. Estatística Experimental / UFPI)
Treinamento e aperfeiçoamento emAnálises de Dados
Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ
APRESENTAÇÃO
O curso tem como objetivo capacitar o aluno para

utilizar o programa estatístico para a entrada,
manipulação e análise de dados.
Esta apostila destina-se a comunidade de iniciantes na
pesquisa e pesquisadores que desejam se familiarizar e
capacitar na utilização do SAS para elaboração das
análises estatísticas pertinentes aos seus trabalhos.
O material pode não satisfazer os mais familiarizados
com o problema da experimentação, daí a necessidade de
que esse material seja considerado como texto básico e
que não objetiva esgotar todas as possibilidades de uso
do SAS na elaboração de análises estatísticas.
O objetivo deste documento é o de servir de guia, em

língua portuguesa, para as principais aplicações da
linguagem SAS. Não se pretende substituir os manuais
originais, mas facilitar o acesso ao que se considera o
mais importante da linguagem.
Os assuntos contidos nesta apostila são parte integrante

da apostila elaborada e gentilmente cedida pelo
Professor Doutor José Lindenberg Rocha Sarmento e foram
organizados em sequência apropriada para aprendizagem
passo a passo.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
1 INTRODUÇÃO
O SAS (Statistical Analysis System), produto da SAS Institute Inc., Cary, North Caroline,
USA, constitui-se num sistema de gerenciamento, análise estatística de dados e geração de
relatórios.
O SAS é um sistema de aplicação integrada, que consiste em vários produtos que tem por
função: acesso, gerenciamento, análise estatística e apresentação de dados, somada a uma
linguagem poderosa de programação e geração de relatórios.
O SAS por ser um sistema integrado, ele é composto por módulos para comercialização.
2 COMERCIALIZAÇÃO
O SAS é um sistema composto por vários módulos, com aplicações diversas. Além do
módulo para análises estatísticas, o SAS/STAT, vários outros módulos fazem parte do sistema.
2.1 Módulos do SAS

SAS/ACCESS Módulo para acesso aos diversos tipos de Banco de Dados;
SAS/AF Módulo para desenvolvimento de aplicações;
SAS/BASE Módulo básico, obrigatório em toda instalação;
SAS/CALC Análise e modelagem financeira/Planilha tridimensional
SAS/CONNECT Módulo para conexão entre ambientes operacionais heterogêneos;
SAS/ETS Módulo de econometria (Séries Temporais, Modelagem de Equações
Simultâneas);
SAS/FSP Módulo para facilitar o acesso a arquivos com programação de telas;
SAS/GIS Geoprocessamento;
SAS/GRAPH Módulo gráfico (Histogramas, plots, ... );
SAS/IML Módulo para análise e operação de matrizes;
SAS/OR Módulo de análise e pesquisa operacional (Programação linear, Análise
de Caminho Crítico);
SAS/QC Módulo para análise de controle de qualidade;
SAS/SHARE Sistema multiusuário;
SAS/STAT Módulo estatístico.
3 CONCEITOS BÁSICOS
DATA SET Arquivo de dados com estrutura SAS;
OBSERVAÇÃO Registro de um arquivo de dados SAS;
JOB SAS Arquivo com um programa SAS (É um conjunto de DATA Step's e
PROC Step's);
DATA STEP Divisão lógica de um programa SAS, no qual se cria e altera um, ou
vários arquivos SAS (Data Set's);
PROC STEP Divisão lógica de um programa SAS, no qual se analisa e manipula os
dados contidos num arquivo SAS (Data Set's);
OBS: A funcionalidade do Sistema SAS foi construída em torno de quatro idéias básicas no
tratamento de dados:
Acessar dados;
Administrar dados;
Analisar dados;
Apresentar dados;
4 ARQUIVOS SAS
Todos os dados devem estar armazenados em arquivos com estrutura SAS (DATA Set's),
para serem analisados pelos procedimentos do SAS (PROC's). Os arquivos SAS podem ser
temporários (armazenados em uma biblioteca definida pelo SAS - WORK) ou permanentes
(bibliotecas definidas pelos usuários).
Em um único programa SAS (Job SAS), vários arquivos podem ser abertos e analisados.
Os arquivos SAS, depois de criados, podem ser analisados pelos procedimentos SAS.
5 JANELAS DO SAS
O SAS tem a característica de trabalhar simultaneamente com 3 janelas, com finalidades
específicas, que são:
EDITOR DE PROGRAMAS - PGM® Janela onde o usuário edita os programas. Quando o
programa é processado (RUN), o SAS gera o conteúdo das janelas LOG e OUTPUT.
LOG® Janela onde é apresentada uma depuração do programa, ou seja, informações sobre o
processamento como: tempo gasto; listagem de erros, se houver; etc. (gerada pelo SAS).
OUTPUT® Janela para a saída dos resultados (gerada pelo SAS).
A tela de abertura do SAS, quando as janelas são apresentadas em colunas, é mostrada na

Figura 1.
Figura 1 – Tela inicial do SAS
A opção WINDOW, na barra de menus, permite minimizar as janelas ou apresentá-las de

diferentes formas, ou seja: em cascata (Cascade), em forma de ladrilhos em colunas (Tile) ou
reorganiza no formato padrão do SAS (Resize). Permite também acessar cada uma das janelas
(Figura 2).
Figura 2 - Opção WINDOW da Barra de Menus
Acessos às janelas, bem como outras operações, podem ser feitos utilizando-se as Teclas
de Atalhos, como:
CTRL + E ® Limpa a Janela.
F1 → HELP.
F4 → Recarrega o último programa rodado (Janela PGM).
F5 → Retoma a Janela do EDITOR (Janela EDITOR).
F6 → Retoma a Janela do LOG (Janela LOG).
F7 → Retoma a janela do OUTPUT (Janela OUTPUT).
F8 → Executa o programa – comando submeter.
F9 → Janela com as definições das funções do teclado (KEYS). Pode ser usado para redefinir
essas funções.
F12 → Limpa a janela (não é padrão do SAS, precisa ser definido na janela KEYS).
Essas e outras Teclas de Atalho podem ser vistas na Janela KEYS (Figura 3).
Figura 3 – Teclas de atalhos do SAS (Tecla F9)
É interessante destacar que:

1. Ao rodar um programa,
a) caso as janelas LOG e OUTPUT não estejam limpas, os resultados serão acumulados nos
conteúdos dessas janelas.
b) A janela EDITOR ou PGM é limpa automaticamente.
Assim sendo, toda vez que um programa for rodado e precisar ser editado, para a correção
de algum erro ou para a inclusão de outros comandos, deve-se:
Acessar a janela OUTPUT e apagá-la ................................................ (F7 / F12),
Acessar a janela LOG e apagá-la ........................................................ (F6 / F12),
Acessar a janela PGM e recarregar o último programa rodado .......... (F5 / F4).
2. O conteúdo de cada janela é salvo individualmente. O SAS usa as extensões:

_ .SAS para os programas (janela PGM),
_ .LOG para o conteúdo da janela LOG,
_ .LST para o conteúdo do OUTPUT.
A maioria das ferramentas disponíveis na Barra de Ferramentas do SAS (Figura 4) são
conhecidas pelos usuários do Microsoft Word.
Figura 4 – Barra de ferramentas do SAS
6 PROGRAMAÇÃO SAS
Os programas SAS são escritos na janela PGM, em linhas de 256 caracteres. Os comandos
de programação terminam com ponto e vírgula (;), podendo ter tantos comandos por linha
quantos se desejar, desde que respeitado o tamanho da linha.
Os programas SAS possuem duas fases: a Fase 1, que constitui na criação do arquivo SAS
(SAS-DATA-SET) e a Fase 2, que inclui os Procedimentos do SAS (PROC) para trabalhar com
os dados (impressão, representações gráficas, análises, etc).
O SAS-DATA-SET é o arquivo de dados a ser usado pelo SAS. Ele é formado por linhas
e colunas, sendo nas colunas as variáveis e nas linhas os registros.
Banco de dados
Sintaxe:
Nome Logradouro Número Cidade Estado Peso
Maria Rua100 567 Itu SP 59.50
José RuaTiradentes 123 Matão SP 85.00
Rosa Av.Marajás 750 Jaboticabal SP .
João RuaPoty 1250 Maringá PR 79.00
Valores perdidos
Valor perdido (ou faltante), é entendido como a inexistência de conteúdo em um ou mais
registros de uma ou mais variáveis de um arquivo SAS. Quando não existe valor em uma
variável, o caracter utilizado é o ponto (.).
Portanto, sempre que houver falta de um valor nos arquivos de dados, nos vetores, ou em
matrizes, este deve ser informado como um ponto (.). Quando o conteúdo de um arquivo é
impresso e faltam valores em registros e colunas, é impresso um ponto (.) no local de cada valor
que falta.
Valores perdidos são sempre os primeiros de um ordenamento ascendente e os últimos
no descendente. Em experimentos com parcelas perdidas, o seu valor deve ser informado como
um ponto (.). Então, o sistema entende que aquela parcela foi perdida e não a considera.
Entretanto, se o resultado nulo deve ser considerado como consequência do efeito dos
tratamentos, o valor que deve ser informado para que o sistema o considere é zero (0).
NOTA: alguns procedimentos do SAS System permitem que o usuário informe que os
valores perdidos devem ser considerados na análise.
6.1 Alguns comandos do SAS

 OPTIONS:
Define, dentre muitas opções, parâmetros para configurar a página do OUTPUT.
Ex: OPTIONS LS=80 PS=66 PAGENUMBER=1 NOCENTER NODATE;
LS (Line Size) define o tamanho da linha; PS (Page Size) define o tamanho da página – número
de linhas; PAGENUMBER define o número inicial para a numeração das páginas.
Obs:
a) Os parâmetros não definidos assumem os valores “Default”.
b) Os valores dos parâmetros definidos com o comando OPTIONS, só são válidos para o
programa em questão.
 TITLE:
Define o cabeçalho a ser impresso no topo das páginas de saída (Output)
sintaxe: TITLE[n] <título>;
Ex:
TITLE1 “Análise do Experimento de Fertilidade”;
TITLE3 “Coleta do Ano 2014”;
Obs:
a) Se for omitido o “n” o 1º TITLE define a 1ª linha do Cabeçalho, o 2º a 2ª linha, e assim por
diante.
b) Se o cabeçalho não for definido, o SAS usa o definido como “Default”.
 FOOTNOTE:
Define o título da linha do rodapé para o OUTPUT. Uso equivalente ao uso do TITLE.
sintaxe: FOOTNOTE[n] <nota de rodapé>;
Ex.:
OPTIONS LS=64 PS=75;
TITLE1 "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";
FOOTNOTE1 "CURSO DE ESTATISTICA";
 COMENTÁRIOS (*): Usados na documentação dos programas.
Sintaxe: * <comentário> ; ou: /* <comentário> */
Obs:
a) Os comentários não são executados.
b) Os comentários podem ser colocados em qualquer parte do programa.
c) Pode-se usar tantos comentários quantos se desejar.
 DATA:
Atribui nome ao SAS_DATA_SET. Assim, é usado para criar um arquivo SAS. O
arquivo SAS é sempre um arquivo temporário, a menos que se especifique o contrário através
de comandos apropriados.
Sintaxe: DATA < nome do SAS_DATA_SET >;
Obs:
a) O nome do SAS_DATA_SET (SDS) pode ser:
simples – quando apenas o nome do arquivo é especificado (Ex: NNNN). Neste caso será criado
um arquivo temporário (até fechar o SAS), de nome NNNN, na pasta SASWORK, também
temporária.
composto – quando o nome tem duas partes, separadas por “ponto” (Ex: CCCC.NNNN). Neste
caso será criado um arquivo permanente, de nome NNNN, no caminho nomeado por CCCC.
b) O nome do SDS deve ter de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o
primeiro deve ser alfabético.
c) Se o nome for omitido, o SAS usa DATA1 para o 1º, DATA2 para o 2º, e assim por diante.
Ex.:
TITLE "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";
DATA LEITE;
 LIBNAME:
Atribui nome a um caminho. Serve para criar uma livraria.
Ex: LIBNAME CAM "C:\SAS";
Com este comando, o caminho C:\SAS é nomeado por CAM.
 FILENAME:
Atribui nome a um arquivo.
Ex: FILENAME ARQ "C:\SAS\DADOS.ASC";
Com este comando, o arquivo C:\SAS\DADOS.ASC é nomeado por ARQ.
 RUN:
Determina ao SAS para Rodar (Executar) o programa até este ponto.
 COMANDOS ARITMÉTICOS:
Usados para criar novas variáveis.
Sintaxe:
<NOME DA VARIÁVEL>=<EXPRESSÃO>;
Ex: PORCG=PGORD/PLEITE*100;
As expressões podem conter: Constantes, Variáveis, Operadores e Funções.

Constantes: Podem ser: Numéricas, Caracter, Data e Hora.
 Numéricas: Sistema decimal no modo padrão (Ex: -125.45) ou em notação
científica (Ex: -1.456E-03); sistema octal1 (Ex: 0B123X).
 Caracter: Até 200 caracteres entre aspas (Ex: “Femea”).
 Data: Data seguida por D, e entre aspas (Ex: “25/10/98D”).
 Hora: Hora seguida por T, e entre aspas (Ex: “10:15:45T”).
Para maiores detalhes consultar o HELP.
Variáveis: As variáveis podem ser numéricas ou caracter. Os nomes das variáveis devem ter
de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o primeiro deve ser alfabético.
Operadores: Os mais usuais são os operadores aritméticos, lógicos e de comparação.
1
Sistema de numeração em que a base é oito, adotado na tecnologia de computadores.
Operadores Aritméticos
Exemplos
Operador Operação
Usual SAS
+ Adição A+B A+B
- Subtração ou Negação A-B ou -B A-B ou -B
* Multiplicação A.B A*B
/ Divisão A:B A/B
** Potenciação AB A**B
Operadores Lógicos
Exemplos
Operador Operação
Usual SAS
& ou AND AeB A&B ou A AND B
| ou OR A ou B A|B ou A OR B
^ ou NOT Negação Não A ^A ou NOT A
Operadores de Comparação
Exemplos
Operador Operação
Usual SAS
= ou EQ Igual a A=B A=B ou A EQ B
> ou GT Maior que A>B A>B ou A GT B
< ou LT Menor que A<B A<B ou A LT B
>= ou GE Maior ou igual que AB A>=B ou A GE B
<= ou LE Menor ou igual que AB A<=B ou A LE B
^= NE Diferente de AB A^=B ou A NE B
Sintaxe:
If mp>01 and mp<=06 then ep=1;
If mp>=07 or mp=01 then ep=2;
Para maiores detalhes consultar o HELP (F1)
6.2 Algumas formas para criar o SAS-DATA-SET
a) Quando os dados são colocados no próprio programa.

Sintaxe:
DATA <sds>; Define o nome do SAS-DATA-SET.
INPUT <lista de variáveis>; Informa as variáveis a serem lidas.
CARDS; Informa que iniciarão os dados.
<dados>
; Informa que terminaram os dados
b) Importar arquivo do Excel

Sintaxe:
PROC IMPORT OUT=SDS DATAFILE="ARQ.XLS" DBMS=EXCEL2000
REPLACE;
SHEET="PLANILHA$";
GETNAMES=YES;
RUN;
Onde:
SDS – é o nome do SAS DATA SET a ser criado
ARQ.XLS – é o arquivo Excel a ser importado (especificando o caminho onde ele se encontra).
PLANILHA – É o nome da planilha.
c) Importar arquivo ASCII (American Standard Code – Interchange Information).
Sintaxe:
DATA <sds>; Define o nome do SAS-DATA-SET
INFILE “<arquivo ASC>”; Arquivo ASC a ser importado
INPUT <lista de variáveis>;
Lista de variáveis importadas
6.2.1 Comando INPUT

O comando INPUT relaciona os nomes das variáveis a serem criadas no SAS-DATA-
SET. Ele pode ser de uma das formas: listado, colunado ou formatado. É usado para especificar
o conteúdo de cada coluna (variável) que compõe o arquivo. Neste se deve especificar o nome
das variáveis, o seu tipo (numéricas ou caracteres) e o intervalo de campos que a mesma ocupa
 Listado: quando se especifica no INPUT apenas a lista de variáveis (nomes separados
por pelo menos um espaço em branco). Usado quando os dados a serem lidos estão
separados por, pelo menos, um espaço em branco.
Sintaxe: INPUT NOME$ PESO ALTURA;
 Colunado: quando se especifica a variável e a coluna inicial e final onde se encontram
os dados a serem lidos. O uso do INPUT colunado requer o auxílio de um comando, que
pode ser o CARDS ou o INFILE, de acordo com o banco de dados. O CARDS precede
as linhas de dados, quando esses são editados no Program Editor do SAS. Já o INFILE,
permite ler arquivos editados externamente.
Sintaxe1: Input colunado com CARDS

data cabra;
input trat rep cmn cms gpv gmd;
cards;
1 1 2.31 0.76 0.16 0.01
1 2 2.315 0.76 0.16 0.01
2 1 2.04 0.8 1.45 0.096
2 2 2.045 0.8 1.45 0.096
3 1 2.33 0.91 1.33 0.088
3 2 2.335 0.91 1.33 0.088
4 1 2.015 0.79 0.72 0.048
4 2 2.015 0.79 0.72 0.048
5 1 1.98 0.77 0.35 0.023
5 2 0 0 0 0
;
NOTA: Ao usar o comando CARDS, sempre se faz necessário utilizar no final da edição do
conjunto de dados um ponto e vírgula (;).
Sintaxe2: Input colunado com INFILE

data cabra;
infile 'c:\ZEBU\ufpi.txt';
input trat rep cmn cms gpv gmd;
 Formatado: quando se especifica a variável e formato que o dado a ser lido deve ser
considerado.
Sintaxe1: Input formatado
data UFPI2;
infile 'c:\ZEBU\ufpi.txt';
input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc
24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp;
Sintaxe2: INPUT NOME$ 1-20 DATANAS DDMMYY6. PESONAS 8.2

 DDMMYY6. especifica que a data a ser lida contém 2 caracteres para o dia, 2
para o mês e 2 para o ano, num total de 6.
 8.2 especifica que o peso a ser lido tem 8 casas, sendo 2 decimais.
Obs.: Quando se usa o INPUT, o número de valores por linha de dados deve coincidir com o número
de variáveis do INPUT, a menos que a lista de variáveis seja seguida por @@.
Exemplo:
Data Exemplo; Data Exemplo;
Input X Y; Input X Y @ @;
Cards; Cards;
10 20 10 20 12 22 15 35
12 22 ;
15 35
;
Nota: Como se percebe, o INPUT formatado também requer o auxílio do comando INFILE, o
qual informa ao sistema o caminho do arquivo que deverá ser lido para posterior processamento.
Percebe-se, também, que no INPUT informa-se ao sistema o nome e o intervalo de campos que
cada variável irá ocupar.
Observe que no INPUT colunado consta apenas o nome dado a cada variável, enquanto
no formatado, além do nome encontra-se o intervalo de campos que a mesma está ocupando.
Pode-se perceber, também, na variável SEX, que em seguida aparece o símbolo $, o qual
informa ao sistema que esta variável é constituída por letras (caractere), no caso em questão,
“M” para macho e “F” para fêmea.
6.2.2 Comando FILE PUT

Permite gerar arquivos externos, que podem ser usados no próprio SAS ou em outros
programas.
Ex.:
data b; set a;
file "D:\ARQUIVOSSAS\REGRESSÃONLINEAR\SIpG2.prn";
put codani 1-8 codPAI 10-19 codMAE 21-27 S 29 TN 31 GCN 33-37 cid 39 a 43-
46 3 b 48-51 3 c 53-56 3 p28 58-61 2;
run;
Nota: O comando FILE informa ao sistema o caminho onde o arquivo gerado será alocado,
enquanto o PUT informará o nome e o número de campos que cada variável irá ocupar.
Observe, também, que para gerar arquivos com variáveis que contenham decimais, deve-se
informar ao sistema o número de decimais desejado. Por exemplo, a variável p28, ocupará os
campos de 58 a 61. Em seguinda aparece o número 2, que está infomando ao sistema que a
referida variável possui dois decimais. Deve-se tomar o cuidado ao dimensionar o número de
campos que a variável irá ocupar, pois os decimais e o ponto, devem estar contidos neste
intervalo. Por exemplo, a variável p28 ocupará 4 campos (58-61), sendo que dois são destinados
aos decimais e um ao ponto.
6.2.3 Comandos Keep e Drop

O comando KEEP faz com que somente a(s) variável(eis) listada(s) permaneça(m) no
SASdataset2 no momento da emissão do relatório.
O DROP faz o contrário, não aparecerá no relatório a(s) variável(eis) listada(s).
2
É um arquivo onde são armazenados os dados no formato ASCII. Os dados são compilados e armazenados no
SASdataset. Uma vez armazenados, a partir do SASdataset pode-se utilizar os dados para processamento
Esses comandos são úteis quando se tem muitas variáveis em um arquivo e deseja-se a
omissão de apenas algumas delas.
No SASdataset as observações são dispostas em linhas de uma matriz. Cada coluna ou
grupo delas refere-se a uma categoria ou variável (ver saída OUTPUT).
6.2.4 Comando VAR

O comando VAR listas as variáveis a serem processadas em um determinado programa.
Se o comando VAR não é usado, todas as variáveis numéricas contidas no arquivo serão
processadas.
Sintaxe:
Proc print data=cabras;
var pp p1 p2;
run;
6.2.5 Comando BY
O comando BY é usado quando se deseja processar um conjunto de variáveis dentro (BY)
de um grupo ou de uma outra determinada variável.
Sintaxe:
Proc print data=cabras;
var pp p1 p2;
by trat;
run;
6.2.6 Comando SET

O comando SET é utilizado para concatenar verticalmente arquivos que apresentam a
mesma estrutura de variáveis. Pode-se juntar dois ou mais arquivos.
Sintaxe:
Data UFPI14;
Infile 'c:\meudoc\analise\ufpi1.txt';
Input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc
24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp
45-46 dnp 47-48;
Run;
Data UFPI13;
Infile 'c:\meudoc\analise\ufpi2.txt';
Input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc
24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp
45-46 dnp 47-48;
Run;
Data UFPI15;
Set UFPI14 UFPI13; Run;
6.2.7 Comandos IF-THEN-ELSE

Usam-se os comandos IF-THEN-ELSE quando se deseja executar alguma expressão
condicional.
Sintaxe: IF expressão THEN comando; ELSE comando;
Ex.1:
If codmae >= codani then verifica=1; else verifica=0;
Ex.2:
data aula;
input animal mes cod $ prod;
length raca $ 12;
cards;
10 1 a 17.5
11 2 a 18.5
12 3 a 19.5
13 4 a 9.35
14 5 b 18.2
15 6 b 20.1
16 7 b 14.5
17 8 b 18.7
18 9 a 19.3
19 10 a 14.5
20 11 b 8.95
21 12 b 12.3
22 1 a 17.8
23 2 a 21.5
24 3 b 35.6
25 4 b 22.5
26 5 b 42.0
27 6 a 8.56
28 7 b 12.5
29 8 a 14.5
30 9 a 22.0
;
data modifica; set aula;
if mes <=3 then epoca=1;
if mes > 3 and mes <=6 then epoca=2;
if mes > 6 and mes <=9 then epoca=3;
if mes > 9 then epoca=4;
if cod= "a" then raca="Landrace"; else raca="Large White";
proc print;
run;
Nota: O comando “length” foi especificado após o “input” para aumentar o número de campos
ocupado pela variável “raça” que será criada. Caso o número de campos não seja especificado,
o SAS apresentará no relatório os oito primeiros campos do nome da variável.
6.2.8 Comando DELETE

O comando DELETE permite eliminar um subconjunto de observações. Geralmente
utiliza-se juntamente com os comandos condicionais, uma vez que seu uso sem especificação
de condições implicará na eliminação de todos as observações.
Sintaxe:
If codmae > = codani then verifica=1; else verifica=0;
If verifica=0 then DELETE;
Ex.:
data aula;
cards;
10 1 a 17.5
11 2 a 18.5
12 3 a 19.5
13 4 a 9.35
14 5 b 18.2
15 6 b 20.1
16 7 b 14.5
17 8 b 18.7
18 9 a 19.3
19 10 a 14.5
20 11 b 8.95
21 12 b 12.3
22 1 a 17.8
23 2 a 21.5
24 3 b 35.6
25 4 b 22.5
26 5 b 42.0
27 6 a 8.56
28 7 b 12.5
29 8 a 14.5
30 9 a 22.0
;
data a; set aula;
if prod < 11 or prod > 27 then delete;
run;
proc print;
run;
6.2.9 Comando MERGE

O comando MERGE é utilizado para concatenar horizontalmente arquivos utilizando uma
variável em comum entre esses dois. Essa união coloca os arquivos lado a lado.
Sintaxe:
options ls=75 ps=70;
data a;
infile "D:\ARQUIVOSSAS\REGRESSÃONLINEAR\SIpG1.prn";
input codani 1-8 codPAI 10-19 codMAE 21-27 S 29 TN 31 GCN 33-37 cid 39 a
43-46 b 48-51 c 53-56 pn 58-61;
proc sort;
by codani;
run;
data b;
infile "D:\ARQUIVOSSAS\REGRESSÃONLINEAR\SIpG2.prn";
input codani 1-8 codPAI 10-19 codMAE 21-27 S 29 TN 31 GCN 33-37 cid 39 a
43-46 b 48-51 c 53-56 p28 58-61;
proc sort;
by codani;
run;
data c;
merge a b;
by codani;
run;
Nota: Como se pode observar, os datas a e b têm quase todas as variáveis em comum, com
exceção de pn e p28, as quais encontram-se nos datas a e b, respectivamente. Com a utilização
do MERGE, cria-se um novo dataset que irá conter todas as variáveis, inclusive pn e p28. Os
dados dentro de cada dataset devem está ordenados pela variável comum aos dois datas, que
servirá como elo de ligação entre os mesmos, que no exemplo em questão é a variável
CODANI. Caso não estejam ordenados, deve-se ordenar através do PROC SORT, solicitando
a ordenação pela variável de ligação (CODANI).
6.3 Contagem de Tempo entre Datas

O programa calcula o número de dias entre datas. Os valores de datas passam a ter
significado quando lidos pelo formato especificado no INPUT. O primeiro passo é informar ao
SAS que estilo de datas usar.
Ex.:
DATAS EXPLANAÇÃO FORMATO
102050 Mês-dia-ano MMDDYY6.
10/21/50 Mês-dia-ano (barra) MMDDYY8.
10-21-50 Mês-dia-ano (hífen) MMDDYY8.
211050 Dia-mês-ano (Europeu) DDMMYY6.
501021 Ano-mês-dia YYMMDD6.
10211950 2 dígitos mês, 2 dígitos dia, 4 dígitos ano MMDDYY8.
10/21/1950 2 dígitos mês, 2 dígitos dia, 4 dígitos ano (barras) MMDDYY10.
O SAS pode ler qualquer um desses exemplos, desde que se informe o formato. Uma vez
lidos os dados, eles são convertidos para o número de dias à partir de um ponto fixo no tempo
- 1 de janeiro de 1960. Não tem importância se os dados vem antes ou depois desta data. Desta
forma, pode-se subtrair qualquer duas datas para encontrar o número de dias entre elas.
Sintaxe:
data teste;
input dat1 mmddyy6. @8 dat2 mmddyy6. volume;
dias=dat2-dat1;
cards;
051176 051104 50;
proc print;
run;
Nota: o 6 no formato tipo DDMMYY6., refere-se ao número de colunas ocupadas pelas datas.
De forma idêntica o 8. O sinal @ referido como ponteiro, diz ao SAS qual coluna deve iniciar
a leitura da próxima data.
Ex:
data teste2;
input dat11 mmddyy10. @12 dat21 mmddyy10. volume1;
dias1=dat21-dat11;
cards;
05/11/1976 05/11/2004 50;
proc print;
run;
7 CRIAÇÃO E TRANSFORMAÇÃO DE VARIÁVEIS

O sistema SAS possui vários comandos, alguns vistos anteriormente, que são usados para
criação de novas variáveis e para modificação dos valores das variáveis existentes.
As formas mais comuns de se gerar ou criar novas variáveis são: utilizar fórmulas
aritméticas; modificar características e/ou variáveis já existentes no arquivo de dados; utilizar
diferentes funções pré-definidas pelo SAS; e etc.
Para gerar uma nova variável deve-se considerar:
1 – Escolher um nome para a nova variável. Este nome deve ser diferente dos nomes já
existentes. Se for usado nome igual ao já existente, então, os valores destas serão substituídos
pelos novos valores criados pela expressão definida;
2 – Escolher a fórmula para gerar ou modificar a variável;
3 – Atribuir à variável a expressão que se deseja com um sinal de igual;
4 – Utilizar os operadores de comparação e condicionais vistos anteriormente;
5 – Escolher a função adequada (raiz quadrada - sqrt, seno - fft, logaritmo - log, etc.).
Sintaxe:
if mp>01 and mp<= 05 then ep=1; if mp >= 06 and mp <= 08 then ep =2;
if mp> 8 or mp=01 then ep=3;
gc=(ap*10)+ ep;
run;
Observe que a variável "mp" (mês do parto) foi utilizada para criar a variável "ep"
(estação do parto), simplesmente impondo limites aos meses e informando que tais limites se
referem a tal estação. Ainda no mesmo exemplo, criou-se a variável "gc" (grupo
contemporâneo) através da junção de "ap" (ano de parto) + "ep" (estação do parto, criada
anteriormente). Observe, também, que "ap" foi multiplicado por 10, isso é necessário para que
na variável "ap" seja criado mais um campo, permitindo, então, concatenar as variáveis “ap” e
“ep” para criar a nova variável “gc”. Essa multiplicação pode ser por 10, 100, 1000 e assim
sucessivamente, de acordo com o número de campos necessários para concatenar duas ou mais
variáveis.
Em situações práticas em que as pressuposições para realizar a análise de variância sobre
a escala original dos dados não são atendidas, uma das alternativas para contornar este problema
é a mudança adequada da escala da variável reposta por meio de transformações (Bartlett, 1948;
Sampaio, 2007). Várias transformações têm sido recomendadas em situações bem
estabelecidas, como exemplos podemos citar:
Transformação Comandos SAS Recomendação

Raiz quadrada 𝑠𝑞𝑟𝑡 (𝑥) Dados de contagem
Logarítmica 𝑙𝑜𝑔(𝑥) ou 𝑙𝑜𝑔10(𝑥) Dados de contagem e Não aditividade
do modelo
Arco seno 𝑥
𝑎𝑟𝑠𝑖𝑛(𝑠𝑞𝑟𝑡 ( )) Proporções
100
Nota: Na presença de zeros, recomenda-se adicionar constantes as variáveis respostas antes da transformação (0.5,
1.0,...)
Podemos, no entanto, de acordo com Box e Cox (1946), determinar analiticamente que
tipo de transformação usar por meio do valor estimado do coeficiente de regressão entre o
logaritmo da variância e o logaritmo da média, quando temos uma relação entre a média e a
variância. A decisão de que transformação usar é dada por:
Estimativas de b Transformação
0 Nenhuma
1 Raiz (x)
2 Log (x)
3 1/raiz (x)
4 1/x
Fonte: Barbim (2003)
Nota1: Quando uma resposta muito instável é medida sob diferentes tratamentos, é comum
observarmos um aumento de instabilidade à medida que o valor médio observado no tratamento
aumenta. Nesse caso observa-se uma proporcionalidade entre a média do grupo experimental e
seu respectivo desvio padrão. Quando esta relação for observada, a transformação logarítmoca
será a recomendada, e se X for a resposta medida, ela deverpa se analisada como log (X) ou log
(X+1). No segundo caso (log (X+1)), se houver algum resultado zerado, pois log (0) é
indeterminado.
Nota2: Algumas situações envolvem respostas discretas correspondentes a contagens. Uma
variável discreta pode apresentar aproximadamente uma distribuiçõa normal, mas se isto não
ocorrer, haverá necessidade de tgransformação, principalmente se o evente estudado for difícl
de ser detectado nas amostras experimentais. Neste caso, o fenômeno é dito raro e sua
distribuição aponta altas frequências para contagem nulas ou baixas e pouca frequencia de
contagens altas. Esse tipo de distribuição, chamada de distribuição de Poason, se caracteriza
por ter um valor médio equivalente (ou proporcional) à variância. Dessa forma, número de
peixes capturados por armadilha, a frequência de uma espécie vegeta ou animal ameaçada de
extinção por unidade de área, o número de colônias bacterianas por placa semeada são exemplos
clássicos de variáveis que demandam a transformação de radical, uma das que mais
drasticamente controlam a variação original observada, e que consiste em substituir a resposta
𝑋 por √𝑋 ou √𝑋 + 1 (se houver muitos valores nulos) para alcançar as premissas de uma nálise
de variância.
Sintaxe:
data trans; set medvar;
lmed=log(med); lvar=log(var);
run;
8 PROCEDIMENTOS DO SAS
Existem vários Procedimentos, dentro de cada módulo, disponíveis a usuários de uma
grande diversidade de áreas de aplicações.
Estrutura básica dos procedimentos
A 1ª linha de cada procedimento tem a seguinte estrutura:
PROC NOME < opções >;
Lista de Opções.
Nome do Procedimento.
Prefixo de todo Procedimento (PROCEDURE).
Os procedimentos podem incluir outras linhas para especificações especiais. A estrutura
geral de um procedimento é: Uma opção é:
DATA=<Arquivo SAS>
PROC NOME < opções >; Especifica o arquivo SAS que será usado. Caso seja
omitido, o SAS usa o último arquivo criado
VAR < lista de variáveis >;

BY < lista de variáveis >;
CLASS < lista de variáveis>;
ID < lista de variáveis >; Opcionais, e no geral, independem da ordem
TITLE < “título” >;
FOOTNOTE < “rodapé”>;
WHERE < condição >;
OUTPUT OUT= <SDS> <VS> = <VU>;
...
RUN;
8.1 Comandos que podem ser usados nos procedimentos

_ VAR < lista de variáveis >;
Especifica as variáveis para as quais será executado o procedimento.
_ BY < lista de variáveis >;
Especifica que o procedimento deve ser executado para cada valor da(s) variável(is)
especificada(s). Este comando exige que o SAS-DATA-SET esteja classificado por essa(s)
variavel(is).
_ CLASS < lista de variáveis >;
Especifica que o procedimento deve ser executado para cada valor da(s) variável(is)
especificada(s).
_ ID < lista de variáveis >;
Especifica a variável de identificação dos registros. Se não for especificado, o SAS usa o
número do Registro.
_ TITLE < “título” >;
Especifica o título para todas as páginas geradas por este procedimento.
_ FOOTNOTE < “rodapé >;
Especifica o rodapé para todas as páginas geradas por este procedimento.
_ WHERE < condição >;
Especifica que o procedimento deve ser executado somente para os registros para os quais a
condição for satisfeita.
_ OUTPUT OUT= <SDS> <VS> = <VU>;
Coloca no SAS-DATA-SET “SDS”, além das variáveis do SAS-DATA-SET em uso, variáveis

criadas pelo SAS “VS” (cujos nomes são criados pelo SAS e devem ser especificados
corretamente), com os nomes das variáveis do usuário “VU”.
8.2 Principais procedimentos do SAS:

Como verificado anteriormente, todo procedimento SAS vem identificado pela palavra
PROC e pode apresentar diversas opções e subcomandos específicos. A estrutura dos PROC’s
são basicamente a mesma para todos.
A) Procedimentos de estatísticas descritivas:
PROC CORR – fornece correlações e medidas de associação.
PROC MEANS – estatísticas descritivas.
PROC UNVARIATE – estatísticas descritivas, incluindo quantis e plots descritivos.
PROC CHART – histogramas e gráficos.
PROC TABULATE – tabelas com estatísticas descritivas.
PROC TTEST – compara médias de dois grupos de variáveis através do teste t.
B) Procedimentos para impressão:
PROC PRINT – mostra o conteúdo de SASdataset na janela OUTPUT.
PROC FORMS – formas padrões, por exemplo mala direta.
PROC PLOT – para construir gráficos.
PROC TIMEPLOT – para gráficos de uma ou mais variáveis na ordem temporal.
PROC CALENDAR – para construir calendários.
C) Procedimentos de regressão e análise de variância:
PROC REG – ajusta uma regressão linear com várias opções de diagnósticos e diversos
métodos para seleção de modelos.
PROC NLIN – ajusta modelos de regressão não lineares.
PROC ANOVA – para análise de variância, análise de variância multivariada, análise de
variância com medidas repetidas em experimentos balanceados,
comparações múltiplas.
PROC GLM – ajusta modelos lineares gerais (regressão simples, múltipla, polinomial e
ponderada, faz análise de variância para dados desbalanceados).
PROC VARCOMP – para componentes de variância.
PROC LIFEREG – ajusta modelos paramétricos para dados de tempos de vida.
D) Procedimentos para dados multivariados:

PROC PRINCOMP – faz análise de componentes principais.
PROC CANCORR – faz análise de correlação canônica.
PROC FACTOR – faz análise de fatores ortogonais com rotações.
PROC CLUSTER – faz análise de cluster (ou agrupamentos ).
E) Procedimentos não paramétricos e para dados categóricos:
PROC NPAR1WAY – análise não paramétrica one-way para ranks.
PROC CATMOD – para tabelas de contingência.
PROC FREQ – faz distribuições de frequência para variáveis categóricas e tabelas
cruzadas.
PROC LOGIST – ajusta modelos logísticos.
PROC PROBIT – faz regressão probit, logística e logística ordinal.
F) Procedimentos Utilitários:
PROC APPEND – anexa dados de um data set no fim de um outro data set.
PROC COMPARE – compara os conteúdos de dois data set's.
PROC FORMAT – define formatos de saída e de leitura de dados.
PROC SORT – ordena os dados de um SASdataset.
9. ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE

9.1 Introdução
Depois que o usuário cria seu arquivo de dados ele pode desejar sumarizar estes dados
através de medidas que descrevam seu comportamento. Estas medidas incluem parâmetros de
posição como médias, modas, medianas, quartis e percentis, parâmetros de dispersão, como
variâncias, desvios padrões, amplitude (range), e parâmetros que auxiliam na descrição da
forma dos dados, como assimetria e curtose.
Nos problemas que envolvem a Estatística Indutiva, os conjuntos de dados analisados são
representados por amostras retiradas das populações de interesse. Sendo as amostras aleatórias,
todos os seus elementos fornecerão valores aleatórios da variável em análise. Para caracterizar
a distribuição dos diversos valores assumidos por uma variável aleatória, o conceito de
distribuição de probabilidades deve ser utilizado e estendido às populações, ou seja, cada valor
da amostra deve ser considerado como valor de uma variável aleatória cuja distribuição de
probabilidade é a mesma da população no instante da retirada desse elemento da amostra. Os
valores calculados em função dos elementos da amostra, denominam-se estatísticas. Se estas
estatísticas forem utilizadas para inferir informações a respeito de uma população, elas são
consideradas como variáveis aleatórias, e terão, portanto uma distribuição de probabilidades,
com uma média, uma variância, etc. Muitos métodos da análise estatística assumem que os
dados da amostra provém de uma população com distribuição normal. A distribuição normal
tem uma definição matemática precisa, com as seguintes características:
 ser completamente definida por sua média e seu desvio padrão.
 ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que por sua
vez coincide com sua mediana.
 ser uma distribuição regular. Do seu ponto central mais alto até suas extremidades não
existe padrões irregulares.
 ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição).
9.2 Teste de normalidade

Nos testes de normalidade é estabelecida a idéia de que uma amostra provém de uma
distribuição normal. Através da amostra, uma estatística é calculada e testada para checar essa
idéia. Uma comparação é feita entre a forma da distribuição da amostra, com a forma de uma
distribuição normal. Se não for encontrada nenhuma evidência para rejeitar a hipótese de
normalidade, prossegue-se as análises baseando-se na suposição de que os dados da amostra
são normalmente distribuídos (análise paramétrica). Quando os dados não são gerados por uma
distribuição normal, a análise deve ser baseada em métodos não paramétricos. A distribuição
normal é simétrica.
Ao desempenhar um teste de hipótese tem-se sempre uma hipótese nula que descreve
uma idéia sobre a população, e uma hipótese alternativa, que descreve uma idéia alternativa
sobre a população.
Nos testes para a normalidade, a hipótese nula é que os dados da amostra são gerados por
uma distribuição normal. A hipótese alternativa é que eles são gerados por uma distribuição
não normal. O método utilizado para testar hipóteses consiste num conteúdo de decisão onde a
probabilidade de rejeitar a hipótese nula, sendo ela verdadeira (erro do tipo I), não excede um
valor prefixado chamado de nível de significância 𝛼 do teste. Ao menor nível de significância
para o qual a hipótese nula é rejeitada denominamos probabilidade de significância (p-valor).
Se p-valor > 𝛼 há evidências de que a hipótese nula é verdadeira.
9.3 O PROC UNIVARIATE: Estatísticas descritivas, incluindo quantis e plots descritivos

para variáveis numéricas.
Sintaxe:
PROC UNIVARIATE opções;
var <variáveis>;
by <variáveis>;
freq <variáveis>;
weight <variáveis>;
id <variáveis>;
output out=SASdataset Keyword=<nomes>;
1) Opções:
DATA=SASdataset – especifica o conjunto de dados.
NOPRINT – não mostra as saídas.
PLOT – opções de gráficos (ramos-folhas, box-plot, normal-plot).
FREQ – faz tabela de frequência.
NORMAL – faz teste de normalidade dos dados,
 se n<51 faz o teste de Shapiro-Wilks,
 se n  51 faz o teste de Kolmogorov-Sirnov.
PCTLDEF=k – especifica o método para o cálculo dos quartis,
 k = 1, 2, 3, 4 ou 5 (default k = 5).
VARDEF=df/weight/n/wdf – especifica o divisor para o cálculo da variância (default =df):
 df = graus de liberdade,
 weight = soma dos pesos,
 n = número de observações,
 wdf = soma dos pesos menos 1 (w-1).
ROUND=n – especifica as unidades para arredondamento
2) Descrição das declarações:

var3 – lista de variáveis para o PROC UNIVARIATE (default = todas).
by4 – separa as análises em subgrupos definidos pela variável declarada.
freq5 – considera os valores da variável como frequências.
3
usar sempre após uma declaração de output.
4
os dados devem estar ordenados em ordem crescente pela variável em questão.
5
se os dados não são inteiros, os valores são truncados.
2
weight6 – variável com pesos para o cálculo da média e variância ponderadas ( xW e sW ) – só
2
para calcular xW e sW .
id7 – usado para identificar as observações (ou casos).
output – requisita um arquivo interno de saídas.
out = SASdataset – define o nome do arquivo interno de saídas.
keyword = nomes – identifica as estatísticas desejadas.
NOTA: o comando OUTPUT grava o conteúdo da memória RAM num arquivo SASdataset.
Gravar as saídas num SASdataset não é o mesmo que salvar num arquivo definitivo, o que pode
ser obtido através do comando FILE. Os conteúdos dos SASdataset se perdem quando ao sair
do SAS.
Os nomes definidos através da opção keyword podem ser:
N – número de observações consideradas para os cálculos (menos MISSING).
NMISS – número de valores perdidos.
NOBS – número total de observações.
MEAN – média aritmética.
SUM – soma das observações.
STD – desvio padrão.
VAR – variância.
SKEWNESS – medida de simetria.
KURTOSIS – curtosi.
SUMWGT – soma dos pesos.
MAX – valor máximo.
MIN – valor mínimo.
RANGE – amplitude amostral (MAX-MIN).
Q3 – terceiro quartil.
MEDIAN – mediana.
Q1 – primeiro quartil.
QRANGE – amplitude interquartil (Q3-Q1).
P1 – 10 percentil (quantil 0.01).
6
valores negativos são considerados como zero.
7
considera os 8 primeiros caracteres.

MODE – moda (se houver mais do que uma moda, é usada a menor delas).
Pode ser notado que este procedimento apresenta resultados mais completos, os quais são
essenciais para o estudo da distribuição dos dados.
Nota: A opção NORMAL definida no PROC UNIVARIATE gera os testes de normalidade de
SHAPIRO-WILK e de KOLMOGOROV-SMIRNOV. A estatística W (Shapiro-Wilk) é maior
que zero e menor ou igual a 1 (0<W1). Valores de W muito pequenos indicam que os dados
não são uma amostra de distribuição normal. A segunda coluna Pr < W, contém o valor da
probabilidade, a qual descreve quão duvidoso é a idéia de normalidade. A hipótese de nulidade
a ser testada é a de aceitar que os dados seguem distribuição normal. Para amostra com até duas
mil observações o teste correto é o de SHAPIRO-WILK, caso contrário, o teste é o
KOLMOGOROV-SMIRNOV.
Ex.: Resultados obtidos de uma distribuição aproximadamente Normal. Para ilustrar, suponha
que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa está
sendo representada pela variável IDADE, e sua identificação pela variável IDENT.
OPTIONS FORMDLIM='*' LS=80;

DATA NORM A; /* EXEMPL01 SAS */
INPUT IDENT IDADE @@;
CARDS;
1 72 2 69 3 75 4 71 5 71 6 73
7 70 8 67 9 71 10 72 11 73 12 68
13 69 14 70 15 70 16 71 17 74 18 72
;
PROC UNIVARIATE NORMAL PLOT FREQ;
VAR IDADE;
ID IDENT;
RUN;
ANÁLISE DOS RESULTADOS:
The UNIVARIATE Procedure
Variable: IDADE
Moments
N 18 Sum Weights 18
Mean 71 Sum Observations 1278
Std Deviation 2.05798302 Variance 4.23529412
Skewness 0 Kurtosis -0.1357639
Uncorrected SS 90810 Corrected SS 72
Coeff Variation 2.89856764 Std Error Mean 0.48507125
Basic Statistical Measures
Location Variability
Mean 71.00000 Std Deviation 2.05798

Median 71.00000 Variance 4.23529
Mode 71.00000 Range 8.00000
Interquartile Range 2.00000
Tests for Location: Mu0=0

Test -Statistic- -----p Value------
Student's t t 146.3702 Pr > |t| <.0001
Sign M 9 Pr >= |M| <.0001
Signed Rank S 85.5 Pr >= |S| <.0001
Tests for Normality

Test --Statistic--- -----p Value------
Shapiro-Wilk W 0.983895 Pr < W 0.9812
Kolmogorov-Smirnov D 0.111111 Pr > D >0.1500
Cramer-von Mises W-Sq 0.036122 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.196144 Pr > A-Sq >0.2500
A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste para
normalidade. O valor zero de assimetria traduz a forma simétrica da distribuição. A estatística
de curtose de -0.13576 significa que a distribuição de valores é relativamente achatada. O alto
p-valor associado ao teste de normalidade, dado por Pr < W, mostra que existe 9812 chances
em 10000 que se obtenha este mesmo resultado se os dados fossem oriundos de uma população
Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em geral, rejeita-se a
hipótese nula de normalidade dos dados somente quando o p-valor for menor que 0.05 .
Os quartis, percentis, a moda da distribuição, e os valores extremos estão relacionados a
seguir:
Quantiles (Definition 5)
Quantile Estimate
100% Max 75
99% 75
95% 75
90% 74
75% Q3 72
50% Median 71
25% Q1 70
10% 68
5% 67
1% 67
0% Min 67
Extreme Observations
--------Lowest-------- --------Highest-------
Value IDENT Obs Value IDENT Obs
67 8 8 72 18 18
68 12 12 73 6 6
69 13 13 73 11 11
69 2 2 74 17 17
70 15 15 75 3 3
A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de
distribuição de frequência onde o número de ocorrências de cada valor da variável IDADE é
contabilizado juntamente com os percentuais e percentuais acumulados de ocorrência em cada
categoria.
Frequency Counts
Percents Percents Percents
Value Count Cell Cum Value Count Cell Cum Value Count Cell Cum
67 1 5.6 5.6 70 3 16.7 38.9 73 2 11.1 88.9

68 1 5.6 11.1 71 4 22.2 61.1 74 1 5.6 94.4
69 2 11.1 22.2 72 3 16.7 77.8 75 1 5.6 100.0
O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados. Entre
estes plotes e o ‘boxplot’, há uma coluna (#) que fornece a frequência de observações em cada
barra. No gráfico Boxplot as linhas externas inferior e superior indicam os percentis de 25 e
75%, respectivamente. A linha central indica a mediana (50º percentil). O sinal de (+) indica a
média da distribuição, que está coincidindo com a mediana.
Stem Leaf # Boxplot

75 0 1 |
74 0 1 |
73 00 2 |
72 000 3 +-----+
71 0000 4 *--+--*
70 000 3 +-----+
69 00 2 |
68 0 1 |
67 0 1 |
----+----+----+----+
O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+) formam
uma linha reta. Os (*) representam os valores amostrais. Se a amostra é gerada por uma
distribuição normal, os asteriscos devem formar uma linha reta e cobrir a maioria dos sinais
positivos. A distribuição amostral aproxima-se da normalidade.
Normal Probability Plot

75.5+ * +++++
| * +++++
| * +*+++
| **+*++
71.5+ **+**++
| * **+++
| * +*+++
| +*+++
67.5+ +*+++
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2
9 O PROC MEANS: Estatísticas descritivas para variáveis numéricas.

Sintaxe:
PROC MEANS opções;
var <variáveis>;
by <variáveis>;
class <variáveis>;
freq <variáveis>;
weight <variáveis>;
id <variáveis>;
output out=SASdataset Keyword=<nomes>;
1) Principais opções:
DATA=SASdataset – especifica o conjunto de dados.
NOPRINT – não mostra as saídas.
MAXDEC – número de casas decimais para os resultados (0 a 8).
FW – tamanho do campo para impressão.
2) Declarações:
var – lista de variáveis para o PROC MEANS (default = todas).
by – especifica subgrupos.
class – especifica as variáveis que definem subgrupos.
freq – considera os valores da variável como frequências.
weight – variável com pesos para o cálculo da média e variância ponderadas.
id – usado para identificar as observações (casos).
output – requisita um arquivo interno de saídas.
out = SASdataset – define o nome do arquivo interno de saídas.
keyword = nomes – identifica as estatísticas desejadas.
Os nomes definidos através da opção keyword podem ser:
MEAN RANGE
MAX STD
MIN SUM
N SUMWGT
NMISS VAR
CV – coeficiente de variação (porcentagem).
STDERR – erro padrão da média.
USS – soma de quadrados não corrigida.
CSS – soma de quadrados corrigida.
T – valor t para testar se a média da população é zero.
PRT – P T  t  , onde T ~ t-Student.
Ex.:
TITLE "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";
FILENAME sila "c:\usuarios\norma\cabra\pret.DBF";
PROC DBF DB3 = sila OUT=a;
DATA b; SET a;
Proc sort;
by anocorte;
proc means mean n min max cv std nmiss range;
var alt fol folio mas msr;
run;
Saída (OUTPUT)
The SAS System 13
07:24 Tuesday, July 31, 2001
Variable Mean N Minimum Maximum CV
---------------------------------------------------------------------
ALT 61.0541667 144 7.3000000 194.0000000 71.5295460
FOL 13.7152778 144 4.5000000 28.5000000 41.7992300
FOLIO 96.2743056 144 8.0000000 352.0000000 77.4822784
MAS 5.0838542 144 0.0300000 25.9270000 125.9038913
MSR 1.4321538 117 0.0600000 5.3460000 91.5293716
---------------------------------------------------------------------
Variable Std Dev Nmiss Range
-------------------------------------------
ALT 43.6717682 0 186.7000000
FOL 5.7328805 0 24.0000000
FOLIO 74.5955254 0 344.0000000
MAS 6.4007702 0 25.8970000
MSR 1.3108414 27 5.2860000
-------------------------------------------
Quando a variável independente contém muitos níveis, antes de se processar o PROC
MEANS faz-se um PROC SORT para àquela variável.
10 O PROC PRINT: Imprime os valores das variáveis de um arquivo de dados na janela

OUTPUT.
Sintaxe:
PROC PRINT data=nome;
var <variáveis>; /* seleciona variáveis*/
by <variáveis>; /*especifica subgrupos*/
sum <variáveis>; /*apresenta a soma das variáveis selecionadas*/
NOTA: A opção data=nome define o SASdataset a ser impresso. Se este não for definido, o
último SASdataset utilizado pelo SAS será considerado.
Ex.:
Data cabra;
Infile "c:\usuarios\CABRA.dat";
Input RGV 1-5 REBANHO 7 RGpai 9-12 RGmae 14-17 op 19-20 t 22 iap 24-27 pl
29-31 dl 33-35 iep 37-39 EP 41-42 ANOPART 44-47 MESPART 49-52 DATPART 54-59
DTNAS 61-66 GC 68-73;
Proc print;
Var RGV DATNAS REBANHO RGPAI RGMAE DATPART MESPART ANOPART OP IAP IEP EP
GC;
Run;
Saída (OUTPUT)
The SAS System 1
07:24 Tuesday, July 31, 2011
R D M A
D E A E N
A B R R T S O
T A G G P P P
O R N N P M A A A I I
B G A H A A R R R O A E E G
S V S O I E T T T P P P P C
1 71 . 1 16 816 . 7 1992 1 1409 437 2 199221

2 117 . 1 16 0 . 12 1988 1 1071 346 3 198831
3 118 . 1 16 433 . 2 1990 1 1125 722 1 199011
4 119 . 1 16 424 . 3 1990 1 1137 694 1 199011
5 120 . 1 16 1303 . 6 1990 1 1039 598 2 199021
6 123 . 1 19 422 . 2 1990 1 1298 478 1 199011
7 305 . 1 19 1551 . 2 1995 1 1458 504 1 199511
8 317 . 1 1052 2395 . 6 1989 1 1231 385 2 198921
9 407 . 1 1502 1169 . 2 1990 1 1200 705 1 199011
10 422 0 1 303 1306 . 9 1986 1 0 429 3 198631
11 O PROC SORT
Este procedimento ordena os registros de um arquivo existente ou a ser criado, permitindo
classificar por um ou múltiplos campos e em ordem crescente ou decrescente. O default do
SAS, quando o PROC SORT é usado, é ordenamento em ordem crescente. Para ordenar em
ordem decrescente, tem-se que usar a opção DESCENDING. Outra opção que pode ser usada
associada ao PROC SORT é a opção NODUPKEY. Esta opção elimina dados repetidos ou
iguais de uma mesma variável.
 NODUPKEY – Procura e elimina observações com valores BY duplicados. Se esta

opção for especificada, todos os valores BY de cada observação são comparados com a
observação predecessora. Se uma observação exatamente igual é encontrada, ela é
eliminada do arquivo final resultante do procedimento.
 NODUPRECS – Procura e elimina observações duplicadas. Todos os valores das
variáveis de cada observação são comparados com a observação prévia se esta opção
for especificada. Se um valor exato é encontrado, a observação é eliminada do arquivo
final resultante do procedimento. NODUPRECS confere só observações sucessivas,
assim, algumas observações duplicadas não sucessivas podem permanecer arquivo
final.
 BY – A instrução BY é obrigatória e especifica as variáveis pelas quais o arquivo deve
ser ordenado. O padrão é a ordem ascendente. Se for necessário usar ordem descendente,
é necessário especificar através da opção DESCENDING.
 DESCENDING – Quando for necessário ordenar de forma descendente, o termo
DESCENDING deve ser escrito antes de cada variável que deve ser ordenada desta
forma. Se uma variável da lista de variáveis que segue a instrução BY não for precedida
pela opção DESCENDING, automaticamente será ordenada ascendentemente.
Ex.:
data aula;
cards;
10 1 a 17.5
11 2 a 18.5
12 3 a 19.5
13 4 a 9.35
14 5 b 18.2
15 6 b 20.1
16 7 b 14.5
17 8 b 18.7
18 9 a 19.3
19 10 a 14.5
20 11 b 8.95
21 12 b 12.3
;
proc sort; by animal;
/*proc sort nodupkey; by cod;*/
/*proc sort; by descending animal;*/
proc print;
run;
12 O PROC FREQ: Produz tabelas de frequência univariada ou cruzadas.

Ex.: Frequência univariada ou tabela de uma entrada
data ufpb1; set ufpb;
proc freq;
tables raca;
run;
Output
The SAS System 13:57 Tuesday, February 29, 2000 1
Cumulative Cumulative
RACA Frequency Percent Frequency Percent
----------------------------------------------------
1 211 1.6 211 1.6
2 539 4.1 750 5.7
3 4216 31.9 4966 37.6
4 916 6.9 5882 44.5
5 6691 50.6 12573 95.1
6 271 2.1 12844 97.2
7 145 1.1 12989 98.3
8 225 1.7 13214 100.0
Frequência cruzada ou de duas entradas

data ufpb1; set ufpb;
proc freq;
tables prop*raca;
run;
Output
The SAS System 16:28 Wednesday, March 1, 2000 8
TABLE OF PROP BY RACA
PROP RACA
Frequency‚
Percent ‚
Row Pct ‚
Col Pct ‚ 1‚ 2‚ 3‚ 4‚ 5‚ 6‚ 7‚ 8‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
164 ‚ 0 ‚ 0 ‚ 0 ‚ 137 ‚ 0 ‚ 0 ‚ 0 ‚ 0 ‚ 137
‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 1.04 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 1.04
‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 100.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 14.96 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
235 ‚ 0 ‚ 93 ‚ 186 ‚ 0 ‚ 1 ‚ 0 ‚ 0 ‚ 0 ‚ 280
‚ 0.00 ‚ 0.70 ‚ 1.41 ‚ 0.00 ‚ 0.01 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 2.12
‚ 0.00 ‚ 33.21 ‚ 66.43 ‚ 0.00 ‚ 0.36 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
‚ 0.00 ‚ 17.25 ‚ 4.41 ‚ 0.00 ‚ 0.01 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
13 PROC ANOVA: Processa análise de variância para dados balanceados em diferentes

delineamentos experimentais.
O Proc Anova (Analysis of Variance) é um procedimento disponível no módulo
SAS\STAT para análise de variância de dados balanceados, isto é, sem perda de tratamentos e
igual número de observações para toda combinação dos níveis dos fatores. A obtenção da
Análise de Variância é feita considerando o modelo fixo, ou seja, tendo o erro experimental
como único efeito aleatório. Neste procedimento são utilizados dois comandos, o CLASS, que
identifica para o procedimento as variáveis independentes (fontes de variação) e o comando
MODEL, no qual especifica-se o modelo estatístico que será empregado na análise.
Delineamento Inteiramente Casualizado

TITLE "ANALISE materia seca";
FILENAME ed " a:mseca.DBF";
PROC DBF DB3 = ed OUT=a;
DATA b; SET a;
Run;
PROC ANOVA data=b;
Class trat;
Model producao=trat;
Run;
Um passo seguinte seria a execução de teste de médias que permitirá identificar quais
tratamentos diferem entre si.
means trat/tukey;
run;
Output
Analysis of Variance Procedure
Class Level Information
Class Levels Values

TRATAM 3 1 2 3
Number of observations in data set = 15
Analysis of Variance Procedure

Dependent Variable: PRODUCAO
Source DF Sum of Squares F Value Pr > F

Model1 2 423.33333333 3.20 0.0770
Error2 12 794.00000000
Corrected Total 14 1217.33333333
R-Square C.V. PRODUCAO Mean

0.347755 25.15760 32.3333333
Source DF Anova SS F Value Pr > F

TRAT3 2 423.33333333 3.20 0.07708
8
Não significativo a 5% pelo teste F
1 Model – Linha do quadro da análise de variância que mede o efeito de todos os componentes
do modelo. Na maioria dos casos, a rejeição do modelo implica na aceitação da hipótese de
nulidade referente a todos os fatores em estudo.
2 Error – Nessa linha é computado o erro experimental.
3 Trat – Linha que testa, através do teste F, a existência de efeito de tratamento sobre a
produção. O DF representa os graus de liberdade para trat. ANOVA SS representa a soma de
quadrados e F Value representa o valor de F calculado.
Pr > F – Fornece o nível de significância para rejeição ou não de H0.
Tukey's Studentized Range (HSD) Test for variable: PRODUCAO
Alpha= 0.05 df= 12 MSE= 66.16667

Critical Value of Studentized Range= 3.773
Minimum Significant Difference= 13.724
Means with the same letter are not significantly different.

Tukey Grouping Mean N TRATAM
A 39.000 5 2
A 32.000 5 3
A 26.000 5 1
Delineamento em Blocos Casualizados
Consideremos o exemplo a seguir. Analisar como DBC e usar o teste de DUNCAN com
alpha igual a 1%.
DATA a;
Input Var $ rep PROD @@;
Cards;
A 1 25 A 2 26 A 3 20 A 4 23 A 5 21
B 1 31 B 2 25 B 3 28 B 4 27 B 5 24
C 1 22 C 2 26 C 3 28 C 4 25 C 5 29
D 1 33 D 2 29 D 3 31 D 4 34 D 5 28
;
PROC ANOVA;
Class VAR REP;
Model prod=VAR REP;
MEANS VAR/DUNCAN ALPHA=0.01;
RUN;
Output
The SAS System
The ANOVA Procedure
Class Levels Values
Var 4 A B C D
rep 5 1 2 3 4 5
Number of observations 20
The ANOVA Procedure

Dependent Variable: PROD
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 7 175.2500000 25.0357143 2.99 0.0462
Error 12 100.5000000 8.3750000
R-Square Coeff Var Root MSE PROD Mean

0.635539 10.81854 2.893959 26.75000
Source DF Anova SS Mean Square F Value Pr > F

Var 3
163.7500000 54.5833333 6.52 0.0073
rep 411.5000000 2.8750000 0.34 0.8436
The SAS System
The ANOVA Procedure
Duncan's Multiple Range Test for PROD
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 8.375
Number of Means 2 3 4
Critical Range 5.591 5.829 5.982
Duncan Grouping Mean N Var

A 31.000 5 D
B A 27.000 5 B
B A 26.000 5 C
B 23.000 5 A
14 PROC GLM (General Linear Models - Modelos Lineares Gerais): Processa análise de
variância para diversos delineamentos experimentais balanceados ou não. O uso do GLM é
muito parecido com o procedimento ANOVA.
O PROC GLM usa o método dos quadrados mínimos para ajustar modelos lineares gerais.
Além da análise de variância de ensaios desbalanceados, é também utilizado para análise de
covariância.
Quando o delineamento é balanceado, a análise é relativamente mais simples. Essa
simplicidade é infelizmente perdida logo que o delineamento torna-se desbalanceado. Como
resultado, este procedimento calcula quatro tipos de soma de quadrados diferentes.
A soma de quadrados tipo I representa uma partição da soma de quadrados do modelo em
componentes de somas de quadrados devido a cada fator ou interação adicionado
sequencialmente no modelo, sendo, portanto, chamado de soma de quadrado sequencial.
Ex.:
FV SQ tipo I
A SQ(A/)
B SQ(B/, A)
A*B SQ(A*B/, A, B)
As somas de quadrado para cada efeito depende da ordem com que os mesmos são
dispostos no modelo.
A soma de quadrados tipo II, para um fator particular, representa o incremento na soma
de quadrados do modelo. Esse acréscimo é devido à adição do fator particular ou interação para
um modelo que já contém todas as variáveis e interações, exceto aquelas de interesse. Essas
somas de quadrados são comumente chamadas de somas de quadrados parciais.
Ex.:
FV SQ tipo II
A SQ(A/, B)
B SQ(B/, A)
A*B SQ(A*B/, A, B)
A soma de quadrados tipo III e IV são também um tipo de soma de quadrados parciais.
São consideradas por muitos como a soma de quadrados mais desejável. Quando os dados são
desbalanceados, dependendo do modelo em análise, essa soma de quadrados deve ser preferida.
Em condições de balanceamento, essas somas de quadrados são iguais. Pode haver casos,
dependendo do modelo e da condição de balanceamento que os quatro tipos de somas de
quadrado serão equivalentes.
Ex.1:
proc glm;
class npai ncab gc t;
model pl dl iep=npai ncab(npai) gc t iap iap*iap/ss3;
lsmeans gc t;
random npai ncab(npai);
run;
Saída (OUTPUT)
The SAS System 07:09 Friday, August 20, 1999 140
General Linear Models Procedure

Class Levels Values

NPAI 20 1 2 3 6 7 8 9 10 11 12 13 15 16 18 20 22 23 29 36 37
NCAB 174 7 105 106 107 110 112 113 114 117 120 131 134 136 137 138 141 143 144 146
151 157 159 162 163 166 168 174 176 177 178 179 181 185 190 192 193 195
197 198 200 207 208 219 221 224 225 228 230 231 232 233 237 238 240 242
243 244 249 252 253 258 259 263 264 266 268 270 272 275 276 277 281 282
290 294 296 299 301 304 306 313 314 316 319 322 323 333 340 349 351 355
GC 27 19551 19882 19883 19891 19892 19893 19901 19902 19903 19911 19912 19913
19921 19922 19923 19931 19932 19933 19942 19943 19951 19952 19953 19961
19962 19963 19972
T 2 1 2
Number of observations in data set = 629
Dependent Variable: PL
Source DF Sum of Squares Mean Square F Value Pr > F

Model 202 5054158.68003796 25020.58752494 5.38 0.0001
Error 421 1957650.47220563 4650.00112163
Corrected Total 623 7011809.15224359
R-Square C.V. Root MSE PL Mean

0.720807 25.23687 68.19091671 270.20352564
Source DF Type III SS Mean Square F Value Pr > F

NPAI 19 381401.46821976 20073.76148525 4.32 0.0001
NCAB(NPAI) 154 2669771.04363959 17336.17560805 3.73 0.0001
GC 26 422470.28115473 16248.85696749 3.49 0.0001
T 1 500.73869837 500.73869837 0.11 0.7430
IAP 1 5698.88492457 5698.88492457 1.23 0.2689
IAP*IAP 1 73561.54292701 73561.54292701 15.82 0.0001

Dependent Variable: IEP
Source DF Sum of Squares Mean Square F Value Pr > F

Model 202 1648470.33897673 8160.74425236 2.03 0.0001
Error 421 1691894.69788224 4018.75225150
Corrected Total 623 3340365.03685898
R-Square C.V. Root MSE IEP Mean

0.493500 23.71830 63.39362942 267.27724359

NPAI 19 195792.62370748 10304.87493197 2.56 0.0004
NCAB(NPAI) 154 837144.41524875 5436.00269642 1.35 0.0097
GC 26 446660.74750527 17179.25951943 4.27 0.0001
T 1 353.29381430 353.29381430 0.09 0.7670
IAP 1 6776.78344025 6776.78344025 1.69 0.1948
IAP*IAP 1 4862.99208062 4862.99208062 1.21 0.2719

Least Squares Means
GC PL DL IEP
LSMEAN LSMEAN LSMEAN
19551 279.344265 198.622626 -132.768691

19882 254.700543 182.109936 362.527849
19883 195.863896 192.002938 386.624595
19891 264.605793 223.514181 389.303811
19892 192.913009 173.551485 334.748019
19893 209.771648 185.438615 338.512819
19901 219.326006 182.577311 315.833808
19902 263.916315 177.517259 315.448650
19903 230.956861 188.294759 320.928972
19911 202.524675 178.442906 312.181031
19912 193.548996 166.385597 297.605299
19913 199.810770 206.723519 320.190069
19921 263.138481 234.955788 365.197105
19922 236.494862 163.279992 251.044667
T PL DL IEP
LSMEAN LSMEAN LSMEAN
1 228.691353 181.691416 267.555362

2 231.065333 183.006944 269.549429
Source Type III Expected Mean Square

NPAI Var(Error) + 2.6413 Var(NCAB(NPAI)) + 20.215 Var(NPAI)
NCAB(NPAI) Var(Error) + 3.3943 Var(NCAB(NPAI))
GC Var(Error) + Q(GC)
T Var(Error) + Q(T)
IAP Var(Error) + Q(IAP)
IAP*IAP Var(Error) + Q(IAP*IAP)
Ex.2:
data bloco;
input trat bloco prod @@;
cards;
1 1 142.36 1 2 144.78 1 3 145.19 1 4 138.88
2 1 139.28 2 2 137.77 2 3 144.44 2 4 130.61
3 1 140.73 3 2 134.06 3 3 136.07 3 4 144.11
4 1 150.88 4 2 135.83 4 3 136.97 4 4 136.36
5 1 153.49 5 2 165.02 5 3 151.75 5 4 150.22
;
proc glm;
class trat bloco;
model prod = trat bloco;
run;
Saída (OUTPUT)
The GLM Procedure

Class Levels Values
trat 5 1 2 3 4 5
bloco 4 1 2 3 4
The GLM Procedure

Dependent Variable: prod
Sum of
Model 7 867.627350 123.946764 3.66 0.0238
Error 12 406.324850 33.860404
R-Square Coeff Var Root MSE prod Mean

0.681052 4.070917 5.818969 142.9400
Source DF Type I SS Mean Square F Value Pr > F

trat 4 794.9297500 198.7324375 5.87 0.0074
bloco 3 72.6976000 24.2325333 0.72 0.5614

trat 4 794.9297500 198.7324375 5.87 0.0074
bloco 3 72.6976000 24.2325333 0.72 0.5614
Nota: Como se pode verificar, o efeito de tratamento foi significativo, ou seja, pelo menos um
dos contrastes entre tratamentos difere dos demais. Neste caso, é interessante solicitar um teste
de comparação entre médias.
means trat/tukey;
run;
Tukey's Studentized Range (HSD) Test for prod
NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher
Type II error rate than REGWQ.
Alpha 0.05
Critical Value of Studentized Range 4.50760
Minimum Significant Difference 13.115

Tukey Grouping Mean N trat
A 155.120 4 5
B A 142.803 4 1
B 140.010 4 4
B 138.743 4 3
B 138.025 4 2
Delineamentos em DIC e DBC

OPTIONS LS=78 PS=60 NODATE NONUMBER;
DATA UM;
INPUT TRAT REP Y;
CARDS;
1 1 35
1 2 19
1 3 31
1 4 15
1 5 30
2 1 40
2 2 35
2 3 46
2 4 41
2 5 33
3 1 39
3 2 27
3 3 20
3 4 29
3 5 45
4 1 27
4 2 12
4 3 13
4 4 28
4 5 30
;
Title 'EXEMPLO DE DELINEAMENTO INTEIRAMENTE CASUALIZADO COM TESTE DE TUKEY
A 5% ';
PROC GLM;
CLASS TRAT;
MODEL Y=TRAT;
MEANS TRAT/TUKEY;
RUN;
Title 'EXEMPLO EM BLOCOS COMPLENTOS COM TESTE DE TUKEY A 1% E A 5% ';

PROC GLM;
CLASS TRAT REP;
MODEL Y=REP TRAT;
MEANS TRAT/TUKEY ALPHA=0.01;
MEANS TRAT/TUKEY;
RUN;
Title 'EXEMPLO COM CONTRASTES ORTOGONAIS';

PROC GLM;
CLASS TRAT REP;
MODEL Y=REP TRAT;
CONTRAST 'm1-M2' TRAT 1 -1 0 0 ;
CONTRAST 'M1+M2-2M4' TRAT 1 1 0 -2;
CONTRAST 'b1-b4'rep 1 0 0 -1;
run;
Output
EXEMPLO DE DELINEAMENTO INTEIRAMENTE CASUALIZADO COM TESTE DE TUKEY A 5%
The GLM Procedure

Class Levels Values
TRAT 4 1 2 3 4
The GLM Procedure

Dependent Variable: Y
Sum of
Model 3 823.750000 274.583333 3.99 0.0267
Error 16 1100.000000 68.750000
R-Square Coeff Var Root MSE Y Mean

0.428200 27.87080 8.291562 29.75000

TRAT 3 823.7500000 274.5833333 3.99 0.0267

TRAT 3 823.7500000 274.5833333 3.99 0.0267
The GLM Procedure

Tukey's Studentized Range (HSD) Test for Y
NOTE: This test controls the Type I experimentwise error rate, but it
generally has a higher Type II error rate than REGWQ.
Alpha 0.05

Tukey Grouping Mean N TRAT
A 39.000 5 2
B A 32.000 5 3
B A 26.000 5 1
B 22.000 5 4
EXEMPLO EM BLOCOS COMPLENTOS COM TESTE DE TUKEY A 1% E A 5%

The GLM Procedure
Class Levels Values
TRAT 4 1 2 3 4
REP 5 1 2 3 4 5
The GLM Procedure

Sum of
Model 7 1233.250000 176.178571 3.06 0.0429
Error 12 690.500000 57.541667

0.641066 25.49789 7.585622 29.75000

REP 4 409.5000000 102.3750000 1.78 0.1978
TRAT 3 823.7500000 274.5833333 4.77 0.0206

REP 4 409.5000000 102.3750000 1.78 0.1978
TRAT 3 823.7500000 274.5833333 4.77 0.0206
The GLM Procedure

Alpha 0.01

A 39.000 5 2
A 32.000 5 3
A 26.000 5 1
A 22.000 5 4
The GLM Procedure

Alpha 0.05

A 39.000 5 2
B A 32.000 5 3
B A 26.000 5 1
B 22.000 5 4
EXEMPLO COM CONTRASTES ORTOGONAIS

The GLM Procedure
Class Levels Values
TRAT 4 1 2 3 4
REP 5 1 2 3 4 5
The GLM Procedure

Sum of
Model 7 1233.250000 176.178571 3.06 0.0429
Error 12 690.500000 57.541667

0.641066 25.49789 7.585622 29.75000

REP 4 409.5000000 102.3750000 1.78 0.1978
TRAT 3 823.7500000 274.5833333 4.77 0.0206

REP 4 409.5000000 102.3750000 1.78 0.1978
TRAT 3 823.7500000 274.5833333 4.77 0.0206
Contrast DF Contrast SS Mean Square F Value Pr > F

m1-M2 1 422.5000000 422.5000000 7.34 0.0190
M1+M2-2M4 1 367.5000000 367.5000000 6.39 0.0266
b1-b4 1 98.0000000 98.0000000 1.70 0.2164
Experimentos em Esquemas Fatoriais

Seja um experimento fatorial instalado em DBC, com dois fatores, temperatura e diluente,
cada um deles com três níveis, em que se buscou estudar a motilidade de espermatozóides de
jumentos.
Ex.:
data a;
input Temp jumento dil mot;
cards;
1 1 1 75
1 1 2 81
1 1 3 68
1 2 1 65
1 2 2 69
1 2 3 60
1 3 1 78
1 3 2 79
1 3 3 72
1 4 1 68
1 4 2 76
1 4 3 61
1 5 1 44
1 5 2 55
1 5 3 34
2 1 1 73
2 1 2 75
2 1 3 61
2 2 1 60
2 2 2 62
2 2 3 55
2 3 1 83
2 3 2 76
2 3 3 68
2 4 1 61
2 4 2 66
2 4 3 57
2 5 1 43
2 5 2 51
2 5 3 24
3 1 1 66
3 1 2 62
3 1 3 50
3 2 1 61
3 2 2 51
3 2 3 50
3 3 1 70
3 3 2 60
3 3 3 61
3 4 1 51
3 4 2 51
3 4 3 53
3 5 1 37
3 5 2 41
3 5 3 21
;
proc glm ;
class Temp jumento dil;
model mot = jumento dil Temp dil*Temp;
Output
The SAS System
The GLM Procedure
Class Levels Values
Temp 3 1 2 3
jumento 5 1 2 3 4 5
dil 3 1 2 3
The SAS System

The GLM Procedure
Dependent Variable: mot
Sum of
Model 12 8385.555556 698.796296 38.39 <.0001
Error 32 582.444444 18.201389
R-Square Coeff Var Root MSE mot Mean

0.935053 7.150238 4.266309 59.66667

jumento 4 5845.555556 1461.388889 80.29 <.0001
dil 2 1013.333333 506.666667 27.84 <.0001
Temp 2 1373.333333 686.666667 37.73 <.0001
Temp*dil 4 153.333333 38.333333 2.11 0.1031

jumento 4 5845.555556 1461.388889 80.29 <.0001
dil 2 1013.333333 506.666667 27.84 <.0001
Temp 2 1373.333333 686.666667 37.73 <.0001
Temp*dil 4 153.333333 38.333333 2.11 0.1031
Nota: Observe que a interação TEMP*DIL não foi significativa (P > 0,1). Nesta situação o
estudo dos fatores isoladamente é suficiente para avaliar a motilidade dos espermatozóides.
Nota: A título de ilustração será apresentado às comparações de médias dos fatores
isoladamente, como também da interação.
means Temp dil/tukey;

means dil*Temp/snk;
Com estes comandos, o SAS faz a comparação das médias dos níveis dos fatores
(temperatura e diluente) e da interação.
Output
Tukey's Studentized Range (HSD) Test for mot
Alpha 0.05

Tukey Grouping Mean N Temp
A 65.667 15 1
B 61.000 15 2
C 52.333 15 3
Tukey's Studentized Range (HSD) Test for mot

Alpha 0.05

Tukey Grouping Mean N dil
A 63.667 15 2
A 62.333 15 1
B 53.000 15 3
The SAS System

The GLM Procedure
Level of Level of -------------mot-------------
Temp dil N Mean Std Dev
1 1 5 66.0000000 13.3603892
1 2 5 72.0000000 10.5356538
1 3 5 59.0000000 14.8323970
2 1 5 64.0000000 15.0665192
2 2 5 66.0000000 10.2713193
2 3 5 53.0000000 16.9558250
3 1 5 57.0000000 13.2476413
3 2 5 53.0000000 8.3964278
3 3 5 47.0000000 15.2151241
Nota: Observe que estudar a interação, como feito anteriormente, não é uma boa opção, pois
esta apenas apresenta as médias observadas para cada tratamento com os respectivos desvios
padrão.
Nota: A opção é usar o LSMEANS. Com a opção LSMEANS, passa-se a trabalhar com médias
ajustadas de quadrados mínimos, ao invés de médias observadas. Neste caso, as médias são
ajustadas para os fatores que compõem o modelo estatístico. Além disso, o programa compara
quaisquer duas médias componentes da interação, sendo, portanto, uma boa alternativa para
estudar a interação. Vale salientar que as médias ajustadas podem ser solicitadas para os fatores
isoladamente, como segue:
lsmeans Temp dil dil*Temp/pdiff adjust=tukey stderr;

Output
Least Squares Means
Adjustment for Multiple Comparisons: Tukey
Standard LSMEAN
Temp mot LSMEAN Error Pr > |t| Number
1 65.6666667 1.1015561 <.0001 1
2 61.0000000 1.1015561 <.0001 2
3 52.3333333 1.1015561 <.0001 3
Least Squares Means for effect Temp

Pr > |t| for H0: LSMean(i)=LSMean(j)

i/j 1 2 3
1 0.0141 <.0001
2 0.0141 <.0001
3 <.0001 <.0001
Least Squares Means

Standard LSMEAN
dil mot LSMEAN Error Pr > |t| Number
1 62.3333333 1.1015561 <.0001 1
2 63.6666667 1.1015561 <.0001 2
3 53.0000000 1.1015561 <.0001 3
Least Squares Means for effect dil


i/j 1 2 3
1 0.6715 <.0001
2 0.6715 <.0001
3 <.0001 <.0001
Least Squares Means

Standard LSMEAN
Temp dil mot LSMEAN Error Pr > |t| Number
1 1 66.0000000 1.9079512 <.0001 1
1 2 72.0000000 1.9079512 <.0001 2
1 3 59.0000000 1.9079512 <.0001 3
2 1 64.0000000 1.9079512 <.0001 4
2 2 66.0000000 1.9079512 <.0001 5
2 3 53.0000000 1.9079512 <.0001 6
3 1 57.0000000 1.9079512 <.0001 7
3 2 53.0000000 1.9079512 <.0001 8
3 3 47.0000000 1.9079512 <.0001 9
Least Squares Means for effect Temp*dil

i/j 1 2 3 4 5
1 0.4154 0.2283 0.9977 1.0000
2 0.4154 0.0010 0.1106 0.4154
3 0.2283 0.0010 0.6485 0.2283
4 0.9977 0.1106 0.6485 0.9977
5 1.0000 0.4154 0.2283 0.9977
6 0.0010 <.0001 0.4154 0.0076 0.0010
7 0.0485 0.0001 0.9977 0.2283 0.0485
8 0.0010 <.0001 0.4154 0.0076 0.0010
9 <.0001 <.0001 0.0028 <.0001 <.0001
i/j 6 7 8 9
1 0.0010 0.0485 0.0010 <.0001
2 <.0001 0.0001 <.0001 <.0001
3 0.4154 0.9977 0.4154 0.0028
4 0.0076 0.2283 0.0076 <.0001
5 0.0010 0.0485 0.0010 <.0001
6 0.8553 1.0000 0.4154
7 0.8553 0.8553 0.0197
8 1.0000 0.8553 0.4154
9 0.4154 0.0197 0.4154
Nota: A comparação dos fatores isoladamente é imediata. Já para a interação é preciso guiar-se
pelo número da média (LSMEAN NUMBER). Por exemplo, ao comparar as médias 1 e 2,
estará comparando-se as médias entre os tratamentos temp 1 dil 1 contra temp 1 dil 2. Assim,
observa-se na matriz de probabilidade abaixo, o valor de probabilidade entre as médias 1 (i) e
2 (j), o qual irá informar se as mesmas são iguais ou diferentes. O valor de probabilidade entre
as médias 1 e 2 é de 0,4154, indicando, desta forma, que as mesmas não diferem entre si.
Nota: Como se pode observar, a comparação é feita, porém, não da maneira usual como nos
teste de médias, os quais vêm com as letras para indicar as diferenças. Caso seja o interesse do
usuário, com os valores de probabilidade entre as médias, é perfeitamente possível colocar as
letras para ilustrar a comparação das médias.
Nota: Outra opção para estudar a interação, seria estudar um fator dentro do outro. Por exemplo,
temperatura dentro do diluente 1 (Temp/dil1), temperatura dentro do diluente 2 (Temp/dil2) e
temperatura dentro do diluente 3 (Temp/dil3), ou o contrário, diluente dentro de temperatura.
Esse estudo pode ser feito usando a opção SLICE ou CONTRAST.
A opção SLICE já solicita o desdobramento de cada fator dentro do outro, como segue:
lsmeans dil*Temp/slice=dil; /* Temp/dil*/

lsmeans dil*Temp/slice=Temp;/*Dil/temp*/
Output
The GLM Procedure
Least Squares Means
Temp dil mot LSMEAN
1 1 66.0000000
1 2 72.0000000
1 3 59.0000000
2 1 64.0000000
2 2 66.0000000
2 3 53.0000000
3 1 57.0000000
3 2 53.0000000
3 3 47.0000000
The SAS System

The GLM Procedure
Least Squares Means
Temp*dil Effect Sliced by dil for mot
Sum of
dil DF Squares Mean Square F Value Pr > F
1 2 223.333333 111.666667 6.14 0.0056
2 2 943.333333 471.666667 25.91 <.0001
3 2 360.000000 180.000000 9.89 0.0005
The SAS System

The GLM Procedure
Least Squares Means
Temp dil mot LSMEAN
1 1 66.0000000
1 2 72.0000000
1 3 59.0000000
2 1 64.0000000
2 2 66.0000000
2 3 53.0000000
3 1 57.0000000
3 2 53.0000000
3 3 47.0000000
The SAS System

The GLM Procedure
Least Squares Means
Temp*dil Effect Sliced by Temp for mot
Sum of
Temp DF Squares Mean Square F Value Pr > F
1 2 423.333333 211.666667 11.63 0.0002
2 2 490.000000 245.000000 13.46 <.0001
3 2 253.333333 126.666667 6.96 0.0031
Com a opção CONTRAST pode-se fazer a comparação entre quaisquer pares de médias.
As médias entre temperaturas, como também entre os diluentes, podem ser comparadas como
segue:
/*qualquer contraste entre médias*/
contrast 'Temp1/Temp2' Temp 1 -1 0;
contrast 'Temp1/Temp3' Temp 1 0 -1;
contrast 'Temp2/Temp3' Temp 0 1 -1;
Output
The SAS System
The GLM Procedure
Temp1-Temp2 1 163.333333 163.333333 8.97 0.0053
Temp1-Temp3 1 1333.333333 1333.333333 73.25 <.0001
Temp2-Temp3 1 563.333333 563.333333 30.95 <.0001
Outra maneira de estudar a interação é com a opção CONTRAST. Neste caso, o

encaminhamento a ser dado é estudar um fator dentro do outro. Para isso, o seguinte programa
deve ser usado:
proc glm ;
class Temp jumento dil;
model mot = jumento dil Temp(dil);
contrast 'Temp/dil1' Temp(dil) 1 -1 0,

Temp(dil) 1 0 -1;
contrast 'Temp/dil2' Temp(dil) 0 0 0 1 -1 0,

Temp(dil) 0 0 0 1 0 -1;
contrast 'Temp/dil3' Temp(dil) 0 0 0 0 0 0 1 -1 0,

Temp(dil) 0 0 0 0 0 0 1 0 -1;
run;
Nota: Pode-se observar que para proceder esta análise, repetiu-se, previamente, a análise de
variância (PROC GLM), sendo que agora se utilizou, no modelo, o efeito aninhado de
temperatura dentro de diluente (Temp/dil). Para que a opção CONTRAST possa fazer o estudo
de um fator dentro do outro (Temp/dil), este efeito deve aparecer, previamente, no MODEL.
Daí a necessidade de repetir a análise de variância. Feito isso, é só montar os contrastes
ortogonais, como mostrado anteriormente. Observe que os resultados obtidos com esta opção
são equivalentes aos obtidos com a opção SLICE.
Output
The GLM Procedure
Sum of
Model 12 8385.555556 698.796296 38.39 <.0001
Error 32 582.444444 18.201389
R-Square Coeff Var Root MSE mot Mean

0.935053 7.150238 4.266309 59.66667

jumento 4 5845.555556 1461.388889 80.29 <.0001
Temp 2 1373.333333 686.666667 37.73 <.0001
dil(Temp) 6 1166.666667 194.444444 10.68 <.0001

jumento 4 5845.555556 1461.388889 80.29 <.0001
Temp 2 1373.333333 686.666667 37.73 <.0001
dil(Temp) 6 1166.666667 194.444444 10.68 <.0001

dil/Temp1 2 423.3333333 211.6666667 11.63 0.0002
dil/Temp2 2 490.0000000 245.0000000 13.46 <.0001
dil/Temp3 2 253.3333333 126.6666667 6.96 0.0031
O mesmo estudo pode ser feito com diluente dentro de temperatura.
15 ANÁLISE DE CORRELAÇÃO E REGRESSÃO

Introdução
Existem numerosos procedimentos estatísticos para investigar relacionamentos
bivariados (somente entre duas variáveis). Estes procedimentos podem fornecer um teste
estatístico de significância, uma medida de associação, ou ambos. O teste estatístico objetiva
testar hipóteses sobre o grau de relacionamento entre variáveis na população. Por exemplo, o
coeficiente de correlação de Pearson.
Num estudo para se testar a hipótese nula de que a correlação entre duas variáveis é zero
na população, uma amostra de 200 observações determinou um coeficiente de correlação entre
duas variáveis de 0.35. Com base nesta amostra, o resultado do teste forneceu uma
probabilidade de significância de 0.001. Este p-valor sugere que existe menos que uma chance
em 1000 de se obter um valor igual ou superior à 0.35, para correlação amostral, se a hipótese
nula fosse verdadeira. Rejeita-se, portanto, a hipótese nula, concluindo-se que a correlação é
significativamente diferente de zero na população.
A escolha apropriada da estatística a ser usada no estudo do relacionamento entre duas
variável irá depender da natureza delas. Atenção particular deve ser dada aos níveis de medidas
usados para avaliar as duas variáveis. Uma breve discussão à este respeito é feita a seguir.
Uma variável medida numa escala nominal representa classes que indicam o grupo ao
qual pertence uma determinada observação. Por exemplo, SEXO é uma variável que está numa
escala nominal. Uma observação pode ser classificada como sendo da classe "masculino" ou da
classe "feminino".
Uma variável medida numa escala ordinal representa valores num “rank” ordenado, ou
seja, possui hierarquia. Por exemplo, se cada aluno de uma turma fosse avaliado a respeito de
sua habilidade verbal. O melhor aluno foi avaliado com o valor 1, o segundo melhor com o
valor 2, e assim por diante. Este “rank” de valores são ditos ordinais. Escalas ordinais de valores
porém possuem uma limitação: iguais diferenças na escala de valores não tem necessariamente
o mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade verbal entre um
aluno com grau 1 e um aluno com grau 2 não é necessariamente a mesma diferença existente
entre as habilidades de um aluno com grau 2 e um com grau 3.
Uma variável medida numa escala de intervalo significa que iguais diferenças entre
valores da escala tem igual significado quantitativo. Um exemplo é a escala Fahrenheit de
medição de temperatura. A diferença entre 70 e 75 graus é igual a diferença entre 75 e 80 graus.
As unidades de medidas são iguais através de todo o range da escala. A limitação existente
nesta escala é que não existe um ponto zero real, ou seja, o zero da distribuição de temperaturas
não indica que não haja nenhum calor presente no ambiente.
Uma variável medida numa escala de razão é aquela que iguais diferenças entre valores
da escala tem igual significado quantitativo. Neste caso, além deste fato, é possível interpretar
a razão entre os valores da escala. Um valor para peso igual à zero indica nenhum peso corporal.
Com isto, é possível estabelecer que o peso de uma criança com 20 kg é o dobro de peso de
uma criança com 10 kg .
A tabela a seguir identifica as estatísticas apropriadas para avaliar o relacionamento de
pares de variáveis nos seus respectivos níveis de medida.
TABELA COM ESTATÍSTICAS APROPRIADAS
Análise de Regressão
Na análise de regressão procura-se estabelecer uma relação funcional entre uma variável
dependente y e p variáveis independentes, ou seja, determina-se, através de estimativas de
parâmetros, como uma variável independente exerce, ou parece execer, efeito sobre uma outra
variável dependente.
O PROC REG é o procedimento do SAS mais comum para análise de regressão. Ele é
utilizado para se ajustar equações lineares de acordo com algum modelo pré-estabelecido.
Processa análise de regressão de dados balanceados ou não.
Nesse capítulo abordaremos, basicamente, a utilização do procedimento REG na
execução de análises de regressão pelo método dos quadrados mínimos.
O procedimento REG ajusta modelos de regressão linear usando o método dos mínimos
quadrados. O procedimento é descrito com detalhes no manual “SAS / STAT Software – Chapter
50: The REG Procedure. Cary: SAS Institute.
Sintaxe:
PROC REG < Opções > ;
< Rótulo: >;
MODEL VariáveisDependentes= <Regressores>
< / Opções > ;
BY Variáveis ;
FREQ Variável ;
ID Variáveis ;
VAR Variáveis ;
WEIGHT Variável ;
ADD Variáveis ;
DELETE Variáveis ;
< Rótulo: >;
MTEST <Equaçãon, : : : ,Equaçãon>
</ Opções > ;
OUTPUT < OUT=ArquivoDeSaída > PalavrasChaves=Nomes
< : : : PalavrasChaves=Nomes > ;
PAINT <Condição j ALLOBS>
< / Opções > j < STATUS | UNDO> ;
PLOT <Variávely*Variávelx> <=Símbolo>
< : : :Variávely*Variávelx> <=Símbolo>
</ Opções > ;
PRINT < Opções > < ANOVA > < MODELDATA > ;
REFIT;
RESTRICT Equaçãon, : : : ,Equaçãon ;
REWEIGHT <Condição j ALLOBS>
< / Opções > j < STATUS | UNDO> ;
< Rótulo: >;
TEST Equaçãon,<; : : :,Equaçãon>
PROC REG
Finalidade: Ajuste da equação de regressão linear.
Sintaxe:
PROC REG < opções1 >;
MODEL < Var.Dep > = < Lista Var.Indep > / < opções2 >;
RUN;
A < Lista Var. Indep. > é tal que:
__Se conter apenas 1 variável – Reg Linear simples
__Se conter 2 ou mais variáveis – Reg. linear Múltipla
Algumas das <opções2> são:
__P – apresenta os valores estimados (preditos)
__CLI – apresenta os intervalos de confiança dos valores preditos
__CLM – apresenta os intervalos de confiança das médias
__SELECTION= BACKWARD (B) FORWARD (F) STEPWISE SLSTAY= n1
SLENTRY=n2
__As opções BACKWARD (B) FORWARD (F) STEPWISE são usadas para definir o
método para seleção do modelo de regressão
__As opções SLSTAY= n1 SLENTRY=n2 são usadas para definir os Níveis de significância
para ficar ou entrar, respectivamente, uma variável no modelo
OPÇÕES DO PROCEDIMENTO
DATA=ArquivoDeDados - Nome do arquivo de dados a usar com o procedimento.
OUTEST=ArquivoDeSaída - Cria um arquivo de saída que contém os parâmetros estimados e
outras estatísticas.
OUTSSCP=ArquivoDeSaída - Cria um arquivo de saída que contém as somas de quadrados e
produtos cruzados.
COVOUT – Imprime a matriz de covariância para os parâmetros estimados. Só funciona em
conjunto com OUTEST.
CORR – Imprime a matrix de correlações das variáveis listadas nas instruções MODEL e VAR.
SIMPLE – Imprime estatísticas simples para as variáveis listadas nas instruções MODEL e
VAR.
COLLIN – Imprime a análise de colinearidade.
USCCP – Imprime a matriz de somas de quadrados e produtos cruzados não-corrigidos.
ALL – Imprime todas as estatísticas (CORR, SIMPLE e USSCP).
NOPRINT – Impede a impressão de relatório automático.

ALPHA=Valor – Atribui um valor de significância para os testes do procedimento
(Padrão=0.05).
SINGULAR=Critério – Atribui um critério para verificação de singularidade.
Observação: há outras opções para o procedimento.
Análise de Regressão Simples
Os coeficientes de correlação indicam somente a existência ou não de algum tipo de

relacionamento entre variáveis. Para investigar a forma desse relacionamento, o método mais
apropriado é a análise de regressão, onde a relação pode ser expressa sob forma matemática,
por meio de uma equação que interligue as variáveis.
Através do diagrama de dispersão é possível visualizar uma curva que se aproxime dos
dados. Essa curva é denominada curva de ajustamento.
Para fins de referência, a seguir encontram-se relacionados vários tipos comuns de
curvas de ajustamento e suas equações. As variáveis independentes estão representadas pela
letra X e as variáveis dependentes pela letra Y. As demais letras representam constantes.
Para evitar o critério individual na construção de funções que se adaptem ao conjunto de

dados, é necessário instituir uma definição da "melhor função de ajustamento". Uma medida da
qualidade do ajustamento aos dados apresentados (aderência) é proporcionada a partir da
distância dos pontos observados até a equação de regressão. De todas as equações que podem
ser traçadas através do grupo de pontos no diagrama de dispersão, a função que melhor se ajusta
é aquela com a menor soma dos quadrados das distâncias (Método dos Mínimos Quadrados).
Estas distâncias são designadas como desvios, erros ou resíduos, e podem ser positivas,
negativas ou nulas, como é apresentado na figura a seguir:
Como os dados a seguir não foram originados de um delineamento experimental
envolvendo repetições, os resultados apresentados pelo programa abaixo estarão corretos.
Ex.:
Title "análise de regressao de pl em funcao do ap"; data reg;
input n pl ap;
cards;
57 258.70 1988
108 245.08 1989
158 246.39 1990
128 222.68 1991
64 223.30 1992
107 209.45 1993
12 206.83 1994
44 170.40 1995
20 155.00 1996
;
data a;set reg; ap2=ap*ap;
PROC REG;
Model PL = ap; O modelo especificado neste procedimento está caracterizando
Run; uma regressão linear de 1o grau. Caso houvesse interesse em
ajustar uma regressão linear de 2o grau, bastaria criar o termo
quadrático, como foi feito com a variável AP, sendo AP2=AP*AP;
e inseri-lo no modelo, MODEL PL= AP AP2;
Output
análise de regressao de pl em funcao do ap 44

14:31 Tuesday, July 31, 2001
Model: MODEL1
Dependent Variable: PL
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 1 8910.64693 8910.64693 88.742 0.0001
Error 7 702.87549 100.41078
C Total 8 9613.52242
Root MSE 10.02052 R-square 0.92691

Dep Mean 215.31444 Adj R-sq 0.91642
C.V. 4.65390
Parameter Estimates
Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0
INTERCEP 1 24491 2576.9396778 9.504

AP 1 -12.186500 1.29364333 -9.420
Variable DF Prob > |T|
INTERCEP 1 0.0001
AP 1 0.0001
1
– R-Square – Coeficiente de determinação (R2), dado pela divisão da soma de quadrados do
modelo pela soma de quadrados do resíduo. Esta estatística indica o quanto da soma de
quadrados total está sendo explicada pela regressão linear ajustada, ou ainda, o quanto da
variação observada na variável dependente está sendo explicada pela variável independente.
2
– Adj R-sq – Coeficiente de determinação ajustado segundo a fórmula:
2
R Aj  1 

 n  1 1  R 2 
,
 n p 
em que n, p e R2 são, respectivamente, o número de observações, o número de parâmetros

estimatidos e o coeficiente de determinação.
A equação ajustada é: yˆ  2449112,1865X
O programa seguinte solicitará a emissão de outras estatísticas relacionadas à análise de
regressão para o modelo já estudado:
PROC REG;
Model PL = ap/ r cli clm;
Run;
Output
Output Statistics
Dep Var1 Predicted2 Std Error3

Obs pl Value Mean Predict 95% CL Mean4
1 258.7000 264.0604 6.1590 249.4968 278.6241
2 245.0800 251.8739 5.1204 239.7662 263.9817
3 246.3900 239.6874 4.2250 229.6969 249.6780
4 222.6800 227.5009 3.5819 219.0310 235.9709
5 223.3000 215.3144 3.3402 207.4162 223.2127
6 209.4500 203.1279 3.5819 194.6580 211.5979
7 206.8300 190.9414 4.2250 180.9509 200.9320
8 170.4000 178.7549 5.1204 166.6472 190.8627
9 155.0000 166.5684 6.1590 152.0048 181.1321
Output Statistics
Std Error Student

Obs 95% CL Predict5 Residual6 Residual7 Residual8 -2-1 0 1 29
1 236.2478 291.8731 -5.3604 7.904 -0.678 | *| |

2 225.2649 278.4830 -6.7939 8.614 -0.789 | *| |
3 213.9726 265.4023 6.7026 9.086 0.738 | |* |
4 202.3378 252.6640 -4.8209 9.358 -0.515 | *| |
5 190.3380 240.2909 7.9856 9.447 0.845 | |* |
6 177.9648 228.2910 6.3221 9.358 0.676 | |* |
7 165.2266 216.6563 15.8886 9.086 1.749 | |*** |

8 152.1459 205.3640 -8.3549 8.614 -0.970 | *| |
9 138.7558 194.3811 -11.5684 7.904 -1.464 | **| |
Output Statistics
Cook's10
Obs D
1 0.140
2 0.110
3 0.059
4 0.019
5 0.045
6 0.033
7 0.331
8 0.166
9 0.650
Sum of Residuals11 -1.2056E-11

Sum of Squared Residuals12 702.87549
Predicted Residual SS (PRESS)13 1235.94815
1-
Valores observados da variável dependente;
2-
Valores estimados para a variável dependente através da equação de regressão ajustada;
3-
Desvio padrão do valor estimado;
4-
Nível inferior e superior do intervalo de confiança a 95% de probabilidade para a região
que contem os dados observados. Impreso pela opção CLI;
5-
Nível inferior e supeior do intervalo de confiança a 95% de probabilidade para a região que
contem os dados estimados. Impresso pela opção CLM;
6-
Diferença entre os valores observados e estimados. Impresso pela opção R;
7-
Erro padrão das estimativas;
8-
Residúo estudentizado, é a razão entre o resíduo original e o desvio padrão obtido para cada
observação. Valores maiores, em valor absoluto, podem indicar observações discrepantes.
Através desta análise, pode-se obter benefícios para a regressão eliminando os dados
discrepantes;
9-
Gráfico de resíduos estudentizados. Para facilitar a obervação da magnitude do resíduo
estudentizado, o gráfico mostra se os valores se encontram dentro da faixa ótima –2 a +2;
10-
Distância de COOK, representa a influência de cada observação na estimativa dos
parâmetros. O valor é obtido através da diferença entre todos os valores da equação
estimada com todos os valores e sem o valor corrente;
11-
Soma de resíduos, deve ter um valor próximo de zero;
12-
Soma de quadrados dos resíduos, esse valor deve ser próximo à soma de quadrados
apresentada no quadro de análise de variância da regressão;
13-
Soma de quadrado dos resíduos pretidos.
Muitas outras estatísticas podem ser calculadas por meio do procedimento REG. Uma das
possibilidades é a criação de gráficos.
O seguinte programa permite a análise dos resíduos da regressão até então estudados:
PROC REG;
Model PL = ap;
Plot r.*PL;
Run;
Análise de correlação
A correlação mede a magnitude da relação linear ou o grau de relacionamento entre duas

variáveis, ou seja, procura-se medir a covariabilidade entre elas. Na análise de regressão é
necessário distingir a variável dependente e a variável independente, enquanto na análise de
correlação tal distinção não é necessária.
Através do procedimeto CORR do SAS permite calcular a correlação de Pearson, que é
a mais utilizada, e a de Spearman, que permite a análise de variáveis a partir do posto ou rank
da variáveis.
Correlação de Pearson
O estudo de medidas de associação reflete o grau da intensidade da relação entre
variáveis. Se X e Y representam duas variáveis, ambas acessadas na escala de intervalo ou de
razão, o diagrama de dispersão irá mostrar a localização dos pontos (x , y) em um sistema de
coordenadas retangulares. Se os pontos desse diagrama se distribuírem nas proximidades de
uma reta, como nas figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os
pontos se distribuírem próximos de alguma curva, a correlação é denominada não linear, como
pode ser visto na figura (C). Quando os pontos não apresentam nenhuma forma definida, figura
(D), diz-se que as variáveis x e y são não correlacionadas.
Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento entre
duas variáveis com relacionamento não linear, ele normalmente subestima o verdadeiro valor.
Por esta razão é sempre prudente avaliar primeiro o diagrama de dispersão para as variáveis,
usando para isso a PROC PLOT, que tem a seguinte forma geral:
PROC PLOT DATA= ARQSAS;

PLOT Y*X;
RUN;
Para o tratamento quantitativo do problema da dispersão dos dados amostrais é necessário

estabelecer medidas de correlação. O coeficiente de correlação de Pearson, simbolizado por
“r”, será utilizado para medir o relacionamento entre duas variáveis que estejam na escala de
intervalo ou de razão. Outra consideração a ser feita ao usar esta medida de associação, é que
ambas as amostras tenham sido retiradas de uma população Normal. Caso contrário, uma
medida de associação não paramétrica deverá ser usada, tal como o coeficiente de correlação
de Spearman.
O range de “r” varia de -1 a 1. Se “r” for um valor próximo de 1 significa que as duas
variáveis são correlacionadas positivamente, se for próximo de -1, significa que as variáveis
são correlacionadas negativamente. Valores de “r” próximos de zero correspondem a uma
dispersão de pontos que não mostra nem uma tendência crescente, nem decrescente, indicando
uma baixa correlação entre as variáveis.
PROC CORR
O “procedure” CORR é utilizadao para gerar coeficientes de correlação. Quando é
utilizado sozinho, ele obtém coeficientes de Pearson para todas as variáveis numéricas do
arquivo, além de estatísticas básicas como médias e desvios padrões da distribuição de dados.
Outros coeficientes de correlacão podem ser obtidos como opção da PROC CORR. São
eles: Kendall, Hoeffding e Spearman, que são medidas não paramétricas de associação.
FORMA GERAL:
PROC CORR opções;
VAR variáveis;
WITH variáveis;
FREQ variáveis;
BY variáveis;
RUN;
OPÇÕES DISPONÍVEIS:
DATA= arquivo.sas arquivo com os dados a serem analisados.
OUTP= arquivo.sas arquivo de saída - Pearson
OUTS= arquivo.sas arquivo de saída - Sperman
OUTK= arquivo.sas arquivo de saída - Kendall
OUTH = arquivo.sas arquivo de saída - Hoeffding
NOSIMPLE suprime a impressão das estatísticas descritivas básicas.
COMANDOS DISPONÍVEIS:
VAR variáveis especifica as variáveis a serem correlacionadas
WITH variáveis especifica as variáveis que devem aparecer na lateral da matriz de correlação.
FREQ variável especifica variáveis de frequência
BY variáveis especifica subgrupos onde a correlação deve ser obtida. Para usar o comando BY,
o arquivo já deve estar ordenado pela variável de subgrupo.
MAIS DETALHES
ALPHA – Calcula e imprime o coeficiente alfa de Cronbach
BEST=n – Imprime n coeficientes de correlação para cada variável.
COV – Calcula e imprime as covariâncias.
CSSCP – Imprime as somas de quadrados corrigidos e os produtos cruzados.
DATA=ArquivoDeDados – Especifica o arquivo de dados para processamento.

EXCLNPWGT – Exclui observações com pesos nulos e negativos da análise.
HOEFFDING – Calcula e imprime a estatística D de Hoeffding.
KENDALL – Calcula e imprime os coeficientes tau-b de Kendall com base no número de pares
de observações concordantes e discordantes. Não funciona com a instrução PARTIAL.
NOCORR – Suspende o cálculo dos coeficientes de correlação de Pearson.
NOMISS – Exclui as observações com valores perdidos.
NOPRINT – Suspende a impressão de relatório do procedimento.
NOPROB – Suspende a impressão de probabilidades associadas a cada coeficiente de
correlação.
NOSIMPLE – Suspende a impressão de estatísticas descritivas simples para cada variável.
OUTH=ArquivoDeSaída – Cria um arquivo de saída contendo a estatística D deHoeffding.
OUTK=ArquivoDeSaída – Cria um arquivo de saída contendo as estatísticas para a correlação
de Kendall.
OUTP=ArquivoDeSaída – Cria um arquivo de saída contendo as estatísticas da correlação de
Pearson, médias, desvios-padrão e número de observações.
OUTS=ArquivoDeSaída – Cria um arquivo de saída contendo as estatísticas da correlação de
Spearman.
PEARSON – Calcula e imprime as correlações de produto-momento de Pearson product-
moment quando é utilizada a opção HOEFFDING, KENDALL, ou SPEARMAN. Se a opção
for omitida, o procedimento calcula automaticamente os coeficientes de correlação de Pearson.
RANK – Imprime os coeficientes de correlação para cada variável na ordem do mais alto para
o mais baixo. O procedimento imprime a estatística D se for utilizada a opção HOEFFDING.
SINGULAR=p – Especifica o critério para determinação de singularidade quando é utilizada
a instrução PARCIAL. Uma variável é considerada singular se a diagonal principal após a
decomposição de Cholesky tiver valor menor que p vezes a original soma de quadrados não
parcializada da variável. O padrão é 1E-8 e a amplitude de 0 até 1.
SPEARMAN – Calcula e imprime os coeficientes de correlação de Spearman com base nos
graus das variáveis. Não é válido com a instrução WEIGHT.
SSCP – Imprime as somas de quadrados dos produtos cruzados. Invoca a correlação de
PEARSON. Usada com a instrução PARTIAL , é impressa a matriz não partial com a opção
SSCP.
Ex.: O tempo necessário para um trem parar depois que percebe um perigo é composto de tempo
de reação e tempo de freagem. A variável DIST representa a distância de parada de um trem
que está a uma velocidade VELOC no instante que o perigo é avistado. Analise o diagrama de
dispersão e determine o coeficiente de correlação entre as duas variáveis.
DATA PERIGO A; /* EXEMPLO SAS */
INPUT VELOC DIST @@;
CARDS;
20 54
30 90
40 138
50 206
60 292
70 396
;
PROC PLOT;
PLOT DIST*VELOC;
PROC CORR;
VAR VELOC DIST;
TITLE 'CORRELAÇAO ENTRE VELOCIDADE E DISTANCIA DE PARADA';
RUN;
Plot of DIST*VELOC. Legend: A = 1 obs, B = 2 obs, etc.
DIST ‚
400 ˆ A
‚
‚
‚
‚
‚
350 ˆ
‚
‚
‚
‚
‚
300 ˆ
‚ A
‚
‚
‚
‚
250 ˆ
‚
‚
‚
‚
‚ A
200 ˆ
‚
‚
‚
‚
‚
150 ˆ
‚ A
‚
‚
‚
‚
100 ˆ
‚ A
‚
‚
‚
‚
50 ˆ A
Šƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
20 30 40 50 60 70
VELOC
O diagrama de dispersão ostra claramente uma tendência crescente da

distribuição dos dados, ou seja, aumentando-se a velocidade do trem, aumentase a
distância de parada.
The CORR Procedure
2 Variables: VELOC DIST
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
VELOC 6 45.00000 18.70829 270.00000 20.00000 70.00000

DIST 6 196.00000 129.67652 1176 54.00000 396.00000
Pearson Correlation Coefficients, N = 6

Prob > |r| under H0: Rho=0
VELOC DIST
VELOC 1.00000 0.98268

0.0004
DIST 0.98268 1.00000

0.0004
O valor de 0.98268 mede o coeficiente de correlação entre as variáveis VELOC

e DIST. Um p-valor de 0.0004 indica uma forte evidência que a correlação é não nula.
O p-valor é a probabilidade de significância para se testar a hipótese de que a
verdadeira correlação da população em questão é zero.
data exemplo;
options nodate nonumber ls=75 ps=90;
input x1 x2 x3 x4;
cards;
42.2 11.2 31.9 167.1
48.6 10.6 13.2 174.4
42.6 10.6 28.7 160.8
39 10.4 26.1 162
34.7 9.3 30.1 140.8
44.5 10.8 8.5 174.6
39.1 10.7 24.3 163.7
40.1 10 18.6 174.5
45.9 12 20.4 185.7
;
/*Pedindo a matriz de correlacoes*/
proc corr;
run;
/*programa pedindo apenas correlacao de x3 com x1 e x2*/

proc corr;
var x3; Através dos comandos VAR e WITH, formamos grupos de variáveis cuja
with x1 x2;
run; correlação será calculada. Caso não utilize essas opções, o PROC CORR calculará
as correlações entre todas as variáveis numéricas existentes no arquivo.
Output
The SAS System
The CORR Procedure
4 Variables: x1 x2 x3 x4
Simple Statistics
Variable N Mean Std Dev Sum
x1 9 41.85556 4.17646 376.70000
x2 9 10.62222 0.74629 95.60000
x3 9 22.42222 7.92792 201.80000
x4 9 167.06667 12.64516 1504
Simple Statistics
Variable Minimum Maximum
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000
x4 140.80000 185.70000

x1 x2 x3 x4
x1 1.00000 0.68374 -0.61597 0.80175
0.0423 0.0774 0.0094
x2 0.68374 1.00000 -0.17249 0.76795

0.0423 0.6572 0.0157
x3 -0.61597 -0.17249 1.00000 -0.62875

0.0774 0.6572 0.0697
x4 0.80175 0.76795 -0.62875 1.00000

0.0094 0.0157 0.0697
The SAS System

The CORR Procedure
2 With Variables: x1 x2
1 Variables: x3
Simple Statistics
Variable N Mean Std Dev Sum

x1 9 41.85556 4.17646 376.70000
x2 9 10.62222 0.74629 95.60000
x3 9 22.42222 7.92792 201.80000
Simple Statistics
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000

x3
x1 -0.61597
0.0774
x2 -0.17249
0.6572
Correlação de Spearman
Para que a correlação de Spearman seja calculada, basta utilizar a opção SPEARMAN
após declarar PROC CORR, desta forma, o coeficiente de correlação de Pearson (default), não
será calculado.
/*Pedindo a matriz de correlacoes*/

proc corr spearman;
run;
/*programa pedindo apenas correlacao de x3 com x1 e x2*/

proc corr spearman;
var x3;
with x1 x2;
run;
Output
The SAS System
The CORR Procedure
4 Variables: x1 x2 x3 x4
Simple Statistics
Variable N Mean Std Dev Median
x1 9 41.85556 4.17646 42.20000
x2 9 10.62222 0.74629 10.60000
x3 9 22.42222 7.92792 24.30000
x4 9 167.06667 12.64516 167.10000
Simple Statistics
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000
x4 140.80000 185.70000
Spearman Correlation Coefficients, N = 9

x1 x2 x3 x4
x1 1.00000 0.61088 -0.56667 0.68333
0.0805 0.1116 0.0424
x2 0.61088 1.00000 -0.12552 0.60252

0.0805 0.7476 0.0860
x3 -0.56667 -0.12552 1.00000 -0.71667

0.1116 0.7476 0.0298
x4 0.68333 0.60252 -0.71667 1.00000

0.0424 0.0860 0.0298
The SAS System

The CORR Procedure
2 With Variables: x1 x2
1 Variables: x3
Simple Statistics
Variable N Mean Std Dev Median
x1 9 41.85556 4.17646 42.20000
x2 9 10.62222 0.74629 10.60000
x3 9 22.42222 7.92792 24.30000
Simple Statistics
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000
Spearman Correlation Coefficients, N = 9

x3
x1 -0.56667
0.1116
x2 -0.12552
0.7476

Apostila Sas IFMA

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apostila Sas IFMA

Uploaded by

Copyright:

Available Formats

INSTITUTO FEDERAL DO MARANHÃO - IFMA

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

O curso tem como objetivo capacitar o aluno para

O objetivo deste documento é o de servir de guia, em

Os assuntos contidos nesta apostila são parte integrante

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

2.1 Módulos do SAS

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

A tela de abertura do SAS, quando as janelas são apresentadas em colunas, é mostrada na

Figura 1 – Tela inicial do SAS

A opção WINDOW, na barra de menus, permite minimizar as janelas ou apresentá-las de

Figura 2 - Opção WINDOW da Barra de Menus

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Figura 3 – Teclas de atalhos do SAS (Tecla F9)

É interessante destacar que:

2. O conteúdo de cada janela é salvo individualmente. O SAS usa as extensões:

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Figura 4 – Barra de ferramentas do SAS

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

6.1 Alguns comandos do SAS

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

As expressões podem conter: Constantes, Variáveis, Operadores e Funções.

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Para maiores detalhes consultar o HELP (F1)

6.2 Algumas formas para criar o SAS-DATA-SET

a) Quando os dados são colocados no próprio programa.

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

b) Importar arquivo do Excel

6.2.1 Comando INPUT

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Sintaxe1: Input colunado com CARDS

Sintaxe2: Input colunado com INFILE

Sintaxe2: INPUT NOME$ 1-20 DATANAS DDMMYY6. PESONAS 8.2

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

6.2.2 Comando FILE PUT

6.2.3 Comandos Keep e Drop

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

6.2.4 Comando VAR

6.2.6 Comando SET

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

6.2.7 Comandos IF-THEN-ELSE

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

6.2.8 Comando DELETE

6.2.9 Comando MERGE

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

6.3 Contagem de Tempo entre Datas

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

7 CRIAÇÃO E TRANSFORMAÇÃO DE VARIÁVEIS

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Transformação Comandos SAS Recomendação

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

VAR < lista de variáveis >;

8.1 Comandos que podem ser usados nos procedimentos

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

Coloca no SAS-DATA-SET “SDS”, além das variáveis do SAS-DATA-SET em uso, variáveis

8.2 Principais procedimentos do SAS:

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

D) Procedimentos para dados multivariados:

9. ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE

Curso em parceria com o Grupo de Estudos em Melhoramento Genético da UFPI/BJ

9.2 Teste de normalidade