Professional Documents
Culture Documents
Treinamento e aperfeiçoamento em
Análise de Dados
NATANAEL SANTOS
(Prof. Estatística Experimental / UFPI)
Treinamento e aperfeiçoamento emAnálises de Dados
APRESENTAÇÃO
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
1 INTRODUÇÃO
O SAS (Statistical Analysis System), produto da SAS Institute Inc., Cary, North Caroline,
USA, constitui-se num sistema de gerenciamento, análise estatística de dados e geração de
relatórios.
O SAS é um sistema de aplicação integrada, que consiste em vários produtos que tem por
função: acesso, gerenciamento, análise estatística e apresentação de dados, somada a uma
linguagem poderosa de programação e geração de relatórios.
O SAS por ser um sistema integrado, ele é composto por módulos para comercialização.
2 COMERCIALIZAÇÃO
O SAS é um sistema composto por vários módulos, com aplicações diversas. Além do
módulo para análises estatísticas, o SAS/STAT, vários outros módulos fazem parte do sistema.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
3 CONCEITOS BÁSICOS
DATA SET Arquivo de dados com estrutura SAS;
OBSERVAÇÃO Registro de um arquivo de dados SAS;
JOB SAS Arquivo com um programa SAS (É um conjunto de DATA Step's e
PROC Step's);
DATA STEP Divisão lógica de um programa SAS, no qual se cria e altera um, ou
vários arquivos SAS (Data Set's);
PROC STEP Divisão lógica de um programa SAS, no qual se analisa e manipula os
dados contidos num arquivo SAS (Data Set's);
OBS: A funcionalidade do Sistema SAS foi construída em torno de quatro idéias básicas no
tratamento de dados:
Acessar dados;
Administrar dados;
Analisar dados;
Apresentar dados;
4 ARQUIVOS SAS
Todos os dados devem estar armazenados em arquivos com estrutura SAS (DATA Set's),
para serem analisados pelos procedimentos do SAS (PROC's). Os arquivos SAS podem ser
temporários (armazenados em uma biblioteca definida pelo SAS - WORK) ou permanentes
(bibliotecas definidas pelos usuários).
Em um único programa SAS (Job SAS), vários arquivos podem ser abertos e analisados.
Os arquivos SAS, depois de criados, podem ser analisados pelos procedimentos SAS.
5 JANELAS DO SAS
O SAS tem a característica de trabalhar simultaneamente com 3 janelas, com finalidades
específicas, que são:
EDITOR DE PROGRAMAS - PGM® Janela onde o usuário edita os programas. Quando o
programa é processado (RUN), o SAS gera o conteúdo das janelas LOG e OUTPUT.
LOG® Janela onde é apresentada uma depuração do programa, ou seja, informações sobre o
processamento como: tempo gasto; listagem de erros, se houver; etc. (gerada pelo SAS).
OUTPUT® Janela para a saída dos resultados (gerada pelo SAS).
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Acessos às janelas, bem como outras operações, podem ser feitos utilizando-se as Teclas
de Atalhos, como:
CTRL + E ® Limpa a Janela.
F1 → HELP.
F4 → Recarrega o último programa rodado (Janela PGM).
F5 → Retoma a Janela do EDITOR (Janela EDITOR).
F6 → Retoma a Janela do LOG (Janela LOG).
F7 → Retoma a janela do OUTPUT (Janela OUTPUT).
F8 → Executa o programa – comando submeter.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
F9 → Janela com as definições das funções do teclado (KEYS). Pode ser usado para redefinir
essas funções.
F12 → Limpa a janela (não é padrão do SAS, precisa ser definido na janela KEYS).
Essas e outras Teclas de Atalho podem ser vistas na Janela KEYS (Figura 3).
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
6 PROGRAMAÇÃO SAS
Os programas SAS são escritos na janela PGM, em linhas de 256 caracteres. Os comandos
de programação terminam com ponto e vírgula (;), podendo ter tantos comandos por linha
quantos se desejar, desde que respeitado o tamanho da linha.
Os programas SAS possuem duas fases: a Fase 1, que constitui na criação do arquivo SAS
(SAS-DATA-SET) e a Fase 2, que inclui os Procedimentos do SAS (PROC) para trabalhar com
os dados (impressão, representações gráficas, análises, etc).
O SAS-DATA-SET é o arquivo de dados a ser usado pelo SAS. Ele é formado por linhas
e colunas, sendo nas colunas as variáveis e nas linhas os registros.
Banco de dados
Sintaxe:
Nome Logradouro Número Cidade Estado Peso
Maria Rua100 567 Itu SP 59.50
José RuaTiradentes 123 Matão SP 85.00
Rosa Av.Marajás 750 Jaboticabal SP .
João RuaPoty 1250 Maringá PR 79.00
Valores perdidos
Valor perdido (ou faltante), é entendido como a inexistência de conteúdo em um ou mais
registros de uma ou mais variáveis de um arquivo SAS. Quando não existe valor em uma
variável, o caracter utilizado é o ponto (.).
Portanto, sempre que houver falta de um valor nos arquivos de dados, nos vetores, ou em
matrizes, este deve ser informado como um ponto (.). Quando o conteúdo de um arquivo é
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
impresso e faltam valores em registros e colunas, é impresso um ponto (.) no local de cada valor
que falta.
Valores perdidos são sempre os primeiros de um ordenamento ascendente e os últimos
no descendente. Em experimentos com parcelas perdidas, o seu valor deve ser informado como
um ponto (.). Então, o sistema entende que aquela parcela foi perdida e não a considera.
Entretanto, se o resultado nulo deve ser considerado como consequência do efeito dos
tratamentos, o valor que deve ser informado para que o sistema o considere é zero (0).
NOTA: alguns procedimentos do SAS System permitem que o usuário informe que os
valores perdidos devem ser considerados na análise.
TITLE:
Define o cabeçalho a ser impresso no topo das páginas de saída (Output)
sintaxe: TITLE[n] <título>;
Ex:
TITLE1 “Análise do Experimento de Fertilidade”;
TITLE3 “Coleta do Ano 2014”;
Obs:
a) Se for omitido o “n” o 1º TITLE define a 1ª linha do Cabeçalho, o 2º a 2ª linha, e assim por
diante.
b) Se o cabeçalho não for definido, o SAS usa o definido como “Default”.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
FOOTNOTE:
Define o título da linha do rodapé para o OUTPUT. Uso equivalente ao uso do TITLE.
sintaxe: FOOTNOTE[n] <nota de rodapé>;
Ex.:
OPTIONS LS=64 PS=75;
TITLE1 "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";
FOOTNOTE1 "CURSO DE ESTATISTICA";
COMENTÁRIOS (*): Usados na documentação dos programas.
Sintaxe: * <comentário> ; ou: /* <comentário> */
Obs:
a) Os comentários não são executados.
b) Os comentários podem ser colocados em qualquer parte do programa.
c) Pode-se usar tantos comentários quantos se desejar.
DATA:
Atribui nome ao SAS_DATA_SET. Assim, é usado para criar um arquivo SAS. O
arquivo SAS é sempre um arquivo temporário, a menos que se especifique o contrário através
de comandos apropriados.
Sintaxe: DATA < nome do SAS_DATA_SET >;
Obs:
a) O nome do SAS_DATA_SET (SDS) pode ser:
simples – quando apenas o nome do arquivo é especificado (Ex: NNNN). Neste caso será criado
um arquivo temporário (até fechar o SAS), de nome NNNN, na pasta SASWORK, também
temporária.
composto – quando o nome tem duas partes, separadas por “ponto” (Ex: CCCC.NNNN). Neste
caso será criado um arquivo permanente, de nome NNNN, no caminho nomeado por CCCC.
b) O nome do SDS deve ter de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o
primeiro deve ser alfabético.
c) Se o nome for omitido, o SAS usa DATA1 para o 1º, DATA2 para o 2º, e assim por diante.
Ex.:
OPTIONS LS=64 PS=75;
TITLE "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";
DATA LEITE;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
LIBNAME:
Atribui nome a um caminho. Serve para criar uma livraria.
Ex: LIBNAME CAM "C:\SAS";
Com este comando, o caminho C:\SAS é nomeado por CAM.
FILENAME:
Atribui nome a um arquivo.
Ex: FILENAME ARQ "C:\SAS\DADOS.ASC";
Com este comando, o arquivo C:\SAS\DADOS.ASC é nomeado por ARQ.
RUN:
Determina ao SAS para Rodar (Executar) o programa até este ponto.
COMANDOS ARITMÉTICOS:
Usados para criar novas variáveis.
Sintaxe:
<NOME DA VARIÁVEL>=<EXPRESSÃO>;
Ex: PORCG=PGORD/PLEITE*100;
Variáveis: As variáveis podem ser numéricas ou caracter. Os nomes das variáveis devem ter
de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o primeiro deve ser alfabético.
Operadores: Os mais usuais são os operadores aritméticos, lógicos e de comparação.
1
Sistema de numeração em que a base é oito, adotado na tecnologia de computadores.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Operadores Aritméticos
Exemplos
Operador Operação
Usual SAS
+ Adição A+B A+B
- Subtração ou Negação A-B ou -B A-B ou -B
* Multiplicação A.B A*B
/ Divisão A:B A/B
** Potenciação AB A**B
Operadores Lógicos
Exemplos
Operador Operação
Usual SAS
& ou AND AeB A&B ou A AND B
| ou OR A ou B A|B ou A OR B
^ ou NOT Negação Não A ^A ou NOT A
Operadores de Comparação
Exemplos
Operador Operação
Usual SAS
= ou EQ Igual a A=B A=B ou A EQ B
> ou GT Maior que A>B A>B ou A GT B
< ou LT Menor que A<B A<B ou A LT B
>= ou GE Maior ou igual que AB A>=B ou A GE B
<= ou LE Menor ou igual que AB A<=B ou A LE B
^= NE Diferente de AB A^=B ou A NE B
Sintaxe:
If mp>01 and mp<=06 then ep=1;
If mp>=07 or mp=01 then ep=2;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Onde:
SDS – é o nome do SAS DATA SET a ser criado
ARQ.XLS – é o arquivo Excel a ser importado (especificando o caminho onde ele se encontra).
PLANILHA – É o nome da planilha.
c) Importar arquivo ASCII (American Standard Code – Interchange Information).
Sintaxe:
DATA <sds>; Define o nome do SAS-DATA-SET
INFILE “<arquivo ASC>”; Arquivo ASC a ser importado
INPUT <lista de variáveis>;
Lista de variáveis importadas
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Formatado: quando se especifica a variável e formato que o dado a ser lido deve ser
considerado.
Sintaxe1: Input formatado
data UFPI2;
infile 'c:\ZEBU\ufpi.txt';
input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc
24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Nota: Como se percebe, o INPUT formatado também requer o auxílio do comando INFILE, o
qual informa ao sistema o caminho do arquivo que deverá ser lido para posterior processamento.
Percebe-se, também, que no INPUT informa-se ao sistema o nome e o intervalo de campos que
cada variável irá ocupar.
Observe que no INPUT colunado consta apenas o nome dado a cada variável, enquanto
no formatado, além do nome encontra-se o intervalo de campos que a mesma está ocupando.
Pode-se perceber, também, na variável SEX, que em seguida aparece o símbolo $, o qual
informa ao sistema que esta variável é constituída por letras (caractere), no caso em questão,
“M” para macho e “F” para fêmea.
Nota: O comando FILE informa ao sistema o caminho onde o arquivo gerado será alocado,
enquanto o PUT informará o nome e o número de campos que cada variável irá ocupar.
Observe, também, que para gerar arquivos com variáveis que contenham decimais, deve-se
informar ao sistema o número de decimais desejado. Por exemplo, a variável p28, ocupará os
campos de 58 a 61. Em seguinda aparece o número 2, que está infomando ao sistema que a
referida variável possui dois decimais. Deve-se tomar o cuidado ao dimensionar o número de
campos que a variável irá ocupar, pois os decimais e o ponto, devem estar contidos neste
intervalo. Por exemplo, a variável p28 ocupará 4 campos (58-61), sendo que dois são destinados
aos decimais e um ao ponto.
2
É um arquivo onde são armazenados os dados no formato ASCII. Os dados são compilados e armazenados no
SASdataset. Uma vez armazenados, a partir do SASdataset pode-se utilizar os dados para processamento
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Esses comandos são úteis quando se tem muitas variáveis em um arquivo e deseja-se a
omissão de apenas algumas delas.
No SASdataset as observações são dispostas em linhas de uma matriz. Cada coluna ou
grupo delas refere-se a uma categoria ou variável (ver saída OUTPUT).
Sintaxe:
Proc print data=cabras;
var pp p1 p2;
run;
6.2.5 Comando BY
O comando BY é usado quando se deseja processar um conjunto de variáveis dentro (BY)
de um grupo ou de uma outra determinada variável.
Sintaxe:
Proc print data=cabras;
var pp p1 p2;
by trat;
run;
Data UFPI13;
Infile 'c:\meudoc\analise\ufpi2.txt';
Input prop 1-5 faz 6-7 raca 8-9 reg 10 animal 11-20 sex $ 21 anc 22-23 mnc
24-25 dnc 26-27 pn 28-29 racp 30-31 catpai 32 codpai 33-42 anp 43-44 mnp
45-46 dnp 47-48;
Run;
Data UFPI15;
Set UFPI14 UFPI13; Run;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Ex.2:
data aula;
input animal mes cod $ prod;
length raca $ 12;
cards;
10 1 a 17.5
11 2 a 18.5
12 3 a 19.5
13 4 a 9.35
14 5 b 18.2
15 6 b 20.1
16 7 b 14.5
17 8 b 18.7
18 9 a 19.3
19 10 a 14.5
20 11 b 8.95
21 12 b 12.3
22 1 a 17.8
23 2 a 21.5
24 3 b 35.6
25 4 b 22.5
26 5 b 42.0
27 6 a 8.56
28 7 b 12.5
29 8 a 14.5
30 9 a 22.0
;
data modifica; set aula;
if mes <=3 then epoca=1;
if mes > 3 and mes <=6 then epoca=2;
if mes > 6 and mes <=9 then epoca=3;
if mes > 9 then epoca=4;
if cod= "a" then raca="Landrace"; else raca="Large White";
proc print;
run;
Nota: O comando “length” foi especificado após o “input” para aumentar o número de campos
ocupado pela variável “raça” que será criada. Caso o número de campos não seja especificado,
o SAS apresentará no relatório os oito primeiros campos do nome da variável.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Ex.:
data aula;
input animal mes cod $ prod;
cards;
10 1 a 17.5
11 2 a 18.5
12 3 a 19.5
13 4 a 9.35
14 5 b 18.2
15 6 b 20.1
16 7 b 14.5
17 8 b 18.7
18 9 a 19.3
19 10 a 14.5
20 11 b 8.95
21 12 b 12.3
22 1 a 17.8
23 2 a 21.5
24 3 b 35.6
25 4 b 22.5
26 5 b 42.0
27 6 a 8.56
28 7 b 12.5
29 8 a 14.5
30 9 a 22.0
;
data a; set aula;
if prod < 11 or prod > 27 then delete;
run;
proc print;
run;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
data b;
infile "D:\ARQUIVOSSAS\REGRESSÃONLINEAR\SIpG2.prn";
input codani 1-8 codPAI 10-19 codMAE 21-27 S 29 TN 31 GCN 33-37 cid 39 a
43-46 b 48-51 c 53-56 p28 58-61;
proc sort;
by codani;
run;
data c;
merge a b;
by codani;
run;
Nota: Como se pode observar, os datas a e b têm quase todas as variáveis em comum, com
exceção de pn e p28, as quais encontram-se nos datas a e b, respectivamente. Com a utilização
do MERGE, cria-se um novo dataset que irá conter todas as variáveis, inclusive pn e p28. Os
dados dentro de cada dataset devem está ordenados pela variável comum aos dois datas, que
servirá como elo de ligação entre os mesmos, que no exemplo em questão é a variável
CODANI. Caso não estejam ordenados, deve-se ordenar através do PROC SORT, solicitando
a ordenação pela variável de ligação (CODANI).
O SAS pode ler qualquer um desses exemplos, desde que se informe o formato. Uma vez
lidos os dados, eles são convertidos para o número de dias à partir de um ponto fixo no tempo
- 1 de janeiro de 1960. Não tem importância se os dados vem antes ou depois desta data. Desta
forma, pode-se subtrair qualquer duas datas para encontrar o número de dias entre elas.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Sintaxe:
data teste;
input dat1 mmddyy6. @8 dat2 mmddyy6. volume;
dias=dat2-dat1;
cards;
051176 051104 50;
proc print;
run;
Nota: o 6 no formato tipo DDMMYY6., refere-se ao número de colunas ocupadas pelas datas.
De forma idêntica o 8. O sinal @ referido como ponteiro, diz ao SAS qual coluna deve iniciar
a leitura da próxima data.
Ex:
data teste2;
input dat11 mmddyy10. @12 dat21 mmddyy10. volume1;
dias1=dat21-dat11;
cards;
05/11/1976 05/11/2004 50;
proc print;
run;
Sintaxe:
if mp>01 and mp<= 05 then ep=1; if mp >= 06 and mp <= 08 then ep =2;
if mp> 8 or mp=01 then ep=3;
gc=(ap*10)+ ep;
run;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Observe que a variável "mp" (mês do parto) foi utilizada para criar a variável "ep"
(estação do parto), simplesmente impondo limites aos meses e informando que tais limites se
referem a tal estação. Ainda no mesmo exemplo, criou-se a variável "gc" (grupo
contemporâneo) através da junção de "ap" (ano de parto) + "ep" (estação do parto, criada
anteriormente). Observe, também, que "ap" foi multiplicado por 10, isso é necessário para que
na variável "ap" seja criado mais um campo, permitindo, então, concatenar as variáveis “ap” e
“ep” para criar a nova variável “gc”. Essa multiplicação pode ser por 10, 100, 1000 e assim
sucessivamente, de acordo com o número de campos necessários para concatenar duas ou mais
variáveis.
Em situações práticas em que as pressuposições para realizar a análise de variância sobre
a escala original dos dados não são atendidas, uma das alternativas para contornar este problema
é a mudança adequada da escala da variável reposta por meio de transformações (Bartlett, 1948;
Sampaio, 2007). Várias transformações têm sido recomendadas em situações bem
estabelecidas, como exemplos podemos citar:
Podemos, no entanto, de acordo com Box e Cox (1946), determinar analiticamente que
tipo de transformação usar por meio do valor estimado do coeficiente de regressão entre o
logaritmo da variância e o logaritmo da média, quando temos uma relação entre a média e a
variância. A decisão de que transformação usar é dada por:
Estimativas de b Transformação
0 Nenhuma
1 Raiz (x)
2 Log (x)
3 1/raiz (x)
4 1/x
Fonte: Barbim (2003)
Nota1: Quando uma resposta muito instável é medida sob diferentes tratamentos, é comum
observarmos um aumento de instabilidade à medida que o valor médio observado no tratamento
aumenta. Nesse caso observa-se uma proporcionalidade entre a média do grupo experimental e
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
seu respectivo desvio padrão. Quando esta relação for observada, a transformação logarítmoca
será a recomendada, e se X for a resposta medida, ela deverpa se analisada como log (X) ou log
(X+1). No segundo caso (log (X+1)), se houver algum resultado zerado, pois log (0) é
indeterminado.
Nota2: Algumas situações envolvem respostas discretas correspondentes a contagens. Uma
variável discreta pode apresentar aproximadamente uma distribuiçõa normal, mas se isto não
ocorrer, haverá necessidade de tgransformação, principalmente se o evente estudado for difícl
de ser detectado nas amostras experimentais. Neste caso, o fenômeno é dito raro e sua
distribuição aponta altas frequências para contagem nulas ou baixas e pouca frequencia de
contagens altas. Esse tipo de distribuição, chamada de distribuição de Poason, se caracteriza
por ter um valor médio equivalente (ou proporcional) à variância. Dessa forma, número de
peixes capturados por armadilha, a frequência de uma espécie vegeta ou animal ameaçada de
extinção por unidade de área, o número de colônias bacterianas por placa semeada são exemplos
clássicos de variáveis que demandam a transformação de radical, uma das que mais
drasticamente controlam a variação original observada, e que consiste em substituir a resposta
𝑋 por √𝑋 ou √𝑋 + 1 (se houver muitos valores nulos) para alcançar as premissas de uma nálise
de variância.
Sintaxe:
data trans; set medvar;
lmed=log(med); lvar=log(var);
run;
8 PROCEDIMENTOS DO SAS
Existem vários Procedimentos, dentro de cada módulo, disponíveis a usuários de uma
grande diversidade de áreas de aplicações.
Estrutura básica dos procedimentos
A 1ª linha de cada procedimento tem a seguinte estrutura:
PROC NOME < opções >;
Lista de Opções.
Nome do Procedimento.
Prefixo de todo Procedimento (PROCEDURE).
Os procedimentos podem incluir outras linhas para especificações especiais. A estrutura
geral de um procedimento é: Uma opção é:
DATA=<Arquivo SAS>
PROC NOME < opções >; Especifica o arquivo SAS que será usado. Caso seja
omitido, o SAS usa o último arquivo criado
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
estatísticas forem utilizadas para inferir informações a respeito de uma população, elas são
consideradas como variáveis aleatórias, e terão, portanto uma distribuição de probabilidades,
com uma média, uma variância, etc. Muitos métodos da análise estatística assumem que os
dados da amostra provém de uma população com distribuição normal. A distribuição normal
tem uma definição matemática precisa, com as seguintes características:
ser completamente definida por sua média e seu desvio padrão.
ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que por sua
vez coincide com sua mediana.
ser uma distribuição regular. Do seu ponto central mais alto até suas extremidades não
existe padrões irregulares.
ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição).
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
1) Opções:
DATA=SASdataset – especifica o conjunto de dados.
NOPRINT – não mostra as saídas.
PLOT – opções de gráficos (ramos-folhas, box-plot, normal-plot).
FREQ – faz tabela de frequência.
NORMAL – faz teste de normalidade dos dados,
se n<51 faz o teste de Shapiro-Wilks,
se n 51 faz o teste de Kolmogorov-Sirnov.
PCTLDEF=k – especifica o método para o cálculo dos quartis,
k = 1, 2, 3, 4 ou 5 (default k = 5).
VARDEF=df/weight/n/wdf – especifica o divisor para o cálculo da variância (default =df):
df = graus de liberdade,
weight = soma dos pesos,
n = número de observações,
wdf = soma dos pesos menos 1 (w-1).
ROUND=n – especifica as unidades para arredondamento
3
usar sempre após uma declaração de output.
4
os dados devem estar ordenados em ordem crescente pela variável em questão.
5
se os dados não são inteiros, os valores são truncados.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
2
weight6 – variável com pesos para o cálculo da média e variância ponderadas ( xW e sW ) – só
2
para calcular xW e sW .
id7 – usado para identificar as observações (ou casos).
output – requisita um arquivo interno de saídas.
out = SASdataset – define o nome do arquivo interno de saídas.
keyword = nomes – identifica as estatísticas desejadas.
NOTA: o comando OUTPUT grava o conteúdo da memória RAM num arquivo SASdataset.
Gravar as saídas num SASdataset não é o mesmo que salvar num arquivo definitivo, o que pode
ser obtido através do comando FILE. Os conteúdos dos SASdataset se perdem quando ao sair
do SAS.
Os nomes definidos através da opção keyword podem ser:
N – número de observações consideradas para os cálculos (menos MISSING).
NMISS – número de valores perdidos.
NOBS – número total de observações.
MEAN – média aritmética.
SUM – soma das observações.
STD – desvio padrão.
VAR – variância.
SKEWNESS – medida de simetria.
KURTOSIS – curtosi.
SUMWGT – soma dos pesos.
MAX – valor máximo.
MIN – valor mínimo.
RANGE – amplitude amostral (MAX-MIN).
Q3 – terceiro quartil.
MEDIAN – mediana.
Q1 – primeiro quartil.
QRANGE – amplitude interquartil (Q3-Q1).
P1 – 10 percentil (quantil 0.01).
P5 – 50 percentil (quantil 0.05).
6
valores negativos são considerados como zero.
7
considera os 8 primeiros caracteres.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Pode ser notado que este procedimento apresenta resultados mais completos, os quais são
essenciais para o estudo da distribuição dos dados.
Nota: A opção NORMAL definida no PROC UNIVARIATE gera os testes de normalidade de
SHAPIRO-WILK e de KOLMOGOROV-SMIRNOV. A estatística W (Shapiro-Wilk) é maior
que zero e menor ou igual a 1 (0<W1). Valores de W muito pequenos indicam que os dados
não são uma amostra de distribuição normal. A segunda coluna Pr < W, contém o valor da
probabilidade, a qual descreve quão duvidoso é a idéia de normalidade. A hipótese de nulidade
a ser testada é a de aceitar que os dados seguem distribuição normal. Para amostra com até duas
mil observações o teste correto é o de SHAPIRO-WILK, caso contrário, o teste é o
KOLMOGOROV-SMIRNOV.
Ex.: Resultados obtidos de uma distribuição aproximadamente Normal. Para ilustrar, suponha
que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa está
sendo representada pela variável IDADE, e sua identificação pela variável IDENT.
Moments
N 18 Sum Weights 18
Mean 71 Sum Observations 1278
Std Deviation 2.05798302 Variance 4.23529412
Skewness 0 Kurtosis -0.1357639
Uncorrected SS 90810 Corrected SS 72
Coeff Variation 2.89856764 Std Error Mean 0.48507125
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Location Variability
A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste para
normalidade. O valor zero de assimetria traduz a forma simétrica da distribuição. A estatística
de curtose de -0.13576 significa que a distribuição de valores é relativamente achatada. O alto
p-valor associado ao teste de normalidade, dado por Pr < W, mostra que existe 9812 chances
em 10000 que se obtenha este mesmo resultado se os dados fossem oriundos de uma população
Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em geral, rejeita-se a
hipótese nula de normalidade dos dados somente quando o p-valor for menor que 0.05 .
Os quartis, percentis, a moda da distribuição, e os valores extremos estão relacionados a
seguir:
Quantiles (Definition 5)
Quantile Estimate
100% Max 75
99% 75
95% 75
90% 74
75% Q3 72
50% Median 71
25% Q1 70
10% 68
5% 67
1% 67
0% Min 67
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Extreme Observations
--------Lowest-------- --------Highest-------
67 8 8 72 18 18
68 12 12 73 6 6
69 13 13 73 11 11
69 2 2 74 17 17
70 15 15 75 3 3
A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de
distribuição de frequência onde o número de ocorrências de cada valor da variável IDADE é
contabilizado juntamente com os percentuais e percentuais acumulados de ocorrência em cada
categoria.
Frequency Counts
Percents Percents Percents
Value Count Cell Cum Value Count Cell Cum Value Count Cell Cum
O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados. Entre
estes plotes e o ‘boxplot’, há uma coluna (#) que fornece a frequência de observações em cada
barra. No gráfico Boxplot as linhas externas inferior e superior indicam os percentis de 25 e
75%, respectivamente. A linha central indica a mediana (50º percentil). O sinal de (+) indica a
média da distribuição, que está coincidindo com a mediana.
O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+) formam
uma linha reta. Os (*) representam os valores amostrais. Se a amostra é gerada por uma
distribuição normal, os asteriscos devem formar uma linha reta e cobrir a maioria dos sinais
positivos. A distribuição amostral aproxima-se da normalidade.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
1) Principais opções:
DATA=SASdataset – especifica o conjunto de dados.
NOPRINT – não mostra as saídas.
MAXDEC – número de casas decimais para os resultados (0 a 8).
FW – tamanho do campo para impressão.
2) Declarações:
var – lista de variáveis para o PROC MEANS (default = todas).
by – especifica subgrupos.
class – especifica as variáveis que definem subgrupos.
freq – considera os valores da variável como frequências.
weight – variável com pesos para o cálculo da média e variância ponderadas.
id – usado para identificar as observações (casos).
output – requisita um arquivo interno de saídas.
out = SASdataset – define o nome do arquivo interno de saídas.
keyword = nomes – identifica as estatísticas desejadas.
Os nomes definidos através da opção keyword podem ser:
MEAN RANGE
MAX STD
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
MIN SUM
N SUMWGT
NMISS VAR
CV – coeficiente de variação (porcentagem).
STDERR – erro padrão da média.
USS – soma de quadrados não corrigida.
CSS – soma de quadrados corrigida.
T – valor t para testar se a média da população é zero.
PRT – P T t , onde T ~ t-Student.
Ex.:
OPTIONS LS=75 PS=64;
TITLE "ANALISE GERAL DE PRODUCAO DE LEITE DE CABRAS";
FILENAME sila "c:\usuarios\norma\cabra\pret.DBF";
PROC DBF DB3 = sila OUT=a;
DATA b; SET a;
Proc sort;
by anocorte;
proc means mean n min max cv std nmiss range;
var alt fol folio mas msr;
run;
Saída (OUTPUT)
The SAS System 13
07:24 Tuesday, July 31, 2001
Variable Mean N Minimum Maximum CV
---------------------------------------------------------------------
ALT 61.0541667 144 7.3000000 194.0000000 71.5295460
FOL 13.7152778 144 4.5000000 28.5000000 41.7992300
FOLIO 96.2743056 144 8.0000000 352.0000000 77.4822784
MAS 5.0838542 144 0.0300000 25.9270000 125.9038913
MSR 1.4321538 117 0.0600000 5.3460000 91.5293716
---------------------------------------------------------------------
Variable Std Dev Nmiss Range
-------------------------------------------
ALT 43.6717682 0 186.7000000
FOL 5.7328805 0 24.0000000
FOLIO 74.5955254 0 344.0000000
MAS 6.4007702 0 25.8970000
MSR 1.3108414 27 5.2860000
-------------------------------------------
Quando a variável independente contém muitos níveis, antes de se processar o PROC
MEANS faz-se um PROC SORT para àquela variável.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Sintaxe:
PROC PRINT data=nome;
var <variáveis>; /* seleciona variáveis*/
by <variáveis>; /*especifica subgrupos*/
sum <variáveis>; /*apresenta a soma das variáveis selecionadas*/
NOTA: A opção data=nome define o SASdataset a ser impresso. Se este não for definido, o
último SASdataset utilizado pelo SAS será considerado.
Ex.:
OPTIONS LS=64 PS=75;
Data cabra;
Infile "c:\usuarios\CABRA.dat";
Input RGV 1-5 REBANHO 7 RGpai 9-12 RGmae 14-17 op 19-20 t 22 iap 24-27 pl
29-31 dl 33-35 iep 37-39 EP 41-42 ANOPART 44-47 MESPART 49-52 DATPART 54-59
DTNAS 61-66 GC 68-73;
Proc print;
Var RGV DATNAS REBANHO RGPAI RGMAE DATPART MESPART ANOPART OP IAP IEP EP
GC;
Run;
Saída (OUTPUT)
The SAS System 1
07:24 Tuesday, July 31, 2011
R D M A
D E A E N
A B R R T S O
T A G G P P P
O R N N P M A A A I I
B G A H A A R R R O A E E G
S V S O I E T T T P P P P C
11 O PROC SORT
Este procedimento ordena os registros de um arquivo existente ou a ser criado, permitindo
classificar por um ou múltiplos campos e em ordem crescente ou decrescente. O default do
SAS, quando o PROC SORT é usado, é ordenamento em ordem crescente. Para ordenar em
ordem decrescente, tem-se que usar a opção DESCENDING. Outra opção que pode ser usada
associada ao PROC SORT é a opção NODUPKEY. Esta opção elimina dados repetidos ou
iguais de uma mesma variável.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Output
The SAS System 13:57 Tuesday, February 29, 2000 1
Cumulative Cumulative
RACA Frequency Percent Frequency Percent
----------------------------------------------------
1 211 1.6 211 1.6
2 539 4.1 750 5.7
3 4216 31.9 4966 37.6
4 916 6.9 5882 44.5
5 6691 50.6 12573 95.1
6 271 2.1 12844 97.2
7 145 1.1 12989 98.3
8 225 1.7 13214 100.0
Output
The SAS System 16:28 Wednesday, March 1, 2000 8
TABLE OF PROP BY RACA
PROP RACA
Frequency‚
Percent ‚
Row Pct ‚
Col Pct ‚ 1‚ 2‚ 3‚ 4‚ 5‚ 6‚ 7‚ 8‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
164 ‚ 0 ‚ 0 ‚ 0 ‚ 137 ‚ 0 ‚ 0 ‚ 0 ‚ 0 ‚ 137
‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 1.04 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 1.04
‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 100.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 14.96 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
235 ‚ 0 ‚ 93 ‚ 186 ‚ 0 ‚ 1 ‚ 0 ‚ 0 ‚ 0 ‚ 280
‚ 0.00 ‚ 0.70 ‚ 1.41 ‚ 0.00 ‚ 0.01 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚ 2.12
‚ 0.00 ‚ 33.21 ‚ 66.43 ‚ 0.00 ‚ 0.36 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
‚ 0.00 ‚ 17.25 ‚ 4.41 ‚ 0.00 ‚ 0.01 ‚ 0.00 ‚ 0.00 ‚ 0.00 ‚
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Análise de Variância é feita considerando o modelo fixo, ou seja, tendo o erro experimental
como único efeito aleatório. Neste procedimento são utilizados dois comandos, o CLASS, que
identifica para o procedimento as variáveis independentes (fontes de variação) e o comando
MODEL, no qual especifica-se o modelo estatístico que será empregado na análise.
Um passo seguinte seria a execução de teste de médias que permitirá identificar quais
tratamentos diferem entre si.
means trat/tukey;
run;
Output
Analysis of Variance Procedure
Class Level Information
8
Não significativo a 5% pelo teste F
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
1 Model – Linha do quadro da análise de variância que mede o efeito de todos os componentes
do modelo. Na maioria dos casos, a rejeição do modelo implica na aceitação da hipótese de
nulidade referente a todos os fatores em estudo.
2 Error – Nessa linha é computado o erro experimental.
3 Trat – Linha que testa, através do teste F, a existência de efeito de tratamento sobre a
produção. O DF representa os graus de liberdade para trat. ANOVA SS representa a soma de
quadrados e F Value representa o valor de F calculado.
Pr > F – Fornece o nível de significância para rejeição ou não de H0.
A 39.000 5 2
A 32.000 5 3
A 26.000 5 1
Consideremos o exemplo a seguir. Analisar como DBC e usar o teste de DUNCAN com
alpha igual a 1%.
OPTIONS LS=75 PS=64;
DATA a;
Input Var $ rep PROD @@;
Cards;
A 1 25 A 2 26 A 3 20 A 4 23 A 5 21
B 1 31 B 2 25 B 3 28 B 4 27 B 5 24
C 1 22 C 2 26 C 3 28 C 4 25 C 5 29
D 1 33 D 2 29 D 3 31 D 4 34 D 5 28
;
PROC ANOVA;
Class VAR REP;
Model prod=VAR REP;
MEANS VAR/DUNCAN ALPHA=0.01;
RUN;
Output
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
Var 4 A B C D
rep 5 1 2 3 4 5
Number of observations 20
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 8.375
Number of Means 2 3 4
Critical Range 5.591 5.829 5.982
14 PROC GLM (General Linear Models - Modelos Lineares Gerais): Processa análise de
variância para diversos delineamentos experimentais balanceados ou não. O uso do GLM é
muito parecido com o procedimento ANOVA.
O PROC GLM usa o método dos quadrados mínimos para ajustar modelos lineares gerais.
Além da análise de variância de ensaios desbalanceados, é também utilizado para análise de
covariância.
Quando o delineamento é balanceado, a análise é relativamente mais simples. Essa
simplicidade é infelizmente perdida logo que o delineamento torna-se desbalanceado. Como
resultado, este procedimento calcula quatro tipos de soma de quadrados diferentes.
A soma de quadrados tipo I representa uma partição da soma de quadrados do modelo em
componentes de somas de quadrados devido a cada fator ou interação adicionado
sequencialmente no modelo, sendo, portanto, chamado de soma de quadrado sequencial.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Ex.:
FV SQ tipo I
A SQ(A/)
B SQ(B/, A)
A*B SQ(A*B/, A, B)
As somas de quadrado para cada efeito depende da ordem com que os mesmos são
dispostos no modelo.
A soma de quadrados tipo II, para um fator particular, representa o incremento na soma
de quadrados do modelo. Esse acréscimo é devido à adição do fator particular ou interação para
um modelo que já contém todas as variáveis e interações, exceto aquelas de interesse. Essas
somas de quadrados são comumente chamadas de somas de quadrados parciais.
Ex.:
FV SQ tipo II
A SQ(A/, B)
B SQ(B/, A)
A*B SQ(A*B/, A, B)
A soma de quadrados tipo III e IV são também um tipo de soma de quadrados parciais.
São consideradas por muitos como a soma de quadrados mais desejável. Quando os dados são
desbalanceados, dependendo do modelo em análise, essa soma de quadrados deve ser preferida.
Em condições de balanceamento, essas somas de quadrados são iguais. Pode haver casos,
dependendo do modelo e da condição de balanceamento que os quatro tipos de somas de
quadrado serão equivalentes.
Ex.1:
proc glm;
class npai ncab gc t;
model pl dl iep=npai ncab(npai) gc t iap iap*iap/ss3;
lsmeans gc t;
random npai ncab(npai);
run;
Saída (OUTPUT)
The SAS System 07:09 Friday, August 20, 1999 140
GC 27 19551 19882 19883 19891 19892 19893 19901 19902 19903 19911 19912 19913
19921 19922 19923 19931 19932 19933 19942 19943 19951 19952 19953 19961
19962 19963 19972
T 2 1 2
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Dependent Variable: PL
GC PL DL IEP
LSMEAN LSMEAN LSMEAN
T PL DL IEP
LSMEAN LSMEAN LSMEAN
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Ex.2:
data bloco;
input trat bloco prod @@;
cards;
1 1 142.36 1 2 144.78 1 3 145.19 1 4 138.88
2 1 139.28 2 2 137.77 2 3 144.44 2 4 130.61
3 1 140.73 3 2 134.06 3 3 136.07 3 4 144.11
4 1 150.88 4 2 135.83 4 3 136.97 4 4 136.36
5 1 153.49 5 2 165.02 5 3 151.75 5 4 150.22
;
proc glm;
class trat bloco;
model prod = trat bloco;
run;
Saída (OUTPUT)
Number of observations 20
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Nota: Como se pode verificar, o efeito de tratamento foi significativo, ou seja, pelo menos um
dos contrastes entre tratamentos difere dos demais. Neste caso, é interessante solicitar um teste
de comparação entre médias.
means trat/tukey;
run;
NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher
Type II error rate than REGWQ.
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 33.8604
Critical Value of Studentized Range 4.50760
Minimum Significant Difference 13.115
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
CLASS TRAT;
MODEL Y=TRAT;
MEANS TRAT/TUKEY;
RUN;
Alpha 0.05
Error Degrees of Freedom 16
Error Mean Square 68.75
Critical Value of Studentized Range 4.04609
Minimum Significant Difference 15.003
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Number of observations 20
Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 57.54167
Critical Value of Studentized Range 5.50160
Minimum Significant Difference 18.664
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 57.54167
Critical Value of Studentized Range 4.19852
Minimum Significant Difference 14.243
Number of observations 20
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
proc glm ;
class Temp jumento dil;
model mot = jumento dil Temp dil*Temp;
Output
The SAS System
The GLM Procedure
Class Level Information
Class Levels Values
Temp 3 1 2 3
jumento 5 1 2 3 4 5
dil 3 1 2 3
Number of observations 45
Nota: Observe que a interação TEMP*DIL não foi significativa (P > 0,1). Nesta situação o
estudo dos fatores isoladamente é suficiente para avaliar a motilidade dos espermatozóides.
Nota: A título de ilustração será apresentado às comparações de médias dos fatores
isoladamente, como também da interação.
Com estes comandos, o SAS faz a comparação das médias dos níveis dos fatores
(temperatura e diluente) e da interação.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Output
Tukey's Studentized Range (HSD) Test for mot
NOTE: This test controls the Type I experimentwise error rate, but it
generally has a higher Type II error rate than REGWQ.
Alpha 0.05
Error Degrees of Freedom 32
Error Mean Square 18.20139
Critical Value of Studentized Range 3.47525
Minimum Significant Difference 3.8282
Alpha 0.05
Error Degrees of Freedom 32
Error Mean Square 18.20139
Critical Value of Studentized Range 3.47525
Minimum Significant Difference 3.8282
Nota: A opção é usar o LSMEANS. Com a opção LSMEANS, passa-se a trabalhar com médias
ajustadas de quadrados mínimos, ao invés de médias observadas. Neste caso, as médias são
ajustadas para os fatores que compõem o modelo estatístico. Além disso, o programa compara
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
quaisquer duas médias componentes da interação, sendo, portanto, uma boa alternativa para
estudar a interação. Vale salientar que as médias ajustadas podem ser solicitadas para os fatores
isoladamente, como segue:
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
i/j 6 7 8 9
1 0.0010 0.0485 0.0010 <.0001
2 <.0001 0.0001 <.0001 <.0001
3 0.4154 0.9977 0.4154 0.0028
4 0.0076 0.2283 0.0076 <.0001
5 0.0010 0.0485 0.0010 <.0001
6 0.8553 1.0000 0.4154
7 0.8553 0.8553 0.0197
8 1.0000 0.8553 0.4154
9 0.4154 0.0197 0.4154
Nota: A comparação dos fatores isoladamente é imediata. Já para a interação é preciso guiar-se
pelo número da média (LSMEAN NUMBER). Por exemplo, ao comparar as médias 1 e 2,
estará comparando-se as médias entre os tratamentos temp 1 dil 1 contra temp 1 dil 2. Assim,
observa-se na matriz de probabilidade abaixo, o valor de probabilidade entre as médias 1 (i) e
2 (j), o qual irá informar se as mesmas são iguais ou diferentes. O valor de probabilidade entre
as médias 1 e 2 é de 0,4154, indicando, desta forma, que as mesmas não diferem entre si.
Nota: Como se pode observar, a comparação é feita, porém, não da maneira usual como nos
teste de médias, os quais vêm com as letras para indicar as diferenças. Caso seja o interesse do
usuário, com os valores de probabilidade entre as médias, é perfeitamente possível colocar as
letras para ilustrar a comparação das médias.
Nota: Outra opção para estudar a interação, seria estudar um fator dentro do outro. Por exemplo,
temperatura dentro do diluente 1 (Temp/dil1), temperatura dentro do diluente 2 (Temp/dil2) e
temperatura dentro do diluente 3 (Temp/dil3), ou o contrário, diluente dentro de temperatura.
Esse estudo pode ser feito usando a opção SLICE ou CONTRAST.
A opção SLICE já solicita o desdobramento de cada fator dentro do outro, como segue:
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Output
The GLM Procedure
Least Squares Means
Temp dil mot LSMEAN
1 1 66.0000000
1 2 72.0000000
1 3 59.0000000
2 1 64.0000000
2 2 66.0000000
2 3 53.0000000
3 1 57.0000000
3 2 53.0000000
3 3 47.0000000
Com a opção CONTRAST pode-se fazer a comparação entre quaisquer pares de médias.
As médias entre temperaturas, como também entre os diluentes, podem ser comparadas como
segue:
/*qualquer contraste entre médias*/
contrast 'Temp1/Temp2' Temp 1 -1 0;
contrast 'Temp1/Temp3' Temp 1 0 -1;
contrast 'Temp2/Temp3' Temp 0 1 -1;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Output
The SAS System
The GLM Procedure
Dependent Variable: mot
Contrast DF Contrast SS Mean Square F Value Pr > F
Temp1-Temp2 1 163.333333 163.333333 8.97 0.0053
Temp1-Temp3 1 1333.333333 1333.333333 73.25 <.0001
Temp2-Temp3 1 563.333333 563.333333 30.95 <.0001
proc glm ;
class Temp jumento dil;
model mot = jumento dil Temp(dil);
Nota: Pode-se observar que para proceder esta análise, repetiu-se, previamente, a análise de
variância (PROC GLM), sendo que agora se utilizou, no modelo, o efeito aninhado de
temperatura dentro de diluente (Temp/dil). Para que a opção CONTRAST possa fazer o estudo
de um fator dentro do outro (Temp/dil), este efeito deve aparecer, previamente, no MODEL.
Daí a necessidade de repetir a análise de variância. Feito isso, é só montar os contrastes
ortogonais, como mostrado anteriormente. Observe que os resultados obtidos com esta opção
são equivalentes aos obtidos com a opção SLICE.
Output
The GLM Procedure
Dependent Variable: mot
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 12 8385.555556 698.796296 38.39 <.0001
Error 32 582.444444 18.201389
Corrected Total 44 8968.000000
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
sua habilidade verbal. O melhor aluno foi avaliado com o valor 1, o segundo melhor com o
valor 2, e assim por diante. Este “rank” de valores são ditos ordinais. Escalas ordinais de valores
porém possuem uma limitação: iguais diferenças na escala de valores não tem necessariamente
o mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade verbal entre um
aluno com grau 1 e um aluno com grau 2 não é necessariamente a mesma diferença existente
entre as habilidades de um aluno com grau 2 e um com grau 3.
Uma variável medida numa escala de intervalo significa que iguais diferenças entre
valores da escala tem igual significado quantitativo. Um exemplo é a escala Fahrenheit de
medição de temperatura. A diferença entre 70 e 75 graus é igual a diferença entre 75 e 80 graus.
As unidades de medidas são iguais através de todo o range da escala. A limitação existente
nesta escala é que não existe um ponto zero real, ou seja, o zero da distribuição de temperaturas
não indica que não haja nenhum calor presente no ambiente.
Uma variável medida numa escala de razão é aquela que iguais diferenças entre valores
da escala tem igual significado quantitativo. Neste caso, além deste fato, é possível interpretar
a razão entre os valores da escala. Um valor para peso igual à zero indica nenhum peso corporal.
Com isto, é possível estabelecer que o peso de uma criança com 20 kg é o dobro de peso de
uma criança com 10 kg .
A tabela a seguir identifica as estatísticas apropriadas para avaliar o relacionamento de
pares de variáveis nos seus respectivos níveis de medida.
TABELA COM ESTATÍSTICAS APROPRIADAS
Análise de Regressão
Na análise de regressão procura-se estabelecer uma relação funcional entre uma variável
dependente y e p variáveis independentes, ou seja, determina-se, através de estimativas de
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
parâmetros, como uma variável independente exerce, ou parece execer, efeito sobre uma outra
variável dependente.
O PROC REG é o procedimento do SAS mais comum para análise de regressão. Ele é
utilizado para se ajustar equações lineares de acordo com algum modelo pré-estabelecido.
Processa análise de regressão de dados balanceados ou não.
Nesse capítulo abordaremos, basicamente, a utilização do procedimento REG na
execução de análises de regressão pelo método dos quadrados mínimos.
O procedimento REG ajusta modelos de regressão linear usando o método dos mínimos
quadrados. O procedimento é descrito com detalhes no manual “SAS / STAT Software – Chapter
50: The REG Procedure. Cary: SAS Institute.
Sintaxe:
PROC REG < Opções > ;
< Rótulo: >;
MODEL VariáveisDependentes= <Regressores>
< / Opções > ;
BY Variáveis ;
FREQ Variável ;
ID Variáveis ;
VAR Variáveis ;
WEIGHT Variável ;
ADD Variáveis ;
DELETE Variáveis ;
< Rótulo: >;
MTEST <Equaçãon, : : : ,Equaçãon>
</ Opções > ;
OUTPUT < OUT=ArquivoDeSaída > PalavrasChaves=Nomes
< : : : PalavrasChaves=Nomes > ;
PAINT <Condição j ALLOBS>
< / Opções > j < STATUS | UNDO> ;
PLOT <Variávely*Variávelx> <=Símbolo>
< : : :Variávely*Variávelx> <=Símbolo>
</ Opções > ;
PRINT < Opções > < ANOVA > < MODELDATA > ;
REFIT;
RESTRICT Equaçãon, : : : ,Equaçãon ;
REWEIGHT <Condição j ALLOBS>
< / Opções > j < STATUS | UNDO> ;
< Rótulo: >;
TEST Equaçãon,<; : : :,Equaçãon>
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
PROC REG
Finalidade: Ajuste da equação de regressão linear.
Sintaxe:
PROC REG < opções1 >;
MODEL < Var.Dep > = < Lista Var.Indep > / < opções2 >;
RUN;
A < Lista Var. Indep. > é tal que:
__Se conter apenas 1 variável – Reg Linear simples
__Se conter 2 ou mais variáveis – Reg. linear Múltipla
Algumas das <opções2> são:
__P – apresenta os valores estimados (preditos)
__CLI – apresenta os intervalos de confiança dos valores preditos
__CLM – apresenta os intervalos de confiança das médias
__SELECTION= BACKWARD (B) FORWARD (F) STEPWISE SLSTAY= n1
SLENTRY=n2
__As opções BACKWARD (B) FORWARD (F) STEPWISE são usadas para definir o
método para seleção do modelo de regressão
__As opções SLSTAY= n1 SLENTRY=n2 são usadas para definir os Níveis de significância
para ficar ou entrar, respectivamente, uma variável no modelo
OPÇÕES DO PROCEDIMENTO
DATA=ArquivoDeDados - Nome do arquivo de dados a usar com o procedimento.
OUTEST=ArquivoDeSaída - Cria um arquivo de saída que contém os parâmetros estimados e
outras estatísticas.
OUTSSCP=ArquivoDeSaída - Cria um arquivo de saída que contém as somas de quadrados e
produtos cruzados.
COVOUT – Imprime a matriz de covariância para os parâmetros estimados. Só funciona em
conjunto com OUTEST.
CORR – Imprime a matrix de correlações das variáveis listadas nas instruções MODEL e VAR.
SIMPLE – Imprime estatísticas simples para as variáveis listadas nas instruções MODEL e
VAR.
COLLIN – Imprime a análise de colinearidade.
USCCP – Imprime a matriz de somas de quadrados e produtos cruzados não-corrigidos.
ALL – Imprime todas as estatísticas (CORR, SIMPLE e USSCP).
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Ex.:
OPTIONS LS=75 PS=64;
Title "análise de regressao de pl em funcao do ap"; data reg;
input n pl ap;
cards;
57 258.70 1988
108 245.08 1989
158 246.39 1990
128 222.68 1991
64 223.30 1992
107 209.45 1993
12 206.83 1994
44 170.40 1995
20 155.00 1996
;
data a;set reg; ap2=ap*ap;
PROC REG;
Model PL = ap; O modelo especificado neste procedimento está caracterizando
Run; uma regressão linear de 1o grau. Caso houvesse interesse em
ajustar uma regressão linear de 2o grau, bastaria criar o termo
quadrático, como foi feito com a variável AP, sendo AP2=AP*AP;
e inseri-lo no modelo, MODEL PL= AP AP2;
Output
Model: MODEL1
Dependent Variable: PL
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 1 8910.64693 8910.64693 88.742 0.0001
Error 7 702.87549 100.41078
C Total 8 9613.52242
Parameter Estimates
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
INTERCEP 1 0.0001
AP 1 0.0001
1
– R-Square – Coeficiente de determinação (R2), dado pela divisão da soma de quadrados do
modelo pela soma de quadrados do resíduo. Esta estatística indica o quanto da soma de
quadrados total está sendo explicada pela regressão linear ajustada, ou ainda, o quanto da
variação observada na variável dependente está sendo explicada pela variável independente.
2
– Adj R-sq – Coeficiente de determinação ajustado segundo a fórmula:
2
R Aj 1
n 1 1 R 2
,
n p
PROC REG;
Model PL = ap/ r cli clm;
Run;
Output
Output Statistics
Output Statistics
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Output Statistics
Cook's10
Obs D
1 0.140
2 0.110
3 0.059
4 0.019
5 0.045
6 0.033
7 0.331
8 0.166
9 0.650
1-
Valores observados da variável dependente;
2-
Valores estimados para a variável dependente através da equação de regressão ajustada;
3-
Desvio padrão do valor estimado;
4-
Nível inferior e superior do intervalo de confiança a 95% de probabilidade para a região
que contem os dados observados. Impreso pela opção CLI;
5-
Nível inferior e supeior do intervalo de confiança a 95% de probabilidade para a região que
contem os dados estimados. Impresso pela opção CLM;
6-
Diferença entre os valores observados e estimados. Impresso pela opção R;
7-
Erro padrão das estimativas;
8-
Residúo estudentizado, é a razão entre o resíduo original e o desvio padrão obtido para cada
observação. Valores maiores, em valor absoluto, podem indicar observações discrepantes.
Através desta análise, pode-se obter benefícios para a regressão eliminando os dados
discrepantes;
9-
Gráfico de resíduos estudentizados. Para facilitar a obervação da magnitude do resíduo
estudentizado, o gráfico mostra se os valores se encontram dentro da faixa ótima –2 a +2;
10-
Distância de COOK, representa a influência de cada observação na estimativa dos
parâmetros. O valor é obtido através da diferença entre todos os valores da equação
estimada com todos os valores e sem o valor corrente;
11-
Soma de resíduos, deve ter um valor próximo de zero;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
12-
Soma de quadrados dos resíduos, esse valor deve ser próximo à soma de quadrados
apresentada no quadro de análise de variância da regressão;
13-
Soma de quadrado dos resíduos pretidos.
Muitas outras estatísticas podem ser calculadas por meio do procedimento REG. Uma das
possibilidades é a criação de gráficos.
O seguinte programa permite a análise dos resíduos da regressão até então estudados:
PROC REG;
Model PL = ap;
Plot r.*PL;
Run;
Análise de correlação
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Correlação de Pearson
O estudo de medidas de associação reflete o grau da intensidade da relação entre
variáveis. Se X e Y representam duas variáveis, ambas acessadas na escala de intervalo ou de
razão, o diagrama de dispersão irá mostrar a localização dos pontos (x , y) em um sistema de
coordenadas retangulares. Se os pontos desse diagrama se distribuírem nas proximidades de
uma reta, como nas figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os
pontos se distribuírem próximos de alguma curva, a correlação é denominada não linear, como
pode ser visto na figura (C). Quando os pontos não apresentam nenhuma forma definida, figura
(D), diz-se que as variáveis x e y são não correlacionadas.
Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento entre
duas variáveis com relacionamento não linear, ele normalmente subestima o verdadeiro valor.
Por esta razão é sempre prudente avaliar primeiro o diagrama de dispersão para as variáveis,
usando para isso a PROC PLOT, que tem a seguinte forma geral:
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
PROC CORR
O “procedure” CORR é utilizadao para gerar coeficientes de correlação. Quando é
utilizado sozinho, ele obtém coeficientes de Pearson para todas as variáveis numéricas do
arquivo, além de estatísticas básicas como médias e desvios padrões da distribuição de dados.
Outros coeficientes de correlacão podem ser obtidos como opção da PROC CORR. São
eles: Kendall, Hoeffding e Spearman, que são medidas não paramétricas de associação.
FORMA GERAL:
PROC CORR opções;
VAR variáveis;
WITH variáveis;
FREQ variáveis;
BY variáveis;
RUN;
OPÇÕES DISPONÍVEIS:
DATA= arquivo.sas arquivo com os dados a serem analisados.
OUTP= arquivo.sas arquivo de saída - Pearson
OUTS= arquivo.sas arquivo de saída - Sperman
OUTK= arquivo.sas arquivo de saída - Kendall
OUTH = arquivo.sas arquivo de saída - Hoeffding
NOSIMPLE suprime a impressão das estatísticas descritivas básicas.
COMANDOS DISPONÍVEIS:
VAR variáveis especifica as variáveis a serem correlacionadas
WITH variáveis especifica as variáveis que devem aparecer na lateral da matriz de correlação.
FREQ variável especifica variáveis de frequência
BY variáveis especifica subgrupos onde a correlação deve ser obtida. Para usar o comando BY,
o arquivo já deve estar ordenado pela variável de subgrupo.
MAIS DETALHES
ALPHA – Calcula e imprime o coeficiente alfa de Cronbach
BEST=n – Imprime n coeficientes de correlação para cada variável.
COV – Calcula e imprime as covariâncias.
CSSCP – Imprime as somas de quadrados corrigidos e os produtos cruzados.
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Ex.: O tempo necessário para um trem parar depois que percebe um perigo é composto de tempo
de reação e tempo de freagem. A variável DIST representa a distância de parada de um trem
que está a uma velocidade VELOC no instante que o perigo é avistado. Analise o diagrama de
dispersão e determine o coeficiente de correlação entre as duas variáveis.
DATA PERIGO A; /* EXEMPLO SAS */
INPUT VELOC DIST @@;
CARDS;
20 54
30 90
40 138
50 206
60 292
70 396
;
PROC PLOT;
PLOT DIST*VELOC;
PROC CORR;
VAR VELOC DIST;
TITLE 'CORRELAÇAO ENTRE VELOCIDADE E DISTANCIA DE PARADA';
RUN;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
DIST ‚
400 ˆ A
‚
‚
‚
‚
‚
350 ˆ
‚
‚
‚
‚
‚
300 ˆ
‚ A
‚
‚
‚
‚
250 ˆ
‚
‚
‚
‚
‚ A
200 ˆ
‚
‚
‚
‚
‚
150 ˆ
‚ A
‚
‚
‚
‚
100 ˆ
‚ A
‚
‚
‚
‚
50 ˆ A
Šƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
20 30 40 50 60 70
VELOC
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Simple Statistics
VELOC DIST
data exemplo;
options nodate nonumber ls=75 ps=90;
input x1 x2 x3 x4;
cards;
42.2 11.2 31.9 167.1
48.6 10.6 13.2 174.4
42.6 10.6 28.7 160.8
39 10.4 26.1 162
34.7 9.3 30.1 140.8
44.5 10.8 8.5 174.6
39.1 10.7 24.3 163.7
40.1 10 18.6 174.5
45.9 12 20.4 185.7
;
/*Pedindo a matriz de correlacoes*/
proc corr;
run;
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Output
The SAS System
The CORR Procedure
4 Variables: x1 x2 x3 x4
Simple Statistics
Variable N Mean Std Dev Sum
x1 9 41.85556 4.17646 376.70000
x2 9 10.62222 0.74629 95.60000
x3 9 22.42222 7.92792 201.80000
x4 9 167.06667 12.64516 1504
Simple Statistics
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000
x4 140.80000 185.70000
x1 x2 x3 x4
x1 1.00000 0.68374 -0.61597 0.80175
0.0423 0.0774 0.0094
Simple Statistics
Simple Statistics
Variable Minimum Maximum
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
x3
x1 -0.61597
0.0774
x2 -0.17249
0.6572
Correlação de Spearman
Para que a correlação de Spearman seja calculada, basta utilizar a opção SPEARMAN
após declarar PROC CORR, desta forma, o coeficiente de correlação de Pearson (default), não
será calculado.
Output
The SAS System
The CORR Procedure
4 Variables: x1 x2 x3 x4
Simple Statistics
Variable N Mean Std Dev Median
x1 9 41.85556 4.17646 42.20000
x2 9 10.62222 0.74629 10.60000
x3 9 22.42222 7.92792 24.30000
x4 9 167.06667 12.64516 167.10000
Simple Statistics
Variable Minimum Maximum
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000
x4 140.80000 185.70000
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados
Treinamento e aperfeiçoamento emAnálises de Dados
Simple Statistics
Variable N Mean Std Dev Median
x1 9 41.85556 4.17646 42.20000
x2 9 10.62222 0.74629 10.60000
x3 9 22.42222 7.92792 24.30000
Simple Statistics
Variable Minimum Maximum
x1 34.70000 48.60000
x2 9.30000 12.00000
x3 8.50000 31.90000
x3
x1 -0.56667
0.1116
x2 -0.12552
0.7476
E-mail: natanaelpss@hotmail.com
Copyright © SAS Institute Inc. Todos os Direitos Reservados