You are on page 1of 20

Anlise Exploratria de Dados A primeira etapa desta tarefa a organizao e sntese dos dados.

os. A anlise descritiva consiste basicamente na organizao e descrio dos dados, na identificao de valores que traduzem o elemento tpico e na quantificao da variabilidade presente nos dados. Os elementos bsicos para essa anlise so: tabelas, grficos e medidas ou snteses numricas. Deve sempre preceder anlises mais avanadas. Alm de propiciar a familiarizao com os dados, possibilita a deteco de estruturas interessantes e, eventualmente, a presena de valores atpicos nos dados.

Organizao e apresentao de dados Dados brutos: so aqueles obtidos diretamente da pesquisa, isto , que ainda no sofreram qualquer processo de sntese ou anlise. Variveis: So caractersticas que podem ser observadas ou medidas em cada elemento pesquisado, seja por censo ou amostragem, levantamento ou experimento, sob as mesmas condies. Podem ser classificadas como qualitativas ou quantitativas. Qualitativas ou categricas: resultam de uma classificao por categorias ou atributos. Podem ser subdivididas em nominal ou ordinal. o Qualitativa ou categrica ordinal: Existe uma ordenao natural das categorias ou atributos. Ex.: Grau de instruo (analfabeto, ensino fundamental, ensino mdio, ensino superior) Teor de ferro (baixo, mdio, alto) o Qualitativa ou categrica nominal: No existe uma ordem natural entre as categorias. Ex.: Sexo (feminino, masculino) Hbito de fumar (no, sim) Quantitativas: resultam de contagens ou mensuraes. Podem ser subdivididas em discretas ou contnuas o Quantitativa discreta: assumem apenas uma quantidade finita ou infinita enumervel de valores. Ex.: nmero de acidentes o Quantitativa contnua: assumem, teoricamente, qualquer valor em intervalo real Ex.: Velocidade, Peso, Altura

Banco de dados: Planilha de dados (Excel, Minitab, SPSS, etc) Exemplo: Estudo descritivo para conhecer o perfil de funcionrios de uma indstria X. Para uma amostra de 30 indivduos, foram pesquisadas as seguintes variveis: nvel educacional: 1 = analfabeto, 2 = fundamental incompleto, 3 = fundamental completo, 4 = mdio incompleto, 5 = mdio completo e 6 = superior 1

peso (Kg) altura (cm) idade (anos) glicemia (mg/dL) colesterol srico (mg/dL) presso sistlica (mmHg) hbito de fumar : fumante = 1 ou no = 0 atividade fsica: sim = 2 ou no = 1

Tabelas: A apresentao dos dados em tabelas obedece a certas normas e recomendaes. As principais normas e recomendaes so: Deve ser precedida de um ttulo, suficientemente claro para que o leitor no necessite voltar ao texto para entender o contedo da mesma. Deve iniciar e terminar com um trao simples ou duplo. O cabealho deve ser separado do restante do texto da tabela por uma linha horizontal. No devem ser usadas linhas verticais separando as colunas; usam-se espaos em branco. No deve ser fechada lateralmente com linhas verticais. As abreviaturas e os smbolos pouco conhecidos devem ser explicados no rodap da tabela. Deve ser indicada a fonte dos dados, no rodap.

Tabelas de freqncias: Uma maneira de sintetizar os dados atravs de distribuio de freqncias, que consiste na construo de uma tabela a partir dos dados brutos em que se leva em conta a freqncia com que cada observao ocorre. Varivel qualitativa: 1) Tabela simples, tambm chamada de tabela de entrada simples ou de entrada nica, apresenta a freqncia absoluta e/ou a relativa (ou relativa percentual) para cada categoria da varivel.

Exemplo 1: Considere a varivel Nvel de Instruo dos dados brutos Nvel educacional Analfabeto Fundamental incompleto Fundamental completo Mdio incompleto Mdio completo Superior Total Contagem fi 7 9 7 5 2 0 n = 30 fri 0,2333 0,3000 0,2333 0,1667 0,0667 0,0000 1,0000 fri% 23,3 30,0 23,3 16,7 6,7 0,0 100,0

Tabela 1: Nvel educacional de 30 funcionrios da indstria X Nvel educacional Analfabeto Fundamental incompleto Fundamental completo Mdio incompleto Mdio completo Total Fonte: Dados hipotticos Tabelas de duas entradas ou tabelas de contingncia: os indivduos so agrupados segundo duas classificaes, isto , so analisados quanto a duas variveis. Este tipo de tabela apresenta dois conjuntos de totais marginais, um para cada varivel, alm do total geral. Por esta razo, ao se calcular a percentagem de casos em cada categoria, deve-se colocar a soma 100% nos totais marginais tomados como referncia, para que fique claro em relao a que total foi calculada a porcentagem. Exemplo 2: Tabela de dupla entrada para as variveis atividade fsica e hbito de fumar Tabela 2: Nmero e percentual, entre parnteses, de funcionrios fumantes, conforme a atividade fsica
Fumante Atividade fsica No Sim Total No 11 (57,9) 08 (72,7) 19 (63,3) Sim 08 (42,1) 03 (27,3) 11 (36,7) Total 19 (100,0) 11 (100,0) 30 (100,0)

Funcionrios 7 9 7 5 2 30

Os dados indicam que a freqncia de no fumantes, na amostra de funcionrios, alta (63,3%). Verifica-se tambm que, 72,7% dos funcionrios que praticam atividade fsica no so fumantes. A tabela de dupla entrada pode se expandir para admitir informaes quanto a trs ou mais variveis, como pode ser visto na Tabela 3 a seguir. Exemplo 3: Dados sobre a resistncia infeco pelo Schistosoma mansoni em duas espcies do gnero Biomphalaria, que so vetores da esquistossomose. Tabela 3: Nmero e percentagem, entre parnteses, de gastrpodos mortos devido infeco por Schistosoma mansoni : dados referentes a formas juvenis e adultas pigmentadas de Biomphalarias tenagophila do Taim Rio Grande do Sul, albinas de Joinville Santa Catarina e uma amostra de Biomphalaria glabrata de Minas Gerais

B. tenagophila (pigmentados, Taim) Condio Mortos Sobrev. Total Juvenis Adultos 2 (2) 108 (98) 3 (3) 107 (97)

B. tenagophila (albinos, Joinville) Juvenis Adultos 130 (42) 180 (58) 14 (13) 96 (87)

B. glabrata (controle, MG) Juvenis Adultos 80 (73) 30 (27) 3 (3) 107 (97)

110 (100) 110 (100)

310 (100) 110 (100)

110 (100) 110 (100)

Fonte: Scherrer e colaboradores, 1990 Aparentemente, a mortalidade por infeco pelo S. mansoni foi maior entre as formas juvenis, exceto nas do Taim. Quanto aos adultos, a mortalidade parece ter sido maior em Joinville. Testes estatsticos so necessrios para confirmar as suspeitas. Varivel quantitativa discreta: quando os possveis valores que a varivel pode assumir no so muitos (menor que 12), apresentamos os valores em uma tabela de freqncias. Exemplo 3: Tabela de freqncias para a varivel idade.
Idade (anos) 56 49 49 50 52 51 52 52 53 48 51 49 57 51 54 57 53 49 52 56 48 52 48 55 52 54 48 50 48 55

Existem 10 possveis valores para a varivel idade dos funcionrios:

Tabela 4: Idade, em anos, dos funcionrios da indstria Idade (anos) Xi 48 49 50 51 52 53 54 55 56 57 Total Funcionrios fi 5 4 2 3 6 2 2 2 2 2 30 Percentagem de funcionrios fri% 16,7 13,3 6,7 10,0 20,0 6,7 6,7 6,7 6,7 6,7 100,0

Varivel quantitativa contnua: Os seus valores podem ser qualquer nmero real e ainda geralmente existe um grande nmero de valores diferentes. A alternativa consiste em construir classes ou faixas de valores e contar o nmero de ocorrncias em cada faixa. Etapas para a construo de tabelas de freqncias para dados grupados: 1. Dispor os dados em rol (ordem crescente) 2. Encontrar o menor e o maior valor (denominado mnimo e mximo) do conjunto de dados. 3. Escolher um nmero de subintervalos ou intervalos de classes (ou classes). No existem normas fixas para a construo de tabelas de freqncias, entretanto, algumas regras prticas e empricas podem ser citadas: O nmero de classes, K, deve variar de 5 a 15.

k n ou pela frmula de Sturges: k = 1 + 3,3 log n


4. Calcular a amplitude dos dados (At): At=MAX MIN. 4. Calcule o comprimento de cada intervalo de classe (h): h

At k

5. Arredondar o valor de h sempre para mais, mantendo-se o nmero de casas decimais dos dados. 6

6. Obter os limites de cada intervalo de classe. Primeiro intervalo: limite inferior = l1 = Min; limite superior = L1 = l1 + h Segundo intervalo: limite inferior = l2 = L1 ; limite superior = L2 = l2 + h k-simo intervalo: limite inferior = l k = Lk-1 ; limite superior = Lk = lk + h

Exemplo 5: Distribuio de freqncias para a varivel peso Peso (KG) 70 60 62 66 70 59 47 66 56 62 68 65 56 80 66 91 71 66 73 59 64 55 78 59 51 83 66 61 65 75 Dados em rol (ordem crescente) 47 51 55 56 56 59 59 59 60 61 k=6 ; 62 62 64 65 65 66 66 66 66 66 68 70 70 71 73 75 78 80 83 91

Min = 47 e Max = 91 ; K = 1 + 3,3 log 30 = 5,87 h = 44 / 6 = 7,33

At = 91 47 = 44

h = 8 ( usar sempre o mesmo nmero de casas decimais dos dados)

Limites: I1 = Min = 47, L1 = 47 + 8 = 55 I2 = L1 = 55 , L2 = 55 + 8 = 63 I3 = L2 = 63 , L3 = 63 + 8 = 71 . . . I6 = L5 = 87 , L6 = 87 + 8 = 95

Para o exemplo 5 os limites so: I1 = Min = 47, L1 = 47 + 8 = 55 I2 = L1 = 55 , L2 = 55 + 8 = 63 7

I3 = L2 = 63 , L3 = 63 + 8 = 71 l4 = L3 = 71 , L4 = 71 + 8 = 79 l5 = L4 = 79 , L5 = 79 + 8 = 87 I6 = L5 = 87 , L6 = 87 + 8 = 95 Freqncia absoluta da i-sima classe: fi representa o nmero de observaes que pertencem i-sima classe, i = 1, 2, ..., k.
k

f
i 1

n a soma das freqncias absolutas igual ao nmero de observaes

Freqncia relativa da i-sima classe: fri representa a proporo de observaes que pertencem i-sima classe, i = 1, 2, ..., k.

f ri

fi . A soma das freqncias relativas igual a 1, isto , n

f
i 1

ri

1.

O propsito das freqncias relativas o de permitir a anlise ou facilitar as comparaes.

Freqncia relativa percentual da i-sima classe: fri% - representa a percentagem de observaes que pertencem i-sima classe, i = 1, 2, ..., k.
k

f ri % f ri .100 . A soma das freqncias relativas percentuais igual a 100, isto ,

f
i 1

ri

% 100.

Freqncia absoluta acumulada crescente da i-sima classe: Fi representa o nmero de observaes com valores menores que o limite superior da i-sima classe.
l

F1 f1 e Fl f i l 2, , k
i 2

ou Fi Fi 1 f i i 1, , k .

Freqncia relativa acumulada crescente da i-sima classe: Fri representa a proporo de observaes com valores menores que o limite superior da i-sima classe.

Fri

Fi . n

Freqncia relativa acumulada crescente percentual da i-sima classe: Fri % representa a percentagem de observaes com valores menores que o limite superior da i-sima classe.

Fri % Fri .100

Tabela 5: Peso, em Kg, dos 30 funcionrios da indstria X


Peso (kg) 47 |--- 55 55 |--- 63 63 |--- 71 71 |--- 79 79 |--- 87 87 |--- 95 Total Funcionrios fi 02 10 11 04 02 01 30 f ri 0,067 0,333 0,367 0,133 0,067 0,033 1,000 % fri% 6,7 33,3 36,7 13,3 6,7 3,3 100,0 Fi 2 12 23 27 29 30 Fri% 6,7 40,0 76,7 90,0 96,7 100,0

Fonte: Dados hipotticos Desvantagem: Nesta organizao de dados, temos perda de informao dos dados originais Para resolver o problema usamos os pontos mdios (marcas) dos intervalos, Ponto mdio do i-simo intervalo de classe:

Xi

li Li h h l i i Li i . 2 2 2

Ou, X i X i 1 h . No exemplo:

X1

47 55 8 8 51 ou X 1 47 51 ou X 1 55 51 2 2 2 55 63 8 8 59 ou X 2 55 59 ou X 2 63 59 ou X 2 51 8 59 2 2 2 63 71 8 8 67 ou X 3 63 67 ou X 3 71 67 ou X 3 59 8 67 2 2 2 71 79 8 8 75 ou X 4 71 75 ou X 4 79 75 ou X 4 67 8 75 2 2 2 79 87 8 8 83 ou X 5 79 83 ou X 5 87 83 ou X 5 75 8 83 2 2 2 87 95 8 8 91 ou X 6 87 91 ou X 6 95 91 ou X 6 83 8 91 2 2 2
9

X2

X3

X4

X5

X6

Peso (kg) Funcionrios fi 47 |--- 55 55 |--- 63 63 |--- 71 71 |--- 79 79 |--- 87 87 |--- 95 Total 02 10 11 04 02 01 30

fri 0,067 0,333 0,367 0,133 0,067 0,033 1,000

% fri% 6,7 33,3 36,7 13,3 6,7 3,3 100,0

Fi 2 12 23 27 29 30 -

Fri% 6,7 40,0 76,7 90,0 96,7 100,0 -

Xi 51 59 67 75 83 91 -

O ponto mdio o valor aproximado das observaes: X1 = 51 2 funcionrios apresentaram peso de aproximadamente 51 kg. Quando a varivel quantitativa discreta e apresenta muitos possveis valores, agrupamos os valores e os apresentamos em uma tabela de freqncias do mesmo modo como feito para variveis quantitativas contnuas. A partir da tabela podemos tirar vrias concluses, tais como: 1) 11 funcionrios apresentaram peso entre 63 kg (inclusive) e 71 Kg (exclusive) 2) 27 funcionrios apresentaram peso inferior a 79 Kg 3) 40% dos funcionrios apresentaram peso inferior a 63 Kg Se estivermos interessados em valores que no esto representados diretamente na tabela, fazemos clculos aproximados (interpolaes). Por exemplo: 1) Quantos funcionrios apresentaram peso menor ou igual a 77 Kg? Soluo: 77 pertence quarta classe

79 71 77 71 8 6 2 X 46 6 X 26 27 23 X 23 4 X 23
26 funcionrios apresentaram peso menor ou igual a 77Kg

2) 18 funcionrios apresentaram peso inferior a quantos Kg? Soluo: olhando as freqncias acumuladas, temos que 18 pertence terceira classe

10

71 63 X 63 8 X 63 4,36 X 63 X 67,36 67,4 23 12 18 12 11 6


Resp.: 18 funcionrios apresentaram peso aproximadamente igual a 67,4 Kg.

3) Quantos funcionrios apresentaram peso entre 57 e 80 Kg? Soluo: 57 pertence segunda classe e 80 pertence quinta classe. Temos que calcular o nmero de funcionrios, X, que pesam menos que 57 Kg e o nmero de funcionrios, Y, que pesam menos que 80 Kg. A quantidade de funcionrios com peso entre 57 e 80 Kg ser igual a Y X.

63 55 57 55 8 2 0,8 X 1,6 2 X 4,5 12 2 X 2 10 X 2

4, 5 funcionrios pesam menos que 57 Kg. Deixamos para arredondar no fim.

87 79 80 79 8 1 4Y 108 1 Y 27,25 29 27 Y 27 2 Y 27
27,25 funcionrios pesam menos que 80 Kg. Deixamos para arredondar no fim. Resposta: Y X = 27,25 4,5 = 22,75 23 funcionrios pesam entre 57 e 80 Kg. Representao grfica A organizao dos dados em tabelas de freqncia proporciona um meio eficaz de estudo do comportamento de caractersticas de interesse. Entretanto, muitas vezes, a informao contida nas tabelas pode ser mais facilmente visualizada atravs de grficos. A utilizao de recursos visuais na criao de grficos deve ser feita cuidadosamente; um grfico desproporcional em suas medidas pode dar falsa impresso de desempenho e conduzir a concluses equivocadas. Representao grfica de variveis qualitativas Grfico de setores, ou de pizza, ou diagrama circular

Consiste em dividir um disco em setores circulares correspondentes s categorias da varivel. A rea de cada setor proporcional freqncia de cada categoria. 11

Exemplo: grfico de setor para a varivel nvel de instruo Categoria 1: analfabeto 23,3% Categoria 2: fundamental incompleto 30,0% Categoria 3: fundamental completo 23,3% Categoria 4: mdio incompleto 16,7% Categoria 5: mdio completo 6,7%

Figura1: Porcentagem de funcionrios segundo o nvel educacional

Grfico de barras ou de colunas:

feito no plano cartesiano com as categorias apresentadas no eixo das abscissas e as freqncias absolutas, ou relativas percentuais no eixo das ordenadas. O tamanho de cada barra (ou coluna) proporcional freqncia de cada categoria. Exemplos: 1)

12

Figura 2: Nvel educacional de 30 funcionrios da indstria X

2) Uma alternativa ao grfico de setores o grfico de barras (colunas) como o da Figura 3. Ao invs de dividirmos um crculo, dividimos uma barra. Note que, em ambos os grficos, as freqncias relativas das categorias devem somar 100%. Alis, essa a idia dos grficos: mostrar como se d a diviso (distribuio) do total de elementos (100%) em partes (fatias). A Figura 4 apresenta a porcentagem de amostras extradas de uma jazida, segundo o teor do minrio estudado. 63,9% das amostras apresentaram alto teor de minrio.

3) Freqentemente, necessrio fazer comparaes da distribuio de freqncias de uma varivel em vrios grupos

simultaneamente. Nesse caso, o uso de grficos bem escolhidos e construdos torna a tarefa muito mais fcil. Na Figura 4, est representada a distribuio de freqncias da reprovao segundo as variveis sexo do aluno, perodo e rea de estudo. Analisando os trs grficos da Figura 4, podemos notar que o percentual de reprovao entre os alunos do sexo masculino sempre maior do que o percentual de reprovao entre os alunos do sexo feminino, em todas as reas, durante todos os perodos. A rea de cincias exatas a que possui os maiores percentuais de reprovao, em todos os perodos, nos dois sexos. 13

Na rea de cincias humanas, o percentual de reprovao entre os alunos do sexo masculino cresce com os perodos, enquanto esse percentual entre as alunas se mantm praticamente constante durante os perodos. Na rea de cincias biolgicas, h uma diminuio do percentual de reprovao, a partir do segundo perodo, entre os alunos do dos sexos, sendo mais acentuado entre os estudantes do sexo masculino. Figura 4: Distribuio de freqncias de reprovao segundo rea, perodo e sexo do aluno

Representao grfica para variveis quantitativas Grfico de colunas ou grfico de linhas verticais 14

Indicado para variveis discretas, quando o nmero de valores distintos da varivel no muito grande. Os valores so representados no eixo das abscissas (eixo x) e em cada um deles traa-se um segmento vertical de altura proporcional respectiva freqncia, relativa ou absoluta.

5
Funcionrios

2 48 49 50 51 52 53 Idade 54 55 56 57

Figura 5: Idade, em anos, de 30 funcionrios da indstria X Quando temos variveis quantitativas discretas com muitos possveis valores e variveis quantitativas continuas devemos agrup-las e trs tipos de grficos geralmente so utilizados: histograma, polgono de freqncias e ogiva. Histograma:

So retngulos (barras) justapostos com alturas proporcionais s freqncias (absolutas, ou relativas) das classes e bases proporcionais s amplitudes das classes (hi). Exemplos: 1)Histograma do peso de 30 funcionrios da indstria X

12

10

Funcionrios

0 47 55 63 Peso 71 79 87

Figura 6: Peso, em kg, de 30 funcionrios da indstria X

15

2) Nveis sricos de colesterol para uma amostra de 2294 homens, segundo faixa etria.

(a)

(b)

Figura 7: Nveis sricos de colesterol para 1067 homens com idade de 25 a 34 anos (a) e para 1227 homens com idade de 55 a 64 anos (b) De acordo com a Figura 7, observa-se que homens mais velhos tendem a ter nveis sricos de colesterol mais altos do que os mais jovens, como era esperado. A generalizao com relao ao nvel de colesterol no significa que cada homem entre 55 a 64 anos tenha um nvel de colesterol mais alto do que cada homem entre 25 a 34 anos, nem significa que o nvel de colesterol de cada homem aumente com a idade. Na realidade, para um determinado nvel de colesterol, a proporo de homens mais jovens com leitura menor ou igual a esse valor menor do que a proporo de homens mais velhos com uma leitura menor ou igual a esse valor. Por exemplo, 56,7 dos homens de 25 a 34 anos tm um nvel srico de colesterol menor ou igual a 199 mg/100ml, enquanto somente 25,9% dos homens de 55 a 64 anos esto nessa categoria. Observa-se tambm que a distribuio dos nveis de colesterol dos homens com idade de 55 a 64 anos bem simtrica. Usamos as freqncias relativas percentuais no Figura 7 porque o tamanho da amostra de homens com idade de 25 a 34 anos diferente do tamanho da amostra de homens com idade de 55 a 64 anos. Para efeito de comparao com outros grupos ou conjuntos de dados, conveniente usar as freqncias relativas, pois levam em considerao o tamanho de cada grupo (ou amostra). Quando as classes apresentam amplitudes diferentes, o mais conveniente construir histogramas onde as alturas de cada retngulo correspondam s densidades das classes, di = fri / hi. Isto faz com que o histograma construdo tenha rea igual a um. Exemplo: Vacinao infantil d1 = 0,28/3 = 0,093

16

Polgono de freqncia Eixo das abscissas = pontos mdios das classes Eixo das ordenadas = freqncias das classes ( absolutas, ou relativas). Para fechar o polgono so marcados o ponto mdio da classe anterior primeira classe e posterior ltima classe, ambos com freqncia zero Exemplos: 1) Peso de 30 funcionrios da indstria X

17

12

10

Funcionrios

0 43 51 59 67 Peso 75 83 91 99

Figura 8: Peso, em kg, de 30 funcionrios da indstria X

O histograma e o polgono de freqncias servem para se visualizar a forma da distribuio da varivel estudada. Ogiva: um grfico de freqncias acumuladas (absolutas ou relativas). Para construir uma ogiva, coloca-se no eixo das abscissas os intervalos de classe nos quais a varivel em estudo foi dividida. Para cada limite de intervalo assinalado no eixo das ordenadas sua freqncia acumulada. Em seguida, os pontos marcados so ligados por segmentos de reta. Atravs da ogiva pode-se estimar percentis da distribuio, isto , o valor que precedido por certa porcentagem de interesse pr-estabelecida. Por exemplo, pode-se estimar o valor da varivel abaixo do qual se tem 50% dos indivduos. Este valor o percentil de ordem 0,50, ou percentil 50. Exemplos: 1) Ogiva dos pesos de 30 funcionrios

18

100

Poercentual de funcionrios

80

60

40

20

0 47 55 63 71 Peso 79 87 95

Diagrama de pontos Uma representao alternativa ao histograma para a distribuio de freqncias de uma varivel quantitativa o diagrama de pontos. Neste grfico, cada ponto representa uma observao com determinado valor da varivel. Observaes com mesmo valor so representadas com pontos empilhados neste valor.

19

Figura 9 Diagramas de pontos para o peso de peas produzidas pela mquina A e B.

Atravs da comparao dos diagramas de pontos da Figura 9, podemos ver que as peas produzidas pela mquina A possuem pesos menos homogneos (mais dispersos) do que as produzidas pela mquina B, que esto concentradas na parte esquerda do eixo de valores de peso.

20

You might also like