Manual Curs Deducer

Lloren Badiella.
Director del Servei dEstadstica Aplicada

Anabel Blasco. Asesora estadstica del Servei dEstadstica Aplicada
Ester Boixadera. Asesora estadstica del Servei dEstadstica Aplicada
Anna Espinal. Asesora estadstica del Servei dEstadstica Aplicada
Oliver Valero. Asesor estadstico del Servei dEstadstica Aplicada
Ana Vzquez. Asesora estadstica del Servei dEstadstica Aplicada

Manual de Introduccin a
Deducer: una interfaz
grfica para usuarios de R
Manual de Introduccin a Deducer
_______________________________________________________________

______________________________________________________________________

Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 2 de 73

Manual de Introduccin a
Deducer

Servei dEstadstica Aplicada
Universitat Autnoma de Barcelona

Campus UAB - Edifici D
08193 Cerdanyola del Valls
(Barcelona)
Tel. 93.581.13.47
s.estadistica@uab.es
http://serveis.uab.cat/estadistica

_______________________________________________________________

______________________________________________________________________


Publicado por el Servei dEstadstica Aplicada de la UAB

3 edicin, Noviembre 2013

Este documento puede ser copiado y libremente distribuido, siempre y cuando sea
preservada su integridad, referenciado su origen y comunicado su uso al Servei
dEstadstica Aplicada de la UAB. No est permitido aadir, borrar o cambiar ninguna de
sus partes, o extraer pginas para su uso en otros documentos.

_______________________________________________________________

______________________________________________________________________


_______________________________________________________________

______________________________________________________________________


CONTENIDOS

1 PRESENTACIN ............................................................................................... 7
2 INTRODUCCIN A DEDUCER ...................................................................... 9
2.1 Ventanas de trabajo ............................................................................................................. 9
2.1.1 LA CONSOLA .............................................................................................................. 9
2.1.2 EL VISOR DE DATOS ............................................................................................. 10
2.2 Crear y abrir ficheros ......................................................................................................... 11
2.2.1 CREAR UNA NUEVA BASE DE DATOS .......................................................... 11
2.3 Importar bases de datos .................................................................................................... 15
2.3.1 IMPORTAR DATOS DE TEXTO ......................................................................... 15
2.3.2 IMPORTAR FICHEROS DE EXCEL ................................................................... 16
2.3.3 IMPORTAR FICHEROS DE SPSS ........................................................................ 16
2.4 Guardar bases de datos ..................................................................................................... 16
3 GESTIN DE BASES DE DATOS ................................................................... 17
3.1 Recodificar variables ......................................................................................................... 17
3.2 Fundir archivos .................................................................................................................. 18
3.2.1 AADIR CASOS ........................................................................................................ 19
3.2.2 AADIR VARIABLES ............................................................................................. 20
3.3 Transformar variables ....................................................................................................... 21
4 VALIDACIN DE LA BASE DE DATOS ....................................................... 22
5 ANLISIS DESCRIPTIVO ............................................................................... 23
5.1 Introduccin ....................................................................................................................... 23
5.2 Estadsticos resumen ......................................................................................................... 23
5.2.1 VARIABLES CUALITATIVAS ............................................................................... 24
5.2.2 VARIABLES CUANTITATIVAS ........................................................................... 26
5.3 La representacin grfica ms adecuada ........................................................................ 29
5.3.1 VARIABLES CUALITATIVAS ............................................................................... 30
5.3.2 VARIABLES CUANTITATIVAS ........................................................................... 33
5.4 Medidas de asociacin ...................................................................................................... 35
5.4.1 DOS VARIABLES CUALITATIVAS ..................................................................... 36
5.4.2 DOS VARIABLES CUANTITATIVAS ................................................................. 39
6 INFERENCIA PARA UNA POBLACIN ...................................................... 42
6.1 Introduccin ....................................................................................................................... 42
6.2 Variables aleatorias ............................................................................................................ 43
6.3 Estimacin de parmetros ................................................................................................ 44
6.3.1 ESTIMACIN PUNTUAL ...................................................................................... 45
6.3.2 INTERVALOS DE CONFIANZA ......................................................................... 46
6.4 Pruebas de hiptesis .......................................................................................................... 49
6.5 Relacin entre IC y Test de hiptesis ............................................................................. 51
6.6 Pruebas de normalidad ..................................................................................................... 51
_______________________________________________________________

______________________________________________________________________


7 INFERENCIA PARA DOS POBLACIONES .................................................. 53
7.1 Introduccin ....................................................................................................................... 53
7.2 Comparar medias ............................................................................................................... 54
7.2.1 MUESTRAS INDEPENDIENTES ........................................................................ 54
7.2.2 PRUEBA DE IGUALDAD DE VARIANZAS .................................................... 56
7.2.3 INFERENCIA NO PARAMTRICA .................................................................... 57
7.2.4 MUESTRAS RELACIONADAS ............................................................................. 58
7.3 Variables categricas ......................................................................................................... 59
8 INFERENCIA PARA K POBLACIONES ......................................................... 61
8.1 Introduccin ....................................................................................................................... 61
8.2 Comparar medias ............................................................................................................... 61
8.2.1 MUESTRAS INDEPENDIENTES: PRUEBA ANOVA ................................... 61
8.2.2 PRUEBA DE HOMOGENEIDAD DE VARIANZAS ..................................... 65
8.2.3 COMPARACIONES MLTIPLES 2 A 2 .............................................................. 66
8.2.4 INFERENCIA NO PARAMTRICA: PRUEBA DE KRUSKAL-WALLIS.. 68
8.2.5 MUESTRAS RELACIONADAS ............................................................................. 69
8.3 Variables categricas ......................................................................................................... 70
9 RESUMEN METODOLGICO ....................................................................... 71
10 BIBLIOGRAFA ................................................................................................ 73

_______________________________________________________________

______________________________________________________________________


1 PRESENTACIN

Este manual de introduccin a Deducer pretende ser una primera aproximacin al uso del
programa R para aquellas personas que deseen adquirir conocimientos de Estadstica, y que
deseen introducirse en el uso de este software para aplicarlo en su rea de conocimiento y
trabajo.

Deducer es un programa libre diseado como alternativa al software comercial para el
anlisis de datos tales como SPSS, JMP y Minitab. Cuenta con un sistema de mens para
gestionar y manipular bases de datos y analizarlos, y un editor de datos tipo excel para ver y
editar bases de datos. El objetivo del proyecto es doble:

1. Provee una interfaz grfica para usuarios de R (GUI) para la investigacin,
alentando a los usuarios no tcnicos para aprender y realizar anlisis sin necesidad
de conocer el lenguaje de programacin de R.

2. Aumentar la eficiencia de los usuarios expertos de R al realizar las tareas comunes
mediante la sustitucin de cientos de combinaciones de teclas con unos pocos clics
del ratn, adems de permitir utilizar el lenguaje de programacin.

Aade la funcionalidad de la interfaz grfica para llevar a cabo las siguientes tareas:

o Cargar datos de varios formatos (txt, CSV, SPSS, etc.).
o Visualizar los datos y los tipos de variables en el visor de datos por separado.
o Realizar transformaciones de los datos (recodificacin, editar funciones,
transformaciones, transponer, fusionar).
o Anlisis estadstico (comparacin de medias, tablas de contingencia, anlisis de
regresin).
o Una interfaz grfica de usuario para la creacin de grficos utilizando el paquete de
ggplot2.

El programa se puede descargar gratuitamente desde la pgina web de Deducer:

http://www.deducer.org

Seleccionar el sistema operativo (Windows, MacOS X o Linux) y seguir las instrucciones
correspondientes.

_______________________________________________________________

______________________________________________________________________


_______________________________________________________________

______________________________________________________________________


2 INTRODUCCIN A DEDUCER

2.1 Ventanas de trabajo

El programa est estructurado en dos ventanas diferentes:

La consola: Esta ventana recoge todos los mens para trabajar con los datos y
realizar los anlisis estadsticos, y donde se vern los resultados de los anlisis.
Tambin se pueden introducir los comandos manualmente.

El visor de datos: Deducer proporciona un editor de datos parecido a una hoja de
clculo de Excel muy fcil de usar, donde se pueden ver y editar los datos y las
variables con los que vamos a trabajar.

2.1.1 La consola

Al abrir el programa la consola o ventana de comandos de R carga todos los paquetes
necesarios para el anlisis de los datos:

_______________________________________________________________

______________________________________________________________________


Los paquetes son colecciones de funciones de R, datos, y cdigo compilado en un
formato definido. Se pueden instalar ms paquetes desde el men Packages & Data
Package Manager.

2.1.2 El visor de datos

El visor de datos permite crear una nueva base de datos (New Data), abrir una base de
datos (Open Data) o consultar el tutorial:

_______________________________________________________________

______________________________________________________________________


2.2 Crear y abrir ficheros

Para analizar datos lo primero es crear o abrir un archivo de trabajo. Se pueden introducir
datos creando una nueva base de datos e introduciendo los datos manualmente, abriendo
un fichero de R existente o importando un fichero procedente de otra aplicacin.

2.2.1 Crear una nueva base de datos

Para comenzar a introducir datos se puede seleccionar la opcin New Data e indicarle el
nombre que tendr la nueva base de datos:

Existen diversas formas de introducir datos:

o Crear nuevas filas y columnas e introducir datos manualmente.
o Copiar datos de otras aplicaciones y pegarlas en la tabla.
o Importar datos de otras aplicaciones.

Si hay varias bases de datos cargadas en la sesin de R se pueden visualizar
seleccionndolas desde la lista de Data Set. Se pueden cargar datos en la sesin de R
haciendo clic en el botn Open Data en la esquina superior izquierda, se pueden
guardar con el botn Save Data o se pueden cerrar haciendo clic en Remove from
Workspace.

El Visor de datos dispone de dos pestaas: Vista de datos (Data View) y Vista de
variables (Variable View).

Vista de datos: est dividida en columnas y filas dando lugar a celdas o casillas
donde se recogen los datos. Cada columna tiene asignado un nombre de variable, ya
sea especificado por el usuario o bien por el propio programa. Las filas, a su vez,
estn numeradas de forma correlativa.

Al hacer clic en las filas o en las columnas se pueden insertar, copiar y borrar filas o
columnas respectivamente.

_______________________________________________________________

______________________________________________________________________


Vista de variables: recoge las caractersticas de las variables (columnas). Informa
sobre el Nombre de la variable, el Tipo (Numrico, Cadena, Fecha,..), y etiquetas
para los valores de las variables categricas (Factor Levels).

Observacin: los nombres de las variables no pueden tener acentos ni espacios.
_______________________________________________________________

______________________________________________________________________


2.2.1.1 Tipos de variables

Las variables tal y como hemos dicho definen las columnas del fichero de datos y son
caractersticas de los individuos. Pueden ser diferenciadas segn:

o Cualitativas o Categricas: etiquetas (numrica o no) que representan el grupo o
categora a la cual pertenece un individuo. Se puede diferenciar entre nominales
(por ejemplo el sexo) y ordinales (nivel de estudios).

o Cuantitativas: valores numricos para los que tiene sentido realizar aritmtica. Se
puede diferenciar entre continuas (ndice de masa corporal) y discretas (nmero de
hijos).

El paquete estadstico Deducer clasifica las variables en:

o Character: variables de cadena (texto)
o Factor: variables categricas (nominales u ordinales)
o Double: variables cuantitativas continuas
o Integer: variables cuantitativas discretas
o Logical: variables lgicas
o Date: variables de fecha
o Time: variables de tiempo

Los niveles de las variables categricas (factores) se muestran en la columna Factor
Levels, y se pueden editar haciendo clic en la celda apropiada:

Cuando las categoras de la variable (Levels) puedan tomar distintos valores ordenados
siguiendo una escala establecida (variable ordinal) marcaremos la casilla Ordered.
_______________________________________________________________

______________________________________________________________________


Ejercicio

Crear una base de datos con la siguiente informacin:

Cuestionario

En estos estudios es fundamental la opinin y la participacin
del personal implicado. Es por eso, que os pedimos que rellenis
esta encuesta (vuestros datos personales sern confidenciales).

1. Nombre ___________________

2. Sexo

Hombre
Mujer

3. Ao de nacimiento ____________
4. Nivel de estudios
Sin estudios
Estudios secundarios
Estudios primarios
Estudios superiores
NS/NC

5. Est trabajando en la actualidad?
S
No
NS/NC

6. En caso de haber contestado negativamente la
pregunta anterior, recibe alguna prestacin por
desempleo?

S
No
NS/NC

_______________________________________________________________

______________________________________________________________________


2.3 Importar bases de datos

Podemos abrir una base de datos utilizando el men File Open Data. Con esta opcin
podemos abrir datos que se encuentren en formato de R, en formato texto u otros tipos de
formato como por ejemplo Excel o SPSS.

Observacin: la ruta fsica donde se encuentran los ficheros de datos no puede
contener acentos.

2.3.1 Importar datos de texto

Al seleccionar la opcin Text file (.txt) aparece la siguiente ventana donde podemos
especificar qu carcter separa las variables (tabulador, espacio, coma...), si hay un
delimitador especfico para las variables de cadena (Quote) y si el fichero incluye los
nombres de las variables (Header).

Observacin: en Deducer el separador de decimales es el punto.

_______________________________________________________________

______________________________________________________________________


2.3.2 Importar ficheros de Excel

Para importar directamente archivos de Excel debemos tener instalado el paquete
XLConnect. Como solucin alternativa debemos abrir el archivo en Excel y luego usar
"Guardar como" para crear un archivo de tipo CSV (delimitado por comas).

2.3.3 Importar ficheros de SPSS

Al seleccionar un fichero de SPSS (.sav) la base de datos se abre automticamente. Las
variables que tienen etiquetas definidas se guardan como factores.

Ejercicio

Abrir los ficheros ADL1.txt, ADL2.xls y ADL3.sav.

El fichero ADL1 contiene informacin sobre 70 pacientes que han tenido una accidente
cerebrovascular. El fichero ADL2 contiene la misma informacin sobre 30 pacientes que
han sido ingresados en otro centro. El fichero ADL3 contiene informacin adicional sobre
los mismos pacientes.

2.4 Guardar bases de datos

Las bases de datos pueden ser guardadas en los siguientes formatos:

o R workspace (extensin .rda y .rdata)
o R object (extensin .robj)
o Comma seperated (extensin .csv)
o Tab delimited (extensin .txt)
o DBase (extensin .dbf)
o Stata (extensin .dta)
o ARFF (extensin .arff)

Tambin podemos guardar todas las bases de datos abiertas en un solo archivo utilizando el
men Workspace Save as

_______________________________________________________________

______________________________________________________________________


3 GESTIN DE BASES DE DATOS

El men Data permite gestionar y manipular las bases de datos. En particular permite
editar los factores de las variables categricas, recodificar y transformar variables, ordenar y
transponer bases de datos, fundir archivos y seleccionar un subconjunto de datos.

3.1 Recodificar variables

Recodificar una variable consiste en asignar una nueva codificacin a sus valores originales,
o agrupar rangos de valores existentes en nuevos valores, de manera que se modifica su
codificacin original.

Las variables se recodifican desde el men Data Recode Variables. Se pueden
recodificar en las mismas variables o en variables nuevas (Target).

En la pestaa Define Recode podemos definir cmo queremos hacer la recodificacin:

El panel de la izquierda muestra informacin sobre las variables que puede ser til
para la recodificacin. Para las variables numricas se muestra una tabla de
percentiles y para las variables categricas una tabla de frecuencias.

En el panel de la derecha (Code) se especifica la recodificacin.

_______________________________________________________________

______________________________________________________________________


Un valor se puede recodificar como dato faltante (missing) indicando NA en el campo
correspondiente.

3.2 Fundir archivos

Podemos encontrarnos en la situacin de tener recogidos los datos en bases diferentes y
deseamos unificar toda esta informacin en una sola. Se pueden dar dos situaciones:

Los individuos (filas) estn en bases diferentes, o bien

Las variables (columnas) estn en bases de datos diferentes.

En ambos casos lo que se pretende hacer es fusionar los archivos. En el primer caso se
aadirn nuevas filas de individuos. Para ello es necesario que el nuevo individuo tenga las
mismas caractersticas (variables) que el resto de individuos. En caso contrario se imputar
un valor perdido en aquellas variables en las que difiera.

En el segundo caso se crearn nuevas columnas de datos. Si las nuevas columnas son de
diferente longitud a las ya existentes, se rellenar los espacios en blanco con valores
faltantes (missings) hasta obtener una matriz de datos rectangular.

_______________________________________________________________

______________________________________________________________________


3.2.1 Aadir casos

Consiste en combinar archivos que contienen las mismas variables pero casos diferentes. A
partir del men Data Merge Data podemos seleccionar las dos bases de datos que
queremos combinar (tienen que ser bases de datos abiertas).

La siguiente pantalla nos indica las variables que aparecen en las dos bases de datos y las
que estn desemparejadas. La opcin Auto-Pair nos permite emparejar variables que no
tienen el mismo nombre. Para aadir casos debemos seleccionar todas las variables
comunes y ponerlas en el recuadro Match Cases By.

_______________________________________________________________

______________________________________________________________________


Observacin: las variables que aparecen en las dos bases de datos tienen que ser
del mismo tipo.

3.2.2 Aadir variables

Para aadir variables resulta interesante tener una variable que sirva de identificador dentro
de cada base de datos. A partir del men Data Merge Data podemos seleccionar las
bases de datos que vamos a fusionar, el nombre de la nueva base de datos y en la siguiente
ventana indicar cul es nuestra variable clave:

Identificacin de
variables comunes en
las dos bases de datos
_______________________________________________________________

______________________________________________________________________


3.3 Transformar variables

El men Data Transform proporciona una gran variedad de opciones para transformar
y reescalar variables:

o Center: Reescala las variables para que tengan media 0.
o Standardize: Reescala las variables para que tengan media 0 y desviacin estndar 1.
o Robust Standardize: Reescala las variables para que tengan media 0 y desviacin
absoluta mediana 1.
o Range: Transforma la variable para que tome valores entre 0 y 1.
o Box-cox: Transforma la variable para intentar obtener una distribucin normal.
o Rank: Reemplaza los valores por su rango.
o Log: Devuelve el logaritmo neperiano (para valores mayores que 0).
o Square root: Devuelve la raz cuadrada.
o Absolute value: Devuelve el valor absoluto.
o Quantiles: Divide la variable en grupos con el mismo nmero de observaciones.
o Equal width: Divide la variable en grupos con intervalos de la misma amplitud.
o Custom: Permite definir transformaciones personalizadas.
Parte relativa
a la Base de
Datos ADL2
Parte relativa
a la Base de
Datos ADL1
Variable
identificadora
de casos
_______________________________________________________________

______________________________________________________________________


4 VALIDACIN DE LA BASE DE DATOS

Antes de realizar cualquier anlisis hace falta hacer un ejercicio de validacin de la base
de datos.

En primer lugar hace falta detectar si hay variables que toman el mismo valor para
todos los individuos, as como variables que no contienen valores.

En segundo lugar hace falta detectar posibles errores en las variables, esto quiere
decir encontrar rangos de valores y algunos estadsticos descriptivos para las
variables cuantitativas, y tablas de frecuencias para las variables cualitativas.

Finalmente hara falta validar la consistencia interna de los datos. As, por
ejemplo, en datos de encuesta es validar la congruencia de las respuestas en el
sentido que si un individuo responde una determinada opcin en una pregunta,
entonces slo puede responder unas opciones concretas de otras.

Para poder llevar a cabo este proceso hace falta conocer bien la encuesta de donde
provienen los datos.

Ejercicios

Ajuntar las bases de datos ADL1, ADL2 y ADL3 en una misma base de datos (ADL123) y
validar la nueva base de datos.

Definir correctamente el tipo de variables en la pestaa Type de Variable View y
crear etiquetas para las variables categricas:

o Hospital (A y B)
o Group (1=Control, 2=Treatment)
o Gender (1=Male, 2=Female)
o Risc factors (1=Yes, 2=No)
Crear una variable indicadora del nmero de factores de riesgo por individuo.

Cdigo en R para generar la variable nmero de factores de riesgo:

ADL123$ RiskFactors <- (ADL123$diabetic=="Yes") +
(ADL123$hypertns=="Yes") + (ADL123$afib=="Yes") +
(ADL123$priorstr=="Yes") + (ADL123$smoker=="Yes") +
(ADL123$psd=="Yes")

Recodificar la variable LOS en tres categoras (funcin quartiles).
_______________________________________________________________

______________________________________________________________________


5 ANLISIS DESCRIPTIVO

5.1 Introduccin

Plantearse algunas preguntas preliminares puede ayudar a distinguir qu tiene sentido y qu
no:

Conocer la fuente de donde provienen los datos nos puede informar de su calidad.

Saber si la informacin de que disponemos es completa en el sentido que sea
posible extraer conclusiones y no slo impresiones. La base de datos ms fina
puede inducir a error si no estn actualizados los posibles cambios de medida en la
obtencin de los datos.

Plantear qu pueden ilustrar los datos.

La ESTADSTICA DESCRIPTIVA es un conjunto de mtodos e ideas para organizar y
describir los datos mediante grficos y medidas de resumen numricas.

5.2 Estadsticos resumen

Como hemos visto en los apartados previos, las variables pueden ser diferenciadas segn:

o CUALITATIVAS o CATEGRICAS

o CUANTITATIVAS

Las variables tambin las clasificamos en funcin del papel que tenga en el anlisis:

o Variable Respuesta (variable de inters, Y). Mide el resultado del estudio.

o Variables Explicativas (X). Variables de control que contribuyen a explicar su
comportamiento.

_______________________________________________________________

______________________________________________________________________


5.2.1 Variables cualitativas

Para resumir una variable cualitativa o cuantitativa de valores enteros utilizaremos las
Tablas de Frecuencias.

El nmero de veces que se repite un valor en una variable es la frecuencia
absoluta, f
a
. Si n es el total de individuos, entonces f
a
/ n es su frecuencia
relativa.

La frecuencia acumulada es la suma de frecuencias absolutas hasta un
determinado valor una vez ordenados de forma creciente los valores de la variable
(ordinal o cuantitativa con valores enteros).

La distribucin de una variable es el conjunto de valores juntamente con sus
frecuencias (absolutas o relativas).

En Deducer podemos obtener las frecuencias a travs del men Analysis Frequencies:

El botn de opciones permite modificar el nmero de dgitos para los porcentajes que
aparecern en los resultados (el valor predeterminado es una cifra decimal).

_______________________________________________________________

______________________________________________________________________


Tras aceptar los resultados aparecen en la consola en formato de texto:

$gr oup
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - Fr equenci es - -
- - - -
Val ue # of Cases %Cumul at i ve %
1 Cont r ol 46 46 46
2 Tr eat ment 54 54 100
- - - -
- - Case Summar y - -
- - - -
Val i d Mi ssi ng Tot al
# of cases 100 0 100
- - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Para cada variable seleccionada obtenemos la tabla de frecuencias con las frecuencias
absolutas (# of Cases) y relativas (%) y las frecuencias absolutas acumuladas (Cumulative
%). Tambin aparece una tabla resumen con el nmero total de casos vlidos y de valores
perdidos (missing).

Por defecto el formato de los resultados no es fcilmente exportable. Es aconsejable
instalar el paquete Deducer Richoutput que genera resultados en formato HTML. Para
instalar este paquete ejecutar el siguiente cdigo:
install.packages("DeducerRichOutput", repos="http://R-Forge.R-project.org")
y cargar el paquete desde el men Package Manager.

_______________________________________________________________

______________________________________________________________________


5.2.2 Variables cuantitativas

Para las variables cuantitativas, en las que puede haber un gran nmero de valores
observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a las
siguientes preguntas:

1. Alrededor de qu valor se agrupan los datos?

2. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy
concentrados? muy dispersos?

5.2.2.1 Medidas de localizacin

Se utilizan para resumir las caractersticas ms relevantes de los datos. Podemos utilizar:

o Media ( X ): centro de masas
o Mediana: punto medio
o Moda: el valor ms repetido

La media se sita en el punto de equilibrio del histograma de una variable cuantitativa:

La Media y la Mediana coinciden si la distribucin es simtrica. Si no coinciden, es
preferible la mediana (es menos sensible a datos extremos).

Otras medidas de resumen son los Cuartiles, tres valores que dividen la distribucin en
cuatro partes.

_______________________________________________________________

______________________________________________________________________


5.2.2.2 Medidas de dispersin

Sirven para resumir la dispersin. Las ms habituales son:

o Rango = max min
o Rango Intercuartil = Q3 Q1
o Varianza (S
2
): una medida de la dispersin entorno de la media.
o Desviacin estndar (S)

Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida
relativa de variabilidad. Se define para variables cuantitativas no negativas como el cociente
entre la desviacin estndar y la media:

X
S
CV =

Este coeficiente es invariante para cambios de escala.

En Deducer podemos obtener los estadsticos de resumen a travs del men Analysis
Descriptives:

En el recuadro Stratify By podemos indicar una variable categrica para obtener los
estadsticos para cada una de las categoras de esta variable.

_______________________________________________________________

______________________________________________________________________


Al hacer clic en Continue aparece una nueva ventana donde podemos seleccionar los
estadsticos deseados:

En caso de desear un estadstico que no aparece en la lista se puede solicitar mediante
programacin en la pestaa Custom.

Ejemplo: Funcin para calcular el Coeficiente de Variacin (CV).

Observacin: Las funciones personalizadas no funcionan cuando tenemos activado el
DeducerRichOutput.
_______________________________________________________________

______________________________________________________________________


5.3 La representacin grfica ms adecuada

Los grficos se encuentran en el men Plots. La manera ms sencilla de representar
grficos es a partir del generador de grficos (Plot Builder). Al seleccionar esta opcin
aparece una ventana interactiva que nos permite ver una presentacin preliminar del
aspecto que tendr un grfico.

Desde el mismo generador de grficos se pueden guardar los grficos a partir del men
File Save. Tambin se pueden crear Nuevas plantillas (Templates) para ser
compartidas entre usuarios sin la necesidad de hacer ningn tipo de codificacin.

Observacin: Es recomendable tener instalado el paquete ggplot2 para poder acceder a
una mayor variedad de templates.

Algunos de los grficos se pueden construir de manera interactiva a travs del men Plots
Interactive. Este tipo de grficos permite editar algunos aspectos de grfico (colores,
ejes, etc.) de forma interactiva.

_______________________________________________________________

______________________________________________________________________


5.3.1 Variables cualitativas

Se representan las frecuencias o porcentajes de las diferentes categoras. Se pueden utilizar
diagramas de barras o grficos de sectores.

5.3.1.1 Diagrama de barras

A partir del generador de grficos (Plot Builder) podemos seleccionar el tipo de grfico
deseado:

Al seleccionar el grfico de barras se abre una nueva ventana donde indicaremos la variable
categrica que queremos representar. El grfico de barras para la variable travel es el
siguiente:

_______________________________________________________________

______________________________________________________________________


Si utilizamos el men de grficos interactivos podremos convertir el grfico resultante en
un grfico de espinas (spine plot):

_______________________________________________________________

______________________________________________________________________


5.3.1.2 Grficos de sectores

En un grfico de sectores el rea de cada sector es proporcional a su frecuencia. Este tipo
de grfico no se puede obtener de manera automtica en la versin de Deducer para
Windows, pero s mediante cdigo:

slices <- c(41,39,11,9)
lbls <- c("0","1","2","3")
pie(slices, labels = lbls, main="Risc factors")

En un diagrama de sectores es siempre necesario incorporar la frecuencia de cada
categora.

pct <- round(slices/sum(slices)*100)
lbls <- paste(lbls, pct) # add percents to labels
lbls <- paste(lbls,"%",sep="") # ad % to labels
pie(slices,labels = lbls, main="Risc factors")

_______________________________________________________________

______________________________________________________________________


5.3.2 Variables cuantitativas

Para las variables cuantitativas se describe el patrn general de la distribucin de las
variables y permiten detectar outliers.

5.3.2.1 Histograma

El histograma permite representar variables cuantitativas una vez agrupados los valores en
clases. Representa las frecuencias y las clases de una variable cuantitativa. Las clases deben
formar un sistema exhaustivo y excluyente.

Al seleccionar la opcin histogram del generador de grficos (o a partir del men Plot
Proc Templates Histogram) obtenemos la siguiente representacin de la variable
edad:

Seleccionando la opcin simple dotplot obtenemos un grfico similar donde las barras
del histograma estn formadas por bolas.

_______________________________________________________________

______________________________________________________________________


5.3.2.2 Diagrama de caja

Un diagrama de caja es un grfico basado en los valores mnimo y mximo y los cuartiles
(Q1, Q2 o mediana y Q3). Informa sobre la existencia de valores atpicos y la simetra de la
distribucin:

5.3.2.3 Grfico de serie temporal

Un grfico de serie temporal representa la evolucin de una variable a lo largo del tiempo.
Para una mejor interpretacin en grficos de series temporales es mejor poner la variable
temporal en el eje horizontal:

Mnimo
Mximo
Mediana
Q1
Q3
_______________________________________________________________

______________________________________________________________________


5.4 Medidas de asociacin

El principal objetivo cuando se tienen dos o ms variables est en medir la posible
asociacin entre ellas.

La relacin Causa-Efecto

Muchas veces es fuente de interpretaciones errneas de los resultados. En estadstica,
generalmente, se busca analizar si ciertos factores presentan un efecto sobre una
determinada variable respuesta. No siempre se puede asegurar que la causa de este efecto
sea el factor.

Ejemplo: Tenemos dos grupos de personas en situacin de paro. El primer grupo realiza
un curso de formacin y la mayora de ellos consigue un trabajo. En el segundo grupo no
se realiza el curso y la mayora no consigue un trabajo.

Podemos afirmar que hacer el curso mejora las condiciones a la hora de encontrar trabajo?

Depende del entorno de recogida de datos. Para poder afirmar esta implicacin se
necesitara que las dos muestras fuesen homogneas, en un sentido socio-econmico.
Esto es, ambos grupos deberan ser iguales de emprendedores, con iniciativa y con un
perfil sociolgico similar. Por ejemplo, podra ser el caso que en el primer grupo todos sus
componentes fueran jvenes con muchas ganas de trabajar; el segundo grupo sin embargo
podra estar formado por personas mayores poco motivadas y sin estudios.

_______________________________________________________________

______________________________________________________________________


Establecer una relacin causal no es nada simple. Raramente A es la causa de B.
Fumar, por ejemplo, es slo una causa que contribuye a desarrollar cncer de pulmn; es
una de las causas que aumenta la probabilidad de cncer.

Freedman remarc que las demostraciones estadsticas de causa-efecto estaban basadas en
hiptesis que a menudo no estaban validadas correctamente.

Freedman, D. (1999). "From Association to Causation: Some Remarks on the History of
Statistics," Statistical Science, 14, 243-258.

5.4.1 Dos variables cualitativas

Para variables CUALITATIVAS la asociacin entre ellas se analiza a partir de la Tabla de
Contingencia (men Analysis Contingency Tables).

Ejemplo: relacin entre el nmero de factores de riesgo y el sexo.

_______________________________________________________________

______________________________________________________________________


female male
Marginal
fila
0
11 5 16
n
1.

1
18 19 37 n
2.

2
21 14 35 n
3.

3
4 8 12 n
4.

Marginal columna
54 46 100

n
.1
n
.2
N

A partir de esta tabla se definen los perfiles fila y columna:

o Frecuencia relativa conjunta = n
ij
/ n
o Perfil fila i = {n
ij
/ n
i.
per j=1,..J}
o Perfil columna j = {n
ij
/ n
.j
per i=1,..I}

Para obtener estos perfiles debemos seleccionar los porcentajes fila (Row) o columna
(Column) en el botn Cells:

_______________________________________________________________

______________________________________________________________________


Perfil fila

Perfil columna

Representacin grfica: grfico de barras agrupado.

_______________________________________________________________

______________________________________________________________________


5.4.2 Dos variables cuantitativas

Un primer paso es la representacin grfica de ambas variables simultneamente. Para
variables CUANTITATIVAS se utiliza el Diagrama de dispersin:

Una medida numrica para la asociacin lineal entre variables QUANTITATIVAS es el
coeficiente de correlacin ():

X X
XY
S S
S
=

donde Sxy es la covarianza entre las variables.

El coeficiente de correlacin mide el grado de asociacin lineal entre variables.

_______________________________________________________________

______________________________________________________________________


Relacin entre los valores del coeficiente de correlacin y el grfico de dispersin de las
variables:

R

= 0.00 R

= 0.10

X1
13 12 11 10 9 8 7
Y
3
2
1
0
-1
-2
-3
-4
X2
13 12 11 10 9 8 7
Y
3
2
1
0
-1
-2
-3
-4
_______________________________________________________________

______________________________________________________________________


R

= 0.20

R

= 0.50

R

= 0.90

R

= 0.99

R

= 0.60

R

= 0.01

X3
13 12 11 10 9 8 7
Y
3
2
1
0
-1
-2
-3
-4
X4
14 12 10 8 6
Y
3
2
1
0
-1
-2
-3
-4
X5
20 10 0
Y
3
2
1
0
-1
-2
-3
-4
X6
40 30 20 10 0 -10 -20 -30
Y
3
2
1
0
-1
-2
-3
-4
X7
22 20 18 16 14 12 10 8
Y
3
2
1
0
-1
-2
-3
-4
X8
22 20 18 16 14 12 10 8
Y
3
2
1
0
-1
-2
-3
-4
_______________________________________________________________

______________________________________________________________________


6 INFERENCIA PARA UNA POBLACIN

6.1 Introduccin

Despus de llevar a cabo un anlisis descriptivo de los datos el objetivo es poder
generalizar los resultados para conjuntos ms grandes de individuos as como poder sacar
conclusiones a partir de los datos.

La PROBABILIDAD permite calibrar el poder de nuestras conclusiones.

Poblacin: conjunto completo de individuos para los cuales se desea obtener informacin.

Muestra: subconjunto de individuos de la poblacin para los cuales realmente se obtiene la
informacin de inters.

OBSERVACIN: la poblacin est definida a partir de nuestro deseo de conocimiento.

Los resultados obtenidos en una muestra sern extrapolables a la poblacin de referencia
si la muestra cumple dos caractersticas fundamentales:

Fiabilidad (Precisin): la fiabilidad de una muestra est vinculada a la precisin de
sus resultados, es decir, al tamao de muestra.

Validez (Sesgo): la validez de una muestra se refiere a que la muestra no
presente sesgos, es decir errores de medida sistemticos atribuibles a otra causa
distinta del azar.

Un buen diseo del experimento permitir controlar las posibles fuentes de sesgo y
asegurar la validez del estudio.

o Una muestra representativa debe ser fiable y vlida.
o No confundir muestra significativa con muestra representativa.
o Una muestra de 20.000 individuos no tiene porque ser representativa de nada a no
ser que se compruebe su validez, aunque seguramente sea suficientemente fiable.
o En una muestra de 10 individuos los resultados sern poco fiables aunque
seguramente la muestra sea suficientemente vlida.

_______________________________________________________________

______________________________________________________________________


La Estadstica es una herramienta que permite describir y cuantificar las evidencias
observadas en una muestra intentando diferenciar entre lo que podra haber sucedido por
azar y lo que podra atribuirse a otras causas (de inters).

Inferir significa sacar conclusiones de los datos teniendo en cuenta la variacin
debida al azar.

6.2 Variables aleatorias

Los datos que habitualmente se analizan provienen de un experimento aleatorio:

Un experimento aleatorio o estocstico es aquel que bajo las mismas
condiciones puede producir resultados diferentes pero con una distribucin regular
de resultados para un nmero grande de repeticiones. Un ejemplo de experimento
aleatorio es el lanzamiento de un dado.

Un experimento es no aleatorio o determinista si bajo las mismas condiciones
siempre conduce a un mismo resultado. Un ejemplo son las frmulas fsicas: Fuerza
= Masa * Aceleracin.

Las variables aleatorias son aplicaciones que transforman los resultados de un
experimento aleatorio en nmeros con el fin de poder realizar las operaciones ms usuales,
luego todos los resultados de un experimento aleatorio quedan recogidos en una variable
aleatoria.

Antes de realizar cualquier inferencia estadstica es necesario identificar la distribucin de
probabilidad (la forma) de la variable aleatoria que se pretende analizar.

Algunos instrumentos para ello son:

o Histograma, diagrama de caja, rango de la variable.
o Grficos de cuartiles (Q-Q plot) o grfico de probabilidades (P-P plot).
o Pruebas de ajuste a una distribucin (Test de Shapiro Wilk / Kolmogorov-
Smirnoff).

_______________________________________________________________

______________________________________________________________________


6.3 Estimacin de parmetros

Un parmetro es un nmero que describe una caracterstica de la poblacin. En la prctica
los valores de los parmetros son desconocidos.

Un estadstico es un nmero que se calcula a partir de los datos de una muestra de la
poblacin. En la prctica se utilizan los estadsticos para estimar los parmetros de la
poblacin.

Un estimador es cualquier funcin de una muestra, esto es un estadstico es un estimador
puntual.

Debemos observar que un estimador es una variable aleatoria mientras que una
estimacin es un valor del estimador.

_______________________________________________________________

______________________________________________________________________


6.3.1 Estimacin puntual

Una estimacin puntual es el valor del estimador dada una muestra concreta. Los
estimadores puntuales ms frecuentemente utilizados son:

o Media muestral:

o Variancia muestral:

o Proporcin:

A los estimadores bsicamente se les requiere dos propiedades:

Sin sesgo, es decir que no se encuentren muy alejados del valor real del parmetro
que estiman, y

de mnima varianza posible, es decir que las distintas estimaciones estn prximas
entre s.

n
Xi
X
n
i
=
=
1
( )
1
1
2
2
=
n
X X
S
n
i
i
p

_______________________________________________________________

______________________________________________________________________


6.3.2 Intervalos de confianza

En inferencia estadstica uno de los instrumentos ms comunes para estimar el valor de un
parmetro de la poblacin son los intervalos de confianza.

Un intervalo de confianza del C% para un parmetro es un intervalo de valores calculado
a partir de los datos de la muestra utilizando un mtodo que tiene una probabilidad C de
que dicho intervalo contenga el verdadero valor del parmetro.

El parmetro poblacional pertenece al intervalo calculado con una confianza del
C%.

La media muestral y la desviacin estndar son buenos estimadores puntuales de la media y
la desviacin estndar de la poblacin.

Dado que los datos son las observaciones de una variable aleatoria, estos estimadores son a
la vez variables aleatorias. Por lo tanto tienen una determinada distribucin, que en el caso
de la media es la distribucin Normal.

As pues podemos calcular un intervalo de valores [a,b] tales que
Grficamente: para una normal tipificada (media = 0 y desviacin = 1), un intervalo de
confianza del 95% se puede representar como:

La probabilidad de que una variable normal tipificada tome valores en el intervalo
[-1.96, 1.96] es del 95%.

c b X a P = s s ) (
_______________________________________________________________

______________________________________________________________________


Para realizar inferencia estadstica debemos interpretar los intervalos de confianza para un
parmetro a partir del siguiente grfico:

Si repetimos el experimento 100 veces o tomamos 100 muestras, en 95 ocasiones el
parmetro pertenecer al Intervalo de Confianza del 95% y en 5 ocasiones caer fuera del
intervalo.

Intervalo de confianza para la media:

Intervalo de confianza para una proporcin:

( ) o , ~N X
i |
.
|
\
|
=

=
n
N
n
X
X
n
i
i
o
, ~
1
(
+ e
n
X
n
X C I
o o
96 . 1 , 96 . 1 : %) 95 .( .
) ( ~ p Bernoulli Y
i
= =
= =
p Y P
p Y P
i
i
1 ) 0 (
) 1 (
( )
|
|
.
|
\
|

~ = =

=
n
p p
p N
n
Y
Y p
n
i
i
1
,
1
( ) ( )
(
e
n
p p
p
n
p p
p p C I
1
96 . 1 ,
1
96 . 1 : %) 95 .( .
_______________________________________________________________

______________________________________________________________________


Para obtener intervalos de confianza en Deducer debemos seleccionar el men Analysis
One Sample Test y seleccionar el Test One-sample t-test.

Observacin: Para obtener el intervalo de confianza de una proporcin debemos
instalar el paquete DeducerExtras.

Ejercicio

Calcular pos intervalos de confianza para las proporciones de las variables indicadoras de
cada uno de los factores de riesgo.
_______________________________________________________________

______________________________________________________________________


6.4 Pruebas de hiptesis

Un segundo bloque de instrumentos para la inferencia estadstica son las pruebas de
hiptesis. Estas evalan la evidencia de una afirmacin sobre la poblacin.

En estadstica una afirmacin sobre la poblacin se plantea en forma de hiptesis de
trabajo. Las dos hiptesis complementarias se llaman:

Hiptesis nula (H
0
)
Hiptesis alternativa o de investigacin (H
1
)

La hiptesis nula corresponde a la hiptesis que creemos cierta por defecto y la alternativa
corresponde a la hiptesis que se desea probar.

Las hiptesis hacen siempre referencia a los parmetros de la poblacin.

Una prueba de hiptesis es un procedimiento que especifica:

1. Para que valores muestrales la decisin ser no rechazar la hiptesis nula.
2. Para que valores muestrales la hiptesis nula ser rechazada a favor de la alternativa.

P-valor: probabilidad que, bajo H
0
, el estadstico de contraste tome un valor al menos tan
alejado como el realmente obtenido.

Cuanto ms pequeo sea el p-valor mayor es la evidencia en contra de H
0
.

Se rechazar la hiptesis nula si el p-valor es menor que el nivel de significacin
adoptado (en general 0,05).

En un contraste de hiptesis, debemos rechazar o no la hiptesis nula a favor de la
alternativa.

Deseamos que nuestra decisin sea correcta, pero a veces no lo ser. Hay dos tipos de
decisiones incorrectas:

Rechazar H
0
cuando de hecho es cierta: error de tipo I

NO rechazar H
0
cuando realmente es cierta H
1
: error de tipo II

Observacin: el error de tipo I = nivel de significacin =

_______________________________________________________________

______________________________________________________________________


En siguiente cuadro resume los tipos de errores que se pueden cometer en un contraste de
hiptesis:

El error de Tipo I es ms grave que el error de Tipo II.

Resumiendo, el esquema a seguir es:

Para llevar a cabo un contraste de hiptesis para la media debemos volver al men anterior
y definir como valor de prueba el valor que deseamos contrastar (botn de opciones del t-
test, ).

_______________________________________________________________

______________________________________________________________________


6.5 Relacin entre IC y Test de hiptesis

Cuando en una prueba estadstica se pretende comparar dos medias, el IC proporciona
informacin paralela a la proporcionada por el test de hiptesis correspondiente.

Es necesario que el nivel de confianza sea 1-, siendo el nivel de significacin del test
aplicado.

o Si el IC no contiene el 0, se rechaza H
0
: Diferencia=0.

o Si el IC no contiene el valor 2, se rechaza H
0
: Diferencia=2.

NOTA: Esta similitud es aplicable para pruebas T, o basadas en la distribucin
Normal.

6.6 Pruebas de normalidad

Para llevar a cabo un contraste de normalidad debemos seleccionar la prueba de Shapiro-
Wilk en el men de One Sample Test.

El contraste de hiptesis que realiza esta prueba es el siguiente:

H
0
: la distribucin es Normal
H
1
: la distribucin NO es Normal

En este ejemplo hemos obtenido un nivel de significacin (p-valor) de 0,001. Si fijamos el
lmite en 0,05 rechazaramos la H
0
(no podramos considerar que la distribucin de la
variable los es Normal).
_______________________________________________________________

______________________________________________________________________


La sumisin de los investigadores al p-valor

La utilizacin sistemtica del p-valor puede llevar a resultados engaosos.

EJEMPLO: Se quiere analizar la estancia en das de los turistas en Catalunya. En concreto
se desea comparar las estancias de los europeos y los procedentes de pases asiticos. Un
contraste en trminos de las diferencias se plantea como:

H
0
: d = 0 (no hay diferencia)
H
1
: d 0

El p-valor del test estadstico resulta ser p=0,02, con lo que se concluye que hay
diferencias. Es suficiente?

Necesitamos medir el tamao del efecto realizando un intervalo de confianza para la
diferencia ya que podra ser, por ejemplo, que la diferencia se situara en el intervalo (0,5 - 1)
o bien en el intervalo (10 - 15).

QUE ES UNA DIFERENCIA ESTADSTICAMENTE SIGNIFICATIVA?
(en un contraste de diferencias)

Si se obtiene un p-valor <0,05 al realizar el contraste, la diferencia es
estadsticamente significativa.

Si se obtiene un p-valor <0,05 al realizar el contraste, la diferencia no tiene porque
ser significativa.

Si en un contraste se obtiene por ejemplo un p-valor=0,03 y en otro se obtiene un
p-valor=0,42, no tiene por qu haber mayores diferencias entre grupos en el primer
caso que en el segundo.

Las diferencias pueden ser estadsticamente significativas, pero NO
estadsticamente muy significativas, ligeramente significativas o
prcticamente significativas.

Recordar que una diferencia estadsticamente significativa implica simplemente
que la diferencia no es nula.

Para que una diferencia sea significativa, sta debe ser relevante.

En los resultados de un contraste SIEMPRE hay que presentar el p-valor y el
Intervalo de Confianza de la diferencia para valorar su relevancia.

_______________________________________________________________

______________________________________________________________________


7 INFERENCIA PARA DOS POBLACIONES

7.1 Introduccin

La Inferencia Estadstica para dos poblaciones pretende generalizar los resultados y
comparar los datos de una o diversas variables respuesta medidas en dos muestras, sin
tener en cuenta otras variables (factores de riesgo).

Dos muestras independientes son aquellas para las cuales no existe ningn vnculo entre
ellas. Provienen de poblaciones independientes.

Dos muestras relacionadas son aquellas que se refieren a la misma poblacin y han
medido la misma variable respuesta.

PLANTEAMIENTO DEL PROBLEMA

En primer lugar el investigador debe identificar la naturaleza de las variables que desea
estudiar. Es decir:

Variable Respuesta: Distribucin (continua, ordinal, categrica).

Variable Explicativa: Nmero de grupos o niveles.

As cmo la idoneidad del tipo de prueba: Homogeneidad Basal, Grupos bien
balanceados.

EJEMPLO:

Se ha realizado un estudio incluyendo a 100 pacientes que han tenido una accidente
cerebrovascular. Se asigna de forma aleatoria a los pacientes, a cada uno de los dos
tratamientos. Se desea comparar la estancia de los pacientes en el hospital.
Se ha recogido la siguiente informacin:

Grupo de tratamiento, sexo, edad, das de estancia en el hospital, peso inicial y final,
diabetes, hipertensin, fibrilacin arterial, antecedente cardiovascular, fuma, presin
sistlica elevada, hbitos de viaje, hbitos de cocina y realiza tareas domsticas.

_______________________________________________________________

______________________________________________________________________


7.2 Comparar medias
7.2.1 Muestras independientes

Para comparar una variable respuesta entre dos muestras independientes cuando dicha
variable sigue una distribucin normal se utiliza la prueba T de Student (T-Test) para
muestras independientes.

La hiptesis que contrasta es:

H
0
:
1
=
2
las medias son iguales
H
1
:
1

2
las medias son diferentes

EJEMPLO (continuacin): Deseamos estudiar hay diferencias entre la estancia media de
los hombres y de las mujeres.

En primer lugar debemos contrastar si podemos asumir que la distribucin de la variable
estancia es Normal (para cada grupo).

Para llevar a cabo estos contrates debemos ir al men Analysis One Sample Test y
seleccionar la prueba de Normalidad. En el recuadro Subset indicaremos el grupo para el
cual queremos realizar el contraste y repetiremos el anlisis para el resto de grupos.

_______________________________________________________________

______________________________________________________________________


Gender==male

Gender==female

No rechazamos la hiptesis nula (p-valor > 0,05) por lo tanto podemos aceptar que la
variable los sigue una distribucin normal en cada uno de los grupos.

EJEMPLO (continuacin):

La hiptesis que deseamos contrastar es:

H
0
:
H
=
M
La estancia en el hospital es igual
H
1
:
H

M
La estancia en el hospital es diferente

Para llevar a cabo dicha prueba seleccionamos la prueba T-Test del cuadro de dilogo
anterior y obtenemos el siguiente resultado:

NOTA: La prueba realizada considera que las varianzas son distintas en los dos grupos.
En caso que querer realizar el test asumiendo que estas son iguales se puede seleccionar la
opcin Equal variance dentro de la pestaa de opciones del T-Test.

_______________________________________________________________

______________________________________________________________________


7.2.2 Prueba de igualdad de varianzas

Para determinar si las varianzas son iguales podemos realizar el siguiente contraste de
hiptesis:

H
0
:
1
=
2
Las variancias son iguales
H
1
:
1

2
Las variancias no son iguales


Para llevar a cabo este contrate debemos ir al men Extras k-sample variance test y
seleccionar la prueba de Levene.

_______________________________________________________________

______________________________________________________________________


En caso de no tener el men Extras instalado este debe cargarse desde el men Packages
and Data Package Manager y seleccionar el paquete DeducerExtras.

7.2.3 Inferencia no paramtrica

A la prctica, muchas veces no podemos aceptar la hiptesis de normalidad en los datos.
En estas situaciones se puede hacer uso de mtodos no paramtricos que no suponen
ninguna hiptesis sobre la distribucin de los datos.

variable es continua (no-normal) o bien ordinal se utiliza la prueba de suma de rangos
Wilcoxon (tambin llamada prueba U de Mann-Whitney o prueba de Mann-Whitney-
Wilcoxon).

La hiptesis que contrastan es:

H
0
: La mediana del grupo 1 es igual a la mediana del grupo 2.
H
1
: La mediana del grupo 1 NO es igual a la mediana del grupo 2.

Este test se encuentra en el mismo men Analysis Two Sample Test seleccionando la
opcin Wilcoxon.

_______________________________________________________________

______________________________________________________________________


7.2.4 Muestras relacionadas

Para comparar una variable respuesta entre dos muestras relacionadas cuando dicha
variable sigue una distribucin normal se utiliza la prueba T de Student (T-Test) para
muestras relacionadas.


H
0
:
1
=
2
H
1
:
1

2
las medias son diferentes

EJEMPLO (continuacin): A los pacientes del estudio anterior se les ha pesado antes y
despus de salir del hospital. Deseamos contrastar si hay diferencias entre el peso inicial y el
peso final. La hiptesis que deseamos contrastar es:

H
0
:
1
=
2
los pesos son iguales
H
1
:
1

2
los pesos son distintos

Para llevar a cabo dicha prueba con Deducer seleccionamos el men Analysis Paired
Test:

_______________________________________________________________

______________________________________________________________________


Para realizar una prueba no paramtrica deberamos seleccionar la opcin Wilcoxon
Signed Rank.

7.3 Variables categricas

variable es categrica se utilizan las pruebas
2
, prueba exacta de Fisher o prueba de
Razn de verosimilitud (Likelihood Ratio Test).


H
0
: La variable respuesta es independiente de la variable explicativa (Los grupos de
tratamiento son homogneos).

H
1
: La variable respuesta NO es independiente de la variable explicativa (Los
grupos de tratamiento no son homogneos).

_______________________________________________________________

______________________________________________________________________


EJEMPLO (continuacin): Deseamos estudiar si la distribucin de los factores de riesgo
es homognea en hombres y mujeres.

La hiptesis que deseamos contrastar es:

H
0
: La distribucin de los factores de riesgo es homognea en hombres y mujeres.

H
1
: La distribucin de los factores de riesgo NO es homognea en hombres y
mujeres.

Para llevar a cabo dicha prueba con Deducer seleccionamos Analysis Contingency
Tables. En el botn Statistics seleccionamos las opciones Chi-cuadrado y Likelihood:

Y obtenemos el siguiente resultado:

_______________________________________________________________

______________________________________________________________________


8 INFERENCIA PARA K POBLACIONES

8.1 Introduccin

La Inferencia Estadstica para k poblaciones generalizar los mtodos estadsticos vistos en
el apartado anterior.

Se dispone de una variable Respuesta (continua, categrica, ordinal) y una variable
Explicativa que define k grupos o categoras.

8.2 Comparar medias
8.2.1 Muestras independientes: prueba ANOVA

El anlisis de la varianza (ANOVA: Analysis of Variance) es un procedimiento estadstico
que tiene como objetivo descomponer la variabilidad observada en un ensayo experimental
en funcin de los posibles factores que han podido influir en el resultado.

Esta tcnica se utiliza en las situaciones en las que se desea analizar una variable continua
medida bajo ciertas condiciones experimentales identificadas por uno o ms factores
cualitativos. Cada factor identifica 2 o ms situaciones experimentales complementarias, y
por lo tanto distingue grupos o niveles.

Cuando hay un nico factor estudiado, el anlisis recibe el nombre de ANOVA de un
factor.

La prueba ANOVA de un factor generaliza la prueba T para dos muestras independientes.


H
0
:
1
=
2
= =
k
H
1
: Al menos una de las medias no es igual al resto

La prueba ANOVA se sustenta en los supuestos de normalidad, homocedasticidad,
independencia y aleatoriedad.

_______________________________________________________________

______________________________________________________________________


EJEMPLO (continuacin): Deseamos estudiar si existen diferencias entre la estancia
media segn el grupo de edad al cual pertenecen.

Como en el caso de comparar dos medias, en primer lugar debemos contrastar si podemos
asumir que la distribucin de la variable estancia es Normal dentro de cada grupo de edad.
Para ello, seleccionamos la preuba de normalidad de Shapiro-Wilk en el men Analysis
One Sample Test. En el recuadro Subset indicaremos el grupo para el cual queremos
realizar el contraste y repetiremos el anlisis para el resto de grupos.

_______________________________________________________________

______________________________________________________________________


age_cat == <70

age_cat == 70-74

age_cat == 75+

Se rechaza la hiptesis de normalidad para uno de los grupos de edad (age_cat = 70-74,
p_valor < 0,05).

Todo y rechazar normalidad se ha de tener en cuenta la robustez del procedimiento
ANOVA frete al incumplimiento de sus supuestos de trabajo.

La prueba ANOVA es suficientemente robusta ante la falta de normalidad en alguno de los
grupos a comparar y ante la falta de homogeneidad de variancias, siempre y cuando se
disponga de un tamao de muestra suficientemente grande (ms de 30 individuos por
grupo).


La hiptesis que deseamos contrastar es la prueba ANOVA es:

H
0
:
<70
=
70-74
=
75+
La estancia en el hospital es igual en los tres grupos de edad
H
1
: Al menos una de las medias no es igual al resto .

Para llevar a cabo dicha prueba seleccionamos la prueba K-Sample Test del men
Analysis.

_______________________________________________________________

______________________________________________________________________


Dado el p_valor obtenido, se rechaza la hiptesis nula. Existen diferencias en las estancias
medias de los diferentes grupos de edad.
_______________________________________________________________

______________________________________________________________________


NOTA: La prueba realizada considera que las varianzas son iguales en todos los
grupos. En caso que querer realizar el test asumiendo que son diferentes se ha de
seleccionar la opcin One-Way ANOVA(Welch).

Se observa que la conclusin de la prueba no ha variado. No obstante, es obvio que se debe
validar la hiptesis de homogeneidad de varianzas a priori.

8.2.2 Prueba de homogeneidad de varianzas

Para determinar si las varianzas son iguales podemos realizar el siguiente contraste de
hiptesis:

H
0
: Las variancias son iguales en todos los grupos
H
1
: Al menos un grupo presenta una variabilidad diferente al resto

En este caso utilizaremos la misma prueba que se ha visto para el caso de dos variancias la
prueba de Levene: men Extras k-sample variance test.


Veamos para el ejemplo anterior si exista homogeneidad de variancias:

_______________________________________________________________

______________________________________________________________________


Se observa que efectivamente no se rechaza la igualdad de variancias (p_valor > 0,05).
Luego, existe homoscedasticidad en los grupos.

8.2.3 Comparaciones mltiples 2 a 2

Hemos visto que el procedimiento ANOVA permite determinar si existen diferencias entre
ms de dos grupos pero no informa sobre qu grupo o grupos son los que difieren. Por
ello, tras la realizacin de la prueba ANOVA es interesante realizar las llamadas
comparaciones mltiples a posteriori o 2 a 2.

_______________________________________________________________

______________________________________________________________________


Las comparaciones mltiples consisten en contrastar simultneamente todas las parejas dos
a dos que se puedan dar.

Las hiptesis que se contrastan son:

H
0
:
1
=
2
H
1
:
1
=
2
las medias no son iguales

H
0
:
1
=
3
H
1
:
1
=
3

H
0
:
1
=
k
H
1
:
1
=
k
.
.
.
H
0
:
k-1
=
k
H
1
:
k-1
=
k

La realizacin de todas las comparaciones 2 a 2 conduce habitualmente a un elevado
nmero de comparaciones. Dichas comparaciones no son independientes las unas de las
otras y ello es necesario aplicar correcciones por multiplicidad de contrastes para
garantizar que el nivel de significacin conjunto no sea superior al 5%:

Los contrastes mltiples se encuentran dentro del men K-Sample Test en la pestaa
Pairwise.

_______________________________________________________________

______________________________________________________________________


Las comparaciones mltiples indican que las diferencias entre los grupos de edad
detectados en la prueba ANOVA anterior se dan entre el grupo de <70 y el grupo de
+75.

Finalmente, la pestaa Plots del men K-Sample Test permite obtener un grfico de cajas
para visualizar las diferencias existentes entre los grupos:

8.2.4 Inferencia no paramtrica: Prueba de Kruskal-Wallis

A la prctica, muchas veces no podemos aceptar la hiptesis de normalidad en los datos,
como por ejemplo nos ha sucedido en el ejemplo anterior. En estas situaciones se puede
hacer uso de mtodos no paramtricos que no suponen ninguna hiptesis sobre la
distribucin de los datos.

Para comparar una variable respuesta entre k muestras independientes cuando dicha
variable es continua (no-normal) o bien ordinal se utiliza la prueba de Kruskal-Wallis.


H
0
: La mediana de todos los grupos es igual
H
1
: Al menos una de las medianas no es igual al resto

Este test se encuentra en el mismo men Analysis K- Sample Test seleccionando la
opcin Kruskal-Wallis:

_______________________________________________________________

______________________________________________________________________


Dado el p_valor obtenido, se rechaza la hiptesis nula. Existen diferencias entre las
medianas de los tiempos de estancia en el hospital de los diferentes grupos de edad.

8.2.5 Muestras relacionadas

Para comparar una variable respuesta entre ms de dos muestras relacionadas se utiliza la
prueba de Friedman alternativa no paramtrica a la prueba ANOVA de medidas repetidas.


H
0
: Los rangos esperados en todas las muestras son iguales entre s
H
1
: Existe por lo menos una muestra con rango diferente al resto

Para llevar a cabo dicha prueba con Deducer seleccionamos el men Analysis Extras
Ranking analysis:

_______________________________________________________________

______________________________________________________________________


8.3 Variables categricas

Para comparar una variable respuesta categrica entre dos o ms muestras independientes
se utilizan las pruebas vistas en la seccin 7.3:
2
, prueba exacta de Fisher o prueba de
Razn de verosimilitud (Likelihood Ratio Test).

_______________________________________________________________

______________________________________________________________________


9 RESUMEN METODOLGICO

Los datos (variables) son caractersticas observables de los individuos de una poblacin.
Pueden ser:

CUALITATIVAS o CATEGRICAS: etiquetas (numrica o no) que representan
el grupo o categora a la cual pertenece un individuo.
CUANTITATIVAS: valores numricos para los que tiene sentido realizar
aritmtica.

En estadstica, las variables tambin las clasificamos en funcin del papel que tienen dentro
del anlisis de un determinado proyecto:

Variable Respuesta: variable que queremos explicar en el anlisis.
Variables Explicativas: variables que explican la variable respuesta.

Cmo determinar qu prueba es la idnea?

Variable respuesta categrica y variable explicativa categrica:

o En general, prueba
2

o Si el nmero de casillas de la tabla de contingencia con frecuencia esperada <5
es superior al 25 %:
Si la tabla es 2x2: Test Exacto de Fisher
Si la tabla no es 2x2: Prueba de Razn de verosimilitud

Variable respuesta continua y variable explicativa categrica (2 grupos):

o Si la distribucin de la respuesta en cada grupo es Normal: T-Test.
o Si la distribucin de la respuesta en cada grupo es Normal y no hay
homogeneidad de varianzas: T-Test con la correccin de Welch.
o Si la distribucin no es normal pero es continua y simtrica: Prueba U de
Mann-Whitney.

Variable respuesta continua y variable explicativa categrica (k grupos):

o Si la distribucin de la respuesta en cada grupo es Normal: ANOVA.
o Si la distribucin de la respuesta en cada grupo es Normal y no hay homogeneidad
de varianzas: ANOVA con la correccin de Welch.
o Si la distribucin no es normal pero es continua y simtrica: Prueba de Kruskal-
Wallis.

_______________________________________________________________

______________________________________________________________________


Cmo determinar si las pruebas T-Test o ANOVA son correctas?

Normalidad de la variable respuesta en cada grupo:

o Estudio grfico
o Prueba de Shapiro-Wilk

Homogeneidad de varianzas:

o Estudio grfico
o Prueba de Levene

_______________________________________________________________

______________________________________________________________________


10 BIBLIOGRAFA

Fellows I (2012). Deducer: An R Graphical User Interface (GUI) for Everyone. Version
2012-01-05, URL www.Deducer.org/manual.html

Wickham H (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag, New
York.

En la siguiente pgina web se puede encontrar ayuda sobre ejemplos de cdigo en R para
usuarios de R que se pueden implementar en Deducer.

www.statmethods.net

Manual Curs Deducer

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Manual Curs Deducer

Uploaded by

Copyright:

Available Formats

Lloren Badiella.

Director del Servei dEstadstica Aplicada

Manual de Introduccin a Deducer

You might also like