You are on page 1of 5

Tarea 2 - Anlisis de Datos Categricos: Pruebas de

Independencia y Homogeneidad
Grupo Pearson
06 de octubre de 2015

Enunciado
Buscar un ejemplo donde se aplique la prueba de independencia y otro ejemplo donde se aplique la prueba de
homogeneidad. Analice los residuales en cada caso.

1. Prueba de independencia
Descripcin del caso
Para el ejemplo tomamos informacin de la base de datos del Latinobarmetro correspondiente al ao 2013,
estudio de ciencias polticas en Amrica Latina. Se aplica la prueba de independencia debido a que la tabla
ha sido construida en base a solo una muestra, la correspondiente a Per.
Se consult a los encuestados su opinin sobre la imagen de progreso del Pas. Las alternativas dadas fueron
que el pas est progresando, que est estancado y que est en retroceso.
En la tabla se consideran dos variables: La opinin sobre la imagen de progreso del pas y el grupo de edad
del encuestado.
Opinin <- c("Est progresando", "Est estancado", "Est en retroceso")
GrupodeEdad <- c("16-25","26-40", "41-60", "61 y ms")
TablaOpinin <- expand.grid(Opinin = Opinin, GrupodeEdad = GrupodeEdad)
data <- c(138,109,34,184,180,55,111,158,56,53,61,36)
TablaOpinin <- cbind(TablaOpinin, Frecuencia = data)
TablaOpinin <- xtabs(Frecuencia ~ GrupodeEdad + Opinin, TablaOpinin)
TablaOpinin
##
Opinin
## GrupodeEdad Est progresando Est estancado Est en retroceso
##
16-25
138
109
34
##
26-40
184
180
55
##
41-60
111
158
56
##
61 y ms
53
61
36
Prueba de Hiptesis
H0: No existe relacin entre el grupo de edad del encuestado y su opinin sobre la imagen de progreso del
pas.
H1: S existe relacin entre el grupo de edad del encuestado y su opinin sobre la imagen de progreso del pas.

library(vcd)
## Warning: package 'vcd' was built under R version 3.1.3
## Loading required package: grid
assocstats(TablaOpinin)
##
##
##
##
##
##
##

X^2 df
P(> X^2)
Likelihood Ratio 24.339 6 0.00045234
Pearson
25.138 6 0.00032200
Phi-Coefficient
: 0.146
Contingency Coeff.: 0.145
Cramer's V
: 0.103

El estadstico de Pearson obtenido es de 25.138, y tiene un p-value de 0.0003


El estadstico de G cuadrado obtenido es de 24.339, y tiene un p-value de 0.0005
Se rechaza la H0. Existe suficiente evidencia estadstica (estadsticos de Pearson y G cuadrado) para afirmar,
a un nivel de confianza de 95% que s existe relacin entre el grupo de edad al que pertenece una persona y la
opinin que tiene respecto de la imagen de progreso del pas.
Anlisis de residuales
A continuacin se realiza el anlisis de residuales. En primer lugar, se presentan las frecuencias esperadas
estimadas para cada celda de la tabla:
#Frecuencias esperadas estimadas
chisq.test(TablaOpinin)$expected
##
Opinin
## GrupodeEdad Est progresando Est estancado Est en retroceso
##
16-25
116.22638
121.48766
43.28596
##
26-40
173.30553
181.15064
64.54383
##
41-60
134.42553
140.51064
50.06383
##
61 y ms
62.04255
64.85106
23.10638
Respecto de esas frecuencias esperadas estimadas, se calculan los residuales de Pearson a travs de la
comparacin entre dichas frecuencias y las frecuencias observadas.
#Residuales de Pearson
chisq.test(TablaOpinin)$resid
##
Opinin
## GrupodeEdad Est progresando Est estancado Est en retroceso
##
16-25
2.0196598
-1.1329610
-1.4114100
##
26-40
0.8123683
-0.0854907
-1.1879422
##
41-60
-2.0204522
1.4754325
0.8389659
##
61 y ms
-1.1480115
-0.4782139
2.6823089
2

Dado que los residuales calculados no estn estandarizados de manera que se pueda identificar qu residuales
son grandes o no, se calcula a continuacin los residuales estadarizados de Pearson.
#Residuales estandarizados de Pearson
chisq.test(TablaOpinin)$stdres
##
Opinin
## GrupodeEdad Est progresando Est estancado Est en retroceso
##
16-25
3.0236931
-1.7239361
-1.7592562
##
26-40
1.3225751
-0.1414598
-1.6101973
##
41-60
-3.1021827
2.3024216
1.0724561
##
61 y ms
-1.6051387
-0.6795715
3.1224215
Como se aprecia, la magnitud de los residuales se distribuye ms o menos homogneamente en la tabla,
variando entre -1.75 y 1, a excepcin de dos celdas con residuales de -0.14 y -0.06.
Se aprecia que tres celdas son las que presentan residuales ms pronunciados y, por ende, contribuyen ms al
rechazo de la hiptesis nula: las celdas correspondientes a una imagen de que el pas est progresando por
parte de los grupos de edad 16-25 aos y 41-60 aos, as como la celda correspondiente a la opinin de que el
pas est en retroceso por parte del grupo de edad de 65 aos a ms. Estas tres celdas tienen residuales de
alrededor de -3 o 3, siendo los ms grandes valores de la tabla de residuales.

2. Prueba de homogeneidad
Descripcin del caso
Para el ejemplo tomamos informacin de la base de datos del Latinobarmetro correspondiente al ao 2013,
estudio de ciencias polticas en Amrica Latina. Se aplica la prueba de independencia debido a que la tabla
ha sido construida en base a ms de una muestra, una por cada pas de inters.
Se consult a los encuestados su grado de satisfaccin con el funcionamiento de la democracia.
En la tabla se consideran dos variables: El pas de procedencia del encuestado y el grado de satisfaccin con
el funcionamiento de la democracia.
Satisfaccin <- c("Muy satisfecho","Satisfecho", "Insatisfecho", "Muy insatisfecho")
Pas <- c("Bolivia", "Colombia", "Ecuador", "Per")
Tabla.Democracia <- expand.grid(Satisfaccin = Satisfaccin, Pas = Pas)
data <- c(89,366,549,135,49,291,592,218,142,569,373,77,31,266,656,154)
Tabla.Democracia <- cbind(Tabla.Democracia, Frecuencia = data)
Tabla.Democracia <- xtabs(Frecuencia ~ Pas + Satisfaccin, Tabla.Democracia)
Tabla.Democracia
##
Satisfaccin
## Pas
Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho
##
Bolivia
89
366
549
135
##
Colombia
49
291
592
218
##
Ecuador
142
569
373
77
##
Per
31
266
656
154

Prueba de hiptesis
H0: El comportamiento de las proporciones del grado de satisfaccin con el funcionamiento de la democracia
es similar en los 4 pases estudiados.
H1: El comportamiento de las proporciones del grado de satisfaccin con el funcionamiento de la democracia
no es similar en los 4 pases estudiados.
assocstats(Tabla.Democracia)
##
##
##
##
##
##
##

X^2 df P(> X^2)


Likelihood Ratio 391.58 9
0
Pearson
391.79 9
0
Phi-Coefficient
: 0.293
Contingency Coeff.: 0.281
Cramer's V
: 0.169

El estadstico de Pearson hallado es de 391.79, con un p-value de 0.


El estadstico de G cuadrado hallado es de 391.58, con un p-value de 0.
Se rechaza la hiptesis nula. Existe suficiente evidencia estadstica para afirmar, a un nivel de confianza
del 95% que el comportamiento de las proporciones del grado de satisfaccin con el funcionamiento de la
democracia no es similar en los 4 pases estudiados.
Anlisis de residuales
A continuacin se realiza el anlisis de residuales. En primer lugar, se presentan las frecuencias esperadas
estimadas para cada celda de la tabla:
#Frecuencias esperadas estimadas
chisq.test(Tabla.Democracia)$expected
##
Satisfaccin
## Pas
Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho
##
Bolivia
77.73294
372.9181
542.3810
145.9680
##
Colombia
78.48365
376.5196
547.6190
147.3777
##
Ecuador
79.23436
380.1211
552.8571
148.7874
##
Per
75.54905
362.4411
527.1429
141.8670
Respecto de esas frecuencias esperadas estimadas, se calculan los residuales de Pearson a travs de la
comparacin entre dichas frecuencias y las frecuencias observadas.
#Residuales de Pearson
chisq.test(Tabla.Democracia)$resid
##
Satisfaccin
## Pas
Muy satisfecho
##
Bolivia
1.2779331
##
Colombia
-3.3280640
##
Ecuador
7.0512342
##
Per
-5.1253545

Satisfecho Insatisfecho Muy insatisfecho


-0.3582474
0.2842126
-0.9078146
-4.4072943
1.8965196
5.8173644
9.6877375
-7.6492918
-5.8852506
-5.0657454
5.6123447
1.0186543
4

Dado que los residuales calculados no estn estandarizados de manera que se pueda identificar qu residuales
son grandes o no, se calcula a continuacin los residuales estadarizados de Pearson.
#Residuales estandarizados de Pearson
chisq.test(Tabla.Democracia)$stdres
##
Satisfaccin
## Pas
Muy satisfecho
##
Bolivia
1.5286608
##
Colombia
-3.9874444
##
Ecuador
8.4619476
##
Per
-6.1024383

Satisfecho Insatisfecho Muy insatisfecho


-0.5043835
0.4534298
-1.1226150
-6.2151236
3.0305684
7.2054308
13.6836612 -12.2430664
-7.3013114
-7.0990069
8.9122550
1.2538253

Como se aprecia, existen diferencias apreciables en la magnitud de los residuales estandarizados hallados. En
particular, los residuales asociados al caso boliviano son los menores, ubicndose entre -1.12 y 1.5, mientras
que los residuales asociados al caso ecuatoriano son los mayores de la tabla, llegando a valores como -12.2 y
13.7. Los casos colombiano y peruano tienen valores de residuales tambin altos (entre -6.1 y 8.9). Dado que
existen numerosos valores de residuales altos, podra considerarse fiable la conclusin de rechazar la hiptesis
nula respecto de toda la tabla, ya que en ella existen mltiples y fuertes discordancias entre las frecuencias
esperadas y las frecuencias observadas en la mayora de celdas.

You might also like