Professional Documents
Culture Documents
Tablas cruzadas
Chi Cuadrado
Lambda
Tablas cruzadas
Chi Cuadrado
Lambda
Nominal
Ordinal
Intervalar o de
razn
Medias
Prueba t
ANOVA
Tablas cruzadas
Chi Cuadrado
Lambda
Tablas cruzadas
Chi Cuadrado
Lambda
Gamma
Tau de Kendall
d de Sommers
Medias
Prueba t
ANOVA
Intervalar o de
razn
Correlacin
r de Pearson
Regresin
-1-
La prueba Chi cuadrado que presentaremos permite establecer si existe relacin entre
escalas como las planteadas en el ejemplo.
La prueba Chi cuadrada es una prueba de carcter general que se utiliza cuando se
desea determinar si las frecuencias absolutas obtenidas en la observacin (como en la
tabla del ejemplo previo), difieren significativamente o no de las que se esperaran bajo
cierta hiptesis planteada de interrelacin de las categoras de las variables
consideradas.
-2-
Se
Total
Empeoraron
mantuvieron
poltica
Ingresos
Salud
Vivienda
Total
180
150
90
420
% en poltica
42,9%
35,7%
21,4%
100,0%
% en cambio
48,6%
34,9%
31,0%
38,5%
% del total
16,5%
13,8%
8,3%
38,5%
120
180
70
370
% en poltica
32,4%
48,6%
18,9%
100,0%
% en cambio
32,4%
41,9%
24,1%
33,9%
% del total
11,0%
16,5%
6,4%
33,9%
70
100
130
300
% en poltica
23,3%
33,3%
43,3%
100,0%
% en cambio
18,9%
23,3%
44,8%
27,5%
6,4%
9,2%
11,9%
27,5%
370
430
290
1090
% en poltica
33,9%
39,4%
26,6%
100,0%
% en cambio
100,0%
100,0%
100,0%
100,0%
33,9%
39,4%
26,6%
100,0%
Total
Total
% del total
Total
Total
% del total
Considerando los datos de la tabla previa, se puede observar que entre los que
mejoraron, es ms elevada la proporcin, respecto del total que recibi los beneficios
de una poltica de ingresos, en tanto, entre los que se mantuvieron, la proporcin que
se destaca es la de individuos que recibieron los beneficios del programa de salud.
Finalmente, los hogares que vieron desmejorar su situacin socio-econmica,
presentan proporcionalmente una mayor presencia de la poltica de vivienda que el
resto.
A los fines de corroborar si tal observacin puede sostenerse, o bien si se trata slo de
una casualidad presente en los datos de la muestra, la prueba Chi cuadrado permite
someter a contraste las siguientes hiptesis:
-3-
Ho:
Las variables son independientes entre s (es decir, no tienen relacin)
H1:
Las variables no son independientes.
( fo fe )2
fe
Veamos los resultados que proporciona la aplicacin del mtodo, utilizando el paquete
estadstico SPSS:
-4-
Ingresos
Observados
Esperados
Salud
Observados
Esperados
Vivienda
Observados
Esperados
Total
Observados
Esperados
Se mantuvieron
Empeoraron
Total
180
150
90
420
142,6
165,7
111,7
420,0
120
180
70
370
125,6
146,0
98,4
370,0
70
100
130
300
101,8
118,3
79,8
300,0
370
430
290
1090
370,0
430,0
290,0
1090,0
Tabla de resultados:
Pruebas Chi cuadrado
Significacin
asinttica (2
Valor
GL
colas)
76,296a
,000
Razn de Verosimilitud
72,575
,000
46,957
,000
1090
-5-
5.2.1. V de Cramer
La V de Cramer es la medida basada en el estadstico Chi cuadrado ms popular de
las correspondientes a la asociacin entre variables nominales debido a que da un
indicador buen ubicado entre 0 y 1 ajustado al tamao de la tabla.
V es igual a la raz cuadrada de Chi cuadrado dividido por el tamao de la muestra por
el mnimo entre el nmero de filas menos 1 y el nmero de columnas menos 1:
2
n.k
Otras caractersticas de V:
-6-
5.2.2. Q de Kendall
El Coeficiente Q de Kendall (conocido tambin como Q de Yule) mide la asociacin
entre dos variables a nivel nominal u ordinal y se usa para tablas de contingencia de
dos columnas por dos renglones. Este indicador es un caso especial del conocido
indicador Gamma para variables ordinales.
Los valores que puede alcanzar oscilan entre - 1 y + 1; cuando es igual a -1 indicar
una completa disociacin entre las variables, y si es igual a +1 mostrar una
asociacin total.
En caso de que el valor sea igual a cero, se concluye que no hay asociacin o relacin
entre las variables, lo cual es la diferente al hecho de que exista una disociacin.
Supongamos una tabla genrica 2 x 2, con las siguientes denominaciones para las
casillas:
Variable 2
1 categora
2 categora
Total
Variable 1
1 categora
a
c
2 categora
b
d
Total
ad bc
ad bc
Cuando los productos de las diagonales son iguales, el valor de Q es cero, e indica
independencia entre las variables.
Q alcanza sus lmites, -1 1, cuando alguna de las casillas es cero.
-7-
r 1
6 d i2
n.(n 2 1)
Cantidad de elecciones
en las que vot
0
2
7
0
8
9
12
8
5
19
16
13
3
Si ordenamos cada variable de menor a mayor, podemos asignar a cada valor de cada
variable un rango correspondiente a la posicin que ocupa en la serie ordenada.
-8-
Cantidad de elecciones
en las que vot
0 (1,5)
2 (3)
7 (6)
0 (1,5)
8 (7,5)
9 (9)
12 (10)
8 (7,5)
5 (5)
19 (13)
16 (12)
13 (11)
3 (4)
2
3
6,5
1
6,5
8
10
9
4
12
13
11
5
Rango de cantidad de di
elecciones en las que
vot
1,5
3
6
1,5
7,5
9
10
7,5
5
13
12
11
4
di 2
0,5
0
0,5
-0,5
-1
-1
0
1,5
-1
-1
1
0
1
0,25
0
0,25
0,25
1
1
0
2,25
1
1
1
0
1
r 1
6.9
54
1
2
13.168
13.(13 1)
-9-
r 0,975
Interpretacin del coeficiente de correlacin de Spearman:
En el caso del ejemplo, el valor del coeficiente de correlacin indica una correlacin
positiva fuerte: a medida que es mayor la edad del ciudadano, mayor el nmero de
elecciones en las que vot.
La representacin grfica de los datos para visualizar la relacin entre el valor del
coeficiente de correlacin y la forma de la grfica es fundamental ya que podra existir
una relacin no lineal o la ausencia de relacin que prever desde el propio grfico.
- 10 -
cuando se consideren las relaciones entre dos variables debe preliminarmente partir
de su representacin grfica y luego calcular el coeficiente de correlacin.
El coeficiente de correlacin no se debe extrapolar ms all del rango de valores
considerado para su clculo ya que la relacin existente entre X e Y puede cambiar
fuera de dicho rango.
La correlacin no implica causalidad. La causalidad requiere ms informacin que un
simple valor cuantitativo de un coeficiente de correlacin y especialmente trabajarse a
partir de los modelos tericos propios de cada disciplina.
El coeficiente de correlacin de Pearson puede calcularse en cualquier grupo de
datos.
La validez del test de hiptesis sobre la correlacin entre las variables exige el
cumplimiento de los siguientes supuestos:
a. Que ambas variables correspondan a una muestra aleatoria de individuos.
b. Que al menos una de las variables tenga una distribucin normal en la
poblacin de la cual la muestra procede.
25,00
26,00
27,00
28,00
29,00
30,00
29,00
31,00
32,00
33,00
34,00
35,00
36,00
36,00
748,00
847,00
934,00
1051,00
1117,00
1310,00
1120,00
1446,00
1645,00
1845,00
2075,00
2327,00
2594,00
2500,00
- 11 -
38,00
39,00
40,00
41,00
42,00
36,00
35,00
34,00
35,00
36,00
38,00
38,00
38,00
39,00
3180,00
3320,00
3500,00
3600,00
3650,00
2670,00
2400,00
2200,00
2350,00
2800,00
2850,00
3040,00
3150,00
3400,00
X 35,89 semanas
Y 2599,20 gramos
Para el clculo del coeficiente, incluiremos las columnas auxiliares correspondientes a
los desvo y al producto de los desvos, respecto de las medias respectivas.
Tabla: datos de anlisis
Edad gestacional
(semanas)
Peso al nacer
(gramos)
XX
Y Y
( X X )(Y Y )
25,00
26,00
27,00
28,00
29,00
30,00
29,00
31,00
32,00
33,00
34,00
35,00
36,00
36,00
748,00
847,00
934,00
1051,00
1117,00
1310,00
1120,00
1446,00
1645,00
1845,00
2075,00
2327,00
2594,00
2500,00
-10,89
-9,89
-8,89
-7,89
-6,89
-5,89
-6,89
-4,89
-3,89
-2,89
-1,89
-0,89
0,11
0,11
-1851,18
-1752,18
-1665,18
-1548,18
-1482,18
-1289,18
-1479,18
-1153,18
-954,18
-754,18
-524,18
-272,18
-5,18
-99,18
20168,16
17337,40
14811,38
12222,51
10219,27
7599,40
10198,59
5644,53
3716,30
2183,16
993,19
243,53
-0,55
-10,44
- 12 -
Edad gestacional
(semanas)
Peso al nacer
(gramos)
XX
Y Y
( X X )(Y Y )
38,00
39,00
40,00
41,00
42,00
36,00
35,00
34,00
35,00
36,00
38,00
38,00
38,00
39,00
3180,00
3320,00
3500,00
3600,00
3650,00
2670,00
2400,00
2200,00
2350,00
2800,00
2850,00
3040,00
3150,00
3400,00
2,11
3,11
4,11
5,11
6,11
0,11
-0,89
-1,89
-0,89
0,11
2,11
2,11
2,11
3,11
580,82
720,82
900,82
1000,82
1050,82
70,82
-199,18
-399,18
-249,18
200,82
250,82
440,82
550,82
800,82
1222,77
2238,32
3698,09
5109,43
6415,51
7,45
178,22
756,35
222,95
21,14
528,03
928,03
1159,61
2486,74
( X X )(Y Y )
( X X ) (Y Y )
200321,16
873,58.34583089,7
r 0,9895
Observe que el valor del coeficiente de correlacin alcanza un valor muy prximo a 1,
lo cual, como indicamos previamente, significa que la relacin entre las variables es
positiva y fuerte.
Tras realizar el clculo del coeficiente de correlacin de Pearson se debe determinar si
dicho coeficiente es estadsticamente diferente de cero, o lo que es lo mismo, si ese
valor no se debi slo al azar. Para dicho clculo se aplica un test basado en la
distribucin de la t de Student. Veamos cmo analizarlo a partir de la salida de SPSS
para el ejemplo previo.
- 13 -
Correlaciones
edad_gestacional
edad_gestacional
Coeficiente de
peso_al_nacer
1
,990**
correlacin de Pearson
Sig. (2-tailed)
N
peso_al_nacer
Coeficiente de
,000
38
38
,990**
correlacin de Pearson
Sig. (2-tailed)
N
,000
38
38
La tabla de doble entrada proporciona las correlaciones entre todas las variables
numricas que se indiquen.
En este caso, para el caso del a correlacin entre la edad gestacional y el peso al
nacer, reporta un p-valor de 0,000. El cual comparado con un a convencional del 0,05,
nos hace concluir que se debe rechazar la hiptesis de no correlacin
(correspondiente a esta prueba).
- 14 -
- 15 -
Actividad:
Elabore (utilizando una hoja cuadriculada, para facilitar la adecuacin a una escala
proporcional de cada variable) la siguiente relacin:
Los siguientes datos fueron tomados de un estudio sobre las diferentes
sucursales de una marca de supermercados de la ciudad:
Sucursal
300
425
350
435
450
550
500
600
700
860
760
770
770
980
900
1100
(en
- 16 -
Sucursal
1200
1240
10
1400
1500
11
2000
2400
12
2050
2200
13
2100
2080
(en
Y X
Los coeficientes y son los que definen la recta. El coeficiente representa la
ordenada al origen, es decir, el punto en que la recta corta al eje vertical. El coeficiente
es la pendiente de la recta, el cual indica el cambio experimentado en la variable Y
cuando se produce cierto incremento en la variable X. En el ejemplo, representa el
cambio en el salario inicial ante el cambio en un ao de experiencia laboral al ingreso.
En el caso de , est indicando el salario promedio de una persona sin experiencia
laboral al ingreso (cuando X=0).
En el siguiente grfico se representa una recta que podra describir de manera general
y simplificada la relacin analizada.
- 17 -
Y X
y son constantes. La relacin especificada entre X e Y es exacta, sin embargo,
como hemos observado en el diagrama de dispersin, tal relacin podra tener algunos
desvos o perturbaciones que denominaremos trmino de error. Por lo tanto, debemos
reescribir la relacin como el valor esperado de Y que depende de valores de X:
E(Y / X ) X
- 18 -
<0
- 19 -
Bondad de ajuste
Para poder afirmar que el resultado de la regresin es adecuado, necesitamos
contar con algn indicador del grado en que la recta ajusta acertadamente a la
nube de puntos. En particular estamos pensando en un indicador del grado de
fidelidad con que la recta obtenida por el mtodo de mnimos cuadrados
describe la relacin existente entre los datos.
La medida de aplicacin ms generalizada corresponde al coeficiente de
determinacin o R2.
Este indicador corresponde al cuadrado del coeficiente de correlacin. Es una
medida estandarizada que asume valores entre 0 y 1:
0 cuando las variables son independientes
1 si la relacin captada por la recta es perfecta
El R2 nos permite medir cunto podemos explicar los valores de la variable
dependiente basndonos en el conocimiento de otras variables y de su
relacin. Mide ms precisamente, la relacin entre la variabilidad de la variable
dependiente explicada por el modelo (lo cual incluye la variable independiente
y la forma lineal de su relacin con la dependiente), respecto de la variabilidad
total de la variable dependiente.
Para el ejemplo presentado, el valor del R2 alcanza 0,83, lo cual significa que el
83% de la variabilidad del salario inicial al momento de ingreso es explicada de
manera lineal, por los aos de experiencia previos al ingreso.
Veamos un ejemplo
Analizaremos los siguiente datos relativos al promedio de las notas obtenidas
en el secundario y las notas obtenidas en la universidad por un a muestra
representativas de egresados.
- 20 -
- 21 -
Modelo
1
R
,912a
R Cuadrado
R cuadrado
Error estndar
ajustado
de la estimacin
,832
,819
,76790
- 22 -
La tabla ANOVA permite hacer una evaluacin global del modelo de regresin a travs
de la prueba F. Como puede observarse, tal como lo indica el valor de la significacin
del test, el modelo de regresin sirve en este caso para describir la relacin entre las
variables de inters.
ANOVAb
Suma de
Modelo
1
Cuadrados
cuadrados
Regresin
Residual
Total
GL
medios
37,934
37,934
7,666
13
,590
45,600
14
Sig.
,000a
64,331
Finalmente, los resultados arrojados por el modelo permiten obtener los coeficientes
de regresin.
En primer lugar, el valor estimado para la ordenada al origen es de -1,558 (aparece
referido en la primer columna de resultados, consignada como constante). Este valor
no result ser signficativamente diferente de cero, ya que el valor de la significacin es
0,157 (superior al 0,05 con que trabajamos habitualmente en este tipo de hiptesis).
Recordemos que la ordenada al origen indica el valor de la recta regresin (en
particular de la variable dependiente) cuando la variable independiente vale 0.
Coeficientesa
Coeficientes
Coeficientes no estandarizados
Modelo
1
B
(Constante)
Error estndar
-1,558
1,036
1,224
,153
notas_secundario
estandarizados
Beta
,912
Sig.
-1,503
,157
8,021
,000
- 23 -
- 24 -
- 25 -