You are on page 1of 25

MODULO 4

RELACIONES ENTRE VARIABLES


Bibliografa bsica:
Aaron y Aaron (2001). Captulos 14 y 16.
Blalock (1978). Captulos XV, XVII, XVIII y XIX.

Cuando se consideran dos variables, aparecen diferentes formas de medir su posible


interrelacin.
El siguiente cuadro (adaptado de Babbie, 2000, Fundamentos de la investigacin
social, pg. 378), da una visin ordenadora de los principales indicadores que
recorreremos en este mdulo, como as tambin de algunos que exceden el alcance
de este curso, pero pueden ser tiles y deberan ser explorados en detalle, si son
requeridos en investigaciones especficas.

Cuadro: Medidas de asociacin y niveles de medicin


Variable independiente
Nominal
Ordinal
Variable
dependiente

Tablas cruzadas
Chi Cuadrado
Lambda
Tablas cruzadas
Chi Cuadrado
Lambda

Nominal
Ordinal

Intervalar o de
razn

Medias
Prueba t
ANOVA

Tablas cruzadas
Chi Cuadrado
Lambda
Tablas cruzadas
Chi Cuadrado
Lambda
Gamma
Tau de Kendall
d de Sommers
Medias
Prueba t
ANOVA

Intervalar o de
razn

Correlacin
r de Pearson
Regresin

Las pruebas indicadas para variables dependientes medidas en escala intervalar o de


razn y variables dependientes medidas en escala nominal u ordinal: diferencia de
medias - pruebas t y ANOVA, han sido estudiadas en el mdulo anterior.
El resto de los anlisis sern objeto de estudio de este mdulo, con nfasis en los
puntos que detalla el programa de la materia.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-1-

5.1. Tablas de anlisis para la relacin entre variables


5.1.1. Prueba de independencia de atributos
La prueba de independencia permite establecer si existe o no relacin entre variables
medidas en escala nominal, cada una de las cuales posea dos o ms categoras.
Veamos un ejemplo. Supongamos que desde el Ministerio de asuntos sociales, se
emprende una evaluacin del resultado de varios programas de asistencia
desarrollados por el gobierno en el ltimo mandato.
En particular, se quiere considerar el efecto sobre la mejora en la situacin
socioeconmica de las familias beneficiarias de los programas de asistencia,
diferencindolas por el tipo de beneficio recibido. Se trabaj en el perodo (3 aos) con
tres programas bsicos: uno relativo a una poltica de ingreso, en la cual se haca una
transferencia compensatoria a familias con ingresos muy reducidos, una segunda
poltica correspondiente a la solucin de problemas habitacionales a familias pobres
sin vivienda, y una tercera, consistente en un programa de acceso ampliado a
cobertura de salud con nfasis en los grupos de edad ms vulnerables.
A los fines de la evaluacin, se trabaj con muestra de cada una de las poblaciones de
beneficiarios, y se estudi comparativamente su situacin socioeconmica, en relacin
el momento de recepcin del beneficio.
Los resultados arrojados por el estudio son los siguientes:
Tabla: Cantidad de familias en cada situacin tras el beneficio de la poltica social
recibido
Cambios en la situacin socioeconmica de las familias
Mejoraron
Se mantuvieron
Empeoraron
igual
180
150
90
Ingresos
120
180
70
Salud
70
100
130
Vivienda
Fuente: elaboracin propia
Poltica

La prueba Chi cuadrado que presentaremos permite establecer si existe relacin entre
escalas como las planteadas en el ejemplo.
La prueba Chi cuadrada es una prueba de carcter general que se utiliza cuando se
desea determinar si las frecuencias absolutas obtenidas en la observacin (como en la
tabla del ejemplo previo), difieren significativamente o no de las que se esperaran bajo
cierta hiptesis planteada de interrelacin de las categoras de las variables
consideradas.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-2-

Tabla cruzada: Datos observados, frecuencias absolutas, porcentajes totales, en filas y


en columnas
Tabla cruzada: politica * cambio
cambio
Mejoraron

Se

Total
Empeoraron

mantuvieron
poltica

Ingresos

Salud

Vivienda

Total

180

150

90

420

% en poltica

42,9%

35,7%

21,4%

100,0%

% en cambio

48,6%

34,9%

31,0%

38,5%

% del total

16,5%

13,8%

8,3%

38,5%

120

180

70

370

% en poltica

32,4%

48,6%

18,9%

100,0%

% en cambio

32,4%

41,9%

24,1%

33,9%

% del total

11,0%

16,5%

6,4%

33,9%

70

100

130

300

% en poltica

23,3%

33,3%

43,3%

100,0%

% en cambio

18,9%

23,3%

44,8%

27,5%

6,4%

9,2%

11,9%

27,5%

370

430

290

1090

% en poltica

33,9%

39,4%

26,6%

100,0%

% en cambio

100,0%

100,0%

100,0%

100,0%

33,9%

39,4%

26,6%

100,0%

Total

Total

% del total
Total

Total

% del total

Considerando los datos de la tabla previa, se puede observar que entre los que
mejoraron, es ms elevada la proporcin, respecto del total que recibi los beneficios
de una poltica de ingresos, en tanto, entre los que se mantuvieron, la proporcin que
se destaca es la de individuos que recibieron los beneficios del programa de salud.
Finalmente, los hogares que vieron desmejorar su situacin socio-econmica,
presentan proporcionalmente una mayor presencia de la poltica de vivienda que el
resto.
A los fines de corroborar si tal observacin puede sostenerse, o bien si se trata slo de
una casualidad presente en los datos de la muestra, la prueba Chi cuadrado permite
someter a contraste las siguientes hiptesis:

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-3-

Ho:
Las variables son independientes entre s (es decir, no tienen relacin)

H1:
Las variables no son independientes.

Observe que si bien estamos interesados en considerar la vinculacin entre las


variables, la hiptesis nula parte del supuesto neutral de no relacin o independencia.
En el caso de rechazar la hiptesis nula, detectaremos la relacin que suponemos que
existe, que motiv el estudio.
El estadstico justamente considerar esta situacin, en la cual, si los valores
observados se distancian significativamente del valor esperado bajo el supuesto de
independencia, el estadstico resultar en un valor elevado (ubicado en la zona de
rechazo), y se rechazar la hiptesis nula. El estadstico Chi cuadrado est dado por:

( fo fe )2
fe

Este estadstico se distribuye Chi cuadrado con (c-1).(f-1) grados de libertad.


Donde
fo: frecuencias observadas
fe: frencuencias esperadas
c= nmero de columnas
f= nmero de filas

Veamos los resultados que proporciona la aplicacin del mtodo, utilizando el paquete
estadstico SPSS:

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-4-

Tabla: Valores observados y esperados


politica * cambio Crosstabulation
cambio
Mejoraron
politica

Ingresos

Observados
Esperados

Salud

Observados
Esperados

Vivienda

Observados
Esperados

Total

Observados
Esperados

Se mantuvieron

Empeoraron

Total

180

150

90

420

142,6

165,7

111,7

420,0

120

180

70

370

125,6

146,0

98,4

370,0

70

100

130

300

101,8

118,3

79,8

300,0

370

430

290

1090

370,0

430,0

290,0

1090,0

Tabla de resultados:
Pruebas Chi cuadrado
Significacin
asinttica (2
Valor

GL

colas)

76,296a

,000

Razn de Verosimilitud

72,575

,000

Asociacin Lineal Lineal

46,957

,000

Chi cuadrado de Pearson

Nmero de casos vlidos

1090

El resultado proporcionado por el indicador Chi Cuadrado de Pearson (primer rengln


de los resultados) da la informacin correspondiente para tomar decisin.
En el caso del ejemplo, rechazamos la hiptesis nula (observar la significacin del
resultado, que es menor al 0,05), por lo tanto, concluimos que con la informacin
muestral disponible, no podemos descartar la existencia de una relacin (no son
independientes) entre las variables poltica de beneficios y resultados en la situacin
socioeconmica de las familias beneficiarias.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-5-

5.2. Coeficientes de asociacin


Medidas de fuerza de la relacin
A partir del prueba de independencia slo podemos afirmar si existe o no relacin
entre las variables.
En el caso de detectar (rechazando la hiptesis nula de la prueba de independencia)
que existe relacin, podemos estar interesados a su vez en conocer en qu medida se
relacionan las variables.

5.2.1. V de Cramer
La V de Cramer es la medida basada en el estadstico Chi cuadrado ms popular de
las correspondientes a la asociacin entre variables nominales debido a que da un
indicador buen ubicado entre 0 y 1 ajustado al tamao de la tabla.
V es igual a la raz cuadrada de Chi cuadrado dividido por el tamao de la muestra por
el mnimo entre el nmero de filas menos 1 y el nmero de columnas menos 1:

2
n.k

Donde k= mnimo entre el nmero de filas menos 1 y el nmero de columnas menos 1.

Cmo se interpreta la V de Cramer?


V puede ser vista como la asociacin entre dos variables como un porcentaje de su
mxima variacin posible.
Qu significa la asociacin medida por V en sus valores extremos?
V define una relacin perfecta como aquella que es predictiva (o monotnicamente
ordenada), y define una relacin nula como la independencia estadstica. Da valores
entre 0 y 1. El 0 corresponde a ausencia de asociacin y 1 a asociacin perfecta.

Otras caractersticas de V:

La significacin de V es la misma que la de la Chi cuadrado. En el caso del uso


del paquete SPSS, este la reporta como un resultado junto con el clculo de V.

Simetra: V es una medida simtrica. No se ve afectada por cual es la variable


independiente.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-6-

El coeficiente V de Cramer se utiliza cuando la variable de menor nivel es


nominal.

5.2.2. Q de Kendall
El Coeficiente Q de Kendall (conocido tambin como Q de Yule) mide la asociacin
entre dos variables a nivel nominal u ordinal y se usa para tablas de contingencia de
dos columnas por dos renglones. Este indicador es un caso especial del conocido
indicador Gamma para variables ordinales.
Los valores que puede alcanzar oscilan entre - 1 y + 1; cuando es igual a -1 indicar
una completa disociacin entre las variables, y si es igual a +1 mostrar una
asociacin total.
En caso de que el valor sea igual a cero, se concluye que no hay asociacin o relacin
entre las variables, lo cual es la diferente al hecho de que exista una disociacin.

Supongamos una tabla genrica 2 x 2, con las siguientes denominaciones para las
casillas:

Variable 2
1 categora
2 categora
Total

Variable 1
1 categora
a
c

2 categora
b
d

Total

La estructura del coeficiente ser:

ad bc
ad bc

Cuando los productos de las diagonales son iguales, el valor de Q es cero, e indica
independencia entre las variables.
Q alcanza sus lmites, -1 1, cuando alguna de las casillas es cero.

5.2.3. r de Spearman y de Pearson


Para las variables cuantitativas o numricas (tanto intervalares como medidas en
escalas de razn), podemos calcular como medidas de la asociacin entre ellas,
diferentes coeficientes que permiten cuantificar la correlacin entre s.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-7-

Coeficiente de correlacin por rangos de Spearman


Este coeficiente es una medida de asociacin lineal que utiliza los rangos, nmeros de
orden, de cada grupo de sujetos y compara dichos rangos.
El denominado rho de Spearman es anlogo al coeficiente de correlacin de Pearson,
que presentaremos a continuacin, pero en este caso calculado sobre el rango de
observaciones.
Esta diferencia implica que la correlacin estimada entre las variables X e Y
corresponda en este caso a diferencias entre dados apareados. El coeficiente de
correlacin de Spearman es recomendable para situaciones en las que los datos
presentan valores externos, lo que los valores afectan demasiado el coeficiente de
correlacin de Pearson, o para el caso de distribuciones no normales.
El clculo del coeficiente viene dado por:

r 1

6 d i2
n.(n 2 1)

Donde di es la diferencia de los rangos de X e Y.


Los valores de los rangos se colocan segn el orden numrico de los datos de la
variable.
Veamos un ejemplo:
Edad del ciudadano
18
25
35
17
35
45
53
46
27
66
70
56
30

Cantidad de elecciones
en las que vot
0
2
7
0
8
9
12
8
5
19
16
13
3

Si ordenamos cada variable de menor a mayor, podemos asignar a cada valor de cada
variable un rango correspondiente a la posicin que ocupa en la serie ordenada.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-8-

Cuando aparezcan valores coincidentes se coloca el promedio de los rangos que


hubiesen sido asignado si no hubiese coincidencias.
La siguiente tabla incorpora entre parntesis el rango para cada valor de ambas
series:
Edad del ciudadano
18 (2)
25 (3)
35 (6,5)
17 (1)
35 (6,5)
45 (8)
53 (10)
46 (9)
27 (4)
66 (12)
70 (13)
56 (11)
30 (5)

Cantidad de elecciones
en las que vot
0 (1,5)
2 (3)
7 (6)
0 (1,5)
8 (7,5)
9 (9)
12 (10)
8 (7,5)
5 (5)
19 (13)
16 (12)
13 (11)
3 (4)

Por lo tanto, las diferencias quedan de la siguiente manera, si directamente trabajamos


con los rangos respectivos:
Tablas: Diferencias de rangos
Rango de edad

2
3
6,5
1
6,5
8
10
9
4
12
13
11
5

Rango de cantidad de di
elecciones en las que
vot
1,5
3
6
1,5
7,5
9
10
7,5
5
13
12
11
4

di 2

0,5
0
0,5
-0,5
-1
-1
0
1,5
-1
-1
1
0
1

0,25
0
0,25
0,25
1
1
0
2,25
1
1
1
0
1

Para calcular el valor de r de Spearman tenemos:

r 1

6.9
54
1
2
13.168
13.(13 1)

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

-9-

r 0,975
Interpretacin del coeficiente de correlacin de Spearman:

Los valores prximos a 1 indican una correlacin fuerte y positiva.


Los valores prximos a 1 indican una correlacin fuerte y negativa.
Valores prximos a cero indican que no hay correlacin lineal.

En el caso del ejemplo, el valor del coeficiente de correlacin indica una correlacin
positiva fuerte: a medida que es mayor la edad del ciudadano, mayor el nmero de
elecciones en las que vot.

Coeficiente de correlacin por rangos de Spearman


La medida de la relacin lineal entre dos variables cuantitativas, se estudia por medio
del clculo del coeficiente de correlacin de Pearson.

Interpretacin de los resultados:


Este coeficiente brindar valores entre 1 y +1.

Cuando el valor tiende a 1, la asociacin positiva es elevada. Un valor de 1


indica una relacin lineal positiva perfecta.
Cuando el valor tiende a -1, la asociacin negativa es elevada. Un valor de -1
indica una relacin lineal negativa perfecta.
Una correlacin prxima a cero indica que no hay relacin lineal entre las dos
variables.

La representacin grfica de los datos para visualizar la relacin entre el valor del
coeficiente de correlacin y la forma de la grfica es fundamental ya que podra existir
una relacin no lineal o la ausencia de relacin que prever desde el propio grfico.

El coeficiente de correlacin posee las siguientes caractersticas:


El valor del coeficiente de correlacin es independiente de cualquier unidad de medida
usada para medir las variables. Esto implica que el coeficiente es una magnitud que no
posee una unidad de medida propia.
El valor del coeficiente de correlacin se altera de forma importante ante la presencia
de un valor extremo.
El coeficiente de correlacin mide solo la relacin lineal. Dos variables pueden tener
una relacin no lineal fuerte, a pesar de que su correlacin sea pequea. Por tanto

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 10 -

cuando se consideren las relaciones entre dos variables debe preliminarmente partir
de su representacin grfica y luego calcular el coeficiente de correlacin.
El coeficiente de correlacin no se debe extrapolar ms all del rango de valores
considerado para su clculo ya que la relacin existente entre X e Y puede cambiar
fuera de dicho rango.
La correlacin no implica causalidad. La causalidad requiere ms informacin que un
simple valor cuantitativo de un coeficiente de correlacin y especialmente trabajarse a
partir de los modelos tericos propios de cada disciplina.
El coeficiente de correlacin de Pearson puede calcularse en cualquier grupo de
datos.
La validez del test de hiptesis sobre la correlacin entre las variables exige el
cumplimiento de los siguientes supuestos:
a. Que ambas variables correspondan a una muestra aleatoria de individuos.
b. Que al menos una de las variables tenga una distribucin normal en la
poblacin de la cual la muestra procede.

El coeficiente de correlacin puede arrojar valores entre 1 y +1, en tanto el valor 0


indica que no existe asociacin lineal entre las dos variables a estudio.
Mostraremos ahora el clculo del coeficiente de correlacin de Pearson a travs de un
ejemplo.
Se dispone de la siguiente informacin captada en una muestra de recin nacidos, en
la cual se registra el dato de edad gestacional y el peso al nacer (en gramos).
Tabla: datos de anlisis
Edad gestacional (semanas)

Peso al nacer (gramos)

25,00
26,00
27,00
28,00
29,00
30,00
29,00
31,00
32,00
33,00
34,00
35,00
36,00
36,00

748,00
847,00
934,00
1051,00
1117,00
1310,00
1120,00
1446,00
1645,00
1845,00
2075,00
2327,00
2594,00
2500,00

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 11 -

Edad gestacional (semanas)

Peso al nacer (gramos)

38,00
39,00
40,00
41,00
42,00
36,00
35,00
34,00
35,00
36,00
38,00
38,00
38,00
39,00

3180,00
3320,00
3500,00
3600,00
3650,00
2670,00
2400,00
2200,00
2350,00
2800,00
2850,00
3040,00
3150,00
3400,00

El primer paso es obtener las medias de cada una de las variables:

X 35,89 semanas
Y 2599,20 gramos
Para el clculo del coeficiente, incluiremos las columnas auxiliares correspondientes a
los desvo y al producto de los desvos, respecto de las medias respectivas.
Tabla: datos de anlisis

Edad gestacional
(semanas)

Peso al nacer
(gramos)

XX

Y Y

( X X )(Y Y )

25,00
26,00
27,00
28,00
29,00
30,00
29,00
31,00
32,00
33,00
34,00
35,00
36,00
36,00

748,00
847,00
934,00
1051,00
1117,00
1310,00
1120,00
1446,00
1645,00
1845,00
2075,00
2327,00
2594,00
2500,00

-10,89
-9,89
-8,89
-7,89
-6,89
-5,89
-6,89
-4,89
-3,89
-2,89
-1,89
-0,89
0,11
0,11

-1851,18
-1752,18
-1665,18
-1548,18
-1482,18
-1289,18
-1479,18
-1153,18
-954,18
-754,18
-524,18
-272,18
-5,18
-99,18

20168,16
17337,40
14811,38
12222,51
10219,27
7599,40
10198,59
5644,53
3716,30
2183,16
993,19
243,53
-0,55
-10,44

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 12 -

Edad gestacional
(semanas)

Peso al nacer
(gramos)

XX

Y Y

( X X )(Y Y )

38,00
39,00
40,00
41,00
42,00
36,00
35,00
34,00
35,00
36,00
38,00
38,00
38,00
39,00

3180,00
3320,00
3500,00
3600,00
3650,00
2670,00
2400,00
2200,00
2350,00
2800,00
2850,00
3040,00
3150,00
3400,00

2,11
3,11
4,11
5,11
6,11
0,11
-0,89
-1,89
-0,89
0,11
2,11
2,11
2,11
3,11

580,82
720,82
900,82
1000,82
1050,82
70,82
-199,18
-399,18
-249,18
200,82
250,82
440,82
550,82
800,82

1222,77
2238,32
3698,09
5109,43
6415,51
7,45
178,22
756,35
222,95
21,14
528,03
928,03
1159,61
2486,74

Para el clculo del coeficiente de correlacin de Pearson consideramos las sumas de


las columnas respectivas:

( X X )(Y Y )
( X X ) (Y Y )

200321,16
873,58.34583089,7

r 0,9895
Observe que el valor del coeficiente de correlacin alcanza un valor muy prximo a 1,
lo cual, como indicamos previamente, significa que la relacin entre las variables es
positiva y fuerte.
Tras realizar el clculo del coeficiente de correlacin de Pearson se debe determinar si
dicho coeficiente es estadsticamente diferente de cero, o lo que es lo mismo, si ese
valor no se debi slo al azar. Para dicho clculo se aplica un test basado en la
distribucin de la t de Student. Veamos cmo analizarlo a partir de la salida de SPSS
para el ejemplo previo.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 13 -

Correlaciones
edad_gestacional
edad_gestacional

Coeficiente de

peso_al_nacer
1

,990**

correlacin de Pearson
Sig. (2-tailed)
N
peso_al_nacer

Coeficiente de

,000
38

38

,990**

correlacin de Pearson
Sig. (2-tailed)
N

,000
38

38

**. Correlation is significant at the 0.01 level (2-tailed).

La tabla de doble entrada proporciona las correlaciones entre todas las variables
numricas que se indiquen.
En este caso, para el caso del a correlacin entre la edad gestacional y el peso al
nacer, reporta un p-valor de 0,000. El cual comparado con un a convencional del 0,05,
nos hace concluir que se debe rechazar la hiptesis de no correlacin
(correspondiente a esta prueba).

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 14 -

5.3. La forma de la relacin: el modelo lineal


Un modelo aplicable para analizar la relacin entre dos variables es el modelo de
regresin. La utilizacin del modelo de regresin lineal est muy difundida en las
Ciencias Sociales, en particular, porque permite describir una serie muy amplia de
fenmenos (comportamiento de los individuos, reacciones de los consumidores,
decisiones econmicas, entre otros).
El anlisis de regresin lineal tiene como finalidad explorar y cuantificar la relacin
entre variables, una llamada dependiente (Y) y una o ms variables independientes.
En el caso de utilizar una sola variable independiente o explicativa, estamos frente a
una regresin lineal simple, en tanto si las variables explicativas o independientes son
dos o ms, el anlisis se denomina regresin lineal mltiple.
Cabe sealar que una de las aplicaciones ms destacadas del modelo es la de realizar
predicciones y pronsticos acerca de la variable dependiente, teniendo en cuenta
valores de las variables explicativas o independientes.
En el caso de este modelo, deben considerarse adems de las tcnicas de estimacin,
una serie de pruebas de diagnstico (anlisis de residuos, anlisis de influencia, etc.)
cuyo cumplimiento es necesario para obtener estimaciones adecuadas.
El diagrama de dispersin
Un grfico que nos permite visualizar de manera sencilla la posible existencia de una
relacin entre las variables de inters, es el diagrama de dispersin. Este grfico
consiste en la coleccin de puntos en un diagrama de ejes cartesianos, donde los
valores de la variable dependiente se representan en las ordenadas y los de la
variable independiente en las abcsisas. Cada punto del grfico se indica con las
coordenadas del mismo representado como par ordenado (x, y). El conjunto de puntos
surgidos de graficar todos los datos disponibles recibe el nombre de nube de puntos.
Lo que el diagrama de dispersin da la posibilidad de observar, es la forma de la
relacin, en trminos no estrictos (en el sentido que siempre necesitaremos los test y
estimaciones estadsticas), pero es un buen punto de partida, por ejemplo, para
preliminarmente analizar si la lnea recta ser una aproximacin aceptable de la
relacin o no.
En el ejemplo de Diagrama de dispersin, la variable Y (dependiente) indica el salario
horario inicial (expresado en moneda corriente) de un ocupado en el mercado laboral,
la variable X (independiente) representa los aos de experiencia previa que esa
persona exhiba en su curriculum. Para describir la relacin aparente entre estas
variables, podramos indicar que si bien en nuestra muestra hay pocos casos con baja
experiencia relativa, a medida que ms experiencia laboral previa tena un ocupado,
su salario inicial resulta ms elevado. Con la intencin de ser ms especficos y
sintticos al mismo tiempo, el modelo de regresin lineal intenta asociar la relacin
entre estas variables a travs de una lnea recta que generalice esta vinculacin,
despreciando las oscilaciones especficas de cada caso particular respecto de la lnea
recta que indicara la estructura de la relacin entre experiencia y salario inicial.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 15 -

Y = salario horario inicial

Figura: Diagrama de dispersin

X = aos de experiencia laboral al ingreso


Fuente: Elaboracin propia

Actividad:
Elabore (utilizando una hoja cuadriculada, para facilitar la adecuacin a una escala
proporcional de cada variable) la siguiente relacin:
Los siguientes datos fueron tomados de un estudio sobre las diferentes
sucursales de una marca de supermercados de la ciudad:
Sucursal

Superficie del local de Ventas


diarias
venta (m2)
miles de $)

300

425

350

435

450

550

500

600

700

860

760

770

770

980

900

1100

(en

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 16 -

Sucursal

Superficie del local de Ventas


diarias
venta (m2)
miles de $)

1200

1240

10

1400

1500

11

2000

2400

12

2050

2200

13

2100

2080

(en

La relacin puede sintetizarse de manera que represente una lnea recta de la


siguiente manera:

Y X
Los coeficientes y son los que definen la recta. El coeficiente representa la
ordenada al origen, es decir, el punto en que la recta corta al eje vertical. El coeficiente
es la pendiente de la recta, el cual indica el cambio experimentado en la variable Y
cuando se produce cierto incremento en la variable X. En el ejemplo, representa el
cambio en el salario inicial ante el cambio en un ao de experiencia laboral al ingreso.
En el caso de , est indicando el salario promedio de una persona sin experiencia
laboral al ingreso (cuando X=0).
En el siguiente grfico se representa una recta que podra describir de manera general
y simplificada la relacin analizada.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 17 -

Y = salario horario inicial

Figura: Recta de regresin

X = aos de experiencia laboral al ingreso


Fuente: Elaboracin propia

Mtodo para obtener estimaciones de y


No hemos mencionado an cmo determinar los valores que nos permitan trazar una
recta, es decir, estimaciones de y en base a los datos de la muestra disponible.
En la ecuacin:

Y X
y son constantes. La relacin especificada entre X e Y es exacta, sin embargo,
como hemos observado en el diagrama de dispersin, tal relacin podra tener algunos
desvos o perturbaciones que denominaremos trmino de error. Por lo tanto, debemos
reescribir la relacin como el valor esperado de Y que depende de valores de X:

E(Y / X ) X

Interpretacin de los valores de


Si la pendiente que corresponde a la recta de regresin es positiva, la relacin entre
las variables es tal que cuando el valor de X aumenta, tambin lo hace el de Y.
Si la pendiente es menor que cero, entonces, la relacin es negativa, es decir, a
medida que aumenta el valor de X, el valor de Y es menor.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 18 -

Si = 0, entonces no hay una relacin lineal entre X e Y de manera que podamos


indicar cmo cambia Y conociendo el cambio en X.
Figura: valores de y forma de la relacin
>0

<0

Fuente: Elaboracin propia

Supuestos del modelo de regresin lineal


1. Linealidad
Debe verificarse que la forma de la ecuacin que describa la relacin entre X e
Y sea lineal.
2. Normalidad
Las distribuciones de los valores de Y para valor de X deben ser normales.
3. Homocedasticidad
La variabilidad de los valores de la variable dependiente Y es igual para
cualquier valor de la variable X.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 19 -

La violacin de este supuesto es ms frecuente cuando se trabaja con


obsrvaciones correspondientes a datos de corte transversal.
4. Independencia de errores
Los residuos o errores (las diferencias entre los valores pronosticados y los
observados realmente), deben ser independientes entre s.
La violacin de este supuesto es ms frecuente cuando se trabaja con datos
correspondientes a series de tiempo.

Bondad de ajuste
Para poder afirmar que el resultado de la regresin es adecuado, necesitamos
contar con algn indicador del grado en que la recta ajusta acertadamente a la
nube de puntos. En particular estamos pensando en un indicador del grado de
fidelidad con que la recta obtenida por el mtodo de mnimos cuadrados
describe la relacin existente entre los datos.
La medida de aplicacin ms generalizada corresponde al coeficiente de
determinacin o R2.
Este indicador corresponde al cuadrado del coeficiente de correlacin. Es una
medida estandarizada que asume valores entre 0 y 1:
0 cuando las variables son independientes
1 si la relacin captada por la recta es perfecta
El R2 nos permite medir cunto podemos explicar los valores de la variable
dependiente basndonos en el conocimiento de otras variables y de su
relacin. Mide ms precisamente, la relacin entre la variabilidad de la variable
dependiente explicada por el modelo (lo cual incluye la variable independiente
y la forma lineal de su relacin con la dependiente), respecto de la variabilidad
total de la variable dependiente.
Para el ejemplo presentado, el valor del R2 alcanza 0,83, lo cual significa que el
83% de la variabilidad del salario inicial al momento de ingreso es explicada de
manera lineal, por los aos de experiencia previos al ingreso.

Veamos un ejemplo
Analizaremos los siguiente datos relativos al promedio de las notas obtenidas
en el secundario y las notas obtenidas en la universidad por un a muestra
representativas de egresados.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 20 -

A continuacin se presenta la base de datos utilizada, cargada en SPSS.


Figura: datos de trabajo

Estamos interesados en modelar una relacin que intente pronosticar la nota


promedio en la universidad al momento de ingreso.
Veamos en primer lugar, el grfico de la nube de puntos o diagrama de
dispersin.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 21 -

Figura: diagrama de dispersin

Fuente. Elaboracin propia


La grfica anterior permite prever una relacin lineal positiva entre las variables.
El siguiente resultado es un resumen del modelo, donde aparece como indicador el R2,
que presentamos como medida de la bondad de ajuste. Como puede observarse, el
valor de este indicador es elevado y prximo a 1, por lo que el modelo de regresin
planteado explica el 83,2% de la variabilidad total de la variable dependiente (nota
promedio en la universidad). En esa misma tabla se indica el R cuadrado ajustado que
es la medida anloga pero cuando se trabaja con una regresin lineal mltiple, donde
es habitual que el R2 sea ms elevado simplemente con incorporar variables al
anlisis, y por eso la medida del R2 ajustado, libre de los efectos de incorporar nuevas
variables, corrigiendo por los grados de libertad, es una mejor medida de la bondad de
ajuste, en tales casos de regresin lnea mltiple.
Resumen del modelo

Modelo
1

R
,912a

R Cuadrado

R cuadrado

Error estndar

ajustado

de la estimacin

,832

,819

,76790

a. Predictores (Constante), notas_secundario

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 22 -

La tabla ANOVA permite hacer una evaluacin global del modelo de regresin a travs
de la prueba F. Como puede observarse, tal como lo indica el valor de la significacin
del test, el modelo de regresin sirve en este caso para describir la relacin entre las
variables de inters.
ANOVAb
Suma de
Modelo
1

Cuadrados

cuadrados
Regresin
Residual
Total

GL

medios

37,934

37,934

7,666

13

,590

45,600

14

Sig.
,000a

64,331

Finalmente, los resultados arrojados por el modelo permiten obtener los coeficientes
de regresin.
En primer lugar, el valor estimado para la ordenada al origen es de -1,558 (aparece
referido en la primer columna de resultados, consignada como constante). Este valor
no result ser signficativamente diferente de cero, ya que el valor de la significacin es
0,157 (superior al 0,05 con que trabajamos habitualmente en este tipo de hiptesis).
Recordemos que la ordenada al origen indica el valor de la recta regresin (en
particular de la variable dependiente) cuando la variable independiente vale 0.

Coeficientesa
Coeficientes
Coeficientes no estandarizados
Modelo
1

B
(Constante)

Error estndar
-1,558

1,036

1,224

,153

notas_secundario

estandarizados
Beta

,912

Sig.

-1,503

,157

8,021

,000

a. Variable dependiente: notas_universidad

La pendiente estimada por mnimos cuadrados, que mide el cambio en la variable


dependiente ante un cambio en la variable independiente, alcanz un valor de 1,224.
Esto quiere decir, que tal como esperbamos a partir del grfico de dispersin, la
relacin entre ambas variables es positiva, y que por cada punto adicional de nota en
el promedio del secundario, se espera 1,224 puntos adicionales en el promedio de
notas de la universidad.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 23 -

Como indica el nivel de significacin para el coeficiente de la pendiente, dicho


coeficiente es significativamente diferente de 0, lo cual implica que la relacin lineal
positiva entre las variables es vlida para este caso.
Con la informacin obtenida de la regresin, podramos ahora pronosticar la nota
promedio en la universidad, tal como se solicit, a partir de la nota promedio obtenida
en el secundario.
Por ejemplo, si un alumno que ingresa a la universidad obtuvo una nota promedio de
6, entonces:

Nota _ universidad 1,224 .6 1,558


Nota _ universidad 5,786
Y as podramos proceder con cualquier otra nota del secundario, simplemente
reemplazando en la ecuacin de regresin lineal estimada.

El uso de regresin lineal en economa


La Economa es la ciencia social que se ha apropiado por encima de las dems, del
uso de los modelos de regresin lineal como instrumento para explicar diversas
relaciones entre variables.
Este uso ha dado como consecuencia primera el desarrollo de una disciplina basada
en el manejo de mltiples modelos matemtico para facilitar la prediccin de variables
econmicas, entre los cuales se destacan los modelos de regresin. De ms est
decir, que los aportes propios generados desde esta disciplina, la Econometra, han
significado importantes avances para los conocimientos sobre aspectos complejos de
modelos lineales multivariables avanzados.
A continuacin, como reflexin final, incorporo un ejemplo de aplicacin, en campos
ajenos a la economa, en los cuales a muchos economistas les gusta incursionar, y en
los que suelen utilizar tambin como herramienta al propio modelo de regresin.
Los genios creativos, bajo la lupa de los economistas
Por Sebastin Campanario
(Fuente: http://blogs.clarin.com/economiainsolita)

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 24 -

Uno de los descubrimientos econmicos ms fascinantes de los ltimos aos naci


por accidente. En la primavera de 1997, David Galenson, por entonces un
desconocido acadmico de Chicago, especializado en el mercado de esclavos de la
poca colonial, decidi comprar una pequea acuarela del pintor norteamericano Sol
LeWitt. Para chequear si el precio era justo, llam a un amigo marchand, quien opin
que era un poco caro: Nosotros tenemos trabajos ms grandes al mismo valor, le
dijo.
Galenson compr la obra, de todas formas, pero se fue a su casa pensando si el
mercado de las pinturas era como el de las alfombras: cuanto ms grande el cuadro,
ms caro. En los meses siguientes, estudi la vida y obra y 42 artistas de EE.UU.
contemporneos. Cuando aplic herramientas economtricas, el resultado fue
sorprendente: hall dos nubes en una regresin que vinculaba la edad de los
pintores con el valor de mercado de su obra. Con muy pocas excepciones, encontr
dos tipos de genios creativos: los innovadores conceptuales, que producen cambios
rupturistas en sus campos a una muy temprana edad; y los experimentalistas, que
siguen un proceso de prueba y error y logran sus resultados ms valiosos despus de
los 40 aos. En el primer pelotn se ubican Picasso, Andressens y Munch; en el
segundo Rodin, Cezanne y Monet.
Es el precio de mercado un indicador mentiroso del valor artstico de un cuadro?
Galenson se lo pregunt, y corri la regresin contra otra variable: la cantidad de
reproducciones de cada cuadro en libros de arte prestigiosos.
El resultado fue el mismo.
El economista de Chicago luego extendi sus estudios a otras ramas, como literatura o
cine, y hall que el patrn de jvenes genios y viejos maestros se repeta. Mientras
que Hemingway, Welles, Melville y Joyce estn en el primer grupo, Dickens, Twain y
Hitchcock hicieron lo mejor en el final de sus carreras.

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS


Profesora: Vernica Herrero

- 25 -

You might also like