You are on page 1of 10

EST-203 ESTADISTICA II Arturo Calderón G.

2014

Capítulo I Análisis de Regresión Lineal

1. Modelo de Regresión Lineal Simple

1.1 Uso
• En algunas investigaciones estamos interesados no sólo
en estudiar la relación entre dos o más variables de
una población, sino también en analizar la posibilidad
de predecir una de estas variables en función de otra u
otras variables.
• Lo anterior tiene sentido cuando tenemos una teoría
(psicológica) que dice que, salvo variaciones alea-
torias, una determinada variable cuantitativa X con-
diciona a otra variable cuantitativa Y de modo que
cambios en X inducen cambios proporcionales en Y.
• Muchas veces la teoría explicativa se basa además en
estudios previos, de tipo correlacional, que la justi-
fican empíricamente. Por ejemplo:
(1) Podemos intentar explicar el ingreso Y de una
persona partiendo de su capacitación laboral previa,
medida con algún índice pertinente X.
(2) También podríamos intentar determinar el nivel de
estrés Y de una persona en un puesto de mando, en
función de la cantidad X de empleados a su cargo.
• Para hacer el estudio es necesario
(1) Especificar el tipo de relación más plausible, vía
una ecuación o ‘modelo’.
(2) Disponer de una muestra aleatoria en la cual se
midan de manera conjunta tanto X como Y. La
información de esta muestra se organizará luego en una
base de datos para hacer el análisis y contrastar el
modelo. Si éste no fuera validado por los datos, la
teoría que sirvió generarlo perdería base.
• El modelo más sencillo es aquél donde se propone una
relación de proporcionalidad entre X e Y.
Geométricamente la proporcionalidad equivale a que en un
plano cartesiano XY, las parejas de valores (X,Y) des-
criben o siguen una trayectoria rectilínea.
Algebraicamente la proporcionalidad equivale a que X e Y
satisfacen la ecuación Y = β 0 + β1 X + ε donde β 0 y β1
son constantes características o sea son “parámetros” y
ε ~ N (0, σ 2 ) es una variación aleatoria debida a que las

1
EST-203 ESTADISTICA II Arturo Calderón G. 2014

personas no tienen todas ni siempre el mismo comporta-


miento.

1.2 Plan de análisis

Identificado el modelo como uno de regresión lineal sim-


ple, hay que someterlo a prueba con datos. Los pasos son:

1º Estimar los parámetros del modelo, que son β 0 , β1 y


σ 2. Las estimaciones (valores aproximados a partir de
la muestra) se denotan β̂ 0 , β̂1 y σˆ . También se hallan
2

los respectivos márgenes de error o “errores estándar


de estimación” E.E.βˆ0 y E.E.βˆ1 . De paso, se puede obtener
la ecuación del valor esperado de Y: Yˆ reemplazando va-
lores estimados de los parámetros en el modelo:
Yˆ = βˆ0 + βˆ1 X .

2º Medir el ajuste del modelo, o sea medir qué tan bien


representa el modelo a los datos reales, qué tanto
coinciden los valores reales Y con sus estimaciones Yˆ .
Una medida simple del ajuste es la correlación de
Pearson de Y con Yˆ , denotada R y definida R = rYYˆ : Si
el modelo representa bien a la muestra, pronósticos y
valores reales debiera coincidir, o sea se espera Y = Yˆ ,
que en primera instancia implica un R positivo y alto.
En el caso de regresión lineal simple, ocurre además
que R = rYYˆ =| rXY | .

3º Someter a prueba el modelo, o sea contrastar las hi-


pótesis que lo generaron. Esto se hace mediante pruebas
o contrastes t de Student. La más frecuente es relativa
a la pendiente o tasa de cambio de Y por X ( β1 ):La
hipótesis nula es H0:β1=0 vs H1 que puede ser unilateral
derecha (para hipótesis de relación directa),
unilateral izquierda (H1:β1<0 para hipótesis de relación
inversa) o bilateral (H0:β1≠0 para hipótesis de
relación). El contraste se apoya en que en general, la
βˆ1 − β1
estadística t = ~ t ( n − 2) y por tanto, si β1=0, enton-
E.E.βˆ1
EST-203 ESTADISTICA II Arturo Calderón G. 2014

βˆ1
ces tc = ~ t ( n − 2) y tc debiera tomar valores alrededor
E.E.βˆ1
de cero. Si calculada tc resulta muy alejada de cero y
en la dirección que predice la correspondiente H1, en-
tonces se rechaza H0:β1=0.Con SPSS o Excel esto se hace
viendo la significación (probabilidad de que siendo
cierta H0:β1=0 se obtenga un β̂1 como el de la muestra)
y si esta probabilidad es “muy pequeña” (usualmente
menor que 0.05) se opta por pensar que H0:β1=0 no es
cierta y se la rechaza.

Ejemplo:
Para evaluar un programa de capacitación para empleo como
vendedoras comisionistas de productos textiles, se iden-
tificó cuatro factores que podrían estar asociados al in-
greso diario Y logrado por la participante del programa.
Estos factores eran: Puntuación en una prueba final que
mide el grado de capacitación lograda con el programa(X),
Número mensual de horas trabajadas(Z), Edad en años(V) y
Meses de experiencia en algún trabajo similar(W).
Se seleccionó aleatoriamente n=42 vendedoras y se regis-
tró cada variable de interés. Los datos forman un archivo
de la forma:

Ingreso/día Capacitación Horas de trabajo/mes Edad Experiencia


Caso Y X Z V W
1 39.3 38.59 192.7 30 15.05
2 38.7 40.16 200.1 32 3.15
3 39.5 40.87 203.2 23 22.74
: : : : : :
40 41.2 43.83 207.4 27 37.49
41 41.2 41.99 201.9 30 35.50
42 42.4 44.45 203.9 24 48.06

Si planteamos una relación de proporcionalidad directa


entre Ingreso (Y) y la Capacitación (X), un diagrama de
dispersión ayuda a ver cuán fuerte sería esta relación:

3
EST-203 ESTADISTICA II Arturo Calderón G. 2014

Figura 1 Ingreso diario vs Capacitación

Se observa que hay relación, pero los puntos no caen sobre una
recta, aunque la siguen, pero con bastante variabilidad, esto es, hay algunos
puntos alejados de la tendencia.

Recordemos que para medir el grado de asociación podemos


calcular el coeficiente de correlación de Pearson rXY
n n

∑ (Y j − Y )( X j − X ) ∑Y X j j − nXY
j =1 j =1
rXY = =
( n − 1) S X SY ( n − 1) S X SY
Con ayuda de Excel o SPSS se obtiene rXY = 0.6021 que, según
el criterio de Cohen, es una correlación grande y favore-
ce la idea de que sí hay relación lineal entre X e Y.

• Como se ha planteado una relación de proporcionalidad,


donde X condiciona a Y, esto es, se ha planteado un
modelo lineal que "explica” Y en función de X a partir
de la fórmula Y = β 0 + β1 X + ε , hay que dar un paso adi-
cional, que es estimar los parámetros β 0 y β1 . Dada la
muestra los estimadores son:
n n n

∑ (Y j − Y )( X j − X )
j =1
∑ X jY j − n X Y
j =1
∑X Y
j =1
j j − nXY
rXY SY
β̂1 = = = =
n n
(n − 1) S X2 SX
∑ ( X − X )2 ∑ X 2j − n X
2

j =1 j =1

βˆ0 = Y − βˆ1 X
De nuevo con ayuda SPSS y el procedimiento Regresión
lineal obtenemos las tablas de resultados
EST-203 ESTADISTICA II Arturo Calderón G. 2014

De esta tabla se obtiene σˆ = 0.5902 y por tanto σˆ = 0.348


2

De esta tabla se tiene βˆ1 = 0.302 y βˆ0 = 27.53


β0 ˆβ1 ˆ
67 8 67 8
Se escribe Yˆ = 27.53 + 0.302 X que mide el valor promedio
del ingreso, en ausencia de error aleatorio. Esta ecua-
ción es la que se usa para hacer pronósticos, por ejemplo
para la primera participante (Caso 1) X=38.59 y el valor
pronosticado es Yˆ = 27.53 + 0.302 × 38.59 ≅ 39.19 que difiere en
11 centavos del ingreso real. Usando la opción Guardar del
procedimiento Regresión podemos pedir a SPSS que grabe los
ingresos pronosticados en todos los casos en el archivo
de datos:

5
EST-203 ESTADISTICA II Arturo Calderón G. 2014

No hay coincidencia exacta en ningún caso, pero las di-


ferencias en la mayor parte de los casos no suelen pasar
de 60 centavos, eso es lo que nos dice el “error típico o
promedio de estimación” σˆ = 0.5902

Podemos hacer un diagrama XY para examinar gráficamente


qué tan bien coincide el pronóstico con lo realmente ob-
servado, basta usar el comando Dispersión del procedimiento
Gráficos de SPSS:

Figura 2 Ingreso diario vs Ingreso predicho


EST-203 ESTADISTICA II Arturo Calderón G. 2014

Si queremos calificar el grado de acierto en la predic-


ción a partir del modelo, necesitamos un índice numérico
menos subjetivo que un gráfico. Un índice que ya sabemos
usar es la correlación de Pearson rYYˆ entre Y e Yˆ : Si el
modelo fuera exacto debiera ocurrir coincidencia total y
por tanto una correlación igual a 1. Pidiendo a SPSS la
correlación entre estos valores se obtiene la tabla:

Según el criterio de Cohen rYYˆ = 0.602 es “grande” (mayor que


0.5). El “ajuste” del modelo (o sea su capacidad de
representar bien los datos) puede calificarse de “bueno”.

En realidad todo este trabajo ya lo hizo SPSS y lo mostró


en la tabla que llama Resumen del modelo donde figura en
primer lugar R = rYYˆ =| rXY |= 0.602

Finalmente, la relación de proporcionalidad directa im-


plica que una “tasa de cambio de Y por X” positiva, o sea
una pendiente positiva: Nuestra hipótesis estadística es
entonces H1:β1>0, esto es esperamos un estimado positivo
en nuestra muestra, como en efecto ocurre pues βˆ1 = 0.302 > 0 .
Esta estimación tienen un “margen de error” E.E.βˆ = 0.063 , o1

sea que a nivel de estimación tendríamos β1 = 0.302 ± 0.063 o


0.239 ≤ β1 ≤ 0.365 : incluso con el error de estimación se cumple
nuestra hipótesis de trabajo, o sea, ocurre β1>0.

Como lo anterior puede haber ocurrido por azar, reali-


zamos el contraste de la “hipótesis nula” (hipótesis de
no relación) H0:β1=0 versus la hipótesis estadística de
trabajo (hipótesis de relación directa en este caso) H1:β1>0.
Usamos la estadística t de Student:
βˆ1 0.302
tc = = = 4.769 ; si H0:β1=0 fuera cierta, tc debiera
E . E . βˆ1 0.063

7
EST-203 ESTADISTICA II Arturo Calderón G. 2014

haber resultado cero, pero según vemos es 4.769, casi


cinco veces a la derecha de cero, bastante lejos y en la
dirección prevista por H1 (o sea la muestra está recha-
zando β1=0 y más bien confirmando β1>0).

SPSS muestra la “significación a dos colas”, que es la


probabilidad de haber obtenido sólo por azar un | tc| igual
o mayor que 4.769. Esta significación es 0.00; como nos
interesa más bien la probabilidad de haber obtenido un tc
positivo, basta dividir entre dos la significación, que
igual resulta cero. Así pues el resultado, en nuestra
muestra, es que no hay probabilidad de haber obtenido un
βˆ1 positivo sólo por azar. Y si no ocurrió por azar, es
porque en efecto el parámetro β1 es diferente de cero y
como la estimación βˆ1 = 0.302 resultó positiva, el resultado neto
es que se rechaza H0:β1=0 y se acepta H1:β1>0.

En conclusión, hay evidencia empírica que apoya la hipótesis de relación


directa entre Capacitación e Ingreso.

1.3 Ampliación del Análisis de Regresión.


En el ejemplo recién visto, es natural preguntarse si el
ingreso además depende de la experiencia (variable W).
Un diagrama de dispersión y la correspondiente correla-
ción de Pearson dan pistas al respecto:

Figura 2 Ingreso diario vs Experiencia


43.0
42.5
42.0
41.5
Ingreso (Y)

41.0
40.5
40.0
39.5
39.0
38.5
0.00 10.00 20.00 30.00 40.00 50.00 60.00
Experiencia (W)

rWY = 0.891
EST-203 ESTADISTICA II Arturo Calderón G. 2014

Vemos que hay también una relación lineal directa y que


incluso es más “fuerte” que la que existe entre Ingreso y
Capacitación.

El paso siguiente es juntar las dos variables en un nuevo


modelo con X y W como variables explicativas:
Y = β 0 + β1 X + β 2W + ε '

Felizmente los pasos en la estimación y análisis con SPSS


son los mismos que en modelo simple, basta agregar W como
una variable independiente adicional. Se obtiene así:

Ahora tenemos βˆ1 = 0.112 , βˆ2 = 0.063 y βˆ0 = 33.985

A diferencia del modelo con sólo X como v.i., en este


caso hay más tablas por interpretar: ¿Qué es el R cua-
drado? ¿Qué significa la tabla de encabezamiento ANOVA?
etc. Para ello necesitamos ampliar los conceptos vistos
para cubrir el caso de regresión lineal múltiple, donde
hay más de una “variable independiente” que afecta a la
variable respuesta o dependiente Y

9
EST-203 ESTADISTICA II Arturo Calderón G. 2014

Podemos intuir los resultados, no es difícil:

El ajuste del modelo, dado por la correlación entre el


ingreso real Y y el predicho Yˆ con este nuevo modelo, es
ahora R = rYYˆ =| rXY |= 0.912 , bastante mejor que el obtenido con
X como única variable independiente.

El Error típico de estimación también es menor σˆ = 0.3073

Si tuviéramos como hipótesis previa a la toma de datos, las hipótesis de relación


directa del ingreso tanto con la capacitación como con la experiencia, los
respectivos contrastes de significación (unilaterales a
la derecha) muestran que:
Podemos rechazar la hipótesis H0:β1=0 (Sig.=0.0025 < 0.05) y
aceptar la alterna H1:β1>0 (pues βˆ1 = 0.112 > 0 )

Podemos rechazar la hipótesis H0:β2=0 (Sig.=0.00< 0.05) y


aceptar la alterna H1:β2>0 (pues βˆ2 = 0.063 > 0 )

Queda por saber cuál variable es más importante. Como


veremos luego, esto se hace comparando los “Coeficientes
tipificados Beta”: Cuánto más grande en valor absoluto el
coeficiente, más importante la respectiva variable. En
este ejemplo, la Experiencia resulta más importante.

Lo más misterioso es el cuadro ANOVA (Análisis de varian-


za de la regresión). Como veremos en lo que sigue de es-
tos apuntes, en esta tabla se somete a prueba la hipó-
tesis H0:R2=0 vs H1:R2>0 mediante la estadística F y su sig-
nificación: En general si Sig de F es menor que 0.05, se
puede rechazar H0:R2=0 y eso quiere decir que al menos una de
las variables independientes del modelo sí tiene efecto
sobre la variable respuesta Y.
SPSS presenta esta tabla antes de la tabla de estimacio-
nes de los coeficientes β1 y β2 porque es preferible tener
una prueba preliminar global o test ómnibus que diga si
todos esos coeficientes son nulos y por tanto no vale la
pena hacer contrastes para cada uno por separado.

You might also like