Cap 1 Repaso Regresión Lineal Simple

EST-203 ESTADISTICA II Arturo Calderón G.
2014
Capítulo I Análisis de Regresión Lineal
1. Modelo de Regresión Lineal Simple
1.1 Uso
• En algunas investigaciones estamos interesados no sólo
en estudiar la relación entre dos o más variables de
una población, sino también en analizar la posibilidad
de predecir una de estas variables en función de otra u
otras variables.
• Lo anterior tiene sentido cuando tenemos una teoría
(psicológica) que dice que, salvo variaciones alea-
torias, una determinada variable cuantitativa X con-
diciona a otra variable cuantitativa Y de modo que
cambios en X inducen cambios proporcionales en Y.
• Muchas veces la teoría explicativa se basa además en
estudios previos, de tipo correlacional, que la justi-
fican empíricamente. Por ejemplo:
(1) Podemos intentar explicar el ingreso Y de una
persona partiendo de su capacitación laboral previa,
medida con algún índice pertinente X.
(2) También podríamos intentar determinar el nivel de
estrés Y de una persona en un puesto de mando, en
función de la cantidad X de empleados a su cargo.
• Para hacer el estudio es necesario
(1) Especificar el tipo de relación más plausible, vía
una ecuación o ‘modelo’.
(2) Disponer de una muestra aleatoria en la cual se
midan de manera conjunta tanto X como Y. La
información de esta muestra se organizará luego en una
base de datos para hacer el análisis y contrastar el
modelo. Si éste no fuera validado por los datos, la
teoría que sirvió generarlo perdería base.
• El modelo más sencillo es aquél donde se propone una
relación de proporcionalidad entre X e Y.
Geométricamente la proporcionalidad equivale a que en un
plano cartesiano XY, las parejas de valores (X,Y) des-
criben o siguen una trayectoria rectilínea.
Algebraicamente la proporcionalidad equivale a que X e Y
satisfacen la ecuación Y = β 0 + β1 X + ε donde β 0 y β1
son constantes características o sea son “parámetros” y
ε ~ N (0, σ 2 ) es una variación aleatoria debida a que las
1
EST-203 ESTADISTICA II Arturo Calderón G. 2014
personas no tienen todas ni siempre el mismo comporta-

miento.
1.2 Plan de análisis
Identificado el modelo como uno de regresión lineal sim-

ple, hay que someterlo a prueba con datos. Los pasos son:
1º Estimar los parámetros del modelo, que son β 0 , β1 y

σ 2. Las estimaciones (valores aproximados a partir de
la muestra) se denotan β̂ 0 , β̂1 y σˆ . También se hallan
2
los respectivos márgenes de error o “errores estándar

de estimación” E.E.βˆ0 y E.E.βˆ1 . De paso, se puede obtener
la ecuación del valor esperado de Y: Yˆ reemplazando va-
lores estimados de los parámetros en el modelo:
Yˆ = βˆ0 + βˆ1 X .
2º Medir el ajuste del modelo, o sea medir qué tan bien

representa el modelo a los datos reales, qué tanto
coinciden los valores reales Y con sus estimaciones Yˆ .
Una medida simple del ajuste es la correlación de
Pearson de Y con Yˆ , denotada R y definida R = rYYˆ : Si
el modelo representa bien a la muestra, pronósticos y
valores reales debiera coincidir, o sea se espera Y = Yˆ ,
que en primera instancia implica un R positivo y alto.
En el caso de regresión lineal simple, ocurre además
que R = rYYˆ =| rXY | .
3º Someter a prueba el modelo, o sea contrastar las hi-

pótesis que lo generaron. Esto se hace mediante pruebas
o contrastes t de Student. La más frecuente es relativa
a la pendiente o tasa de cambio de Y por X ( β1 ):La
hipótesis nula es H0:β1=0 vs H1 que puede ser unilateral
derecha (para hipótesis de relación directa),
unilateral izquierda (H1:β1<0 para hipótesis de relación
inversa) o bilateral (H0:β1≠0 para hipótesis de
relación). El contraste se apoya en que en general, la
βˆ1 − β1
estadística t = ~ t ( n − 2) y por tanto, si β1=0, enton-
E.E.βˆ1
βˆ1
ces tc = ~ t ( n − 2) y tc debiera tomar valores alrededor
E.E.βˆ1
de cero. Si calculada tc resulta muy alejada de cero y
en la dirección que predice la correspondiente H1, en-
tonces se rechaza H0:β1=0.Con SPSS o Excel esto se hace
viendo la significación (probabilidad de que siendo
cierta H0:β1=0 se obtenga un β̂1 como el de la muestra)
y si esta probabilidad es “muy pequeña” (usualmente
menor que 0.05) se opta por pensar que H0:β1=0 no es
cierta y se la rechaza.
Ejemplo:
Para evaluar un programa de capacitación para empleo como
vendedoras comisionistas de productos textiles, se iden-
tificó cuatro factores que podrían estar asociados al in-
greso diario Y logrado por la participante del programa.
Estos factores eran: Puntuación en una prueba final que
mide el grado de capacitación lograda con el programa(X),
Número mensual de horas trabajadas(Z), Edad en años(V) y
Meses de experiencia en algún trabajo similar(W).
Se seleccionó aleatoriamente n=42 vendedoras y se regis-
tró cada variable de interés. Los datos forman un archivo
de la forma:
Ingreso/día Capacitación Horas de trabajo/mes Edad Experiencia

Caso Y X Z V W
1 39.3 38.59 192.7 30 15.05
2 38.7 40.16 200.1 32 3.15
3 39.5 40.87 203.2 23 22.74
: : : : : :
40 41.2 43.83 207.4 27 37.49
41 41.2 41.99 201.9 30 35.50
42 42.4 44.45 203.9 24 48.06
Si planteamos una relación de proporcionalidad directa

entre Ingreso (Y) y la Capacitación (X), un diagrama de
dispersión ayuda a ver cuán fuerte sería esta relación:
3
Figura 1 Ingreso diario vs Capacitación
Se observa que hay relación, pero los puntos no caen sobre una
recta, aunque la siguen, pero con bastante variabilidad, esto es, hay algunos
puntos alejados de la tendencia.
Recordemos que para medir el grado de asociación podemos

calcular el coeficiente de correlación de Pearson rXY
n n
∑ (Y j − Y )( X j − X ) ∑Y X j j − nXY
j =1 j =1
rXY = =
( n − 1) S X SY ( n − 1) S X SY
Con ayuda de Excel o SPSS se obtiene rXY = 0.6021 que, según
el criterio de Cohen, es una correlación grande y favore-
ce la idea de que sí hay relación lineal entre X e Y.
• Como se ha planteado una relación de proporcionalidad,

donde X condiciona a Y, esto es, se ha planteado un
modelo lineal que "explica” Y en función de X a partir
de la fórmula Y = β 0 + β1 X + ε , hay que dar un paso adi-
cional, que es estimar los parámetros β 0 y β1 . Dada la
muestra los estimadores son:
n n n
∑ (Y j − Y )( X j − X )
j =1
∑ X jY j − n X Y
j =1
∑X Y
j =1
j j − nXY
rXY SY
β̂1 = = = =
n n
(n − 1) S X2 SX
∑ ( X − X )2 ∑ X 2j − n X
2
j =1 j =1
βˆ0 = Y − βˆ1 X
De nuevo con ayuda SPSS y el procedimiento Regresión
lineal obtenemos las tablas de resultados
De esta tabla se obtiene σˆ = 0.5902 y por tanto σˆ = 0.348

2
De esta tabla se tiene βˆ1 = 0.302 y βˆ0 = 27.53

β0 ˆβ1 ˆ
67 8 67 8
Se escribe Yˆ = 27.53 + 0.302 X que mide el valor promedio
del ingreso, en ausencia de error aleatorio. Esta ecua-
ción es la que se usa para hacer pronósticos, por ejemplo
para la primera participante (Caso 1) X=38.59 y el valor
pronosticado es Yˆ = 27.53 + 0.302 × 38.59 ≅ 39.19 que difiere en
11 centavos del ingreso real. Usando la opción Guardar del
procedimiento Regresión podemos pedir a SPSS que grabe los
ingresos pronosticados en todos los casos en el archivo
de datos:
5
No hay coincidencia exacta en ningún caso, pero las di-

ferencias en la mayor parte de los casos no suelen pasar
de 60 centavos, eso es lo que nos dice el “error típico o
promedio de estimación” σˆ = 0.5902
Podemos hacer un diagrama XY para examinar gráficamente

qué tan bien coincide el pronóstico con lo realmente ob-
servado, basta usar el comando Dispersión del procedimiento
Gráficos de SPSS:
Figura 2 Ingreso diario vs Ingreso predicho

Si queremos calificar el grado de acierto en la predic-

ción a partir del modelo, necesitamos un índice numérico
menos subjetivo que un gráfico. Un índice que ya sabemos
usar es la correlación de Pearson rYYˆ entre Y e Yˆ : Si el
modelo fuera exacto debiera ocurrir coincidencia total y
por tanto una correlación igual a 1. Pidiendo a SPSS la
correlación entre estos valores se obtiene la tabla:
Según el criterio de Cohen rYYˆ = 0.602 es “grande” (mayor que

0.5). El “ajuste” del modelo (o sea su capacidad de
representar bien los datos) puede calificarse de “bueno”.
En realidad todo este trabajo ya lo hizo SPSS y lo mostró

en la tabla que llama Resumen del modelo donde figura en
primer lugar R = rYYˆ =| rXY |= 0.602
Finalmente, la relación de proporcionalidad directa im-

plica que una “tasa de cambio de Y por X” positiva, o sea
una pendiente positiva: Nuestra hipótesis estadística es
entonces H1:β1>0, esto es esperamos un estimado positivo
en nuestra muestra, como en efecto ocurre pues βˆ1 = 0.302 > 0 .
Esta estimación tienen un “margen de error” E.E.βˆ = 0.063 , o1
sea que a nivel de estimación tendríamos β1 = 0.302 ± 0.063 o

0.239 ≤ β1 ≤ 0.365 : incluso con el error de estimación se cumple
nuestra hipótesis de trabajo, o sea, ocurre β1>0.
Como lo anterior puede haber ocurrido por azar, reali-

zamos el contraste de la “hipótesis nula” (hipótesis de
no relación) H0:β1=0 versus la hipótesis estadística de
trabajo (hipótesis de relación directa en este caso) H1:β1>0.
Usamos la estadística t de Student:
βˆ1 0.302
tc = = = 4.769 ; si H0:β1=0 fuera cierta, tc debiera
E . E . βˆ1 0.063
7
haber resultado cero, pero según vemos es 4.769, casi

cinco veces a la derecha de cero, bastante lejos y en la
dirección prevista por H1 (o sea la muestra está recha-
zando β1=0 y más bien confirmando β1>0).
SPSS muestra la “significación a dos colas”, que es la

probabilidad de haber obtenido sólo por azar un | tc| igual
o mayor que 4.769. Esta significación es 0.00; como nos
interesa más bien la probabilidad de haber obtenido un tc
positivo, basta dividir entre dos la significación, que
igual resulta cero. Así pues el resultado, en nuestra
muestra, es que no hay probabilidad de haber obtenido un
βˆ1 positivo sólo por azar. Y si no ocurrió por azar, es
porque en efecto el parámetro β1 es diferente de cero y
como la estimación βˆ1 = 0.302 resultó positiva, el resultado neto
es que se rechaza H0:β1=0 y se acepta H1:β1>0.
En conclusión, hay evidencia empírica que apoya la hipótesis de relación

directa entre Capacitación e Ingreso.
1.3 Ampliación del Análisis de Regresión.

En el ejemplo recién visto, es natural preguntarse si el
ingreso además depende de la experiencia (variable W).
Un diagrama de dispersión y la correspondiente correla-
ción de Pearson dan pistas al respecto:
Figura 2 Ingreso diario vs Experiencia

43.0
42.5
42.0
41.5
Ingreso (Y)
41.0
40.5
40.0
39.5
39.0
38.5
0.00 10.00 20.00 30.00 40.00 50.00 60.00
Experiencia (W)
rWY = 0.891
Vemos que hay también una relación lineal directa y que

incluso es más “fuerte” que la que existe entre Ingreso y
Capacitación.
El paso siguiente es juntar las dos variables en un nuevo

modelo con X y W como variables explicativas:
Y = β 0 + β1 X + β 2W + ε '
Felizmente los pasos en la estimación y análisis con SPSS

son los mismos que en modelo simple, basta agregar W como
una variable independiente adicional. Se obtiene así:
Ahora tenemos βˆ1 = 0.112 , βˆ2 = 0.063 y βˆ0 = 33.985
A diferencia del modelo con sólo X como v.i., en este

caso hay más tablas por interpretar: ¿Qué es el R cua-
drado? ¿Qué significa la tabla de encabezamiento ANOVA?
etc. Para ello necesitamos ampliar los conceptos vistos
para cubrir el caso de regresión lineal múltiple, donde
hay más de una “variable independiente” que afecta a la
variable respuesta o dependiente Y
9
Podemos intuir los resultados, no es difícil:
El ajuste del modelo, dado por la correlación entre el

ingreso real Y y el predicho Yˆ con este nuevo modelo, es
ahora R = rYYˆ =| rXY |= 0.912 , bastante mejor que el obtenido con
X como única variable independiente.
El Error típico de estimación también es menor σˆ = 0.3073
Si tuviéramos como hipótesis previa a la toma de datos, las hipótesis de relación

directa del ingreso tanto con la capacitación como con la experiencia, los
respectivos contrastes de significación (unilaterales a
la derecha) muestran que:
Podemos rechazar la hipótesis H0:β1=0 (Sig.=0.0025 < 0.05) y
aceptar la alterna H1:β1>0 (pues βˆ1 = 0.112 > 0 )
Podemos rechazar la hipótesis H0:β2=0 (Sig.=0.00< 0.05) y

aceptar la alterna H1:β2>0 (pues βˆ2 = 0.063 > 0 )
Queda por saber cuál variable es más importante. Como

veremos luego, esto se hace comparando los “Coeficientes
tipificados Beta”: Cuánto más grande en valor absoluto el
coeficiente, más importante la respectiva variable. En
este ejemplo, la Experiencia resulta más importante.
Lo más misterioso es el cuadro ANOVA (Análisis de varian-

za de la regresión). Como veremos en lo que sigue de es-
tos apuntes, en esta tabla se somete a prueba la hipó-
tesis H0:R2=0 vs H1:R2>0 mediante la estadística F y su sig-
nificación: En general si Sig de F es menor que 0.05, se
puede rechazar H0:R2=0 y eso quiere decir que al menos una de
las variables independientes del modelo sí tiene efecto
sobre la variable respuesta Y.
SPSS presenta esta tabla antes de la tabla de estimacio-
nes de los coeficientes β1 y β2 porque es preferible tener
una prueba preliminar global o test ómnibus que diga si
todos esos coeficientes son nulos y por tanto no vale la
pena hacer contrastes para cada uno por separado.

Cap 1 Repaso Regresión Lineal Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cap 1 Repaso Regresión Lineal Simple

Uploaded by

Copyright:

Available Formats

EST-203 ESTADISTICA II Arturo Calderón G.

Capítulo I Análisis de Regresión Lineal

1. Modelo de Regresión Lineal Simple

personas no tienen todas ni siempre el mismo comporta-

1.2 Plan de análisis

Identificado el modelo como uno de regresión lineal sim-

1º Estimar los parámetros del modelo, que son β 0 , β1 y

los respectivos márgenes de error o “errores estándar

2º Medir el ajuste del modelo, o sea medir qué tan bien

3º Someter a prueba el modelo, o sea contrastar las hi-

Ingreso/día Capacitación Horas de trabajo/mes Edad Experiencia

Si planteamos una relación de proporcionalidad directa

Figura 1 Ingreso diario vs Capacitación

Recordemos que para medir el grado de asociación podemos

• Como se ha planteado una relación de proporcionalidad,

De esta tabla se obtiene σˆ = 0.5902 y por tanto σˆ = 0.348

De esta tabla se tiene βˆ1 = 0.302 y βˆ0 = 27.53

No hay coincidencia exacta en ningún caso, pero las di-

Podemos hacer un diagrama XY para examinar gráficamente

Figura 2 Ingreso diario vs Ingreso predicho

Si queremos calificar el grado de acierto en la predic-

Según el criterio de Cohen rYYˆ = 0.602 es “grande” (mayor que

En realidad todo este trabajo ya lo hizo SPSS y lo mostró

Finalmente, la relación de proporcionalidad directa im-

sea que a nivel de estimación tendríamos β1 = 0.302 ± 0.063 o

Como lo anterior puede haber ocurrido por azar, reali-

haber resultado cero, pero según vemos es 4.769, casi

SPSS muestra la “significación a dos colas”, que es la

En conclusión, hay evidencia empírica que apoya la hipótesis de relación

1.3 Ampliación del Análisis de Regresión.

Figura 2 Ingreso diario vs Experiencia

Vemos que hay también una relación lineal directa y que

El paso siguiente es juntar las dos variables en un nuevo

Felizmente los pasos en la estimación y análisis con SPSS

Ahora tenemos βˆ1 = 0.112 , βˆ2 = 0.063 y βˆ0 = 33.985

A diferencia del modelo con sólo X como v.i., en este

Podemos intuir los resultados, no es difícil:

El ajuste del modelo, dado por la correlación entre el

El Error típico de estimación también es menor σˆ = 0.3073

Si tuviéramos como hipótesis previa a la toma de datos, las hipótesis de relación

Podemos rechazar la hipótesis H0:β2=0 (Sig.=0.00< 0.05) y

Queda por saber cuál variable es más importante. Como

Lo más misterioso es el cuadro ANOVA (Análisis de varian-

You might also like