OLS Simple

ANALITICA PARA LOS NEGOCIOS
II - 2018
Profesor: Ph.D. Andrés Luengo
FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS

PONTIFICIA UNIVERSIDAD JAVERIANA
Semana 6 – Agenda
REGRESIÓN LINEAL SIMPLE

Regresión lineal simple
 Estimar y comprender el significado de los coeficientes

de una regression b0 and b1
Predecir el valor de una variable dependiente en base en
el valor de una variable independiente
Evaluar los supuestos del analisis de regression y saber
la consecuencia de la violacion de estos supuestos
 Hacer inferencias sobre la pendiente y el coeficiente de
correlacion
 Estimar un interval de confianza para los valores medios
e individuales de una variable dependiente
Correlación
DROVA
• Podemos utilizar un diagrama de dispersión para
realizar un primer análisis de la relación entre dos
variables.
• El coeficiente de correlación (lineal) es utilizado para
mediar la fuerza de la asociación (lineal) entre dos
variables.
• Solamente nos habla de la relación (lineal) entre dos
variables.
• No implica relación causal.
Tipos de relaciones entre dos
variables DROVA
Relaciones lineales Otras relaciones
Y Y
X X
Y Y
X X
variables DROVA
Relaciones fuertes Relaciones débiles
Y Y
X X
Y Y
X X
variables DROVA
Sin relación
X
Introducción al análisis de
regresión
DROVA
• El análisis de regresión se usa para:
• Conocer el grado en que (al menos) una variable
(independiente) explica a otra (dependiente), a lo que llamamos
como un efecto de causalidad:
• Predecir el valor de una variable dependiente, basándonos en
los valores de por lo menos una variable independiente.
• Conocer el efecto de cambios en una variable independiente
sobre la variable dependiente.
Variable dependiente: variable que queremos predecir o

explicar.
Variable independiente: variable utilizada para predecir o
explicar la dependiente.
Ejemplos
• Variable dependiente es el precio retail (minorista) de la gasoline en
Bogotá – variable independiente es el precio internacional del
petroleo.
• Variable dependiente es el salario– variables independientes podrian
ser:
Horas de trabajo, edad, educación, experiencia, region,
membresia a un sindicato, etc.
• Precio y cantidad vendida de un producto:
• La cantidad vendida depende del precio. Variable dependiente
es cantidad vendida – variable independiente es el precio.
• El precio depende de la cantidad vendida. Variable dependiente
es el precio – variable independiente es la cantidad vendida.
(esto se conoce como el problema de simultaneidad)
Ejemplos: precio de la gasolina
600 160
140
500
120
400
100
300 80
60
200
40
100
20
0 0
1981M01
1982M01
1983M01
1984M01
1985M01
1986M01
1987M01
1988M01
1989M01
1990M01
1991M01
1992M01
1993M01
1994M01
1995M01
1996M01
1997M01
1998M01
1999M01
2000M01
2001M01
2002M01
2003M01
2004M01
2005M01
2006M01
2007M01
2008M01
Crude Oil price index, 1997=100, left axis Regular gasoline prices, regina, cents per litre, right axis
Source: CANSIM II Database (Vector v1576530 and v735048

respectively)
Ejemplos: relaciones causales
Modelo bivariado o modelo de regression lineal simple
(Educación) x y (Ingresos)
Modelo multivariado o modelo de regression multiple
(Educación) x1
(Genero) x2
(Experiencia) x3 y (Ingreso)
(Edad) x4
Modelo con relaciones simultaneas
Precio del trigo Cantidad de trigo producida

Modelo de regresión lineal simple
DROVA
• Sólo una variable independiente, X.

• La relación entre X y Y es descrita por
una función lineal.
• Se asume que cambios en Y están
relacionados con cambios en X
(causalidad).
DROVA
Efecto marginal
de X, pendiente Término
Intercepto Variable de error
(poblacional) (poblacional)
Variable independiente aleatorio
dependiente
Yi  β0  β1Xi  ε i
Componente lineal Error aleatorio
DROVA
Y Yi  β0  β1Xi  ε i
Valor observado Yi
de Y dado Xi
εi Pendiente = β1
Predicción de Y
dado Xi
𝑌෠ i Error aleatorio para
este valor de Xi
Intercepto = β0
Xi X
Ecuación de regresión lineal
simple (línea de predicción) DROVA
Esta ecuación provee un estimado de la línea
regresión poblacional.
Valor Estimado de la
estimado de Estimado del pendiente/efecto
Y para la intercepto marginal
observación i.
Valor de X
Ŷi  b0  b1Xi
para la
observación i
El método de mínimos cuadrados
DROVA
b0 y b1 son los valores que minimizan la suma de las

diferencias al cuadrado (una medida de distancia)
entre Y y Yˆ .
min  (Yi Ŷi )  min  (Yi  (b0  b1Xi ))

2 2
El método de mínimos cuadrados
DROVA
El criterio de mínimos cuadrados nos

Yi Yˆ proporciona un valor de b0 y b1, tal que
Ingreso (Y)
෍(𝑌𝑖 − 𝑌෠𝑖 )2 sea mínimo

𝑖=1
Educación (X)
Interpretación del intercepto y la
pendiente (estimados) DROVA
• b0 es el valor medio estimado de Y cuando

el valor de X es cero.
• b1 es el cambio estimado en valor medio
de Y, como resultado de un incremento de
una unidad en X.
Ejemplo
DROVA
• Un agente de bienes raíces quiere examinar la relación

entre el precio de venta de una casa y su tamaño
(medido en pies cuadrados).
• Se selecciona muestral aleatoria de 29 casas.

• Variable dependiente (Y) = precio en $1,000s.
• Variable independiente (X) = pies cuadrados.
Ejemplo: Modelo de regresiónDROVA
• Diagrama de dispersión en Excel.
• Estimación e interpretación de los coeficientes de la regresión

lineal en Excel.
Ejemplo: Dispersión
DROVA
DROVA
Efecto marginal
de X, pendiente Término
Intercepto Variable de error
(poblacional) (poblacional)
Variable independiente aleatorio
dependiente
𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛽1 𝑆𝑞𝑢𝑎𝑟𝑒𝑓𝑒𝑒𝑡 + 𝑒
Componente lineal Error aleatorio

Ejemplo: interpretación de bo
DROVA
• b0 es el valor medio estimado de Y cuando el valor

de X es cero.
• Como una casa no puede tener 0 metros cuadrados,

b0 no tiene aplicación práctica.
Ejemplo: interpretación de b1
DROVA
• b1 estima el cambio en valor medio de Y como

resultado de un incremento en una unidad de
X.
• Aquí, b1 = 0.102 nos dice que se estima que el
valor medio de una casa se incrementa en
0.102*($1,000) = $102, por cada pie cuadrado
adicional.
Ejemplo: Estimación
DROVA
• Primero debemos estimar b1 :

𝑆𝑆𝑋𝑌
• 𝛽1 =
𝑆𝑆𝑋
donde,
• 𝑆𝑆𝑋𝑌 = σ𝑛𝑖=1(𝑋𝑖 − 𝑋)(𝑌
ത 𝑖 − 𝑌),
ത y
• 𝑆𝑆𝑋 = σ𝑛𝑖=1(𝑋𝑖 − 𝑋)
ത 2
Ejemplo: Estimación
DROVA
• Luego estimamos b0 :
• 𝛽0 = 𝑌ത − 𝛽1 𝑋ത
Ejemplo: predicción
DROVA
Prediciendo el precio de una
casa de 2,000 pies cuadrados:
Predecimos que el precio de una casa de

2,000 pies cuadrados es 286.916($1,000s)
= $286,916
Ejemplo: predicción
DROVA
• Solamente hacer predicciones utilizando valores de X
en el rango de valores observados.
Rango de valores
observados
Mejor no intentar
extrapolar fuera
del rango
Estimación
DROVA
• Minimos cuadrados ordinarios pueden ser

estimados en forma matricial para bases de
datos mas complejas:
−𝟏
𝜷 = 𝑿´𝑿 𝑿´𝒀
Explicación algebra y aplicación excel

Coeficiente de determinación, r2
DROVA
¿Qué tan bueno es nuestro modelo?

• El coeficiente de determinación nos dice qué tan
bien la variable independiente (pies cuadrados)
explica la dependiente (precio).
• También se le llama r-cuadrada y se le denota r2.

0 r 12
Ejemplos
DROVA
Y
Relación lineal perfecta entre

X y Y.
X
r2 = 1
Y 100% de la variación en Y
explicada con variación en X.
X
r2 =1
Ejemplos
DROVA
Y
0 < r2 < 1
Relaciones lineales más

débiles entre X y Y.
X
Parte pero no toda la
Y
variación en Y es explicada
por variación en X.
X
Ejemplos
DROVA
r2 = 0
Y
No hay relación lineal entre
X y Y.
El valor de Y no depende
X de X. (Nada de la variación
r2 = 0
en Y se explica por
variación en X.)
Estimación:
𝑆𝑆𝑅 𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 DROVA
2
𝑅 = =
𝑆𝑆𝑇 𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
Y
Yi Yˆ
SSE
Pendiente = β1
SST 𝑌෠ i
SSR
𝑌ത
Intercepto = β0
Xi X
Estimación:
𝑆𝑆𝑅 𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
𝑅2 = =
𝑆𝑆𝑇 𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 DROVA
𝑆𝑆𝐸 𝐸𝑟𝑟𝑜𝑟 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
𝑅2 = 1 − =1−
𝑆𝑆𝑇 𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
Donde, 𝑛
ത 2
𝑆𝑆𝑇 = ෍(𝑌𝑖 − 𝑌)
𝑖=1
𝑛
𝑆𝑆𝑅 = ෍(𝑌෡𝑖 − 𝑌)
ത 2
𝑖=1
𝑛
𝑆𝑆𝐸 = ෍(𝑌𝑖 − 𝑌෡𝑖 )2

𝑖=1
Interpretando r2 en nuestro ejemplo de Excel
DROVA
El 85.6% de la variación en los

precios de las casas es
explicada por la variación en
pies cuadrados.
Supuestos detrás de una regresión
lineal (LIIE)
DROVA
• Linealidad:
• La relación entre X y Y es lineal.
• Independencia de los errores:

• Los valores de los errores son estadísticamente
independientes. Particularmente importante cuando los
datos se recolectan a largo de un período de tiempo
(series de tiempo).
Supuestos detrás de una regresión
lineal (LIIE)
DROVA
• Igual varianza (homocedasticidad):

• La distribución de probabilidad de los errores tiene
varianza constante (no depende de X).
• Exogeneidad estricta:
• E(error | X) = 0
-> No se cumple si hay variables omitidas que
“interactúan” con X o X influye sobre Y pero Y
también influye sobre X.
Supuestos: análisis de residuos
DROVA
ei  Yi  Ŷi
• Diferencia entre el valor observado de Y y la predicción de Y.
• El análisis de residuos nos ayudará a verificar si hay evidencia

en contra de nuestros supuestos (LINI).
• Vamos a graficar el valor del residuo vs. los valores de la

variable independiente X.
Análisis de residuos: linealidad
DROVA
Y Y
x x
residuos
residuos
x x
No lineal
 Lineal
Análisis de residuos:
homocedasticidad
DROVA
Y Y
x x
residuos
residuos
x x
Varianza no constante  Varianza constante

Residual Analysis for
Independence
DCOVA
Patron ciclico:
 No hay un patron ciclico

No hay independencia
residuals
Hay independencia
X
residuals
X
residuals
X
Análisis en Excel: linealidad
DROVA
Supuesto de linealidad apropiado

Análisis en Excel: homocedasticidad e
independencia
DROVA
Supuesto de homocedasticidad e
independencia apropiado
¿Qué hacer si no se cumplen los supuestos?
• Si la relación entre ambas variables no es lineal, se puede especificar un
modelo de regresión no lineal.
-> Si corremos una regresión lineal,
estaríamos estimando un efecto marginal de X
sobre Y incorrecto/de forma sesgada.
• Si no se cumple el supuesto de homocedasticidad, todo software

estadístico incluye una opción que permite corregir.
-> Si no se corrige, estaríamos haciendo

inferencia incorrecta.
• Si no se cumple el supuesto de independencia, se debe comprobar la

autocorrelación de los errores.
-> Si no se corrige, estaríamos haciendo

inferencia incorrecta del error estándar, los coeficientes son insesgados
pero el error estándar estaría sobre estimado. Test de durbin – Watson.
Inferencia sobre la pendiente: t-test
DROVA
¿Existe una relación lineal entre X y Y?
• Hipótesis nula y alternativa:

• H0: β1 = 0 (no existe relación)
• H1: β1 ≠ 0 (sí existe relación)
Ejemplo: inferencia sobre la
pendiente
DROVA
Ecuación estimada:
La pendiente/efecto marginal es 0.102
¿Existe una relación entre los pies cuadrados de una

casa y su precio de venta?
pendiente
H0: β1 = 0 DROVA
De Excel: H1: β1 ≠ 0
Standard
Coefficients Error t Stat P-value
Intercept (bo) 82.916 14.528 5.707 0.00000459
Square Feet (b1) 0.102 0.00807 12.645 0.00000000000742
b1  β1 0.102  0
t STAT    12.645
Sb1 0.0081
pendiente
H0: β1 = 0 DROVA
Standard
Intercept 82.916 14.528 5.707 0.00000459
Square Feet 0.102 0.00807 12.645 0.00000000000742
¿Cómo calcular el error estándar de los coeficientes?

- Primero debemos calcular el desviación estándar del termino de
error.
- Y luego lo multiplicamos por la inversa de la suma de las “X”
al cuadrado SSX => (𝑋´𝑋)−1
𝑉𝑎𝑟(𝛽0 ) 𝐶𝑜𝑣(𝛽0 , 𝛽1 )
- 𝑉𝑎𝑟 𝛽መ = 𝜎𝑒2 (𝑋´𝑋)−1 =
𝐶𝑜𝑣(𝛽1 , 𝛽0 ) 𝑉𝑎𝑟(𝛽1 )
pendiente
DROVA
¿Cómo calcular el error estándar de los coeficientes? (Continuación)
𝑉𝑎𝑟(𝛽0 ) 𝐶𝑜𝑣(𝛽0 , 𝛽1 )
- 𝑉𝑎𝑟 𝛽መ = 𝜎𝑒2 (𝑋´𝑋)−1 =
𝐶𝑜𝑣(𝛽1 , 𝛽0 ) 𝑉𝑎𝑟(𝛽1 )
Entonces,
- Error estándar de 𝛽0 = 𝑆𝛽0 = 𝑉𝑎𝑟 𝛽0 , y
-Error estándar de 𝛽1 = 𝑆𝛽1 = 𝑉𝑎𝑟(𝛽1 )

Y donde,
𝑛
2 σ ҧ 2
𝑖=1(𝑒𝑖 −𝑒)
𝜎𝑒 =
𝑛−𝑘−1
Aplicación Excel
pendiente
H0: β1 = 0 DROVA
Standard
Intercept (bo) 82.916 14.528 5.707 0.00000459
Square Feet (b1) 0.102 0.00807 12.645 0.00000000000742
b1  β1 0.102  0
t STAT    12.645
Sb1 0.0081
pendiente
DROVA
H0: β1 = 0
tSTAT = 12.645 H1: β1 ≠ 0
d.f. = 10- 2 = 8
a/2=.025 a/2=.025
Decisión: Rechazar H0.
Hay suficiente evidencia

Rechaza
-t
No rechaza H0
tα/2
Rechaza para decir que los pies
H0 α/2 0 H0
-2.3060 2.3060 12.645 cuadrados afectan el precio
de venta. B0=0.102
pendiente
H0: β1 = 0 DROVA
Standard
Intercept 82.916 14.528 5.707 0.00000459
Square Feet 0.102 0.00807 12.645 0.00000000000742
p-value
Decisión: Rechazar H0, ya que p-value < α.
Hay suficiente evidencia para decir

que el número pies cuadrados afecta
el precio de venta de las casas.
Intervalo de confianza para la
pendiente (𝛽1 )
DCOVA
Intervalo de confianza para la pendiente:
𝛽1 ± 𝑡𝛼Τ2,𝑑𝑓 ∗ 𝑆𝛽1 d.f. = n – k-1,

Donde k es el numero de
variables independientes
Excel salida computacional para el ejemplo de precios de las casas:
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 82.916 14.528 5.707 0.00000459 53.10690 112.725505
Square Feet 0.102 0.00807 12.645 0.00000000000742 0.0854835 0.11859899
A un 95% de confianza, el interval de confianza para la

pendiente es (0,08548, 0,11859)

OLS Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

OLS Simple

Uploaded by

Copyright:

Available Formats

ANALITICA PARA LOS NEGOCIOS

Profesor: Ph.D. Andrés Luengo

FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS

REGRESIÓN LINEAL SIMPLE

 Estimar y comprender el significado de los coeficientes

Relaciones lineales Otras relaciones

Relaciones fuertes Relaciones débiles

Variable dependiente: variable que queremos predecir o

Source: CANSIM II Database (Vector v1576530 and v735048

Modelo con relaciones simultaneas

Precio del trigo Cantidad de trigo producida

• Sólo una variable independiente, X.

b0 y b1 son los valores que minimizan la suma de las

min  (Yi Ŷi )  min  (Yi  (b0  b1Xi ))

El criterio de mínimos cuadrados nos

෍(𝑌𝑖 − 𝑌෠𝑖 )2 sea mínimo

• b0 es el valor medio estimado de Y cuando

• Un agente de bienes raíces quiere examinar la relación

• Se selecciona muestral aleatoria de 29 casas.

• Diagrama de dispersión en Excel.

• Estimación e interpretación de los coeficientes de la regresión

Componente lineal Error aleatorio

• b0 es el valor medio estimado de Y cuando el valor

• Como una casa no puede tener 0 metros cuadrados,

• b1 estima el cambio en valor medio de Y como

• Primero debemos estimar b1 :

Predecimos que el precio de una casa de

• Minimos cuadrados ordinarios pueden ser

Explicación algebra y aplicación excel

¿Qué tan bueno es nuestro modelo?

• También se le llama r-cuadrada y se le denota r2.

Relación lineal perfecta entre

Relaciones lineales más

𝑆𝑆𝐸 = ෍(𝑌𝑖 − 𝑌෡𝑖 )2

El 85.6% de la variación en los

• Independencia de los errores:

• Igual varianza (homocedasticidad):

• Diferencia entre el valor observado de Y y la predicción de Y.

• El análisis de residuos nos ayudará a verificar si hay evidencia

• Vamos a graficar el valor del residuo vs. los valores de la

Varianza no constante  Varianza constante

 No hay un patron ciclico

Supuesto de linealidad apropiado

• Si no se cumple el supuesto de homocedasticidad, todo software

-> Si no se corrige, estaríamos haciendo

• Si no se cumple el supuesto de independencia, se debe comprobar la

-> Si no se corrige, estaríamos haciendo

¿Existe una relación lineal entre X y Y?

• Hipótesis nula y alternativa:

La pendiente/efecto marginal es 0.102

¿Existe una relación entre los pies cuadrados de una

¿Cómo calcular el error estándar de los coeficientes?

- Error estándar de 𝛽0 = 𝑆𝛽0 = 𝑉𝑎𝑟 𝛽0 , y

-Error estándar de 𝛽1 = 𝑆𝛽1 = 𝑉𝑎𝑟(𝛽1 )

Hay suficiente evidencia

Hay suficiente evidencia para decir

𝛽1 ± 𝑡𝛼Τ2,𝑑𝑓 ∗ 𝑆𝛽1 d.f. = n – k-1,

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

A un 95% de confianza, el interval de confianza para la

You might also like