You are on page 1of 54

ANALITICA PARA LOS NEGOCIOS

II - 2018

Profesor: Ph.D. Andrés Luengo

FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS


PONTIFICIA UNIVERSIDAD JAVERIANA
Semana 6 – Agenda

REGRESIÓN LINEAL SIMPLE


Regresión lineal simple

 Estimar y comprender el significado de los coeficientes


de una regression b0 and b1
Predecir el valor de una variable dependiente en base en
el valor de una variable independiente
Evaluar los supuestos del analisis de regression y saber
la consecuencia de la violacion de estos supuestos
 Hacer inferencias sobre la pendiente y el coeficiente de
correlacion
 Estimar un interval de confianza para los valores medios
e individuales de una variable dependiente
Correlación
DROVA
• Podemos utilizar un diagrama de dispersión para
realizar un primer análisis de la relación entre dos
variables.
• El coeficiente de correlación (lineal) es utilizado para
mediar la fuerza de la asociación (lineal) entre dos
variables.
• Solamente nos habla de la relación (lineal) entre dos
variables.
• No implica relación causal.
Tipos de relaciones entre dos
variables DROVA

Relaciones lineales Otras relaciones

Y Y

X X

Y Y

X X
Tipos de relaciones entre dos
variables DROVA

Relaciones fuertes Relaciones débiles

Y Y

X X

Y Y

X X
Tipos de relaciones entre dos
variables DROVA

Sin relación

X
Introducción al análisis de
regresión
DROVA
• El análisis de regresión se usa para:
• Conocer el grado en que (al menos) una variable
(independiente) explica a otra (dependiente), a lo que llamamos
como un efecto de causalidad:
• Predecir el valor de una variable dependiente, basándonos en
los valores de por lo menos una variable independiente.
• Conocer el efecto de cambios en una variable independiente
sobre la variable dependiente.

Variable dependiente: variable que queremos predecir o


explicar.
Variable independiente: variable utilizada para predecir o
explicar la dependiente.
Ejemplos
• Variable dependiente es el precio retail (minorista) de la gasoline en
Bogotá – variable independiente es el precio internacional del
petroleo.
• Variable dependiente es el salario– variables independientes podrian
ser:
Horas de trabajo, edad, educación, experiencia, region,
membresia a un sindicato, etc.
• Precio y cantidad vendida de un producto:
• La cantidad vendida depende del precio. Variable dependiente
es cantidad vendida – variable independiente es el precio.
• El precio depende de la cantidad vendida. Variable dependiente
es el precio – variable independiente es la cantidad vendida.
(esto se conoce como el problema de simultaneidad)
Ejemplos: precio de la gasolina
600 160

140

500

120

400

100

300 80

60

200

40

100

20

0 0
1981M01

1982M01

1983M01

1984M01

1985M01

1986M01

1987M01

1988M01

1989M01

1990M01

1991M01

1992M01

1993M01

1994M01

1995M01

1996M01

1997M01

1998M01

1999M01

2000M01

2001M01

2002M01

2003M01

2004M01

2005M01

2006M01

2007M01

2008M01
Crude Oil price index, 1997=100, left axis Regular gasoline prices, regina, cents per litre, right axis

Source: CANSIM II Database (Vector v1576530 and v735048


respectively)
Ejemplos: relaciones causales
Modelo bivariado o modelo de regression lineal simple
(Educación) x y (Ingresos)
Modelo multivariado o modelo de regression multiple
(Educación) x1
(Genero) x2
(Experiencia) x3 y (Ingreso)

(Edad) x4

Modelo con relaciones simultaneas

Precio del trigo Cantidad de trigo producida


Modelo de regresión lineal simple
DROVA

• Sólo una variable independiente, X.


• La relación entre X y Y es descrita por
una función lineal.
• Se asume que cambios en Y están
relacionados con cambios en X
(causalidad).
Modelo de regresión lineal simple
DROVA

Efecto marginal
de X, pendiente Término
Intercepto Variable de error
(poblacional) (poblacional)
Variable independiente aleatorio
dependiente

Yi  β0  β1Xi  ε i
Componente lineal Error aleatorio
Modelo de regresión lineal simple
DROVA

Y Yi  β0  β1Xi  ε i
Valor observado Yi
de Y dado Xi

εi Pendiente = β1
Predicción de Y
dado Xi
𝑌෠ i Error aleatorio para
este valor de Xi
Intercepto = β0

Xi X
Ecuación de regresión lineal
simple (línea de predicción) DROVA
Esta ecuación provee un estimado de la línea
regresión poblacional.

Valor Estimado de la
estimado de Estimado del pendiente/efecto
Y para la intercepto marginal
observación i.

Valor de X

Ŷi  b0  b1Xi
para la
observación i
El método de mínimos cuadrados
DROVA

b0 y b1 son los valores que minimizan la suma de las


diferencias al cuadrado (una medida de distancia)
entre Y y Yˆ .

min  (Yi Ŷi )  min  (Yi  (b0  b1Xi ))


2 2
El método de mínimos cuadrados
DROVA

El criterio de mínimos cuadrados nos


Yi Yˆ proporciona un valor de b0 y b1, tal que
Ingreso (Y)

෍(𝑌𝑖 − 𝑌෠𝑖 )2 sea mínimo


𝑖=1

Educación (X)
Interpretación del intercepto y la
pendiente (estimados) DROVA

• b0 es el valor medio estimado de Y cuando


el valor de X es cero.
• b1 es el cambio estimado en valor medio
de Y, como resultado de un incremento de
una unidad en X.
Ejemplo
DROVA

• Un agente de bienes raíces quiere examinar la relación


entre el precio de venta de una casa y su tamaño
(medido en pies cuadrados).

• Se selecciona muestral aleatoria de 29 casas.


• Variable dependiente (Y) = precio en $1,000s.
• Variable independiente (X) = pies cuadrados.
Ejemplo: Modelo de regresiónDROVA

• Diagrama de dispersión en Excel.

• Estimación e interpretación de los coeficientes de la regresión


lineal en Excel.
Ejemplo: Dispersión
DROVA
Modelo de regresión lineal simple
DROVA

Efecto marginal
de X, pendiente Término
Intercepto Variable de error
(poblacional) (poblacional)
Variable independiente aleatorio
dependiente

𝑝𝑟𝑖𝑐𝑒 = 𝛽0 + 𝛽1 𝑆𝑞𝑢𝑎𝑟𝑒𝑓𝑒𝑒𝑡 + 𝑒

Componente lineal Error aleatorio


Ejemplo: interpretación de bo
DROVA

• b0 es el valor medio estimado de Y cuando el valor


de X es cero.

• Como una casa no puede tener 0 metros cuadrados,


b0 no tiene aplicación práctica.
Ejemplo: interpretación de b1
DROVA

• b1 estima el cambio en valor medio de Y como


resultado de un incremento en una unidad de
X.
• Aquí, b1 = 0.102 nos dice que se estima que el
valor medio de una casa se incrementa en
0.102*($1,000) = $102, por cada pie cuadrado
adicional.
Ejemplo: Estimación
DROVA

• Primero debemos estimar b1 :


𝑆𝑆𝑋𝑌
• 𝛽1 =
𝑆𝑆𝑋

donde,
• 𝑆𝑆𝑋𝑌 = σ𝑛𝑖=1(𝑋𝑖 − 𝑋)(𝑌
ത 𝑖 − 𝑌),
ത y

• 𝑆𝑆𝑋 = σ𝑛𝑖=1(𝑋𝑖 − 𝑋)
ത 2
Ejemplo: Estimación
DROVA

• Luego estimamos b0 :
• 𝛽0 = 𝑌ത − 𝛽1 𝑋ത
Ejemplo: predicción
DROVA
Prediciendo el precio de una
casa de 2,000 pies cuadrados:

Predecimos que el precio de una casa de


2,000 pies cuadrados es 286.916($1,000s)
= $286,916
Ejemplo: predicción
DROVA
• Solamente hacer predicciones utilizando valores de X
en el rango de valores observados.

Rango de valores
observados

Mejor no intentar
extrapolar fuera
del rango
Estimación
DROVA

• Minimos cuadrados ordinarios pueden ser


estimados en forma matricial para bases de
datos mas complejas:

−𝟏
𝜷 = 𝑿´𝑿 𝑿´𝒀

Explicación algebra y aplicación excel


Coeficiente de determinación, r2

DROVA

¿Qué tan bueno es nuestro modelo?


• El coeficiente de determinación nos dice qué tan
bien la variable independiente (pies cuadrados)
explica la dependiente (precio).

• También se le llama r-cuadrada y se le denota r2.


0 r 12
Ejemplos
DROVA
Y

Relación lineal perfecta entre


X y Y.
X
r2 = 1
Y 100% de la variación en Y
explicada con variación en X.

X
r2 =1
Ejemplos
DROVA
Y
0 < r2 < 1

Relaciones lineales más


débiles entre X y Y.
X
Parte pero no toda la
Y
variación en Y es explicada
por variación en X.

X
Ejemplos
DROVA

r2 = 0
Y
No hay relación lineal entre
X y Y.

El valor de Y no depende
X de X. (Nada de la variación
r2 = 0
en Y se explica por
variación en X.)
Coeficiente de determinación, r2

Estimación:
𝑆𝑆𝑅 𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 DROVA
2
𝑅 = =
𝑆𝑆𝑇 𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
Y
Yi Yˆ
SSE
Pendiente = β1
SST 𝑌෠ i
SSR
𝑌ത

Intercepto = β0

Xi X
Coeficiente de determinación, r2
Estimación:
𝑆𝑆𝑅 𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
𝑅2 = =
𝑆𝑆𝑇 𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 DROVA
𝑆𝑆𝐸 𝐸𝑟𝑟𝑜𝑟 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠
𝑅2 = 1 − =1−
𝑆𝑆𝑇 𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠

Donde, 𝑛
ത 2
𝑆𝑆𝑇 = ෍(𝑌𝑖 − 𝑌)
𝑖=1
𝑛

𝑆𝑆𝑅 = ෍(𝑌෡𝑖 − 𝑌)
ത 2
𝑖=1
𝑛

𝑆𝑆𝐸 = ෍(𝑌𝑖 − 𝑌෡𝑖 )2


𝑖=1
Interpretando r2 en nuestro ejemplo de Excel
DROVA

El 85.6% de la variación en los


precios de las casas es
explicada por la variación en
pies cuadrados.
Supuestos detrás de una regresión
lineal (LIIE)
DROVA

• Linealidad:
• La relación entre X y Y es lineal.

• Independencia de los errores:


• Los valores de los errores son estadísticamente
independientes. Particularmente importante cuando los
datos se recolectan a largo de un período de tiempo
(series de tiempo).
Supuestos detrás de una regresión
lineal (LIIE)
DROVA

• Igual varianza (homocedasticidad):


• La distribución de probabilidad de los errores tiene
varianza constante (no depende de X).

• Exogeneidad estricta:
• E(error | X) = 0
-> No se cumple si hay variables omitidas que
“interactúan” con X o X influye sobre Y pero Y
también influye sobre X.
Supuestos: análisis de residuos
DROVA

ei  Yi  Ŷi

• Diferencia entre el valor observado de Y y la predicción de Y.

• El análisis de residuos nos ayudará a verificar si hay evidencia


en contra de nuestros supuestos (LINI).

• Vamos a graficar el valor del residuo vs. los valores de la


variable independiente X.
Análisis de residuos: linealidad
DROVA
Y Y

x x
residuos

residuos
x x

No lineal
 Lineal
Análisis de residuos:
homocedasticidad
DROVA

Y Y

x x
residuos

residuos
x x

Varianza no constante  Varianza constante


Residual Analysis for
Independence
DCOVA
Patron ciclico:

 No hay un patron ciclico


No hay independencia
residuals

Hay independencia
X

residuals
X
residuals

X
Análisis en Excel: linealidad
DROVA

Supuesto de linealidad apropiado


Análisis en Excel: homocedasticidad e
independencia
DROVA

Supuesto de homocedasticidad e
independencia apropiado
¿Qué hacer si no se cumplen los supuestos?
• Si la relación entre ambas variables no es lineal, se puede especificar un
modelo de regresión no lineal.
-> Si corremos una regresión lineal,
estaríamos estimando un efecto marginal de X
sobre Y incorrecto/de forma sesgada.

• Si no se cumple el supuesto de homocedasticidad, todo software


estadístico incluye una opción que permite corregir.

-> Si no se corrige, estaríamos haciendo


inferencia incorrecta.

• Si no se cumple el supuesto de independencia, se debe comprobar la


autocorrelación de los errores.

-> Si no se corrige, estaríamos haciendo


inferencia incorrecta del error estándar, los coeficientes son insesgados
pero el error estándar estaría sobre estimado. Test de durbin – Watson.
Inferencia sobre la pendiente: t-test
DROVA

¿Existe una relación lineal entre X y Y?

• Hipótesis nula y alternativa:


• H0: β1 = 0 (no existe relación)
• H1: β1 ≠ 0 (sí existe relación)
Ejemplo: inferencia sobre la
pendiente
DROVA
Ecuación estimada:

La pendiente/efecto marginal es 0.102

¿Existe una relación entre los pies cuadrados de una


casa y su precio de venta?
Ejemplo: inferencia sobre la
pendiente
H0: β1 = 0 DROVA

De Excel: H1: β1 ≠ 0

Standard
Coefficients Error t Stat P-value
Intercept (bo) 82.916 14.528 5.707 0.00000459
Square Feet (b1) 0.102 0.00807 12.645 0.00000000000742

b1  β1 0.102  0
t STAT    12.645
Sb1 0.0081
Ejemplo: inferencia sobre la
pendiente
H0: β1 = 0 DROVA
De Excel: H1: β1 ≠ 0
Standard
Coefficients Error t Stat P-value
Intercept 82.916 14.528 5.707 0.00000459
Square Feet 0.102 0.00807 12.645 0.00000000000742

¿Cómo calcular el error estándar de los coeficientes?


- Primero debemos calcular el desviación estándar del termino de
error.
- Y luego lo multiplicamos por la inversa de la suma de las “X”
al cuadrado SSX => (𝑋´𝑋)−1

𝑉𝑎𝑟(𝛽0 ) 𝐶𝑜𝑣(𝛽0 , 𝛽1 )
- 𝑉𝑎𝑟 𝛽መ = 𝜎𝑒2 (𝑋´𝑋)−1 =
𝐶𝑜𝑣(𝛽1 , 𝛽0 ) 𝑉𝑎𝑟(𝛽1 )
Ejemplo: inferencia sobre la
pendiente
DROVA
¿Cómo calcular el error estándar de los coeficientes? (Continuación)

𝑉𝑎𝑟(𝛽0 ) 𝐶𝑜𝑣(𝛽0 , 𝛽1 )
- 𝑉𝑎𝑟 𝛽መ = 𝜎𝑒2 (𝑋´𝑋)−1 =
𝐶𝑜𝑣(𝛽1 , 𝛽0 ) 𝑉𝑎𝑟(𝛽1 )
Entonces,

- Error estándar de 𝛽0 = 𝑆𝛽0 = 𝑉𝑎𝑟 𝛽0 , y

-Error estándar de 𝛽1 = 𝑆𝛽1 = 𝑉𝑎𝑟(𝛽1 )


Y donde,
𝑛
2 σ ҧ 2
𝑖=1(𝑒𝑖 −𝑒)
𝜎𝑒 =
𝑛−𝑘−1
Aplicación Excel
Ejemplo: inferencia sobre la
pendiente
H0: β1 = 0 DROVA

De Excel: H1: β1 ≠ 0

Standard
Coefficients Error t Stat P-value
Intercept (bo) 82.916 14.528 5.707 0.00000459
Square Feet (b1) 0.102 0.00807 12.645 0.00000000000742

b1  β1 0.102  0
t STAT    12.645
Sb1 0.0081
Ejemplo: inferencia sobre la
pendiente
DROVA
H0: β1 = 0
tSTAT = 12.645 H1: β1 ≠ 0

d.f. = 10- 2 = 8

a/2=.025 a/2=.025
Decisión: Rechazar H0.

Hay suficiente evidencia


Rechaza
-t
No rechaza H0
tα/2
Rechaza para decir que los pies
H0 α/2 0 H0
-2.3060 2.3060 12.645 cuadrados afectan el precio
de venta. B0=0.102
Ejemplo: inferencia sobre la
pendiente
H0: β1 = 0 DROVA
De Excel: H1: β1 ≠ 0

Standard
Coefficients Error t Stat P-value
Intercept 82.916 14.528 5.707 0.00000459
Square Feet 0.102 0.00807 12.645 0.00000000000742

p-value
Decisión: Rechazar H0, ya que p-value < α.

Hay suficiente evidencia para decir


que el número pies cuadrados afecta
el precio de venta de las casas.
Intervalo de confianza para la
pendiente (𝛽1 )
DCOVA
Intervalo de confianza para la pendiente:

𝛽1 ± 𝑡𝛼Τ2,𝑑𝑓 ∗ 𝑆𝛽1 d.f. = n – k-1,


Donde k es el numero de
variables independientes
Excel salida computacional para el ejemplo de precios de las casas:

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 82.916 14.528 5.707 0.00000459 53.10690 112.725505
Square Feet 0.102 0.00807 12.645 0.00000000000742 0.0854835 0.11859899

A un 95% de confianza, el interval de confianza para la


pendiente es (0,08548, 0,11859)

You might also like