Professional Documents
Culture Documents
Asignatura: Estadstica.
Tema: Regresin.
Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.
Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Nmero de transparencia: 2
Objetivos
Saber analizar las relaciones entre variables a travs de un
modelo de regresin lineal que describa cmo influye una
variable X sobre otra variable Y.
Saber obtener estimaciones puntuales de los parmetros de
dicho modelo.
Saber construir intervalos de confianza y resolver contrastes
sobre dichos parmetros.
Saber estimar el valor promedio de Y para un valor de X.
Saber predecir futuros valores de la variable respuesta Y.
Nmero de transparencia: 3
Nmero de transparencia: 4
Relaciones deterministas
Diremos que una relacin entre dos variables es determinista cuando
al conocer el valor de una de las variables podemos conocer
exactamente el valor de la otra.
Corresponden a una relacin matemtica exacta, una funcin.
Y = f(x)
Nmero de transparencia: 5
Relaciones no deterministas
La relacin entre las dos variables no es exacta. Conocido el valor de
una de las variables, no podemos conocer el valor exacto de la otra.
Nmero de transparencia: 6
Regresin
Qu hace la regresin?
Crea un modelo lineal para simular la relacin entre variables.
Nmero de transparencia: 7
Regresin: residuos
Si la relacin no es exacta, siempre cometeremos un cierto error.
e = residuo
Nmero de transparencia: 9
Ejemplo
Nmero de transparencia: 10
Independiente
Explicativa
Dependiente
Respuesta
A explicar
Nmero de transparencia: 11
Regresin: un ejemplo
Analicemos la relacin entre los costes de produccin en un proceso
y la cantidad de piezas producidas
.
Plot of log(TOT_COST) vs log(UDS)
log(TOT_COST)
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3,3
3,6
3,9
log(UDS)
Y = coste de produccin,
X = piezas producidas.
Calcularemos la recta con Statgraphics
Nmero de transparencia: 12
Regresin: un ejemplo
log(TOT_COST)
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3,3
3,6
log(UDS)
Nmero de transparencia: 13
3,9
Regresin: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(TOT_COST)
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3,3
3,6
3,9
log(UDS)
Regresin: un ejemplo
log(TOT_COST)
2,4
2,7
3,3
3,6
3,9
log(UDS)
Linealidad.
Homocedasticidad.
Independencia.
Normalidad.
Nmero de transparencia: 16
Linealidad
Esta es una hiptesis fundamental. Los datos deben seguir
una tendencia lineal, estar altamente correlacionados.
Nmero de transparencia: 17
REGRESIONES NO LINEALES
Regresin hiperblica
y=a/x+b
Regresin potencial
y=bxa
Regresin exponencial
y=bax
Nmero de transparencia: 18
Homocedasticidad
Esta hiptesis consiste en asegurar que nuestros datos
tienen varianza constante, es decir la grfica debe ser
Nmero de transparencia: 20
Gastos
0,8
0,6
0,4
0,2
0
0
Ingresos
8
(X 100000)
log(TOT_COST)
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3,3
3,6
log(UDS)
Nmero de transparencia: 22
3,9
Independencia
Exigimos que los datos que estamos analizando
sean independientes unos de otros:
- Si analizamos los costes en funcin del
volumen de produccin para distintas fbricas,
asumimos que los datos de una fabrica no
afectan a los de otra.
- NO pueden analizarse con regresin
valores de una secuencia temporal, ya que
cada dato depende del anterior.
Nmero de transparencia: 23
Normalidad
La ltima de las hiptesis del modelo exige que
Plot of log(TOT_COST) vs
log(UDS) normales. Qu
los datos que analizamos
sean
significa esto?
log(TOT_COST)
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3,3
3,6
3,9
log(UDS)
Hemos dicho que para cada
valor de X, la Y toma
valores en un cierto rango.
El modelo
Si los datos cumplen las hiptesis que hemos
formulado, ya podemos estimarlo:
Nmero de transparencia: 25
El modelo
coste prod = 0,783429 + 0,669509*piezas
producidas
YX.
Regresin: un problema.
En regresin partimos de una muestra de datos y a partir
log(TOT_COST) vs log(UDS)
de ella estimamos Plot
elofmodelo.
log(TOT_COST)
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3,3
3,6
3,9
log(UDS)
Estadstica. Tema 4
Regresin: un problema.
Si variamos la muestra, cambiarn los parmetros del
modelo (los nmeros que hemos calculado).
Es posible elegir una muestra que nos de esta grfica?
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
-3
-2
-1
Regresin: un problema.
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
-3
-2
-1
Anlisis de significacin
Para analizar si
Intervalos de confianza.
Contrastes de Hiptesis:
Estadstico t.
p-valor.
Nmero de transparencia: 30
Intervalos de confianza
Calcularemos un rango donde estar la estimacin del verdadero
valor
de cualquiera que sea la muestra que tomemos.
Esto lo aseguramos con una cierta probabilidad (generalmente el
95%).
-2xSE()
+2xSE()
Intervalos de confianza
-2xSE() ; +2xSE() )
Contrastes de hiptesis
Una alternativa para asegurar que no es cero
es plantear un contraste segn la forma
estndar:
H0: =0,
H1: 0.
Statgraphics nos da el p-valor de este contraste.
p<0.05
Rechazamos Ho
La regresin es significativa.
Nmero de transparencia: 33
p<0.05
Rechazamos Ho
La regresion es significativa
Nmero de transparencia: 34
Ejemplo:
R2=71.76%
R2 = coeficiente de correlacin muestral al
Nmero
de transparencia: 36
Grado en Ingeniera. Estadstica. Tema 4
cuadrado.
Resumen
Estudiamos los datos y vemos si cumplen las hiptesis.
Si no las cumplen, transformamos.
Ajustamos el modelo.
Intervalos y contrastes para ver si X es significativa
(INFLUYE) sobre Y.
Nmero de transparencia: 37
Diagnosis
Las decisiones que podemos tomar gracias a la informacin aportada por un
modelo de regresin son importantes.
Necesitamos estar seguros de que nuestras conclusiones son correctas.
Para ello:
Contrastes, intervalos de confianza.
Diagnosis: comprobar una vez ms que se cumplen las hiptesis del modelo.
Nmero de transparencia: 38
Diagnosis
La diagnosis se realiza observando los grficos de los
residuos: debemos ver grficos como este:
Nmero de transparencia: 39
Diagnosis
No podemos aceptar residuos con otros comportamientos:
3000
1000
2500
500
2000
1500
-500
1000
-1000
500
0
0
20
40
Nmero de transparencia: 40
60
80
100
-1500
500
1000
1500
2000
2500
3000
Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.
Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Nmero de transparencia: 41
Regresin mltiple
En un modelo de regresin mltiple, queremos conocer el valor de una variable respuesta a
partir de ms de una variable explicativa:
En esta expresin, cada uno de los coeficientes beta representa la influencia individual que
cada una de las X tiene sobre Y.
Ventajas:
Las hiptesis del modelo son las mismas que en regresin simple.
Los contrastes, intervalos, diagnosis tambin.
Pequeos inconvenientes:
La visualizacin de los grficos es un poco ms complicada.
Necesitamos redefinir el coeficiente R2.
Nmero de transparencia: 42
TOT_COST
UDS
MANPOWER
ENERGY
INVEST
MAINT
MAT
ENV
Nmero de transparencia: 43
Adjusted R2 =
Nmero de transparencia: 44
Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.
Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Nmero de transparencia: 45
Ejemplo
Nmero
Nmerode
deaccidentes
accidentesen
en
provincias
provinciasespaolas
espaolas
en
enfuncin
funcin del
delnmero
nmerode
de
vehculos
vehculosmatriculados.
matriculados.
(X 1000)
3
nacciden
2,5
2
1,5
1
0,5
0
0
12
matricul
16
20
24
(X 1000)
Ejemplo
(X 1000)
3
2,5
nacciden
Nmero
Nmerode
deaccidentes
accidentesen
en
provincias
provincias espaolas
espaolas
en
enfuncin
funcindel
delnmero
nmerode
de
permisos
permisosde
deconducir
conducir
2
1,5
1
0,5
0
0
12
16
permisos
20
24
(X 1000)
Regresiones
Nmero de transparencia: 48
Parameter
Estimate
Standard
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
250,63
113,216
2,21373
0,0625
matricul
0,0725492
0,0395634
1,83374
0,1093
permisos
0,0301069
0,043353
0,694461
0,5098
-----------------------------------------------------------------------------
Nmero de transparencia: 49
Regresiones
Nmero de transparencia: 50
Qu est pasando?
(X 1000)
24
matricul
20
16
Correlacin=.975
12
8
4
0
0
12
16
permisos
Nmero de transparencia: 51
20
24
(X 1000)
Regresin: un problema
A veces las variables independientes son muy
parecidas: contienen la misma informacin.
Variables
Independientes
Nmero de transparencia: 52
Variable
Dependiente
Regresin: un problema
El modelo no puede diferenciar entre las variables.
Variables
Independientes
Nmero de transparencia: 53
Variable
Dependiente
En nuestro ejemplo
Matrculas
Permisos
Num Accid
En nuestro ejemplo
Solucin: eliminar una variable.
Perdemos muy poca informacin.
Matrculas
Permisos
Num Accid
En nuestro ejemplo
Solucin: eliminar una variable.
Perdemos muy poca informacin.
Matrculas
Num Accid
Nmero de transparencia: 57
Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.
Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Nmero de transparencia: 58
Peso
Altura
Nmero de transparencia: 59
Peso
Peso
Altura
Nmero de transparencia: 60
Altura
Peso
Peso
Altura
Nmero de transparencia: 61
Altura
Ejemplos
Variable Y
Variable X
Peso
Altura
Consumo de
trabajador
un
Ingresos
trabajador
Consumo de
automvil
un
Potencia
Motor:
Gasolina
Disel
Comisiones
Sucursal:
Rural
Urbana
Margen Ordinario
de una sucursal
bancaria
Nmero de transparencia: 62
del
Status laboral:
Empleado
Paro o
Para ello:
definiremos una variable Z que tome los siguientes valores:
Zi =0 si una observacin pertenece al grupo A
Zi=1 si una observacin pertenece al grupo B
y estimaremos el siguiente modelo de regresin:
y 0 1 X 2 Z
Nmero de transparencia: 63
y 0 1 X 2 Z
Mujeres: Les asignamos Z=0. Por tanto:
y 0 1 X
Hombres: Les asignamos Z=1. Por tanto:
y ( 0 2 ) 1 X
Nmero de transparencia: 64
Por tanto:
Peso
y ( 0 2 ) 1 X
y 0 1 X
Altura
El efecto es que un hombre de la misma altura pesa b 2 kilos
ms que una mujer de su misma altura.
O no?
Nmero de transparencia: 65
Hagmoslo:
Dependent variable: peso
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-77,7888
16,0908
-4,83438
0,0000
altura
0,842013
0,0905752
9,29628
0,0000
sexo
-5,17748
2,20877
-2,34405
0,0208
----------------------------------------------------------------------------R-squared = 60,8791 percent
R-squared (adjusted for d.f.) = 60,1927 percent
Sexo=0 Hombres
Sexo=1 Mujeres
Resultado
5 Kilos
Peso
Hombres
Mujeres
Altura
Nmero de transparencia: 67
Interacciones
Hemos supuesto que las rectas son paralelas.
Y si no lo son?
B
A
X
Nmero de transparencia: 68
y 0 1 X
Para el grupo con Z=0
y 0 1 X 2 3 X ( 0 2 ) ( 1 3 ) X
Para el grupo con Z=1
ventas
200
160
120
80
40
0
0
0.5
1.5
2.5
id
3
(X 1000)
log(ventas)
5.2
4.7
4.2
3.7
3.2
2.7
3.1
4.1
5.1
6.1
7.1
8.1
log(id)
LOG(VENTAS) =
Nmero de transparencia: 70
Estimamos la interaccin:
Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)
(t)
(8.84) (8.40)
(3.40)
(-2.43)
R2= 62.8%
Si no est en el sector teleco
Log(VENTAS) = 1.99 + 0.334 log(ID)
Si est en el sector teleco
Log(VENTAS) = 3.8 + 0.13 log(ID)
Nmero de transparencia: 71