You are on page 1of 71

Grado en Ingeniera

Asignatura: Estadstica.
Tema: Regresin.

Grado en Ingeniera. Estadstica. Tema 4

Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.

Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.

Multicolinealidad.
Variables ficticias (dummy).

Nmero de transparencia: 2

Grado en Ingeniera. Estadstica. Tema 4

Objetivos
Saber analizar las relaciones entre variables a travs de un
modelo de regresin lineal que describa cmo influye una
variable X sobre otra variable Y.
Saber obtener estimaciones puntuales de los parmetros de
dicho modelo.
Saber construir intervalos de confianza y resolver contrastes
sobre dichos parmetros.
Saber estimar el valor promedio de Y para un valor de X.
Saber predecir futuros valores de la variable respuesta Y.

Nmero de transparencia: 3

Grado en Ingeniera. Estadstica. Tema 4

Relaciones entre variables

La regresin estudia relaciones entre variables.


Qu tipo de relaciones entre variables pueden existir:
-Relaciones deterministas (exactas).
- Relaciones no deterministas (no exactas).

Nmero de transparencia: 4

Grado en Ingeniera. Estadstica. Tema 4

Relaciones deterministas
Diremos que una relacin entre dos variables es determinista cuando
al conocer el valor de una de las variables podemos conocer
exactamente el valor de la otra.
Corresponden a una relacin matemtica exacta, una funcin.
Y = f(x)

Nmero de transparencia: 5

Grado en Ingeniera. Estadstica. Tema 4

Relaciones no deterministas
La relacin entre las dos variables no es exacta. Conocido el valor de
una de las variables, no podemos conocer el valor exacto de la otra.

Sabemos que existe relacin entre las variables pero no es exacta.

Nmero de transparencia: 6

Grado en Ingeniera. Estadstica. Tema 4

Regresin
Qu hace la regresin?
Crea un modelo lineal para simular la relacin entre variables.

La relacin no es exacta y el modelo no es exacto, pero es muy til.

Nmero de transparencia: 7

Grado en Ingeniera. Estadstica. Tema 4

Regresin: residuos
Si la relacin no es exacta, siempre cometeremos un cierto error.

e = residuo

La distancia de cada punto (real) a la recta es la parte que el modelo


no puede predecir.
Estimaremos la recta de regresin para que los errores que cometemos
sean mnimos (Estimacin por Mnimos Cuadrados), exigiendo que el
error medio sea cero.
Nmero de transparencia: 8

Grado en Ingeniera. Estadstica. Tema 4

Cmo se calcula la recta de regresin?

Nmero de transparencia: 9

Grado en Ingeniera. Estadstica. Tema 4

Ejemplo

Nmero de transparencia: 10

Grado en Ingeniera. Estadstica. Tema 4

Cmo denominamos a las variables?

Independiente
Explicativa

Dependiente
Respuesta
A explicar

Es el valor que conocemos

Es lo que queremos predecir

Nmero de transparencia: 11

Grado en Ingeniera. Estadstica. Tema 4

Regresin: un ejemplo
Analicemos la relacin entre los costes de produccin en un proceso
y la cantidad de piezas producidas
.
Plot of log(TOT_COST) vs log(UDS)
log(TOT_COST)

5,7
4,7
3,7
2,7
1,7
2,1

2,4

2,7

3,3

3,6

3,9

log(UDS)

Y = coste de produccin,
X = piezas producidas.
Calcularemos la recta con Statgraphics

Nmero de transparencia: 12

Grado en Ingeniera. Estadstica. Tema 4

Regresin: un ejemplo

Plot of log(TOT_COST) vs log(UDS)

coste prod = 0,783429 + 0,669509*piezas


producidas

log(TOT_COST)

5,7
4,7
3,7
2,7
1,7
2,1

2,4

2,7

3,3

3,6

log(UDS)
Nmero de transparencia: 13

Grado en Ingeniera. Estadstica. Tema 4

3,9

Regresin: un ejemplo
Plot of log(TOT_COST) vs log(UDS)

log(TOT_COST)

5,7
4,7
3,7
2,7
1,7
2,1

2,4

2,7

3,3

3,6

3,9

log(UDS)

coste prod = 0,783429 + 0,669509*piezas


producidas
Por tanto, una empresa que produzca un milln de unidades tendr
unos costes de:
coste prod = 0,783429 + 0,669509* 1 = 1,45 millones .
Todas las empresas con ese volumen de produccin tienen el mismo
coste?
Nmero de transparencia: 14

Grado en Ingeniera. Estadstica. Tema 4

Regresin: un ejemplo

log(TOT_COST)

Todas las empresas con


volumen
de produccin tienen el mismo
Plotese
of log(TOT_COST)
vs log(UDS)
5,7
coste??
4,7
3,7
2,7
1,7
2,1

2,4

2,7

3,3

3,6

3,9

log(UDS)

Hay un rango de variacin del coste, de 2,8 a 4,8


milllones de .
En concreto, para la empresa donde trabajo: coste prod = 1,66
millones.
Pero el modelo dice:
coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones .
Por tanto, el error que cometemos ser 1,66 1,46 = 0,2 millones.
Nmero de transparencia: 15

Grado en Ingeniera. Estadstica. Tema 4

Hiptesis del modelo


Podemos aplicar el modelo de regresin a todos los tipos de datos?
No, para que las conclusiones de nuestro modelos sean las
correctas, los datos que manejamos deben cumplir:
1.
2.
3.
4.

Linealidad.
Homocedasticidad.
Independencia.
Normalidad.

Nmero de transparencia: 16

Grado en Ingeniera. Estadstica. Tema 4

Linealidad
Esta es una hiptesis fundamental. Los datos deben seguir
una tendencia lineal, estar altamente correlacionados.

Nmero de transparencia: 17

Grado en Ingeniera. Estadstica. Tema 4

REGRESIONES NO LINEALES
Regresin hiperblica

y=a/x+b

Se hace el cambio de variable z=1/x consiguiendo as una


expresin lineal

Regresin potencial

y=bxa

Para linealizar se toman logaritmos

Regresin exponencial

y=bax

Para linealizar se toman logaritmos

Nmero de transparencia: 18

Grado en Ingeniera. Estadstica. Tema 4

Linealidad: qu pasa si los datos no son lineales?

La regresin no representar correctamente la


relacin entre los datos.
Si nuestros datos no son lineales, podemos buscar una
transformacin matemtica (log, sqrt) que mejore su
linealidad.
Nmero de transparencia: 19

Grado en Ingeniera. Estadstica. Tema 4

Homocedasticidad
Esta hiptesis consiste en asegurar que nuestros datos
tienen varianza constante, es decir la grfica debe ser

Cuando la varianza de los datos es constante se dice


que son HOMOCEDSTICOS.
Qu sucede si los datos son no son homocedsticos?

Nmero de transparencia: 20

Grado en Ingeniera. Estadstica. Tema 4

Homocedasticidad: datos heterocedsticos


Cuando la varianza no es constante, se dice
que los datos son HETEROCEDSTICOS.
Cmo afecta esto a laGastos
regresin?
- Ingresos
(X 1,E6)
1

Gastos

0,8
0,6
0,4
0,2
0
0

Ingresos

8
(X 100000)

Los errores en la previsin seran ms grandes a


medida que aumenta el valor de las variables!
No se debe aplicar regresin a datos
heterocedsticos. Hay que transformarlos (por
LOG).
Nmero deejemplo,
transparencia: 21
Grado en Ingeniera. Estadstica. Tema 4

Comprobacin de la linealidad y homocedasticidad


La comprobacin de las hiptesis de linealidad y
homocedasticidad podemos realizarla
mediante un anlisis grafico (grficos de
dispersin) de nuestros datos.
Plot of log(TOT_COST) vs log(UDS)

log(TOT_COST)

5,7
4,7
3,7
2,7
1,7
2,1

2,4

2,7

3,3

3,6

log(UDS)

Si los datos cumplen estas hiptesis podemos


continuar nuestro anlisis.

Nmero de transparencia: 22

Grado en Ingeniera. Estadstica. Tema 4

3,9

Independencia
Exigimos que los datos que estamos analizando
sean independientes unos de otros:
- Si analizamos los costes en funcin del
volumen de produccin para distintas fbricas,
asumimos que los datos de una fabrica no
afectan a los de otra.
- NO pueden analizarse con regresin
valores de una secuencia temporal, ya que
cada dato depende del anterior.

Nmero de transparencia: 23

Grado en Ingeniera. Estadstica. Tema 4

Normalidad
La ltima de las hiptesis del modelo exige que
Plot of log(TOT_COST) vs
log(UDS) normales. Qu
los datos que analizamos
sean
significa esto?
log(TOT_COST)

5,7
4,7
3,7
2,7
1,7

2,1

2,4

2,7

3,3

3,6

3,9

log(UDS)
Hemos dicho que para cada
valor de X, la Y toma
valores en un cierto rango.

Asumimos que los valores que Y toma para cada


valor de X siguen una distribucin normal.
Nmero de transparencia: 24

Grado en Ingeniera. Estadstica. Tema 4

El modelo
Si los datos cumplen las hiptesis que hemos
formulado, ya podemos estimarlo:

coste prod = 0,783429 + 0,669509*piezas


producidas

Nmero de transparencia: 25

Grado en Ingeniera. Estadstica. Tema 4

El modelo
coste prod = 0,783429 + 0,669509*piezas
producidas

Es el valor de Y cuando la X vale 0 (no siempre tiene sentid


real).

El signo + nos indica que las dos variables crecen a la vez


El signo - nos indica que, si una variable crece, la otr
decrece.
Adems, nos dice cmo crece la Y cuando lo hace la X.

YX.

Por tanto, en nuestro ejemplo, cuanto aumentar el coste


si las piezas producidas aumentan en un milln?
(coste prod) = 0,669509*(piezas producidas) = 0,67
millones.
Nmero de transparencia: 26
Grado en Ingeniera. Estadstica. Tema 4

Regresin: un problema.
En regresin partimos de una muestra de datos y a partir
log(TOT_COST) vs log(UDS)
de ella estimamos Plot
elofmodelo.
log(TOT_COST)

5,7
4,7
3,7
2,7
1,7
2,1

2,4

2,7

3,3

3,6

3,9

log(UDS)

coste prod = 0,783429 + 0,669509*piezas


producidas
Nmero de transparencia: 27
Grado en Ingeniera.

Estadstica. Tema 4

Regresin: un problema.
Si variamos la muestra, cambiarn los parmetros del
modelo (los nmeros que hemos calculado).
Es posible elegir una muestra que nos de esta grfica?
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
-3

-2

-1

Si esto sucede, la pendiente de la recta sera cero y se


dice que LA REGRESIN NO ES SIGNIFICATIVA.
Nmero de transparencia: 28

Grado en Ingeniera. Estadstica. Tema 4

Regresin: un problema.
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
-3

-2

-1

Queremos estar seguros de que nuestra regresin es vlida


independientemente de la muestra considerada.
Queremos estar seguros de que la regresin vale para toda
la poblacin estudiada y no solo para una muestra
concreta.
QUEREMOS ASEGURARNOS DE QUE NUNCA VALE
CERO.29
Nmero de transparencia:
Grado en Ingeniera. Estadstica. Tema 4

Anlisis de significacin
Para analizar si

es cero, tenemos tres herramientas:

Intervalos de confianza.
Contrastes de Hiptesis:
Estadstico t.
p-valor.

Nmero de transparencia: 30

Grado en Ingeniera. Estadstica. Tema 4

Intervalos de confianza
Calcularemos un rango donde estar la estimacin del verdadero
valor
de cualquiera que sea la muestra que tomemos.
Esto lo aseguramos con una cierta probabilidad (generalmente el
95%).

-2xSE()

+2xSE()

Si el valor 0 no pertence al intervalo, el parmetro es significativo.


Nmero de transparencia: 31

Grado en Ingeniera. Estadstica. Tema 4

Intervalos de confianza

coste prod = 0,783429 + 0,669509*piezas


producidas

-2xSE() ; +2xSE() )

( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81)

El 0 no pertenece al intervalo, el parmetro es significativo.


Nmero de transparencia: 32

Grado en Ingeniera. Estadstica. Tema 4

Contrastes de hiptesis
Una alternativa para asegurar que no es cero
es plantear un contraste segn la forma
estndar:
H0: =0,
H1: 0.
Statgraphics nos da el p-valor de este contraste.

p<0.05
Rechazamos Ho
La regresin es significativa.

Nmero de transparencia: 33

Grado en Ingeniera. Estadstica. Tema 4

Contrastes de hiptesis: Prueba de la t


Aun tenemos una alternativa al p valor para
resolver el contraste:
H0: =0
H1: 0

p<0.05
Rechazamos Ho
La regresion es significativa

Nmero de transparencia: 34

Grado en Ingeniera. Estadstica. Tema 4

Contrastes de hiptesis: Prueba de la t


An tenemos una alternativa al p-valor para
resolver el contraste:
H0: =0,
H1: 0.

|t|>2 rechazamos Ho,


|t|<2 aceptamos Ho.
|t|>2
Rechazamos Ho
La regresin es significativa.
Nmero de transparencia: 35

Grado en Ingeniera. Estadstica. Tema 4

Es bueno mi modelo? Cunto? -> R2


El coeficiente R2 indica cunto de Y es explicado por X

Ejemplo:
R2=71.76%
R2 = coeficiente de correlacin muestral al
Nmero
de transparencia: 36
Grado en Ingeniera. Estadstica. Tema 4
cuadrado.

Resumen
Estudiamos los datos y vemos si cumplen las hiptesis.
Si no las cumplen, transformamos.
Ajustamos el modelo.
Intervalos y contrastes para ver si X es significativa
(INFLUYE) sobre Y.

Nmero de transparencia: 37

Grado en Ingeniera. Estadstica. Tema 4

Diagnosis
Las decisiones que podemos tomar gracias a la informacin aportada por un
modelo de regresin son importantes.
Necesitamos estar seguros de que nuestras conclusiones son correctas.
Para ello:
Contrastes, intervalos de confianza.
Diagnosis: comprobar una vez ms que se cumplen las hiptesis del modelo.

En la diagnosis del modelo, comprobamos que la parte aleatoria del modelo


(sus residuos) no contiene informacin adicional ni refleja lagunas en el
cumplimiento de las hiptesis del modelo (linealidad, homocedasticidad,
independencia y normalidad)

Nmero de transparencia: 38

Grado en Ingeniera. Estadstica. Tema 4

Diagnosis
La diagnosis se realiza observando los grficos de los
residuos: debemos ver grficos como este:

Nmero de transparencia: 39

Grado en Ingeniera. Estadstica. Tema 4

Diagnosis
No podemos aceptar residuos con otros comportamientos:

3000

1000

2500

500

2000

1500
-500

1000

-1000

500
0
0

20

40

Nmero de transparencia: 40

60

80

100

-1500
500

1000

1500

2000

2500

Grado en Ingeniera. Estadstica. Tema 4

3000

Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.

Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.

Multicolinealidad.
Variables ficticias (dummy).

Nmero de transparencia: 41

Grado en Ingeniera. Estadstica. Tema 4

Regresin mltiple
En un modelo de regresin mltiple, queremos conocer el valor de una variable respuesta a
partir de ms de una variable explicativa:

En esta expresin, cada uno de los coeficientes beta representa la influencia individual que
cada una de las X tiene sobre Y.
Ventajas:
Las hiptesis del modelo son las mismas que en regresin simple.
Los contrastes, intervalos, diagnosis tambin.

Pequeos inconvenientes:
La visualizacin de los grficos es un poco ms complicada.
Necesitamos redefinir el coeficiente R2.

Nmero de transparencia: 42

Grado en Ingeniera. Estadstica. Tema 4

Regresion multiple: Graficos


Cada celda del grfico matricial representa la relacin
bilateral entre dos variables:

TOT_COST
UDS
MANPOWER
ENERGY
INVEST
MAINT
MAT
ENV
Nmero de transparencia: 43

Grado en Ingeniera. Estadstica. Tema 4

Regresin mltiple: R2 corregido


El coeficiente R2 tiene el inconveniente de que se
incrementa al aumentar el nmero de variables en el
modelo (ya sean significativas o no). Para paliar este efecto,
corregimos el coeficiente para que tenga en cuenta este
efecto, por lo que en regresin mltiple se utiliza el
coeficiente R2 corregido ( o ajustado).

Adjusted R2 =
Nmero de transparencia: 44

Grado en Ingeniera. Estadstica. Tema 4

Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.

Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.

Multicolinealidad.
Variables ficticias (dummy).

Nmero de transparencia: 45

Grado en Ingeniera. Estadstica. Tema 4

Ejemplo

Nmero
Nmerode
deaccidentes
accidentesen
en
provincias
provinciasespaolas
espaolas
en
enfuncin
funcin del
delnmero
nmerode
de
vehculos
vehculosmatriculados.
matriculados.

(X 1000)
3

nacciden

2,5
2
1,5
1
0,5
0
0

12

matricul

16

20

24
(X 1000)

----------------------------------------------------------------------------Dependent variable: nacciden


----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
278,24
102,518
2,71406
0,0265
matricul
0,0993373
0,00850344
11,682
0,0000
----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 93,7703 percent
Nmero de transparencia: 46

Grado en Ingeniera. Estadstica. Tema 4

Ejemplo
(X 1000)
3
2,5

nacciden

Nmero
Nmerode
deaccidentes
accidentesen
en
provincias
provincias espaolas
espaolas
en
enfuncin
funcindel
delnmero
nmerode
de
permisos
permisosde
deconducir
conducir

2
1,5
1
0,5
0
0

12

16

permisos

20

24
(X 1000)

----------------------------------------------------------------------------Dependent variable: nacciden


----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
216,481
127,099
1,70325
0,1269
permisos
0,107617
0,0109657
9,81395
0,0000
----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 91,3722 percent
Nmero de transparencia: 47

Grado en Ingeniera. Estadstica. Tema 4

Regresiones

Accid=278.2 +0.1 Matriculas


(11.68)
Accid=216.4 +0.1 Permisos
(9.81)

Nmero de transparencia: 48

Grado en Ingeniera. Estadstica. Tema 4

Regresin con las dos variables

----------------------------------------------------------------------------Dependent variable: nacciden


-----------------------------------------------------------------------------

Parameter

Estimate

Standard

Error

Statistic

P-Value

----------------------------------------------------------------------------CONSTANT

250,63

113,216

2,21373

0,0625

matricul

0,0725492

0,0395634

1,83374

0,1093

permisos

0,0301069

0,043353

0,694461

0,5098

-----------------------------------------------------------------------------

Nmero de transparencia: 49

Grado en Ingeniera. Estadstica. Tema 4

Regresiones

Accid=278.2 +0.1 Matriculas


(11.68)
Accid=216.4 +0.1 Permisos
(9.81)
Accid=250+0.07 Matriculas +0.03 Permisos
(1.8)
(0.69)

Nmero de transparencia: 50

Grado en Ingeniera. Estadstica. Tema 4

Qu est pasando?

(X 1000)
24

matricul

20
16

Correlacin=.975

12
8
4
0
0

12

16

permisos

Nmero de transparencia: 51

20

24
(X 1000)

Grado en Ingeniera. Estadstica. Tema 4

Regresin: un problema
A veces las variables independientes son muy
parecidas: contienen la misma informacin.

Variables
Independientes

Nmero de transparencia: 52

Variable
Dependiente

Grado en Ingeniera. Estadstica. Tema 4

Regresin: un problema
El modelo no puede diferenciar entre las variables.

Variables
Independientes

Nmero de transparencia: 53

Variable
Dependiente

Grado en Ingeniera. Estadstica. Tema 4

En nuestro ejemplo

Matrculas
Permisos

Num Accid

Ambas son muy parecidas para


distinguir entre ellas.
Nmero de transparencia: 54

Grado en Ingeniera. Estadstica. Tema 4

En nuestro ejemplo
Solucin: eliminar una variable.
Perdemos muy poca informacin.

Matrculas
Permisos

Num Accid

Ambas son muy parecidas para


distinguir entre ellas.
Nmero de transparencia: 55

Grado en Ingeniera. Estadstica. Tema 4

En nuestro ejemplo
Solucin: eliminar una variable.
Perdemos muy poca informacin.

Matrculas

Num Accid

Ambas son muy parecidas para


distinguir entre ellas.
Nmero de transparencia: 56

Grado en Ingeniera. Estadstica. Tema 4

El problema de multicolinealidad aparece en casi


todos los trabajos estadsticos.
Tendemos a medir una cosa de muchas formas.
Se detecta:
En regresin simple, las variables son
significativas.
Al introducir nuevas variables, dejan de ser
significativas.

Nmero de transparencia: 57

Grado en Ingeniera. Estadstica. Tema 4

Regresin
Introduccin. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimacin.
Diagnosis.

Regresion mltiple.
Grficos de dispersin mltiples.
Estimacin.
Diagnosis.
Previsiones.

Multicolinealidad.
Variables ficticias (dummy).

Nmero de transparencia: 58

Grado en Ingeniera. Estadstica. Tema 4

Estudiamos Pesos - Alturas


Es igual la relacin para hombres que para mujeres?

Peso

Altura

Nmero de transparencia: 59

Grado en Ingeniera. Estadstica. Tema 4

Estudiamos Pesos - Alturas


Es igual la relacin para hombres que para mujeres?

Peso

Peso

Altura

Nmero de transparencia: 60

Altura

Grado en Ingeniera. Estadstica. Tema 4

Estudiamos Pesos - Alturas


Si la relacin no es igual, podemos cometer errores
graves:

Peso

Peso

Altura

Nmero de transparencia: 61

Altura

Grado en Ingeniera. Estadstica. Tema 4

Ejemplos

Variable Y

Variable X

Grupo que puede influir

Peso

Altura

Sexo: Hombre o Mujer

Consumo de
trabajador

un

Ingresos
trabajador

Consumo de
automvil

un

Potencia

Motor:
Gasolina

Disel

Comisiones

Sucursal:
Rural

Urbana

Margen Ordinario
de una sucursal
bancaria

Nmero de transparencia: 62

del

Status laboral:
Empleado

Paro o

Grado en Ingeniera. Estadstica. Tema 4

Es necesario introducir el grupo:

Para ello:
definiremos una variable Z que tome los siguientes valores:
Zi =0 si una observacin pertenece al grupo A
Zi=1 si una observacin pertenece al grupo B
y estimaremos el siguiente modelo de regresin:

y 0 1 X 2 Z
Nmero de transparencia: 63

Grado en Ingeniera. Estadstica. Tema 4

El modelo que se estima:

y 0 1 X 2 Z
Mujeres: Les asignamos Z=0. Por tanto:

y 0 1 X
Hombres: Les asignamos Z=1. Por tanto:

y ( 0 2 ) 1 X

Nmero de transparencia: 64

Grado en Ingeniera. Estadstica. Tema 4

Por tanto:
Peso

y ( 0 2 ) 1 X

y 0 1 X

Altura
El efecto es que un hombre de la misma altura pesa b 2 kilos
ms que una mujer de su misma altura.

O no?
Nmero de transparencia: 65

Grado en Ingeniera. Estadstica. Tema 4

Hagmoslo:
Dependent variable: peso
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-77,7888
16,0908
-4,83438
0,0000
altura
0,842013
0,0905752
9,29628
0,0000
sexo
-5,17748
2,20877
-2,34405
0,0208
----------------------------------------------------------------------------R-squared = 60,8791 percent
R-squared (adjusted for d.f.) = 60,1927 percent

Sexo=0 Hombres
Sexo=1 Mujeres

Por tanto: un hombre que mida 180 pesar= -78+0.84x180=73 ki

..... y una mujer de la misma altura pesar=-78+0.84x180-5.17=

La diferencia existe porque t=-2.34 que es mayor que 2 en valor a


Nmero de transparencia: 66

Grado en Ingeniera. Estadstica. Tema 4

Resultado

5 Kilos
Peso

Hombres
Mujeres

Altura

Nmero de transparencia: 67

Grado en Ingeniera. Estadstica. Tema 4

Interacciones
Hemos supuesto que las rectas son paralelas.
Y si no lo son?

B
A
X

Nmero de transparencia: 68

Grado en Ingeniera. Estadstica. Tema 4

Modelizacin de las interacciones


La modelizacin de la interaccin es sencilla. Hay
que estimar un modelo de regresin entre:
la variable Y,
la variable X,
la variable Z,
la interaccin de X y Z que se modeliza por el
producto (XZ).
y 0 1 X 2 Z 3 XZ

y 0 1 X
Para el grupo con Z=0
y 0 1 X 2 3 X ( 0 2 ) ( 1 3 ) X
Para el grupo con Z=1

Por tanto, analizar si existe interaccin se reduce a estimar un modelo de regresin y


analizar si el parmetro es significativo (estadstico t mayor de 2) en la estimacin realiz
Nmero de transparencia: 69

Grado en Ingeniera. Estadstica. Tema 4

Ejemplo:Ventas de empresas del sector servicios en Madrid en


funcin de su inversin en I+D
Plot of ventas vs id
240

ventas

200
160
120
80
40
0
0

0.5

1.5

2.5

id

3
(X 1000)

Plot of log(ventas) vs log(id)


5.7

log(ventas)

5.2
4.7
4.2
3.7
3.2
2.7
3.1

4.1

5.1

6.1

7.1

8.1

log(id)

LOG(VENTAS) =

Nmero de transparencia: 70

Grado en Ingeniera. Estadstica. Tema 4

Ejemplo:Ventas de empresas del sector servicios en Madrid en


funcin de su inversin en I+D

Queremos estudiar si hay diferencias por estar en el sector telecomunic


TELECO=1 Si est en el sector teleco
TELECO=0 si no est en ese sector

LOG(VENTAS) =2.25+ 0.288 Log(ID)+0.527 TELECO


(t)
(11.12) (8.08)
(7.03)
R2 = 61.05%
Si la empresa funciona en el sector teleco:
Log(VENTAS)= 2.78 + 0.288 log(ID)
Si funciona en otro sector:
Log(VENTAS) = 2.25 + 0.288 log(ID)

Estimamos la interaccin:
Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)
(t)
(8.84) (8.40)
(3.40)
(-2.43)
R2= 62.8%
Si no est en el sector teleco
Log(VENTAS) = 1.99 + 0.334 log(ID)
Si est en el sector teleco
Log(VENTAS) = 3.8 + 0.13 log(ID)
Nmero de transparencia: 71

Grado en Ingeniera. Estadstica. Tema 4

You might also like