You are on page 1of 61

Estadstica para las Ciencias del Trabajo

M. Vargas Jimenez
2012/02/11

Indice general
3. Regresi
on lineal m
ultiple y con variables cualitativas. Regresi
on logstica
3.1. Regresion y correlacion lineal . . . . . . . . . . . . . . . . . .
3.1.1. Nociones teoricas . . . . . . . . . . . . . . . . . . . . .
3.1.2. Estimacion del modelo . . . . . . . . . . . . . . . . . .
3.1.3. Descomposicion de la variacion... . . . . . . . . . . . .
3.1.4. Ajuste de la recta . . . . . . . . . . . . . . . . . . . . .
3.1.5. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.6. Contrastes de hipotesis . . . . . . . . . . . . . . . . . .
3.1.7. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Regresion m
ultiple . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Estimacion del modelo . . . . . . . . . . . . . . . . . .
3.2.2. Descomposicion de la variacion... . . . . . . . . . . . .
3.2.3. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4. Contraste de hipotesis . . . . . . . . . . . . . . . . . .
3.3. Regresion con variables cualitativas . . . . . . . . . . . . . . .
3.3.1. Interaccion . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Analisis de regresion lineal con ... . . . . . . . . . . . . . . . .
3.4.1. Representacion grafica de los... . . . . . . . . . . . . .
3.5. Analisis de regresion lineal ... . . . . . . . . . . . . . . . . . .
3.6. Analisis de regresion lineal... . . . . . . . . . . . . . . . . . . .
3.6.1. Representacion grafica de... . . . . . . . . . . . . . . .
3.7. Regresion logstica . . . . . . . . . . . . . . . . . . . . . . . .
3.7.1. Nociones teoricas . . . . . . . . . . . . . . . . . . . . .
3.7.2. Contrastes de hipotesis . . . . . . . . . . . . . . . . . .
3.7.3. Implementacion con R de un analisis de regresion logstica . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.4. Ejemplo de regresion logstica con R . . . . . . . . . .
3.7.5. Ejemplo con varias formas de respuesta . . . . . . . . .

5
5
5
6
6
8
8
9
10
10
11
11
12
12
14
15
16
19
21
25
36
40
41
47
49
51
55

INDICE GENERAL

Captulo 3
Regresi
on lineal m
ultiple y con
variables cualitativas.
Regresi
on logstica
3.1.

Regresi
on y correlaci
on lineal

3.1.1.

Nociones te
oricas

Queremos explicar el comportamiento de una variable que juega el papel


de dependiente a partir del conocimiento de una o mas variables independientes. En regresion el objetivo es encontrar una funcion que exprese la
forma en que una o mas variables (denominadas independientes) afectan a
otra variable (considerada dependiente o respuesta).
La correlaci
on tiene como objetivo medir la covariacion entre dos variables, se
nalando el grado o la fuerza con que se relacionan.
El modelo de regresi
on lineal simple presenta la forma:
Y = 0 + 1 X + 
donde a y b son constantes que se estiman a partir de los datos y definen
la relacion entre las variables X e Y.
 es el termino de error o perturbacion aleatoria.
Se considera que representa un conjunto grande de efectos de factores,
cada uno de los cuales tiene poca importancia por s solo, as como errores
de medida y, en general, efectos no controlables.
5

LINEAL MULTIPLE

6CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS.
La relacion entre X e Y es estocastica, o sea, para cada valor de X existe
una distribucion de probabilidad de Y.
Asunciones del modelo
Para cada observacion i esima, se verifica que la variable aleatoria i
tiene media cero y varianza constante:
E(i ) = 0
V (i ) = 2
Dadas i , j , con i 6= j, estan incorreladas
Cov(i , j ) = 0
j estan normalmente distribuidas.

3.1.2.

Estimaci
on del modelo

Los datos muestrales (xi , yi ) permitiran la obtencion de las estimaciones


b0 , b1 de los parametros 0 , 1 desconocidos, haciendo mnima la suma de
los residuos al cuadrado:
S=

2i =

(yi 0 1 xi )2

El resultado del analisis sera la recta de regresion estimada, que notaremos:


ybi = b0 + b1 xi
Los residuos observados vienen dados por las diferencias entre los valores
observados y sus correspondientes estimaciones o valores ajustados
ei = yi ybi = yi b0 b1 xi
Representan las cantidades que la regresion no pudo explicar.
Un analisis detallado de su comportamiento sera de gran utilidad para
juzgar el ajuste.

3.1.3.

Descomposici
on de la variaci
on de Y. El coeficiente de determinaci
on.

Y CORRELACION
LINEAL
3.1. REGRESION

Se puede descomponer la variacion que refleja Y en la muestra en dos


componentes.
Pero antes es preciso aclarar que, en este contexto, por variacion total
de Y se entiende el total de cambios registrados en sus valores, producidos
tanto por los distintos cambios que sufre X en el rango muestral, como por los
inherentes a la perturbacion aleatoria. Es conceptualmente distinto de lo que
se entiende por varianza de Y ( 2 ), que refleja la dispersion de la distribucion
concreta de Y, para un valor especfico xi de X.
Puede comprobarse que la variacion total de Y se descompone en una
componente denominada variacion explicada por la regresion, que refleja las
variaciones que sufre Y, debidas a los cambios registrados en X, y otra componente, denominada variacion no explicada o residual, debida a la perturbacion
aleatoria.
(yi Y )2 =

(yi ybi )2 +

e2i =

SCT = SCE + SCN E


SCT = suma de cuadrados total
SCE = suma de cuadrados explicada
SCNE = suma de cuadrados no explicada
Esta descomposicion tiene interes, entre otras cosas, porque permite definir un estadstico descriptivo (relativo a la muestra) que mide la bondad del
ajuste: el coeficiente de determinaci
on R2
R2 =

SCN E
SCE
=1
SCT
SCT

que representa la proporcion de variacion explicada por la regresion.


0 R2 1
Un valor de R2 cercano a 0 indica la baja capacidad explicativa de la
recta. La traduccion grafica mostrara los puntos del diagrama de dispersion
alejados de la recta.
El coeficiente de correlaci
on lineal de Pearson viene dado por la
expresion
rXY =

Cov(X, Y )
X Y

Mide el grado de asociacion lineal entre las variables.

LINEAL MULTIPLE

8CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS.

3.1.4.

Ajuste de la recta

El criterio de mnimos cuadrados permite plantear un sistema de ecuaciones lineales, sencillo, cuya solucion viene dada por los coeficientes b0 y
b1 .
Los coeficientes b0 y b1 de la recta se obtienen mediante
b1 =

Cov(X, Y )
2
X

b0 = Y b1 X
donde la covarianza se obtiene mediante
P

Cov(X, Y ) =

xi y i
X Y
N

y la varianza de una variable X es


2
X

3.1.5.

P 2
x
i

Inferencia

Partiendo de unos supuestos dados, el metodo de mnimos cuadrados


(MCO) permite estimar los parametros, pero la siguiente cuestion que nos
planteamos es la valoracion de dichas estimaciones.
El modelo estimado puede merecer un cierto nivel de confianza de ser el
verdadero.
Nos interesa conocer el nivel de confianza que tenemos en que el efecto de
la variable independiente sea realmente verdadero o, por el contrario, se deba
al azar. Planteamos el problema de si su valor es o no, significativamente
distinto de cero, es decir, si la variabilidad de Y puede ser atribuida a X.
Esta claro que muestras distintas pueden producir estimaciones diferentes
de b0 y b1 , pero nos planteamos la cuestion de si una estimacion, b, estara
o no cerca del verdadero parametro, . Con absoluta certeza no se puede
responder a esta cuestion, ya que es desconocido, pero s podremos expresar la confianza que merece nuestra respuesta, expresandola en terminos
probabilsticos.
Una estimacion de 2 viene dada por s2 , definida como:
2

s =

P 2
e
i

N 2

SCN E
N 2

Y CORRELACION
LINEAL
3.1. REGRESION

Donde N es el tama
no de la muestra. SCNE es la suma de cuadrados no
explicada obtenida en la tabla de descomposicion de la variacion y MCNE
se denomina media de cuadrados no explicada. Nos indica la magnitud de la
variabilidad existente en los terminos de error. A la raz cuadrada de su valor
se denomina error tpico de la estimaci
on.
El error estandar, e.e.(b), es una medida de la cantidad de variabilidad
que habra en diferentes coeficientes, bs, estimados de muestras extradas de
la misma poblacion. En esencia mide la capacidad de cambiar, ante cambios
en las observaciones de la muestra.

3.1.6.

Contrastes de hip
otesis

Un metodo para hacer conjeturas acerca de los valores que tendran los
verdaderos parametros , basandose en el conocimiento de la muestra, es el
contraste de hipotesis.
La hipotesis de mayor interes en la regresion, es la consideracion de si el
efecto de X es o no significativo. Es decir, si se puede o no, asumir que la
pendiente de la recta es nula:
1 = 0
La hipotesis nula planteada se nota con
H0 : 1 = 0
Equivale a admitir que no existe relacion lineal entre X e Y. Los cambios
en X no producen cambios en Y de forma lineal.
Frente a la alternativa
H1 : 1 = 0
(Se pueden considerar tambien alternativas como 1 > 0 , o 1 < 0)
Si H0 es cierta, se comprueba que el estadstico t definido como
t=

b1
7 t de Student
e.e.(b1 )

El cociente entre el parametro estimado y su error estandar, sigue un


modelo t de Student. Esta distribucion depende de los grados de libertad
g.l.= tama
no de la muestra n de coeficientes estimados.
Basandose en el conocimiento del comportamiento probabilstico del estadstico t, se tomara la siguiente decision:
La mayora de los paquetes estadsticos suelen calcular el valor concreto
de t en la muestra (denominado t value o t valor)

LINEAL MULTIPLE

10CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS

t valor =

b
e.e.(b)

y su correspondiente p-valor, que representa el nivel mas bajo al cual


puede ser rechazada una hipotesis nula.
p valor = P (|t| > t valor)

DECISION:
si el p-valor es menor que el nivel elegido, se rechaza la
hipotesis nula. En caso contrario, no puede rechazarse.

3.1.7.

Predicci
on

El ajuste de un modelo puede no resultar u


til para predecir, a
un cuando
los coeficientes de regresion sean significativos.
Un valor de R bajo indica que solo una parte peque
na de la variabilidad
de Y puede ser explicada por la variable independiente. Esto sugiere que
otras causas, aleatorias o no, influyen en Y. En este caso es arriesgado predecir valores para la variable dependiente. De igual modo, si los coeficientes
estimados presentan una significatividad dudosa, las predicciones carecen de
confianza.
El valor medio predicho para un X = x0 es el valor ajustado en el modelo,
y0 , obtenido al sustituir x0 en la ecuacion:
y0 = b0 + b1 x0

3.2.

Regresi
on m
ultiple

En regresion m
ultiple se pretende explicar el comportamiento de una variable dependiente (Y) en funcion de dos o mas variables independientes
(Xs). El objetivo es descubrir que variables independientes estan relacionadas con la variable Y, y describir esta relacion, midiendo los efectos que
producen sobre la variable dependiente. El analisis de regresion m
ultiple permite calcular un modelo que relaciona la variable dependiente y las variables
independientes en la forma:
Y = 0 + 1 X1 + 2 X2 + ... + k Xk + 
Los parametros 0 , 1 , 2 , ..., k se estiman por el procedimiento de mnimos cuadrados. Cada parametro i que acompa
na a la variable independiente,Xi ,
expresa el incremento medio que se produce en la variable dependiente, Y,

MULTIPLE

3.2. REGRESION

11

por cada unidad en que se incrementa Xi , supuestas constantes las otras


variables.

3.2.1.

Estimaci
on del modelo

Haciendo mnima la suma de los residuos al cuadrado:


S=

2i =

(yi 0 1 xi1 2 xi2 ... k xik )2

Los valores ajustados para cada individuo i-esimo se obtienen por la ecuacion estimada, resultante de la solucion de un sistema de k+1 ecuaciones lineales derivadas del criterio de ajuste mnimo cuadratico de la ecuacion lineal
de regresion:
Yb = b0 + b1 X1 + b2 X2 + ... + bk Xk
Los residuos observados vienen dados por las diferencias entre los valores
observados y sus correspondientes estimaciones o valores ajustados:
ei = yi ybi
Representan las cantidades que la regresion no pudo explicar.

3.2.2.

Descomposici
on de la variaci
on de Y. Tabla de
An
alisis de la varianza.

Tal como vimos en regresion simple, se puede descomponer la variacion


que refleja Y en la muestra, en dos componentes: variacion explicada por la
regresion, que refleja las variaciones que sufre Y, debidas a los cambios registrados en X, y la variacion no explicada o residual debida a la perturbacion
aleatoria.
(yi Y )2 =

(yi ybi )2 +

e2i =

SCT = SCE + SCN E


SCT = suma de cuadrados total
SCE = suma de cuadrados explicada
SCNE = suma de cuadrados no explicada
La media de cuadrados no explicada viene dada por
M CN E =

SCN E
nk1

LINEAL MULTIPLE

12CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
La media de cuadrados explicada se obtiene por el cociente
SCE
k
El coeficiente R2 , de correlaci
on m
ultiple muestral al cuadrado, es
un ndice del ajuste total
M CE =

SCE
SCN E
=1
SCT
SCT
representa la proporcion de variacion de la variable dependiente que puede
ser explicada por la combinacion lineal de las variables independientes, o
modelo de regresion propuesto.
R2 =

0 R2 1
En regresion m
ultiple tiene interes conocer un coeficiente derivado del R2 ,
denominado coeficiente de determinacion ajustado.
El R-cuadrado ajustado, corrige el R-cuadrado estandar basandose en el
n
umero de coeficientes del modelo. Este estadstico es u
til para comparar
modelos de regresion con diferentes n
umeros de variables independientes. Sabemos que, tanto si la variable tiene o no capacidad explicativa, el R-cuadrado
estandar siempre se incrementara al incluir una nueva variable independiente en el modelo. El R-cuadrado ajustado penaliza la inclusion de nuevas
variables, de tal modo, que si estas no son suficientemente explicativas, el
coeficiente puede incluso disminuir al a
nadirlas.
R2 ajustado = 1

3.2.3.

M CN E
SCN E n 1
=1
SCT n k 1
M CT

Inferencia

El objetivo fundamental en regresion es el de conocer el nivel de confianza que tenemos en que el efecto de la variable independiente sea realmente
verdadero o, por el contrario, se deba al azar. Se plantea el problema de si
su valor es o no, significativamente distinto de cero.
El error est
andar de estimaci
on es la raz cuadrada del error cuadratico medio, desviacion estandar estimada de los residuos (mide la variabilidad
no explicada en la variable respuesta). Su valor proporciona una interpretacion de la magnitud de la dispersion de los terminos de error.

3.2.4.

Contraste de hip
otesis

MULTIPLE

3.2. REGRESION

13

Un metodo para hacer conjeturas acerca de los valores que tendran los
verdaderos parametros , basandose en el conocimiento de la muestra, es el
contraste de hipotesis.
Destacamos los tests de hip
otesis mas usados en regresion:
Test individual para conocer la significatividad de la variable Xj
La hipotesis nula
H0 : j = 0
Equivale a admitir que, en principio 1 , no existe relacion entre Xj e Y .
Los cambios en Xj no producen cambios en Y.
Frente a la alternativa
H1 : j 6= 0
Si H0 es cierta, se comprueba que el estadstico t definido como
t=

bj
e.e.(bj )

el cociente entre el parametro estimado y su error estandar, sigue un


modelo t de Student. Esta distribucion depende de los grados de libertad:
g.l. = tama
no de la muestra - n de coeficientes estimados.
El conocimiento del modelo nos permite calcular
p valor = P (|t| > t valor)

DECISION:
si el p valor es menor que el nivel elegido, se rechaza
la hipotesis. En caso contrario, no puede rechazarse.
Incumplimiento de las asunciones del modelo
En el modelo de regresion lineal se han hecho asunciones sobre los errores,
tales como:
los errores son independientes
varianza constante
siguen una normal
1

Debe tenerse en cuenta que la significatividad de una variable depende del contexto
en que se efect
ue el contraste. Por ejemplo, una variable puede ser significativa si aparece
sola en el modelo y dejar de serlo cuando se incluye con otras.

LINEAL MULTIPLE

14CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
La inspeccion de los graficos de los residuos ayuda a valorar el resultado
del ajuste. Para que las conclusiones derivadas del ajuste se tomen con cierta
confianza debe comprobarse el cumplimiento de dichas asunciones.

3.3.

Regresi
on con variables cualitativas

Las variables cualitativas pueden tambien, al igual que las cuantitativas, explicar el comportamiento de una variable dependiente en el modelo
de regresion. Pero antes es preciso cuantificarlas, definiendo nuevas variables
ficticias capaces de reflejar en el modelo los efectos de sus distintas modalidades.
Se llama variable ficticia a la creada para detectar la presencia/ausencia
de un atributo o modalidad de la variable cualitativa.
El metodo usual es asignar a las variables ficticias los valores 1 y 0 seg
un
presente o no el individuo una determinada modalidad.
Dada una variable cualitativa con k modalidades, es suficiente tomar k-1
variables ficticias (de valores 1 y 0) para presentar todas las posibilidades de
presencia ausencia de las distintas modalidades. Es decir, asignar una variable
ficticia a cada modalidad de la variable cualitativa salvo a una, que se deja
como referencia.
Por ejemplo, para una variable cualitativa con 3 modalidades A, B,
C, se toma una modalidad como referencia o base, por ejemplo, la primera
categora A. Se pueden definir dos variables ficticias (una para cada modalidad de la variable cualitativa B y C, dejando la modalidad A, sin ficticia),
FB y FC, del siguiente modo:
FB = 1 si el individuo presenta B; en otro caso valdra 0.
FC = 1 si el individuo presenta C; en otro caso valdra 0.
De este modo, cada elemento que presente la modalidad A tendra en FB y
FC los valores 0 y 0, respectivamente (FB=0 y FC=0).
Un individuo que presenta la modalidad B, tendra en las ficticias los
valores:
FB=1 y FC=0 y, por u
ltimo, un individuo que presenta la modalidad C
tendra en las ficticias los valores:
FB=0 y FC=1.
Este tipo de codificacion se denomina de referencia a primera categora (A).
Permite medir los efectos producidos en la variable dependiente cuando
se pasa de la categora referencia, A, a otra cualquiera (B o C)

CON VARIABLES CUALITATIVAS


3.3. REGRESION
X
A
B
C

15

FB FC
0
0
1
0
0
1

Para definir los efectos de la variable cualitativa X sobre Y, se define el


modelo que presenta los siguientes terminos:
Y = 0 + 1 F B + 2 F C + 
Con las variables ficticias (FB y FC) definidas seg
un la tabla anterior, la
constante 0 representa el valor promedio o esperado en Y cuando FA = FB
= 0 (equivalente a modalidad de X=A).
1 representa el cambio medio que se produce en Y cuando se pasa de
A a B.
2 representa el cambio medio que se produce en Y cuando se pasa de
A a C.
La modalidad A es la referencia.

3.3.1.

Interacci
on

Un termino que incluya el producto de dos o mas variables independientes


se denomina termino de interaccion. Por ejemplo, X1 X2 indica que el efecto
de una de las variables independientes depende del nivel de la otra.
Pueden interaccionar dos o mas variables, lo que da lugar a distintos
ordenes de interaccion.
Puede deberse a una mezcla de
variables continuas
variables cualitativas
variables continuas y cualitativas

LINEAL MULTIPLE

16CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS

3.4.

An
alisis de regresi
on lineal con R: un
ejemplo de regresi
on simple

Las tasas de paro en 2005 y 2011 de 12 colectivos de personas del


conjunto nacional, son las siguientes:
X2005 X2011
12.73 35.30
18.08 32.12
5.15 15.93
10.55 18.50
4.68 13.19
8.25 15.23
12.98 37.96
18.75 36.98
8.26 30.36
12.51 28.04
8.36 35.35
11.28 24.45

Modelo te
orico propuesto

X2011 = 0 + 1 X2005 + 

Funci
on R que realiza el ajuste
La funcion R que permite realizar un ajuste lineal es lm()
Se determinara la recta de regresion simple que expresa la tasa de paro
en 2011 respecto a la del 2005.
Los argumentos de lm() son la formula que expresa la variable dependiente e independiente (obligatorio) y el data.frame que contiene los datos
(optativo).
lm(f ormula = X2011~X2005, data = Regs1)
> Rs1=lm(X2011~X2005,data=Regs1)
> summary(Rs1)


LINEAL CON ...
3.4. ANALISIS
DE REGRESION

17

Call:
lm(formula = X2011 ~ X2005, data = Regs1)
Residuals:
Min
1Q Median
-7.860 -4.848 -1.925

3Q
Max
6.192 12.110

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.3318
5.5984
2.024
0.0705 .
X2005
1.4244
0.4762
2.991
0.0135 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.996 on 10 degrees of freedom
Multiple R-squared: 0.4722,
Adjusted R-squared: 0.4195
F-statistic: 8.948 on 1 and 10 DF, p-value: 0.01354
El resultado se puede resumir mediante la funcion summary()
Ecuaci
on del modelo ajustada
Es muy importante todo el contenido de este resultado. Por un lado aparece la tabla de coeficientes estimados, lo que va a permitir escribir la ecuaci
on
ajustada del modelo.
La pendiente estimada es b1 = 1,424
La ordenada en el origen o intercept es b0 = 11,332
Y la ecuacion ajustada:
X2011 = 11,332 + 1,424 X2005
Test de hip
otesis de nulidad de la pendiente al nivel = 0,01
Uno de los objetivos mas importantes de un ajuste de regresion es comprobar si la variable (o variables independientes) sirven para explicar la variable
dependiente. La respuesta cientfica a este interrogante se realiza mediante un
contraste de hipotesis de nulidad del coeficiente que acompa
na a la variable
independiente en el modelo.
La tabla de coeficientes es importante porque, ademas de permitir construir la ecuacion ajustada, permite contrastar la hipotesis de nulidad de la
pendiente:

LINEAL MULTIPLE

18CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS

H0 : 1 = 0
frente a la alternativa
H1 : 1 6= 0
Observe que al nivel de significacion = 0,01 no puede rechazarse H0 ,
por lo que entendemos que, cambios en la variable X2005 no parece que
provoquen cambios significativos en la variable X2011. Diramos que (para
este nivel de significacion elegido) la variable X2005 no explica la variable
X2011.
p valor = 0,0135 > = 0,01
DECISION: A este nivel de significacion de 0.01, NO puede rechazarse
que
1 = 0
Cuando las pendientes son significativamente distintas de cero, decimos
que las variables sirven para explicar. Si la variable independiente es cuantitativa el coeficiente, 1 , se interpreta como el incremento esperado en la variable
dependiente cuando se aumenta una unidad la variable independiente.
Bondad de ajuste del modelo
El coeficiente de correlacion R2 permite valorar la bondad del modelo
ajustado y, por tanto, su capacidad para hacer predicciones. Valores altos
indican buen ajuste. Representa la proporcion de variacion de la variable
dependiente que es explicada por el modelo. El valor R2 = 0,4722 no esta
cercano a 1. Por lo que se entiende que la recta no se ajusta bien a los datos.
Error est
andar de la estimaci
on
Y por u
ltimo, el error estandar residual, presenta un valor igual a, 6.99,
este valor en s mismo no es muy expltico en lo que se refiere a interpretacion.
Sin embargo, es muy u
til para comparar modelos propuestos para los mismos
datos. (Lo veremos en el proximo ejemplo (pag. 24), cuando se proponga un
modelo mas completo).
Este estadstico es un indicador de la variabilidad que deja sin explicar el
modelo (error o dispersion aleatoria o no explicada). Un modelo que presente
un valor bajo sera preferible a otro con valor alto.


LINEAL CON ...
3.4. ANALISIS
DE REGRESION

3.4.1.

19

Representaci
on gr
afica de los datos y la recta

El grafico muestra la nube de puntos, donde se ha incluido la recta de


regresion:
null device
1

40

Tasa de Paro en 2011 sobre 2005

30

20

Tasa Paro 2011

10

TP2011 = 11.33 + 1.42 TP2005

10

15

20

25

Tasa Paro 2005

Funciones R usadas en el gr
afico
>
>
>
+
+
>
>

#Regs1 es el data.frame con los datos


Rs=lm(X2011~X2005,data=Regs1)
plot(Regs1$X2005,Regs1$X2011,col="red",ylab="Tasa Paro 2011",
xlab="Tasa Paro 2005",main="Tasa de Paro en 2011 sobre 2005",
col.main="red",xlim=c(0,25), ylim=c(0,40))
abline(coef = coef(Rs),col="blue",lty=2,lwd=3)
text(10,5,"TP2011 = 11.33 + 1.42 TP2005",col="blue",cex=1)

LINEAL MULTIPLE

20CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Tabla de Variaci
on Explicada (ANOVA)
La funcion R anova() permite ver la variacion total, la explicada y no
explicada por el modelo.
La tabla siguiente muestra los resultados
anova(Rs) #Rs es el objeto que contiene los resultados del analisis
Analysis of Variance Table
Response: X2011
Df Sum Sq Mean Sq F value Pr(>F)
X2005
1 437.98 437.98 8.9481 0.01354 *
Residuals 10 489.46
48.95
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La tabla presenta la variacion explicada y no explicada o residual as como


las medias (obtenidas dividiendo por los g.l.)
El test F permite constrastar la significatividad de los explicado por el
modelo.
Recta de regresi
on de X2005 sobre X2011

De modo similar puede obtenerse la recta de regresion de la tasa en 2005


sobre la de 2011. El grafico siguiente muestra la representacion simultanea
de las dos rectas. Observe que se cortan en el punto medio de cada variable.

windows
2


LINEAL ...
3.5. ANALISIS
DE REGRESION

21

40

Rectas de Regresin

30

20

Tasa Paro 2011

10

TP2005 = 2.03 + 0.33 TP2011

TP2011 = 11.33 + 1.42 TP2005

10

15

20

25

30

Tasa Paro 2005

3.5.

An
alisis de regresi
on lineal con R: regresi
on simple con variable cualitativa

Las tasas de paro en 2005 y 2011 de 12 colectivos de personas de Espa


na,
clasificados por Nacionalidad, son las siguientes:

LINEAL MULTIPLE

22CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Nacionalidad X2005 X2011
Espa
nol
12.73 35.30
Espa
nol
18.08 32.12
Espa
nol
5.15 15.93
Espa
nol
10.55 18.50
Espa
nol
4.68 13.19
Espa
nol
8.25 15.23
Extranjero
12.98 37.96
Extranjero
18.75 36.98
Extranjero
8.26 30.36
Extranjero
12.51 28.04
Extranjero
8.36 35.35
Extranjero
11.28 24.45

Modelo te
orico propuesto
Variable dependiente = X2011
Variable independiente cualitativa = Nacionalidad (2 categoras)
Variable ficticia asociada:
FNaciExtranjero (segunda modalidad de variable Nacionalidad)
Base=Espa
nol
Modelo propuesto:
X2011 = 0 + 1 F N aciExtranj + 

Ajuste con R
Se determinara la ecuacion lineal de regresion que expresa la tasa de paro
en 2011 respecto a la Nacionalidad del grupo.
El paquete R detecta automaticamente una variable cualitativa declarada
como factor y genera internamente la ficticia (o ficticias, si hay mas de 2
modalidades) necesarias para el ajuste. Por defecto R toma como categora
base la primera modalidad.


LINEAL ...
3.5. ANALISIS
DE REGRESION

23

Los argumentos de lm() son la formula que expresa la variable dependiente


e independientes (obligatorio) y el data.frame que contiene los datos (optativo). No es necesario expresar explcitamente que la variable es cualitativa.
Basta tenerla declarada como factor.
lm(f ormula = X2011~N acionalidad, data = Regs2)
> Re2=lm(X2011~Nacionalidad,data=Regs2)
> summary(Re2)
Call:
lm(formula = X2011 ~ Nacionalidad, data = Regs2)
Residuals:
Min
1Q Median
-8.522 -5.957 -2.521

3Q
Max
5.035 13.588

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
21.712
3.157
6.877 4.31e-05 ***
NacionalidadExtranjero
10.478
4.465
2.347
0.0409 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.733 on 10 degrees of freedom
Multiple R-squared: 0.3552,
Adjusted R-squared: 0.2907
F-statistic: 5.508 on 1 and 10 DF, p-value: 0.04086
Ecuaci
on del modelo ajustado
La tabla de coeficientes estimados muestra sus valores estimados con los
que podemos escribir la ecuaci
on del modelo ajustado.
La ordenada en el origen o intercept es b0 = 21,712
La pendiente estimada de la variable ficticia F Extranjero = N acionalExtranj
es b1 = 10,478
Y la ecuacion ajustada es:
X2011 = 21,712 + 10,478 N acionalExtranj
Test de hip
otesis de nulidad de la pendiente al nivel = 0,05

LINEAL MULTIPLE

24CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Vemos si la variable propuesta sirve para explicar la variable dependiente.
Para ello se realiza un contraste de hipotesis de nulidad del coeficiente que
acompa
na a la variable independiente ficticia (asociada a Nacionalidad).
La tabla de coeficientes permitir construir la ecuacion ajustada y contrastar la hipotesis de nulidad de las pendientes:
H0 : 1 = 0
frente a la alternativa
H1 : 1 6= 0
Observe que al nivel de significacion = 0,05 se rechaza H0 , por lo
que entendemos que, cambios en la variable Nacionalidad provocan cambios
significativos en la variable X2011.
Diramos que (para este nivel de significacion elegido) la variable Nacionalidad explica la variable X2011.
p valor = 0,0409 < = 0,05
DECISION: A este nivel de significacion de 0.05, se rechaza que
1 = 0
Se concluye que la variable Nacionalidad sirve para explicar.
En concreto, esperamos un incremento en la tasa de paro del 2011 de
aproximadamente 10.5 unidades cuando pasamos del grupo de nacionalidad
espa
nola al grupo de nacionalidad extranjera.
Bondad de ajuste del modelo
El coeficiente de correlacion R2 representa la proporcion de variacion de la
variable dependiente que es explicada por el modelo. El valor del R2 = 0,355
no esta cercano a 1. Por lo que se entiende que el modelo no se ajusta bien
a los datos.
Error est
andar de la estimaci
on
El error estandar residual, presenta un valor igual a 7.733
anterior tena un valor igual a 6.99 y su coeficiente R-cuadrado
Si tuviesemos que elegir entre el modelo simple anterior y este,
en estos criterios: error estandar y coeficente R2 , elegiramos el
que presenta menor error estandar residual y mejor ajuste.

(El modelo
era mayor).
basandonos
primero, ya


LINEAL...
3.6. ANALISIS
DE REGRESION

3.6.

25

An
alisis de regresi
on lineal con R: un
ejemplo de regresi
on m
ultiple

Las tasas de paro en 2005 y 2011 de 32 colectivos de personas de Espa


na,
clasificados por edad y sexo, son las siguientes:
Sexo
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer

Edad TP2005 TP2011


<30
12.05
41.70
<30
19.48
45.75
>30
4.90
29.96
>30
8.44
33.06
<30
22.37
49.23
<30
27.32
43.19
>30
12.26
25.57
>30
18.72
30.62
<30
11.93
47.19
<30
29.02
43.23
>30
8.24
25.14
>30
20.30
31.57
<30
13.51
45.85
<30
27.13
44.17
>30
7.12
24.11
>30
15.66
26.45
<30
17.47
41.54
<30
27.77
41.72
>30
10.02
25.95
>30
17.18
27.31
<30
19.00
37.07
<30
30.41
43.46
>30
7.37
19.55
>30
22.26
30.80
<30
14.52
46.44
<30
21.37
43.22
>30
6.87
25.76
>30
12.80
28.21
<30
16.54
43.11
<30
25.20
38.98
>30
7.21
20.44
>30
18.16
25.93

Representacion grafica de los datos

LINEAL MULTIPLE

26CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
El grafico siguente puede orientar sobre la estructura que tienen los datos
windows
2

50

Tasas de Paro
hombre
mujer

45

40

35
30
20

25

Tasa de Paro en 2011

15

10

15

20

25

30

<30
>30
35

Tasa Paro en 2005

Relaci
on entre Tasa de paro en 2005 y Respuesta (Tasa de paro
en 2011):
Si no distinguimos por sexo ni edad, la relacion entre Tasa de paro en
2011 y 2005 muestra una trayectoria, reflejada por la nube de puntos, aproximadamente de una recta con pendiente positiva.
Relaci
on entre Sexo y Respuesta (Tasa de paro en 2011):
Los datos aparecen mezclados sin una trayectoria o agrupamiento claro
en relacion al eje Y del grafico.
Relaci
on entre Edad y Respuesta (Tasa de paro en 2011):
Si distinguimos entre los puntos correspondientes a edad <30 y >30,
parece que existe relacion. Aparecen 2 grupos distanciados verticalmente (eje
de Tasas de Paro en 2011). Se aprecia visualmente un cambio importante en
los valores de las tasas del 2011 al pasar del grupo joven al grupo mayor.


LINEAL...
3.6. ANALISIS
DE REGRESION

27

Relaci
on entre tasa de paro en 2005 y Respuesta (distinguiendo
por edad) Si distinguimos entre los puntos correspondientes a edad <30 y
>30, no parece que exista relacion entre las Tasas de Paro en 2005 y 2011.
Podemos dibujar dos rectas con pendientes proximas a cero.
Relaci
on entre tasa de paro en 2005 y Respuesta (distinguiendo
por sexo) Dividiendo la nube de puntos por Sexo, parece que la relacion
entre las Tasas de Paro es similar a la global (independientemente del sexo
la relacion entre Tasas es similar).
Si ajustamos por pasos modelos simples podemos confirmar lo comentado
sobre el grafico.
Por ejemplo, el modelo que solo incluye a Tasa en 2005 como independiente presenta esta tabla de coeficientes:
> summary(lm(TP2011~TP2005,data=Regm))
Call:
lm(formula = TP2011 ~ TP2005, data = Regm)
Residuals:
Min
1Q
-10.391 -6.171

Median
-1.836

3Q
4.822

Max
15.489

Coefficients:
Estimate Std. Error t value
(Intercept) 22.8541
3.2923
6.942
TP2005
0.7415
0.1816
4.084
--Signif. codes: 0 '***' 0.001 '**' 0.01

Pr(>|t|)
1.04e-07 ***
0.000303 ***
'*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.393 on 30 degrees of freedom


Multiple R-squared: 0.3574,
Adjusted R-squared: 0.3359
F-statistic: 16.68 on 1 and 30 DF, p-value: 0.0003026
Donde se aprecia que la variable independiente TP2005 es signficativa, con
pendiente 0,74.
Si consideramos como independiente solo a la variable Sexo, obtenemos
el resultado siguiente
> summary(lm(TP2011~Sexo,data=Regm))
Call:
lm(formula = TP2011 ~ Sexo, data = Regm)

LINEAL MULTIPLE

28CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS

Residuals:
Min
1Q
-14.7381 -8.5756

Median
-0.1312

3Q
7.3697

Max
14.9419

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
34.288
2.294
14.95 1.92e-15 ***
SexoMujer
1.816
3.244
0.56
0.58
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.175 on 30 degrees of freedom
Multiple R-squared: 0.01034,
Adjusted R-squared: -0.02265
F-statistic: 0.3135 on 1 and 30 DF, p-value: 0.5797
Donde se observa que la variable Sexo no es significativa. Con p valor =
0,58.
Por u
ltimo, introducimos la variable Edad, que es la que muestra en el
grafico mayor relacion con la variable tasa de paro en 2011.
> summary(lm(TP2011~Edad,data=Regm))
Call:
lm(formula = TP2011 ~ Edad, data = Regm)
Residuals:
Min
1Q Median
-7.3519 -1.7641 -0.2856

3Q
2.5069

Max
6.1581

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.4906
0.8543
50.91 < 2e-16 ***
Edad>30
-16.5887
1.2082 -13.73 1.8e-14 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.417 on 30 degrees of freedom
Multiple R-squared: 0.8627,
Adjusted R-squared: 0.8581
F-statistic: 188.5 on 1 and 30 DF, p-value: 1.797e-14


LINEAL...
3.6. ANALISIS
DE REGRESION

29

Donde se aprecia que la variable independiente Edad es signficativa, con


pendiente 16,6. Con p valor = 0,000, altamente significativo.
Con esta variable ha descendido claramente el error estandar y ha aumentado de forma importante el coeficiente de correlacion R2 = 0,86
Propuestas de Modelos de regresion M
ultiple
Si a
nadimos la variable Sexo, al modelo que incluye la Tasa en 2005 obtenemos el modelo de regresion m
ultiple que presenta esta tabla de coeficientes:
> summary(lm(TP2011~TP2005+Sexo,data=Regm))
Call:
lm(formula = TP2011 ~ TP2005 + Sexo, data = Regm)
Residuals:
Min
1Q Median
-9.490 -4.707 -1.710

3Q
Max
3.627 12.938

Coefficients:
Estimate Std. Error t value
(Intercept) 20.6150
3.0535
6.751
TP2005
1.1431
0.2144
5.332
SexoMujer
-8.8890
3.0866 -2.880
--Signif. codes: 0 '***' 0.001 '**' 0.01

Pr(>|t|)
2.08e-07 ***
1.01e-05 ***
0.0074 **
'*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.631 on 29 degrees of freedom


Multiple R-squared: 0.5003,
Adjusted R-squared: 0.4658
F-statistic: 14.52 on 2 and 29 DF, p-value: 4.281e-05
Esto es coherente con el grafico mostrado anteriormente y corrobora el
hecho de que el contexto en que aparece las variables independientes afecta
a los resultados. Una variable,que en principio no se muestra significativa,
puede llegar a serlo cuando aparece junto a otra u otras (tal como ha ocurrido
con la variable sexo). Del mismo modo, una variable que es significativa,
podra dejar de serlo al cambiar el conjunto de variables independientes en
que se inserta.
Este modelo mejora con respecto al modelo simple que incluye solo la
variable TP2005. Y claramente mejora al compararlo con el modelo que solo
incluye la variable sexo.
Modelo te
orico propuesto
Variable dependiente = TP2011 (Tasa de paro en 2011)

LINEAL MULTIPLE

30CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Variables independientes
Variable independiente continua = TP2005 (Tasa de paro en 2005)
Variable independiente cualitativa = Edad (2 categoras o grupos de
edad)
Variable ficticia asociada:
F>30 (segunda categora de edad)
Base (primera categora de edad: menor de 30 a
nos )
Variable independiente cualitativa = Sexo (2 categoras)
Variable ficticia asociada:
FMujer (segunda modalidad de variable Sexo)
Base=Hombre
Modelo propuesto:
T P 2011 = 0 + 1 T P 2005 + 2 F M ujer + 3 F > 30 + 

Ajuste con R
La funcion R que permite realizar un ajuste lineal es lm()
Se determinara la ecuacion lineal de regresion m
ultiple que expresa la tasa
de paro en 2011 respecto a la del 2005 y las variables Sexo y Edad del grupo.
La formula para R es:
lm(f ormula = T P 2011~T P 2005 + Sexo + Edad, data = Regm)
> Rs2=lm(TP2011~TP2005+Sexo+Edad,data=Regm)
> summary(Rs2)
Call:
lm(formula = TP2011 ~ TP2005 + Sexo + Edad, data = Regm)
Residuals:
Min
1Q Median

3Q

Max


LINEAL...
3.6. ANALISIS
DE REGRESION
-6.482 -1.586 -0.327

2.940

31

7.441

Coefficients:
Estimate Std. Error t value
(Intercept) 44.6939
3.0463 14.671
TP2005
-0.1298
0.1763 -0.737
SexoMujer
3.0323
2.0357
1.490
Edad>30
-17.7053
1.9278 -9.184
--Signif. codes: 0 '***' 0.001 '**' 0.01

Pr(>|t|)
1.13e-14 ***
0.467
0.148
6.08e-10 ***
'*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.369 on 28 degrees of freedom


Multiple R-squared: 0.8755,
Adjusted R-squared: 0.8621
F-statistic: 65.61 on 3 and 28 DF, p-value: 8.796e-13
El resultado se puede resumir mediante la funcion summary()
Ecuaci
on del modelo ajustada
La tabla de coeficientes estimados, lo que va a permitir escribir la ecuaci
on ajustada del modelo.
La ordenada en el origen o intercept es b0 = 44,694
La pendiente estimada de la tasa de paro X2005 es b1 = 0,13
La pendiente estimada de la ficticia FMujer= SexoMujer es b2 = 3,032
La pendiente estimada de la ficticia F>30=Edad>30 es b3 = 17,705
Y la ecuacion ajustada es:
X2011 = 44,694 + 0,13 T P 2005
+ 3.032 SexoM ujer + 17,705 Edad > 30
Test de hip
otesis de nulidad de las pendientes al nivel 0.05
Vemos si las variables propuestas sirven para explicar la variable dependiente. Para ello se realiza un contraste de hipotesis de nulidad del coeficiente
que acompa
na a cada una de las variables independientes en cuestion en el
modelo.
La tabla de coeficientes muestra los coeficientes estimados de la ecuacion
ajustada y los correspondientes estadsticos t con sus p-valores asociados para
contrastar la hipotesis de nulidad de las pendientes:
H0 : 1 = 0

LINEAL MULTIPLE

32CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
frente a la alternativa
H1 : 1 6= 0
Observe que al nivel de significacion = 0,05 no se rechaza H0 , por lo
que entendemos que, cambios en la variable TP2005 no provocan cambios
significativos en la variable TP2011.
Diramos que (para este nivel de significacion elegido) la variable TP2005
no explica la variable TP2011.
p valor = 0,467 >= 0,05
DECISION: A este nivel de significacion de 0.05, no se rechaza que
1 = 0
Por tanto se tendra que eliminar del modelo.
Cuando las pendientes son significativamente distintas de cero, decimos
que las variables sirven para explicar. Si la variable independiente es cuantitativa, el coeficiente se interpreta como el incremento esperado en la variable
dependiente cuando se aumenta una unidad la variable independiente. En
concreto, por cada unidad de incremento en la tasa de paro en 2005 (si la
variable fuese significativa) esperamos encontrar un descenso de aproximadamente 0.12 unidades en la del a
no 2011. En este caso concreto no tiene
sentido interpretarla puesto que no es significativa.
La inclusioh de la variable altamente significativa Edad, es capaz de explicar parte de la variabilidad que en el modelo mas simple (solo TP2005 y
SexoMujer) era explicada por TP2005 y SexoMujer.
Contraste para la variable Sexo
H0 : 2 = 0
frente a la alternativa
H1 : 2 6= 0
Observe que al nivel de significacion = 0,05 no se rechaza H0 , por lo que
entendemos que, cambios en la variable SexoMujer (y por tanto en la variable
Sexo) no provoca cambios significativos en la variable TP2011.
Diramos que (para este nivel de significacion elegido) la variable Sexo no
explica la variable TP2011.
p valor = 0,148 >= 0,05


LINEAL...
3.6. ANALISIS
DE REGRESION

33

DECISION: A este nivel de significacion de 0.05, no se rechaza que


2 = 0
Se concluye que la variable Sexo no sirve para explicar.
Contraste para la variable Edad
H0 : 3 = 0
frente a la alternativa
H1 : 3 6= 0
Observe que al nivel de significacion = 0,05 se rechaza H0 , por lo que
entendemos que, cambios en la variable ficticia de Grupo de Edad>30 (y
por tanto en la variable Edad) provocan cambios significativos en la variable
TP2011. El coeficiente es aproxiamadamente igual a -17.7, por lo que se
espera un descenso de 17.7 unidades en la respuesta (Tasa de Paro en 2011)
al pasar de un joven (con menos de 30 a
nos) a uno mayor (con 30 o mas
a
nos).
p valor = 0,000 <= 0,05
DECISION: A este nivel de significacion de 0.05, se rechaza que
3 = 0
Se concluye que la variable Edad sirve para explicar y es ademas altamente
significativa.
Debemos eliminar del modelo aquellas variables que no explican, paso a
paso, de una en una, comenzando por la que tenga el mayor p-valor (es decir,
la menos significativa).
Hay que tener en cuenta que el contexto en que aparece la variable independiente modifica o puede modificar su importancia en el conjunto. El
modelo anterior, con 3 varibles explicativas, presenta en principio, 2 variables no significativas.
Si se elimina del modelo la variable independiente TP2005, el modelo
ajustado es
Call:
lm(formula = TP2011 ~ Sexo + Edad, data = Regm)
Residuals:
Min

1Q

Median

3Q

Max

LINEAL MULTIPLE

34CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
-6.4437 -1.2466 -0.4619

2.8550

6.6475

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
42.582
1.023 41.610 < 2e-16 ***
SexoMujer
1.816
1.182
1.537
0.135
Edad>30
-16.589
1.182 -14.038 1.83e-14 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.342 on 29 degrees of freedom
Multiple R-squared: 0.873,
Adjusted R-squared: 0.8643
F-statistic: 99.72 on 2 and 29 DF, p-value: 1.006e-13
Lo que nos llevara a elegir el modelo mas simple, con solo la variable Edad.
Call:
lm(formula = TP2011 ~ Edad, data = Regm)
Residuals:
Min
1Q Median
-7.3519 -1.7641 -0.2856

3Q
2.5069

Max
6.1581

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.4906
0.8543
50.91 < 2e-16 ***
Edad>30
-16.5887
1.2082 -13.73 1.8e-14 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.417 on 30 degrees of freedom
Multiple R-squared: 0.8627,
Adjusted R-squared: 0.8581
F-statistic: 188.5 on 1 and 30 DF, p-value: 1.797e-14
El coeficiente que acompa
na a la ficticia Edad>30 vale aprosimadamente
-16.6, es significativo al nivel 0.05 (de hecho su p-valor esta proximo a 0) Se
concluye que la variable Edad sirve para explicar. Se espera un descenso de
16.6 unidades en la tasa de Paro en cuando se pasa del grupo joven al grupo
mayor.
Otra Representacion grafica de los datos:
windows
2


LINEAL...
3.6. ANALISIS
DE REGRESION

35

45
40
35
30
25
20

20

25

30

35

40

45

50

Ao 2011

50

Ao 2011

<30

>30

Hombre

Mujer

Ao 2005

Ao 2005

25
20
15
10
5

10

15

20

25

30

Sexo

30

Edad

Hombre

Mujer

<30

Sexo

>30
Edad

Modelo con interaccion


Podemos ver si el efecto de la variable TP2005 parece que difiere seg
un
sea el grupo de hombres o de mujeres, a
nadiendo terminos de interaccion al
modelo.
> Rs3=lm(TP2011~TP2005+Sexo+Edad+Sexo*TP2005,data=Regm)
> summary(Rs3)
Call:
lm(formula = TP2011 ~ TP2005 + Sexo + Edad + Sexo * TP2005, data = Regm)
Residuals:
Min
1Q Median
-7.016 -1.442 0.072

3Q
2.232

Max
5.474

Coefficients:
(Intercept)
TP2005

Estimate Std. Error t value Pr(>|t|)


40.6730
3.4990 11.624 5.12e-12 ***
0.1796
0.2259
0.795
0.4335

LINEAL MULTIPLE

36CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
SexoMujer
9.4376
Edad>30
-17.0668
TP2005:SexoMujer -0.4363
--Signif. codes: 0 '***' 0.001

3.6908
1.8545
0.2143

2.557
0.0165 *
-9.203 8.18e-10 ***
-2.036
0.0517 .

'**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.194 on 27 degrees of freedom


Multiple R-squared: 0.892,
Adjusted R-squared: 0.876
F-statistic: 55.77 on 4 and 27 DF, p-value: 1.16e-12

Este modelo esta mas proximo a la estructura que muestran los datos, inspeccionada graficamente. Mejora la bondad de ajuste (R2 ajustado = 0,876)
y el error estandar residual disminuye ligeramente (3.2). Los p-valores asociados a los coeficientes estimados, que no son significativos, estan, no obstante,
cercanos al lmite del nivel de significacion (0.0517).
Nota: El principio jerarquico establece que si se admite en el modelo un
termino de interaccion, automaticamente quedan incluidos los efectos principales (al margen de los valores p-valores asociados a ellos).
Bondad de ajuste del modelo
Representa la proporcion de variacion de la variable dependiente que es
explicada por el modelo. El valor del R2 = 0,892 esta cercano a 1. Por lo que
se entiende que la ecuacion estimada del modelo se ajusta bien a los datos.

3.6.1.

Representaci
on gr
afica de los datos y la ecuaci
on
ajustada

El grafico muestra la nube de puntos, donde se ha incluido la recta de


regresion ajustada para cada grupo de Edad y Sexo:
windows
2


LINEAL...
3.6. ANALISIS
DE REGRESION

37

Valores observados y ajustados

45

hombre
mujer

40

35

TP2011

30

25

10

15

20

25

<30
>30

30

TP2005

Con los datos de la tabla 3.1 ajuste el modelo que mejor se adapte a los
datos, para explicar la Tasa de paro en 2011.
Se han ajustado los modelos siguientes:

lm1=lm(X2011~., data=Regm)
lm2=lm(X2011~.+nacional*X2005, data=Regm)
lm3=lm(X2011~.+nacional*X2005+Edad*X2005, data=Regm)
lm4=lm(X2011~.+nacional*X2005+Edad*X2005+nacional*Edad, data=Regm)

Edad
<30
>30
<30
>30

nacional
X2005 X2011 Edad.1
Espa
nol
20.41 43.78 <30
Espa
nol
11.23 24.67 >30
Extranjero 16.07 42.44 <30
Extranjero
9.98 37.40 >30

nacional.1 X2005.1 X2011.1


Espa
nol
20.41
43.78
Espa
nol
11.23
24.67
Extranjero
16.07
42.44
Extranjero
9.98
37.40

LINEAL MULTIPLE

38CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30

Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol

9.49
3.93
14.36
8.95
18.91
7.65
10.22
14.86
11.77
4.51
14.30
7.77
19.67
8.90
24.26
9.79
14.90
6.28
8.58
14.40
16.01
6.26
18.65
8.73
13.94
6.73
11.23
13.42
10.28
4.62
19.39
9.92
14.33
6.64
12.97
9.86
21.96
13.46
27.41
15.75
17.29

25.75
10.55
49.12
31.54
32.88
12.96
30.69
33.67
30.11
14.52
40.40
25.62
45.28
24.05
35.96
31.78
29.40
10.30
35.00
29.91
29.71
12.14
36.19
28.53
34.16
16.91
40.69
29.70
27.71
12.56
36.86
31.05
36.39
17.08
43.80
33.71
38.32
19.18
36.01
35.59
28.49

<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30

Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol

9.49
3.93
14.36
8.95
18.91
7.65
10.22
14.86
11.77
4.51
14.30
7.77
19.67
8.90
24.26
9.79
14.90
6.28
8.58
14.40
16.01
6.26
18.65
8.73
13.94
6.73
11.23
13.42
10.28
4.62
19.39
9.92
14.33
6.64
12.97
9.86
21.96
13.46
27.41
15.75
17.29

25.75
10.55
49.12
31.54
32.88
12.96
30.69
33.67
30.11
14.52
40.40
25.62
45.28
24.05
35.96
31.78
29.40
10.30
35.00
29.91
29.71
12.14
36.19
28.53
34.16
16.91
40.69
29.70
27.71
12.56
36.86
31.05
36.39
17.08
43.80
33.71
38.32
19.18
36.01
35.59
28.49


LINEAL...
3.6. ANALISIS
DE REGRESION
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30
<30
>30

Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero
Cuadro

7.34 13.09 >30


19.79 38.86 <30
16.33 31.63 >30
11.71 27.33 <30
4.74 11.17 >30
12.81 28.01 <30
8.67 20.92 >30
13.20 35.30 <30
5.11 17.96 >30
12.76 42.41 <30
11.50 33.45 >30
10.86 20.01 <30
3.35
7.74 >30
11.24 35.81 <30
8.30 21.87 >30
14.10 23.62 <30
5.35
8.59 >30
12.47 30.29 <30
14.23 19.94 >30
10.40 27.49 <30
3.32
9.08 >30
18.22 44.95 <30
9.60 31.92 >30
35.88 48.14 <30
12.75 18.53 >30
25.32 32.96 <30
38.49 47.85 >30
28.77 40.49 <30
8.83 16.04 >30
53.22 12.01 <30
5.59 41.77 >30
3.1: Tasas de paro seg
un

39
Espa
nol
7.34
Extranjero
19.79
Extranjero
16.33
Espa
nol
11.71
Espa
nol
4.74
Extranjero
12.81
Extranjero
8.67
Espa
nol
13.20
Espa
nol
5.11
Extranjero
12.76
Extranjero
11.50
Espa
nol
10.86
Espa
nol
3.35
Extranjero
11.24
Extranjero
8.30
Espa
nol
14.10
Espa
nol
5.35
Extranjero
12.47
Extranjero
14.23
Espa
nol
10.40
Espa
nol
3.32
Extranjero
18.22
Extranjero
9.60
Espa
nol
35.88
Espa
nol
12.75
Extranjero
25.32
Extranjero
38.49
Espa
nol
28.77
Espa
nol
8.83
Extranjero
53.22
Extranjero
5.59
nacionalidad y sexo

[1] .EdadnacionalX2005X2011
La tabla anora de de los 4 ajustes propuestos es la siguiente:

13.09
38.86
31.63
27.33
11.17
28.01
20.92
35.30
17.96
42.41
33.45
20.01
7.74
35.81
21.87
23.62
8.59
30.29
19.94
27.49
9.08
44.95
31.92
48.14
18.53
32.96
47.85
40.49
16.04
12.01
41.77

LINEAL MULTIPLE

40CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS

1
2
3
4

Res.Df
72
71
70
69

RSS Df Sum of Sq
F Pr(>F)
4162.64
2532.30
1
1630.34 58.02 0.0000
1948.48
1
583.81 20.78 0.0000
1938.81
1
9.67 0.34 0.5593

> anova(lm1,lm2,lm3,lm4)
Analysis of Variance Table
Model 1: X2011 ~ Edad + nacional + X2005
Model 2: X2011 ~ Edad + nacional + X2005 + nacional * X2005
Model 3: X2011 ~ Edad + nacional + X2005 + nacional * X2005 + Edad * X2005
Model 4: X2011 ~ Edad + nacional + X2005 + nacional * X2005 + Edad * X2005 +
nacional * Edad
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1
72 4162.6
2
71 2532.3 1
1630.34 58.0220 1.001e-10 ***
3
70 1948.5 1
583.81 20.7772 2.170e-05 ***
4
69 1938.8 1
9.67 0.3442
0.5593
--NA
El resultado del ajuste del modelo lm3 es el siguiente:

(Intercept)
Edad>30
nacionalExtranjero
X2005
nacionalExtranjero:X2005
Edad>30:X2005

3.7.

Estimate Std. Error t value Pr(>|t|)


20.6419
2.5748
8.02 0.0000
-17.3151 2.6406
-6.56 0.0000
23.4504
2.4609
9.53 0.0000
0.7561
0.1544
4.90 0.0000
-1.1944
0.1624
-7.36 0.0000
0.8374
0.1829
4.58 0.0000

Regresi
on logstica

LOGISTICA
3.7. REGRESION

3.7.1.

41

Nociones te
oricas

S Extendemos el analisis de regresion lineal para tener en cuenta nuevos


modelos, denominados modelos lineales generalizados 2 (GLM), que permiten relajar las exigencias de normalidad de la respuesta y de la relacion
lineal.
El modelo de regresion, ya estudiado, presenta ciertas caractersticas y
exigencias teoricas referentes tanto a la naturaleza de la informacion que
trata (variables), como a las asunciones teoricas necesarias para validar conclusiones. Nos encontramos con situaciones en que los objetivos del analisis
son similares, pero el incumplimiento de los requisitos necesarios para su
aplicacion no nos permite usarlo.
La regresion logstica nos permite analizar modelos con variable dependiente dicot
omica. Se propuso como una tecnica alternativa para salvar los
inconvenientes que presenta el modelo de regresion lineal para tratar datos
dicotomicos. Empezo a usarse en el campo epidemiologico (probabilidad de
presencia ausencia de una determinada enfermedad) y hoy se usa en todos
los campos especialmente en el relativo a las ciencias sociales.
Tal es el caso que nos ocupa ahora: explicar el comportamiento de una
variable dependiente (Y) en funcion de otras variables explicativas (Xs),
pero considerando que la variable dependiente es discreta con solo dos valores
posibles que notaremos 0 y 1.
Las variables independientes pueden ser cualitativas o cuantitativas, discretas o continuas.
Como en regresion lineal, distinguimos entre una variable respuesta o
dependiente y una o mas variables explicativas (cualitativas o cuantitativas).
La influencia de las variables explicativas sobre la dependiente o respuesta
viene reflejada por medio de una funcion lineal que relaciona el denominado
predictor lineal con las variables independientes. La media de la variable
dependiente (probabilidad de
exito) es una funcion del predictor lineal
(combinacion lineal de las variables independientes).
El modelo viene caracterizado por la denominada funcion link y por el
modelo de distribucion de la respuesta.
Dos casos particulares importantes de la clase de modelos GLM, ademas
del modelo de regresion lineal con respuesta normal, son el modelo de regresion logstica, con respuesta binaria y el modelo log-lineal con respuesta
Poisson.
2

La clase de modelos lineales generalizados, GLM, tiene al modelo de regresion lineal


con variable dependiente normal como un caso particular

LINEAL MULTIPLE

42CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
En el modelo que nos ocupa aqu, de regresion logstica, tomaremos la
funcion logit y el modelo de distribucion de probabilidad binomial.
Supongamos, por ejemplo, que se ha clasificado a un grupo de individuos
atendiendo a un conjunto de variables explicativas como X1=Edad, X2=nivel
estudios, etc., y una variable, Y, considerada dependiente que representa
la asistencia a una manifestacion (con categoras 1=Si y 0=No). Se desea
estudiar la probabilidad de que un individuo asista a la manifestacion en
funcion de las variables X1, X2, etc. El objetivo es construir un modelo
capaz de describir el efecto de los cambios de las variables explicativas sobre
la probabilidad de que Y valga 1 (probabilidad de asistir a la manifestacion).
Sea p=P(Y=1)
Modelo de regresion logstica simple
Expresado en t
erminos de los logits, el modelo presenta la forma:
logit = ln

p
= 0 + 1 X
1p

donde los logits son funciones lineales de las variables explicativas, pero
no las probabilidades.
Despejando la probabilidad de la ecuacion anterior, lo podemos presentar
en t
erminos de probabilidad:
e0 +1 X
p
= e0 +1 X p =
1p
1 + e0 +1 X
Es frecuente expresar el modelo en terminos de Odds (razon de una
probabilidad a su valor complementario)
Expresado en t
erminos de Odds o Ventajas:
Odd(x) =

p(x)
= e0 (e1 )x
1 p(x)

Conocidos los coeficientes del modelo de regresion logstica se puede determinar el incremento multiplicativo que se produce en la razon de odds 3
para cada incremento de una unidad de x:
Odd(x + 1) =

p(x + 1)
= e0 (e1 )(x+1)
1 p(x + 1)

De donde la raz
on de odds, RO, vale:
3

Un estadstico muy utilizado y estrechamente ligado a la interpretacion de los parametros de un modelo de regresion logstica, es este cociente o razon, denominado razon de
odds.

LOGISTICA
3.7. REGRESION

RO(x+1/x) =

43

Odd(x + 1)
= e1
Odd(x)

La razon de Odds permite comparar por cociente las odds de la variable


respuesta en dos situaciones caracterizadas por los valores adoptados por las
variables independientes.
Modelo de regresion logstica m
ultiple
Para el caso mas general de k variables explicativas, X = (x1 , x2 , ..., xk ),
el modelo de regresion logstica relaciona la variable dicotomica de valores
Y = 1 e Y = 0 con el vector X, mediante:
Modelo expresado en probabilidades
P

e0 + k xk
P
p=
1 + e0 + k xk
tambien podemos expresar en t
erminos de logit:
logit = 0 +

j xj = 0 X

Proporciona una descripcion de la influencia de las variables explicativas


asociadas a la variable respuesta, relacionando varios factores o variables
explicativas y la probabilidad de la variable dependiente, mediante la funcion
descrita.
Estimaci
on
A diferencia del modelo de regresion lineal, cuyos coeficientes pueden estimarse resolviendo un sistema de ecuaciones lineales, el procedimiento de
estimacion de maxima verosimilitud usado, no permite, en general, soluciones dadas mediante expresiones explcitas, el sistema de ecuaciones no
lineales generado en el proceso de estimacion de los parametros, obliga a
aplicar procedimientos iterativos de calculo, como por ejemplo, el algoritmo
de Newton-Raphson o el m
etodo iterativo de mnimos cuadrados
ponderados.
Modelo con variables cualitativas: variables ficticias para modelos
logit
De modo similar al uso de variables ficticias en el modelo de regresion
lineal, en el modelo de regresion logstica, se estimaran los efectos de las

LINEAL MULTIPLE

44CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
distintas modalidades de una variable explicativa cualitativa sobre la variable
respuesta, a traves del dise
no de distintas variables, denominadas ficticias
(dummy en terminologa inglesa).
Referencia a celda:
La codificacion que toma como referencia una modalidad de la variable
cualitativa (generalmente la primera o u
ltima), permite comparar el comportamiento en la respuesta de los individuos que presentan una modalidad
i-esima, con los de la modalidad referencia o base.
Interpretaci
on de los par
ametros de un modelo de regresi
on logstica
Distinguiremos distintos casos:
Una variable explicativa categ
orica:
Dada la variable A de modalidades A1 y A2 , se define el modelo
logit = 0 + 1 F A2
Usando la codificacion de referencia a celda, F A2 = 1 si A = A2 y F A2 =
0 si A = A1 , la Odd de la variable respuesta entre los elementos de la celda
o categora A2 es
Odd(A2 ) =

P (A2 )
1 P (A2 )

Y entre los elementos de la celda o modalidad A1 es


Odd(A1 ) =

P (A1 )
1 P (A1 )

P (A1 ) y P (A2 ) representan las probabilidades de que la variable respuesta, Y, tome el valor 1 (ocurrencia del suceso en estudio) para los individuos
de la celda A1 y A2 , respectivamente.
El logaritmo neperiano de la razon de odds, RO, que compara la categora
A2 frente a la A1 vale:
ln(RO) = logit(A = A2 ) logit(A = A1 )

ln(RO) = logit(F A2 = 1) logit(F A2 = 0) = 0 + 1 1 (0 + 1 0) = 1

LOGISTICA
3.7. REGRESION

45

Tomando exponenciales se obtiene la razon de odds, RO:


ROA2 /A1 =

P (A2 )
1P (A2 )
P (A1
1P (A1 )

P (A2 ) 1 P (A1 )
= e1
P (A1 ) 1 P (A2 )

Ejemplo:
Variable dependiente Y (Acudir a la huelga, dicotomica, de valores SI
y NO)
Variable independiente X (cualitativa, afilicacion a un sindicato, de
valores SI y NO)
La probabilidad, p, de que se ponga en huelga un trabajador, viene explicada seg
un el modelo:
e1,39+1,1F S
1 + e1,39+1,1F S
Siendo FS la variable ficticia asociada a la cualitativa X pertenencia al
sindicato con valores FS=1 si el trabajador pertenece a un sindicato y FS=0,
en caso contrario. (Es decir,FS es la ficticia asociada a la modalidad SI pertenece al sindicato y la modalidad base o referencia es: NO pertenece al
sindicato)
a) Obtenga la Razon de odds que compara a los trabajadores pertenecientes al sindicato con los no afiliados.
p=

b) Determine la probabilidad de que un trabajador, que no pertenece


al sindicato, secunde la huelga.

Soluci
on:
a)
ROSI/N O = e1 = e1,1 = 3,004
b) Sustituyendo FS=0 en la ecuacion del modelo:
p=

e1,39
= 0,199
1 + e1,39

Una variable explicativa cualitativa con m


as de dos categoras:
Sea la variable cualitativa, A, de I modalidades: A1 , A2 , ..., AI .

LINEAL MULTIPLE

46CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Supongamos que usamos la codificacion de referencia a celda primera. El
modelo constara de I-1 termninos para expresar los efectos de las I modalidades de la variable cualitativa A.
Consideremos las I-1 variables ficticias: F A2 , F A3 , ..., F AI , correspondientes a las modalidades A2 , ..., AI . de A. La modalidad A1 es la base o
referencia.
logit = 0 + 1 F A2 + ... + k1 F Ak + ... + I1 F AI
Observe que si A = Ak , la ficticia definida para esa modalidad es F Ak ,
cuyos valores son 1s y 0s. Tales que:
F Ak = 1 si A = Ak y F Ak = 0, en otro caso.
El logaritmo neperiano de la RO que compara Ak con A1 viene dado por:
logit(Ak ) logit(A1 ) =
(0 + 1 0 + ... + k1 1 + ... + I1 0) (0 + 1 0 + ... + k1 0 + ... + I1 0) =
k1
k1 es el cambio producido en el logit al incrementar una unidad (pasar
de 0 a 1) la correspondiente variable ficticia, F Ak . Lo que interpretaremos,
de modo equievalente, como el cambio esperado en el logit al pasar de la
modalidad A1 a la categora Ak
La razon de odds de Ak frente a A1 viene dada por:
RO(Ak /A1 ) = exp(k1 )
Una variable explicativa medida a escala ordinal o superior
Sea X una variable explicativa cuantitativa (discreta o continua)
Sea el modelo
logit = 0 + 1 X

logit(x + 1) logit(x) = (0 + 1 (x + 1)) (0 + 1 (x)) = 1


1 es el cambio producido en el logit al incrementar X en una unidad.
La Odd de la variable respuesta entre los individuos con valor x es
Odd(x) =

p(x)
1 p(x)

Y entre los individuos que presentan x+1 es

LOGISTICA
3.7. REGRESION

47

Odd(x + 1) =

p(x + 1)
1 p(x + 1)

El logaritmo de la razon de odds vale


ln(RO) = logit(x + 1) logit(x) = 1
Y la razon de Odds que resulta tras exponenciar es exp(1 )

3.7.2.

Contrastes de hip
otesis

Los contrastes de hipotesis mas frecuentes en regresion logstica son los


siguientes:
Contrastes univariantes
Uno de los mas usados es el test de Wald que se efect
ua para cada una
de las variables que intervienen en el modelo.
Para un coeficiente cualquiera, j , se verifica (para muestras suficientemente grandes) que bajo la hipotesis nula H0 : j = 0 , el estadstico w
definido por:
w=

(bj j )2
21
V ar(bj )

sigue un modelo Chi-cuadrado con 1 g.l.


En R, con la funcion summary() se puede visualizar los contrastes z (normal estandarizada) individuales para cada una de los terminos incluidos en
el modelo. Se presentan los valores estimados de los coeficientes su error
estandar y los cocientes z
z=

bj
Z
e.e(bj )

As como los p-valores asociados.


En particular, el cociente entre el valor estimado y su error estandar puede
aproximarse de forma aceptable a la distribucion normal estandar en aquellos casos en que el tama
no muestral sea suficientemente grande, pudiendo
contrastar la hipotesis nula:

LINEAL MULTIPLE

48CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS

H0 : j = 0
Frente a la alternativa: H1 : j 6= 0
Si notamos:

w=



b

j




e.e(bj )

bajo la hipotesis nula, admitiendo las condiciones necesarias para que


siga una normal,
z=

w N (0, 1)

(cuando n tiende a infinito) se decide seg


un las desigualdades siguientes:

Si P (|z| > w) < , se rechaza H0 al nivel , por tanto, la variable


independiente, Xj , sirve para predecir la variable respuesta.

Si P (|z| > w) > , se acepta H0 al nivel , por tanto, la variable


independiente, Xj , NO ayuda a mejorar el ajuste.
Test de raz
on de verosimilitud para comparar el modelo con k variables independientes, con el modelo m
as completo, de k+h variables
En este caso se dice que los modelos est
an anidados, todas las variables
de uno de ellos estan incluidas en el otro.
Este contraste permite establecer la significaci
on conjunta de las h
variables explicativas excluidas del modelo. A diferencia del contraste de
Wald, que solo necesita estimar el modelo general (no restringido), este se
basa en la estimacion de ambos: el restringido (h coeficientes nulos), de k+1
coeficientes, y el no restringido, de k+h+1.
Las hipotesis son:
H0 : Los coeficientes de las h variables excluidas del modelo son nulos.
H1 : Al menos uno de los h coeficientes es distinto de cero.
Se define el estadstico G como: G=-2[ln(f.verosimil.mod. de solo k v.exp.)ln(f.versimil.mod. con k+h v.exp.)] Bajo H0 , G sigue un modelo Chi-cuadrado
con h=(k+h)-k g.l.

LOGISTICA
3.7. REGRESION

49

Si P (2 > G) < , se rechaza H0 al nivel , por tanto, al menos una de las


h variables independientes es importante para explicar la variable respuesta.
Si P (2 > G) , se acepta H0 al nivel , por tanto, ninguna de las h
variables independientes a
nadidas ayuda a mejorar el ajuste y, siguiendo el
principio de parsimonia, concluiremos que el mejor modelo contendra solo
las k variables independientes del modelo mas simple.
En R, se puede realizar un contraste para decidir la significatividad entre
los terminos adicionales en modelos anidados. La funcion que permite realizar
el contraste es anova(). Uno de los test usuales para contrastar los terminos
de uno o varios modelos es el test chi-cuadrado.
Por u
ltimo se
nalemos que un resumen global de la bondad del ajuste
permite contrastes mediante estadsticos como Chi-cuadrado de Pearson, la
Deviance . Este contraste solo es aconsejable si los datos se presentan agrupados.
Vea los ejemplos realizados (pags. 51, 55).

3.7.3.

Implementaci
on con R de un an
alisis de regresi
on logstica

La funcion de ajuste es glm()


glm(formula, family 4 = gaussian, data, weights, subset, offset)
Descripci
on de los argumentos usados:
formula: Describe la ecuacion del modelo; es decir, la variable dependiente o respuesta seguida del smbolo ~y las variables independientes. La
respuesta representa proporciones de exitos observados pero pueden introducirse de varios modos. Vea la practica resuelta: Ejemplo simple de regresion
logstica, para mas informacion.
family: Usaremos el modelo binomial con la funcion link = logit
data: Es optativo. Es el data.frame que contiene las variables a usar.
subset: Es optativo. Permite realizar el analisis solo en parte de los datos.
Offset. Optativo. Representa un termino que se incluye en el predictor
lineal y se asume que afecta a la respuesta con valores previamente conocidos
que se a
naden al predictor lineal con coeficiente igual a 1.
Tal como se ha comentado en parrafo anterior, los datos se pueden introducir de varios modos:
4

Se puede usar glm para ajustar un modelo de regresion lineal con la opcion de family
por defecto (gaussiana), pero es menos eficiente que lm

LINEAL MULTIPLE

50CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Formas en que se pueden introducir los datos
Los datos pueden darse de varios modos, seg
un se presente la informacion
relativa a los exitos y fracasos de la variable dependiente.
1. Un vector de valores que representan proporciones de exitos. N de
exitos yi entre el total (ni = exitos+f racasos). En este caso los totales
ni deben introducirse como el argumento weights.
2. Un vector de 0s y 1s (fracasos y exitos, respectivamente). En este caso
no hay que especificar el argumento weights.
3. Un vector con valores que representan a mas de dos niveles o categoras.
En este caso se trata como en el caso 2), anterior, asumiendo que el
nivel mas bajo representa el cero o fracaso y los otros el 1(exito).
4. Una matriz formada por dos columnas que representan los exitos y
fracasos. En este caso se asume que la primera columna contiene los
exitos (yi ) y la segunda los fracasos (ni yi ). Tampoco es necesario el
argumento weights.

Resultados del an
alisis
Coefficients, residuals, fitted.values
Representan los coeficientes, residuos, valores ajustados, respectivamente

Deviance valor que representa, salvo constante, menos dos veces el maximo del logaritmo de la funcion de verosimilitud. Por tanto sirve como indicador para bondad de ajuste, especialmente para comparar modelos.
AIC Criterio de Informaci
on de Akaike. Estadstico derivado tambien de la funcion de verosimilitud.
Nota: En ayuda de R puede encontrar otras funciones que permiten extraer informacion del modelo ajustado

LOGISTICA
3.7. REGRESION

3.7.4.

51

Ejemplo con respuesta un vector 1s y 0s

Si el vector es un factor con 2 niveles, por defecto, R toma la primera


categora como fracaso y la segunda como exito.

DATOS

En la tabla siguiente se han clasificado varios grupos de personas del


conjunto nacional seg
un la Tasa de paro en 2005, Tasa de 2011, Sexo y Edad
del grupo.

Variable dependiente: Tasa de 2011 (exito=tasa alta 5 )

Variables independientes: Tasa de 2005, Sexo y Edad del grupo (una


continua y dos cualitativas)

La variable est
a definida como factor y explcitamente se declararon los niveles 1 y 2
como baja y alta, respectivamente

LINEAL MULTIPLE

52CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Sexo
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer

Edad TP2005 TP2011


<30
12.05 baja
<30
19.48 alta
>30
4.90 baja
>30
8.44 baja
<30
22.37 alta
<30
27.32 alta
>30
12.26 baja
>30
18.72 baja
<30
11.93 alta
<30
29.02 alta
>30
8.24 baja
>30
20.30 baja
<30
13.51 alta
<30
27.13 alta
>30
7.12 baja
>30
15.66 baja
<30
17.47 baja
<30
27.77 baja
>30
10.02 baja
>30
17.18 baja
<30
19.00 baja
<30
30.41 alta
>30
7.37 baja
>30
22.26 baja
<30
14.52 alta
<30
21.37 alta
>30
6.87 baja
>30
12.80 baja
<30
16.54 alta
<30
25.20 baja
>30
7.21 baja
>30
18.16 baja

Especificacion teorica del modelo


Variable dependiente: TP2011 (clasificada como alta o baja)
Variables independientes: TP2005, Sexo y Edad (del grupo)
logit = 0 + 1 T P 2005 + 2 F SexoM ujer + 3 F Edad>30

LOGISTICA
3.7. REGRESION

53

p
donde p = P (Y = 1) = P (T P 2011 = alta), y logit = ln 1p

Ajuste del modelo

>

summary(glm( TP2011~.,family=binomial,

data=Regm) )

Call:
glm(formula = TP2011 ~ ., family = binomial, data = Regm)
Deviance Residuals:
Min
1Q
Median
-1.68342 -0.00009 -0.00007

3Q
0.77459

Max
1.08414

Coefficients:
(Intercept)
SexoMujer
Edad>30
TP2005

Estimate Std. Error z value Pr(>|z|)


1.23058
2.66504
0.462
0.644
1.04330
1.96446
0.531
0.595
-20.80811 2661.99418 -0.008
0.994
-0.04502
0.15970 -0.282
0.778

(Dispersion parameter for binomial family taken to be 1)


Null deviance: 41.183
Residual deviance: 19.502
AIC: 27.502

on 31
on 28

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 18


Observe que ninguna de las variables es significativa cuando se introducen
conjuntamente. Eliminando, paso a paso, la menos significativa se obtiene el
siguiente modelo ajustado:
La u
nica variable independiente que resulto significativa fue la tasa de
paro de 2005. Por lo que el modelo se reduce al mas simple:
Call:
glm(formula = TP2011 ~ TP2005, family = binomial, data = Regm)
Deviance Residuals:
Min
1Q
Median

3Q

Max

LINEAL MULTIPLE

54CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
-1.5900

-0.8914

-0.4587

0.8422

1.8680

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.42416
1.29258 -2.649 0.00807 **
TP2005
0.15687
0.06601
2.376 0.01748 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 41.183
Residual deviance: 33.900
AIC: 37.9

on 31
on 30

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4


Interpretaci
on del coeficiente que acompa
na a la variable independiente:
Se espera un incremento medio del logit de 0.157 por cada aumento de
una unidad en la tasa de paro del 2005.
La Raz
on de Odds para un aumento de una unidad en la tasa de paro
de 2005 viene dada por:
e1 = e0,157 = 1,17
Por lo que se espera un incremento del 17 por ciento en la ventaja u odds
de la respuesta (una tasa de paro alta en 2011) en un grupo que aumente
una unidad su tasa de paro en 2005.
El modelo ajustado, expresado en logit, viene dado por la ecuacion:
logit = 3,424 + 0,157 T P 2005
La probabilidad esperada de una tasa alta en 2011 para un grupo que
en 2005 tiene una tasa de paro de 45 es igual a
p=

exp(3,424 + 0,157 45)


=
1 + exp(3,424 + 0,157 45)

LOGISTICA
3.7. REGRESION

55

p = 0,974
La probabilidad esperada de una tasa alta en 2011 para un grupo que
en 2005 tiene una tasa de paro de 5 es igual a

p=

exp(3,424 + 0,157 5)
=
1 + exp(3,424 + 0,157 5)
p = 0,067

La razon de Odds para un aumento de 10 unidades en la tasa de 2005 de


un determinado grupo viene dada por
RO(10+1)/1

Odd(10 + 1
=
=
Odd(1)

p(10+1)
1p(10+1)
p(1)
1p(1)

O bien para el logaritmo neperiano:


lnRO(10+1)/1 = logit(11) logit(1) = 10 1
que equivale a
RO10+1/1 = e101 = e100,157 = 4,8
Un grupo que en 2005 presente una tasa 10 puntos superior a otro, casi
quintuplica (4,8) la ventaja de tener una tasa de paro alta en 2011 6

3.7.5.

Ejemplo de regresi
on logstica con R

DATOS
En la tabla siguiente se tienen clasificados a varios grupos de personas
del conjunto nacional en funcion de Tasa de paro en 2005, Tasa de 2011,
6

Observe que hablamos de ventaja u odds (no probabilidad). Este concepto esta proximo al de riesgo, cuando la probabilidad de exito es muy baja. Por eso es frecuente que
se utilize esta terminologa cuando se manejan sucesos raros (de probabilidad proxima a
cero, tales como enfermedades raras)

LINEAL MULTIPLE

56CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Nacionalidad y Edad del grupo. La tabla muestra los datos ya tabulados o
agrupados con las correspondientes frecuencias.
Variable dependiente: Tasa de par en 2011 (exito=tasa alta)
Variables independientes: Tasa de 2005, Nacionalidad y Edad del grupo (todas cualitativas)
Edad
<30
>30
<30
>30
<30
<30
>30
<30
<30
>30
<30
<30
>30

nacional
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Extranjero
Extranjero
Espa
nol
Extranjero
Extranjero
Espa
nol
Extranjero
Extranjero

X2005
baja
baja
baja
baja
alta
alta
alta
baja
baja
baja
alta
alta
alta

X2011 Freq
baja
10
baja
19
baja
5
baja
14
baja
3
baja
3
baja
2
alta
1
alta
5
alta
2
alta
5
alta
6
alta
1

La tabla siguiente muestra los mismos datos, pero estableciendo una columna de exitos y otra de totales (exitos mas fracasos que corresponden a las
categoras alta y baja de la variable tasa de 2011, respectivamente). A partir
de las cuales se deriva la columna de proporcion de exitos (tasas altas).

Edad
<30
>30
<30
>30
<30
<30
>30

nacional
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Extranjero
Extranjero

X2005
baja
baja
baja
baja
alta
alta
alta

exitos Total Prop


1
11 0.09
0
19 0.00
5
10 0.50
2
16 0.12
5
8 0.62
6
9 0.67
1
3 0.33

Especificacion teorica del modelo


Variable dependiente: Tasa de paro en 2011 (clasificada como alta o baja)

LOGISTICA
3.7. REGRESION

57

Variables independientes: Tasa de 2005, Sexo y Nacionalidad del grupo de personas

logit = 0 + 1 F X2005alta + 2 F nacioExtranj + 3 F Edad>30


p
donde p = P (Y = 1) = P (X2011 = alta), logit = ln 1p

Ajuste del modelo(Respuesta vector de 0s y 1s)


El vector de datos no se muestra aqu, por motivos de espacio.
Call:
glm(formula = X2011 ~ ., family = binomial, data = Regm)
Deviance Residuals:
Min
1Q
Median
-1.7748 -0.5800 -0.2222

3Q
0.6811

Max
2.1736

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-1.6972
0.6233 -2.723 0.00647 **
Edad>30
-1.9922
0.7654 -2.603 0.00925 **
nacionalExtranjero
1.4261
0.6779
2.104 0.03540 *
X2005alta
1.6141
0.6594
2.448 0.01438 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 87.603
Residual deviance: 61.623
AIC: 69.623

on 75
on 72

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 5


Ajuste del modelo( Respuesta vector de proporciones)
El vector de proporciones de exitos y el vector Total como argumento con
pesos o ponderaciones dan lugar al ajuste siguiente:

LINEAL MULTIPLE

58CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
Call:
glm(formula = Prop ~ X2005 + Edad + nacional, family = binomial,
data = s, weights = Total)
Deviance Residuals:
1
2
-0.62708 -0.96835

3
0.42793

4
0.40356

5
0.82795

7
-0.88071

8
-0.03608

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-1.6973
0.6233 -2.723 0.00647 **
X2005alta
1.6141
0.6594
2.448 0.01438 *
Edad>30
-1.9923
0.7654 -2.603 0.00925 **
nacionalExtranjero
1.4262
0.6779
2.104 0.03540 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 29.1211
Residual deviance: 3.1394
AIC: 25.083

on 6
on 3

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4


Nota: observe que en este caso, aunque los coeficientes del modelo son los
mismos, los g.l. varan, as como el estadstico AIC (las filas o casos en la
tabla de datos representan un n
umero mayor).
Por u
ltimo, proponemos el ajuste a partir de la matriz de exitos y fracasos.
Aqu no hace falta el argumento weights.
Como una matriz m

[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]

[,1] [,2]
1
10
0
19
5
5
2
14
5
3
6
3
1
2

LOGISTICA
3.7. REGRESION

59

Call:
glm(formula = m ~ X2005 + Edad + nacional, family = binomial,
data = s)
Deviance Residuals:
1
2
-0.62704 -0.96841

3
0.42798

4
0.40351

5
0.82797

7
-0.88080

8
-0.03594

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-1.6972
0.6233 -2.723 0.00647 **
X2005alta
1.6141
0.6594
2.448 0.01438 *
Edad>30
-1.9922
0.7654 -2.603 0.00925 **
nacionalExtranjero
1.4261
0.6779
2.104 0.03540 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 29.1199
Residual deviance: 3.1396
AIC: 25.083

on 6
on 3

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4


Modelo ajustado
Al nivel = 0,05, las variables son todas importantes para explicar la
respuesta. El modelo ajustado expresado en terminos de logit es

logit = 1,697 + 1,614 F X2005alta + 1,992 F Edad>30 + 1,426 F nacioExtranj


Interpretaci
on de los coeficientes
1. El coeficiente de F X2005alta , 1,614, es el cambio esperado en el logit
cuando se pasa de un grupo con tasa de paro baja en 2005 a otro de
tasa de paro alta en 2005, supuestas estables el resto de las variables.
Equivalentemente, podemos decir que la razon de odds, que compara un

LINEAL MULTIPLE

60CAPITULO 3. REGRESION
Y CON VARIABLES CUALITATIVAS
grupo de tasa alta con otro de tasa baja en 2005, es igual a e1,614 = 5,02.
La ventaja de la respuesta (tasa alta de paro en 2011) es 5 veces mayor
para el colectivo que presenta una tasa alta en 2005 que para el que
presenta una tasa baja en 2005.
2. El coeficiente de F Edad>30 , 1,992, es el cambio esperado en el logit
cuando se pasa de un grupo de edad de menos de 30 a
nos a otro de
mas de 30, supuestas estables el resto de las variables.
Equivalentemente, podemos decir que la razon de odds, que compara
un grupo de mas de 30 a
nos con otro de menos de 30, es igual a e1,992 =
0,14.
La ventaja de la respuesta (tasa alta de paro en 2011) es un 86 %
inferior para el colectivo mayor de 30 a
nos que para el de menos de
30. En terminos comparativos inversos, podemos decir que la razon de
Odds del grupo de menos de 30 a
nos respecto al de mas de 30 es igual
1,992
ae
= 7,33.
3. El coeficiente de F nacioExtranj , 1,426, es el cambio esperado en el logit cuando se pasa de un grupo de nacionalidad espa
nola a otro de
nacionalidad extranjera, supuestas estables el resto de las variables.
Equivalentemente, podemos decir que la razon de odds, que compara un grupo extranjero con otro de nacionalidad espa
nola, es igual a
1,426
e
= 4,16.
La ventaja de la respuesta (tasa alta de paro en 2011) es mas de 4 veces
mayor para el colectivo extranjero que para el espa
nol.
Calculo de probabilidades con el modelo ajustado
La probabilidad de tasa alta en 2011 para un grupo mayor de 30 a
nos,
espa
nol y con tasa alta en 2005 se obtiene sustituyendo los valores de las
variables (ficticias) en la ecuacion del modelo ajustado, mediante:
logit = 1,697 + 1,614 1,992 = 2,075
y la probabilidad es
elogit
e2,075
=
= 0,112
1 + elogit
1 + e2,075
La funcion R predict() permite determinar las probabilidad ajustadas.
p=

LOGISTICA
3.7. REGRESION

61

Podemos obtener los valores ajustados automaticamente con R (en terminos de logit o de probabilidades) para un data.frame especificado como
nuevos datos o para los utilizados en el ajuste.
Los valores de las variables no pueden cambiar sus nombres. Deben ser
los mismos que los utilizados en el ajuste.
Las probabilidades ajustadas a las distintas combinaciones de niveles de
los datos usados son
Edad
<30
>30
<30
>30
<30
>30
<30
>30

nacional
Espa
nol
Espa
nol
Extranjero
Extranjero
Espa
nol
Espa
nol
Extranjero
Extranjero

Funciones R usadas en tema 3


anova, glm, lm, predict, summary.

X2005
baja
baja
baja
baja
alta
alta
alta
alta

prob
0.155
0.024
0.433
0.094
0.479
0.112
0.793
0.343

You might also like