You are on page 1of 18

Notas Regresión Lineal

Dra. Concepción San Luis Costas

REGRESION LINEAL
El objeto de estas notas es presentar un problema en el ámbito de la regresión lineal
que sirva como guía para el ejercicio que el alumno deberá realizar como tarea de
evaluación de esta parte del programa.1 .

FORMULACIÓN DEL MODELO DE REGRESIÓN LINEAL

Y = β0 + β1X1 + β2X2 + β3X3 + …+ βkXk + u


La expresión: Yi = β0 + β1X1i + β2X2 i + β3X3i + …+ βkXki + ui corresponde a la expresión
del modelo referenciado a los sujetos, donde el subíndice i, que tomará valores i =
1,2,…, N indica precisamente indica los sujetos que componen la población sobre la
que estamos realizando el análisis de interés.
DETERMINACIÓN DE LOS ESTIMADORES DEL MÓDELO
El problema que nos planteamos es: Suponiendo que la relación entre la variable Y y
las variables Xk es lineal, como determinar los valores de los estimadores de la βk a
partir de la información muestral de tal forma que, tales valores, cumplan los
requisitos exigibles a un “buen estimador”.2 (El método habitual en el caso de la
regresión lineal es el de mínimos cuadrados ordinarios que emplea el SPSS por
defecto, se puede emplear también mínimos cuadrados ponderados o máxima
verosimilitud).
Además, una vez que hayamos obtenido los estimadores de los coeficientes del
modelo, querremos hacer predicciones sobre los valores de la variable dependiente
para nuevos sujetos (que pertenezca a la población de origen), y valorar la capacidad
explicativa del modelo. Para ello el modelo obtenido deberá cumplir ciertas
condiciones:
Los errores se distribuyen como una variable aleatoria con media 0 y varianza
constante. 3
La variable Y es aleatoria
Todas las variables X deben ser relevantes en el modelo
Las X1, X2, …., Xk son linealmente independientes (es decir no hay multicolinealidad).

Para analizar todas estas cuestiones, atendiendo a la información que vamos a


obtener como resultado de aplicar el procedimiento regresión lineal del SPSS
presentamos el ejemplo que vamos a seguir.

PROBLEMA: Pensamos que la Inteligencia General (Inteli) está relacionado con la


Comprensión Verbal (Comp), la Orientación Espacial (Orient) y la Extroversión
1
Los análisis se realizan a través del SPSS (que el alumno ya conoce).
2
Recuérdese lo ya estudiado sobre estimadores, características que deben cumplir y
procedimientos de obtención y cálculo de estimadores (Bloque de repaso).
3
Los errores (llamados residuos) son las diferencia entre los valores reales de Y y los
estimados, es decir:

ûi = Yi - Y i i= 1,2 ….,N, recuérdese además que precisamente hacer mínimos estos
errores es la condición bajo la que se calculan los estimadores de los parámetros del modelo.

1
Notas Regresión Lineal

(Extro)4, de tal forma que la Inteligencia General se puede explicar en gran parte por
estas variables y, además, conocidos los valores en estas variables en un sujeto
(perteneciente a la misma población) podremos conocer (con un cierto margen de
error) su valor en el test que hemos empleado para medir la Inteligencia General.
Para ello se selecciono (aleatoriamente) una muestra de 200 alumnos de segundo de
bachillerato, de entre todos los alumnos de segundo de bachillerato de la comunidad
de Madrid y, se les pasó una batería de test que medían, entre otras, cada una de las
variables antes citadas (Inteligencia General, Comprensión Verbal, Orientación
Espacial y Extroversión).
Desde la perspectiva estadística, que es la que trabajamos, el objetivo propuesto
“explicar la variable Inteligencia General mediante las variables Comprensión Verbal,
orientación Espacial y Extroversión” significa que queremos explicar la varianza de la
variable Inteligencia General (Y) y creemos que una parte relevante de ella se debe a
las variables que hemos propuesto, es decir que, la comprensión verbal, la orientación
espacial, y la extroversión dan cuanta (explican) la Inteligencia General, bien
entendido que habrá una parte (que intentamos sea lo más pequeña posible) que no
se podrá explicar por la acción de ellas y que no se puede hacer porque existen
errores debidos a la medida, a la situación de los sujetos, etc., es decir a errores
debidos a múltiples causas y que denominamos error atribuible la azar. (Este
planteamiento correctamente expresado es: La varianza total de Y se descompone en
varianza explicada por la variables que intervienen en el modelo (X 1, X2, …, Xk) y
varianza de error. 5 Es evidente que cuanto mayor sea la varianza que explican las
variables independientes elegidas para definir el modelo, mejor será el modelo.
Además de la parte general, en el tema de Ajuste del Modelo a los datos encontraran
los ejemplos relativos al estudio de la moderación y la mediación. Deben revisarlos
también en profundidad ya que es un tema central en el que se basan modelos más
elaborados como son los de ecuaciones estructurales en los qué es muy
recomendable antes de realizar el estudio mediante ecuaciones estructurales y, sobre
la base del modelo teórico, se deben estudiar la posible mediación o moderación.
Si bien la salida de resultados presenta un orden diferente al que aquí se expone, lo
que intentamos es presentarlos siguiendo la lógica que debe regir el proceso de
interpretación.
SOLUCIÓN y COMENTARIOS
El objetivo es explicar la variable Inteligencia General mediante las variables
Comprensión Verbal, orientación Espacial y Extroversión.
Cuadro 1: Estadísticos descriptivos para cada una de las variables que hemos
propuesto en el modelo. Su mención aquí es a título informativo y no es necesaria si,
previamente (como debe hacerse en todo estudio estadístico), se incluyen un apartado
correspondiente a la descripción tanto del proceso de selección como de las
características de la muestra. (Primera parte del apartado resultados del informe).

4
La nominación entre paréntesis se refiere a los nombres con que aparecerán en los
resultados que comentamos.
5
Varianza Total = Varianza explicada + varianza no explicada (o de error).

2
Notas Regresión Lineal

Cuadro 1: Estadísticos descriptivos


Desviación
Media típ. N
Inteligencia general 18,5450 4,35578 200
Comprensión verbal 25,7750 4,34497 200
Orientación espacial 41,2157 33,78571 200
Extraversión 41,3600 4,29916 200

Cuadro 2: Correlaciones entre las variables que hemos introducido en el modelo a fin
de tener una primera aproximación sobre las posibilidades del modelo. Su análisis
debe permitirnos “explorar” la existencia, grado, etc. de las correlaciones entre la VD y
las VI (si alguna no es significativa deberemos pensar que mejor no la incluirla en el
modelo propuesto (puede ser que no haya relación o que la relación simplemente no
sea lineal), así mismo si entre las VI se presentan correlaciones muy altas puede ser
un indicativo de que alguna de ellas es redundante (es un importante indicio de
problemas de colinealidad) y puede distorsionar el modelo (habrá que pesar una
estrategia previa de reducción de dimensiones como por ejemplo hacer un análisis de
componentes principales6).
Cuadro 2: Correlaciones
Inteligencia Comprensión Orientación
general verbal espacial Extraversión
Correlación Inteligencia
1,000 ,406 -,335 -,079
de Pearson general
Comprensión
,406 1,000 -,298 -,016
verbal
Orientación
-,335 -,298 1,000 ,104
espacial
Extraversión -,079 -,016 ,104 1,000
Sig. Inteligencia
. ,000 ,000 ,132
(unilateral) general
Comprensión
,000 . ,000 ,414
verbal
Orientación
,000 ,000 . ,072
espacial
Extraversión ,132 ,414 ,072 .
N Inteligencia
200 200 200 200
general
Comprensión
200 200 200 200
verbal
Orientación
200 200 200 200
espacial
Extraversión 200 200 200 200

En el ejemplo comentado vemos que la correlación de la VD (inteligencia general) con


la Extroversión es .079 y su sig. .132, es decir no significativa, por tanto esta
correlación es nula en la población (α = .05) en consecuencia podríamos eliminarla del
modelo (en el ejemplo, con el fin de ver como esta situación va a aparecer de forma
reiterada, la mantendremos aunque lo correcto es eliminarla7). También destacar un
posible problema de colinealidad entre Comprensión verbal y la orientación espacial
(una correlación no muy alta pero significativa. Dado que, la significación de un
estadístico esta influenciado por el tamaño muestral y que la muestra en estudio es

6
Importante no confundir el ANALISIS DE COMPONENTES PRINCIPALES con el método de componentes
principales del Análisis Factorial.
7
Cuando se actúa así, eliminando una variable por su falta de correlación con la V.I. es IMPRESCINDIBLE rehacer
todos los cálculos ya que los valores de los parámetros (B) están muy afectados por las correlaciones parciales.

3
Notas Regresión Lineal

grande (200 sujetos), mantendremos la alerta en relación a esta posible colinealidad


pero no tomamos aun decisiones porque puede no ser realmente relevante).
Cuadro 3: Informa de la especificación del modelo esto es: Quien es la variable
dependiente (b) y las independientes en el modelo 1 (modelo completo) que es el que
nosotros hemos definido.
Es importante reseñar aquí que en el botón “”Método” el SPSS, por defecto, utiliza el
procedimiento “introducir”8 cuyo resultado es le comentado en el párrafo anterior y que
introduce las variables por el orden en que las hemos definido en el cuadro de diálogo
inicial al definir la VD y las VI, sustentado sobre el conocimiento teórico que tenemos
del tema. Cuando se emplea este método (se suele utilizar cuando tenemos poca
información teórica sobre el tema en estudio). En este caso, la depuración del modelo
se hace “a posteriori”, una vez obtenido el modelo completo, si se observa que alguna
variable no mantiene relación significativa con el criterio (V.D.) se procede a
eliminarlas (de una en una) y en cada eliminación se recalcula el modelo (recuérdese
que los valores de B están directamente relacionados con los valores de las
correlaciones parciales).
Existen otros métodos que se presentan y se comentan en el ANEXO.
Cuadro 3: Variables introducidas/ eliminadas (b)
Variables
Modelo Variables introducidas eliminadas Método
1
Extraversión,
Comprensión verbal, Introducir
Orientación espacial(a)

a Todas las variables solicitadas introducidas


b Variable dependiente: Inteligencia general

Cuadro 4 (1): Informa de la proporción de varianza explicada: R2 (coeficiente de


determinación. También índice de ajuste del modelo). Dado que este coeficiente
depende mucho de las variables, cuando el número K (número de V.I.) es mayor de 1
se emplea R2 corregido9. Ambos R2 y R2 corregido nos indican la “bondad del ajuste de
la regresión” y como varían entre 0 y 1 son fáciles de interpretar ya que cuanto más
cercano sea el valor a 1 mejor será la regresión, es decir el modelo propuesto
presentará mayor bondad de ajuste (mayor proporción de varianza explicada). En
nuestro caso atendiendo a los valores de R2 obtenido .218 y el obtenido por el R2
corregido .206, podemos decir en primer lugar no parece que tengamos demasiadas
variables en relación al numero de sujetos y, lo que es más importante, parece que el

8
Método que se emplea cuando el investigador no tiene una idea previa sobre la relevancia de cada variable
predictora en el modelo, generalmente por un escaso conocimiento teórico. En este caso se estima el modelo de
regresión múltiple completo y si, a posteriori, se aprecia que alguna o algunas de las variables no mantienen con el
criterio relación significativa, se van eliminando en pasos posteriores de cara a depurar dicho modelo .
9
La razón de utilizar R2 corregido tiene que ver con el problema de sesgo de R2 (infravaloración) como
estimador de su parámetro (ρ2). Este sesgo se produce por le relación que deben mantener el nº de
variables independientes k el número de casos de tal forma que cuanto menor es la relación n/k mayor es
el sesgo, de ahí la corrección (por honestidad) que se introduce en el cálculo del R 2 cuyo objetivo es
compensar el numero de casos y el número de variables independientes. Esta corrección se calcula:
R2 corregido = k2 - [k (1- R2)/ (n-k-1)] donde K es el número de V.I. y n el número de sujetos en la muestra.
Lo anterior también puede entender como que cada vez que se introduce una variable independiente en el
modelo R2 aumenta, así que simplemente por aumentar indiscriminadamente las V.I. podemos
incrementar la varianza explicada, lo cual no es correcto (sesgo positivo del estimador).

4
Notas Regresión Lineal

modelo propuesto no es muy efectivo ya que sólo explica un 21,8% de la varianza de


la Inteligencia General.

Cuadro 4 (1): Resumen del modelo


Error típ. de la
2 2
Modelo R R R corregida estimación
1 ,466(a) ,218 ,206 3,88239

Cuadro 4 (2): Resumen del modelo

Estadísticos de cambio Durbin-Watson

2
Sig. del cambio en F Cambio en R Cambio en F gl1 gl2 Sig. del cambio en F
,218 18,163 3 196 ,000 2,292

a Variables predictoras: (Constante), Extraversión, Comprensión verbal, Orientación espacial


10
b Variable dependiente: Inteligencia general

El estadístico de Durban-Watson11 nos informa sobre el supuesto de independencia de


los errores. En nuestro caso dado que el estadístico tiene un valor cercano a 2, es
decir esta comprendido entre 1.5 y 2.5 se cumple el principio de independencia
Cuadro 5: ANOVA Contraste de Regresión”.
Contraste de hipótesis sobre R2:
H0: R2 = 0; H1. R2 ≠ 0.
Se empela un ANOVA de tres factores donde se comparan las varianzas la debida a la
regresión y la residual.
Si, como consecuencia de este contraste, se acepta la H0 nos indicara que el modelo
postulado “no sirve para nada” por tanto ya no hay que continuar. (Habrá que
comenzar de nuevo revisando nuestro planteamiento teórico y el diseño).
Como vemos en nuestro caso se rechaza la H0 por tanto el modelo parece útil y
continuaremos estudiando los resultados.
Cuadro 5: ANOVA (b)
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 821,303 3 273,768 18,163 ,000(a)
Residual 2954,292 196 15,073
Total 3775,595 199

a Variables predictoras: (Constante), Extraversión, Comprensión verbal, Orientación espacial


b Variable dependiente: Inteligencia general

10
Cuando en un cuadro aparece (1) y debajo el mismo número de cuadro con (2), significa que es todo el
mismo cuadro
11
Estadístico que verifica la H0 de que los residuos de una regresión son independientes, frente a H1 de
que los residuos sigan un proceso autorregresivo de 1º orden. El estadístico de Durbin-Watson tiene un
rango entre 0 y 4: un valor próximo a 2 indica escasa autocorrelación; un valor entre 2 y 0 indica una
autocorrelación positiva mientras que un valor entre 2 y 4 indica una autocorrelación negativa. Los
valores del estadístico comprendidos entre 1,5 y 2,5 son tolerables e indican que en principio no se
incumple el supuesto de independencia.

5
Notas Regresión Lineal

El cuadro 6 a (1). Coeficientes no estandarizados B12 (valores correspondientes a


las estimaciones de los parámetros del modelo βi) incluyendo sus errores típicos,
también muestra los coeficientes estandarizados13, la significación estadística a
través del estadístico “t” y los intervalos de confianza. Las correlaciones de orden 0 de
la VD con cada una de las VI (que ya teníamos en el cuadro de resultados 2) y las
correlaciones parciales y semiparciales.
Cuadro 6 a (1): Coeficientes

Coeficient
es Intervalo de
Coeficientes no estandari confianza para B al
Modelo estandarizados zados t Sig. 95%

Limite Limite
1 B Error típ. Beta inferior superior
Constan.
3,199 4,116 ,000 6,857 19,474
13,166
Compr. ,338 ,066 ,337 5,087 ,000 ,207 ,468
Orient. -,030 ,009 -,230 -3,449 ,001 -,047 -,013
Extro. -,051 ,064 -,050 -,789 ,431 -,178 ,076
a Variable dependiente: Inteligencia general

En el caso que nos ocupa estos resultados indican:


Cuadro 6 a (1)
Sobre los estimadores de los parámetros del modelos (Coeficientes Beta). Tanto el
correspondiente a la comprensión verbal como el de la orientación espacial son
significativos (α = .05), lo cual quiere decir que, con la cautela de la posible
interdependencia entre las VI, son relevantes en el modelo, es decir que aportan
información sobre la varianza de la Inteligencia General, no ocurriendo lo mismo con la
variable extraversión, cuyo valor de t no es significativo, lo que supone acepta la H0 de
que β3 = 0. Además los intervalos de confianza 14 de las variables significativas nos
indican con un nivel de confianza del 95% que los parámetros tomaran valores en
dichos intervalos, al no ser intervalos demasiados amplios podemos pensar que no hay
efectos colinealidad. También se confirma que la variable extroversión no es útil ya que
su valor poblacional es cero (nótese que el intervalo de confianza contiene al cero).
Finalmente y con respecto a los coeficientes B nos permiten enunciar ya el modelo
obtenido que será:

Y´ = 13.166 + 0.338 X1 – 0.030 X2 – 0.051 X3

12
Los coeficientes B1, B2;..; Bp (llamados coeficientes de regresión parciales puesto que su valor depende
del valor que tomen los otros. Representan el cambio esperado en Y cuando, permaneciendo constantes
todas las demás variables, Xj se incrementa en una unidad. Su dependencia de la métrica (unidades de
medida) de su variable correspondiente no les hace que sea muy útiles, por ejemplo no permiten valorar
la contribución individual de cada variable al modelo desde la perspectiva del cambio en Y.
13
Los coeficientes tipificados o estandarizados: Son los que se obtienen al trabajar con puntuaciones
tipificadas (z) en lugar de las puntuaciones originales. Los coeficientes resultantes son números carentes
de unidades y por tanto perfectamente comparables entre sí. Permiten valorar la importancia de las
variables en términos de contribución al cambio de Y. Así aquella variable X j cuyo coeficiente de
regresión tipificado sea el mayor (en términos absolutos) es la que más contribuye al cambio esperado en
Y (se entiende por unidad e Xj).
14
En regresión una de las utilidades de los intervalos de confianza de los parámetros del modelo es que si
son precisos (no muy amplios) son un indicio de que no hay colinealidad. El caso contrario, intervalos
amplios son indicios de colinealidad y por tanto en ese caso debe ser estudiada en profundidad.

6
Notas Regresión Lineal

La interpretación, en términos de cambio en Y por unidad de cambio en X k, manteniendo


constantes las demás variables, es peligrosa con estos coeficientes ya que presentan unidades
distintas y además no son independientes y no reflejan la importancia (el peso) de las variables
en el modelo.
Los coeficientes β estandarizados. Permiten una mejor interpretación ya que están
estandarizados, por lo tanto se puede hablar en términos de cambio en Y, es decir que la
inteligencia general (puntuaciones típicas) aumenta .337 por cada unidad de cambio de
la comprensión verbal, manteniendo constantes las demás variables, cambiará -.230 por
cada cambio de unidad de la variables orientación espacial y -0.05 por cada unidad de
cambio en extroversión (manteniendo constantes las otras dos variables).
Los valores de β informan así mismo sobre la importancia o peso de cada VI en le
modelo (a mayor coeficiente más peso, tomado el coeficiente en valor absoluto, es decir
prescindiendo del signo),

Cuadro 6 a (2)

Correlaciones

Modelo Orden
1 V.I. cero parcial semiparcial tolerancia FV

Compr. ,406 ,342 ,321 ,911 1,098


Orient. -,335 -,239 -,218 ,901 1,109
Extro. -,079 -,056 -,050 ,989 1,011

a Variable dependiente: Inteligencia general

Cuadro 6 a (2): Valores de los correlaciones de orden 0 de la VI con cada una de las
VD (que ya conocíamos) y las correlaciones parciales y semiparciales de la VD con
cada una de las VI.
La correlación semi parcial15 informa del valor de la correlación de la VD con cada VI
después de eliminar de una de ellas (en regresión de la V.I. en estudio) el efecto de las
otras VI incluidas en el modelo. Si calculamos los valores de R2 semiparciales
obtenemos: R2y,x1/23=.10 (10% de varianza explicada por comp., R2y,x2/13= .04 (4%)
varianza explicada por Orient y : R2y,x3/12= 0.0025 (0.25%) varianza explicada por Extr
(evidentemente no contribuye en nada, lo que por otra parte ya sabíamos debido a la
baja correlación de orden cero cuya no significatividad ya vimos al comienzo16.
Si comparamos los de criterios de ajuste que estamos viendo vemos que en ambos caos
Comp. es la variable que más peso tiene en la contribución al cambio (pronósticos) y en
el ajuste global. Cuando esto no ocurre deberemos estudiar si hay alguna variable
irrelevante que distorsiona los resultados haciendo que aparezcan inconsistencias entre

15
Como ya sabemos hay dos formas de valorar la contribución relativa de cada V.I. al modelo de
regresión: Contribución al cambio esperado en Y (peso en el pronóstico, Pardo 2010) que valoramos
mediante los coeficientes de regresión TIPIFICADOS, y contribución al ajuste global (varianza
explicada), que se haca a través de R2 (en su caso corregido), pero es importante determinar cuanto
contribuye cada V.I. a ese ajuste global, esta información la obtenemos de los coeficientes de
correlación semiparcial (elevados al cuadrado).
16
Sobre la no coincidencia de la varianza total explicada como suma de las distintas varianzas debidas a
cada V. I., recuérdese lo visto sobre las sumas de cuadrados.

7
Notas Regresión Lineal

los dos criterios de ajuste (una V.I. es la más relevante para la varianza explicada y otra
lo es para el pronóstico). Cuando eso ocurre la eliminación de la V.I. irrelevante suele
resolver la cuestión.
La correlación parcial expresa la relación ente la V.D. y cada V.I. tras eliminar de
ambas (V.D. y la V.I. analizada) el efecto debido al resto de variables que intervienen
en el modelo.
El análisis detenido de todas las correlaciones aporta un información muchas veces muy
útil (sobre todo cuando tenemos poca información previa sobre le modelo que
postulamos). Así, comparando los valores de las correlaciones de orden cero con las
parciales vemos cual es le valor real de la relación entre V.D. con la V.I. que estamos
viendo (ej. Cuando de la V.D. Intel y de la V.I. Extro, eliminamos de ambas el efecto de
las otras dos V.I. vemos que la relación es totalmente despreciable -.056 y cuando el
efecto debido a las dos V.I. que no son Extro (que es la estamos estudiando) la
eliminamos SOLAMENTE de la V.D. Intel, vemos que la relación es ahora de -.05, en
este ejemplo no hay mucho que decir (son similares) pero a vences se dan grandes
variaciones que pueden ser determinantes para comprender y dar sentido teórico al
modelo.
Sobre todas esta cuestiones cuya profundización es esencial para analizar de forma
correcta y exhaustiva un modelo de Regresión, encontraran las correspondientes
explicaciones en el documento AJUSTE DEL MODELO A LOS DATOS

CUMPLIMIENTO DE LOS SUPUESTOS

Si bien a la hora de redactar un informe deberemos comenzar haciendo referencia a que


se cumplen los supuestos (aunque no es preciso incluir todos los resultados sobre esta
cuestión) ya que en caso de no ser así no tendría sentido proponer el modelo y habrá que
buscar otra estrategia de análisis, incrementar los datos, transformar las variables, etc.,
en este momento presentaremos todos los resultados y gráficos para aprender a leer lo
que el SPSS nos devuelve. Los supuestos (condiciones) que se han de cumplir para
garantizar la validez del modelo de regresión lineal son:
Independncia:
No-colonealidad: No existe relación lineal exacta entre ninguna de las VI, cuando no se
cumple se dice que hay colinealidad o múltiple colinealidad17.
Homocedastacidad: Para cada combinación de valores de las VI las varianza de los
residuos es constante.

17
La colinealidad bien entendida se produce cuando hay una asociación muy alta entre algunas de las
variables independientes, de tal forma que se puede decir que miden lo mismo. Otra cuestión es cuando
entre las V.I. se presenta correlación, que suele ser lo más habitual, en estos casos y, cuando su valor es
medio alto, y si la teoría lo sustenta, deberemos pensar en posibles efectos de supresión, mediación (Una
variable mediadora puede ser cualquier variable relacionada -estado psicológico, un proceso cognitivo,
afectivo, un cambio biológico, etc-. relacionado con la variable independiente y la variable dependiente.
Este tipo de análisis es importante porque permite buscar explicaciones (teóricas) que ayuden a entender
los procesos que operan en la realidad. Moderación (cuándo o en qué situaciones se produce el efecto
Una variable moderadora es la que modifica la relación entre la variable independiente y dependiente, de
modo que el signo y la fuerza de la relación entre ambas variables depende de la influencia de la variable
moderadora). Sobre estas cuestiones se recomienda ver
http://www.um.es/tercerasvariables/tercerasvariables

8
Notas Regresión Lineal

Normalidad: Para cada combinación de valores de las VI, los residuos presentan
distribución normal con media 0
Linealidad. La relación tanto en las variables como en los parámetros del modelo es
lineal de tal forma que la variable dependiente es la suma de un conjunto de elementos:
ordenada en el origen y una combinación lineal de las variables independientes. Cuando
no se cumple este supuesto decimos que hay un problema de especificación (falta
alguna VI relevante; la relación entre la VI y las VD no es lineal, hay no aditividad
(alguna VI es sensible a algunos valores de otra VI), los parámetros no son estables
durante la recogida de datos (Pardo y Ruiz 2005)18.
Independencia: Los residuos tienen que ser independientes entre si, constituyen una
variable aleatoria.

CHEQUEO DE LOS SUPUESTOS

1.- Independencia.- Ya visto al estudiar el cuadro 4 (2). Se analiza a través del


estadístico -Watson – Durbin.

2.- Estudio de la Colinealidad:


Los indicios de colinealidad son: incongruencia entre la significación estadística de F y
la de los coeficientes de regresión (si F significativa algunas t también deben serlo);
Las correlaciones de orden cero y los coeficientes de regresión presentan los mismos
signos; y ningún coeficiente de regresión tipificado es mayor de 1 en valor absoluto.
Además de estos indicios hay un conjunto de estadísticos.
Cuadro 6 a (2) nos proporciona información ya que en él están los estadísticos que
permiten estudiar el cumplimiento de este supuesto. Estos estadísticos son:
Tolerancia19 (valores muy pequeños indica que esa variable es combinación lineal las
otras), en nuestro caso vemos que los valores, aunque no muy grandes tampoco son
pequeños como para pensar en colinealidad. Por otra parte los valores de los FIV20
(Factores de inflación de la varianza) son todos menores de 10 por tanto, tal y como ya
indicaba los valores de la tolerancia, podemos decir que no hay colinealidad.
Además de esta información para diagnosticar la colinealidad, la salida de resultados
del SPSS nos facilita el cuadro 7.

18
Linealidad: Es importante recordar que la linealidad de refiere fundamentalmente a linealidad de las relaciones: la
V. Independiente presenta relación lineal con cada una de las dependientes. Se comprueba con los gráficos de
regresión parcial. Su incumplimiento se puede solucionar mediante transformaciones de los datos.
19
(1- R2 x1, resto), donde R es el coeficiente de determinación, es decir el coeficiente de regresión semiparcial al
cuadrado de la variable i-ésima del modelo frente al resto de variables independientes (regresoras). Valores pequeños
de tolerancia indican colinealidad.
20
FIV: Factor de inflación de la varianza: Inverso de la tolerancia, es decir: 1/ (1- R 2 x1, resto), valores grandes indican
colinealidad (se considera grandes valores mayores de 10).

9
Notas Regresión Lineal

Cuadro 7: Diagnósticos de colinealidad (a)

Diagnósticos de colineali dada

Proporciones de la v arianza
Indice de Comprensión Orientación
Modelo Dimensión Autov alor condición (Constante) v erbal espacial Extrav ersión
1 1 3,634 1,000 ,00 ,00 ,02 ,00
2 ,343 3,255 ,00 ,01 ,83 ,00
3 ,018 14,105 ,03 ,82 ,14 ,19
4 ,005 27,990 ,97 ,17 ,01 ,81
a. Variable dependiente: Inteligencia general

Este cuadro presenta el resultado de haber aplicado un análisis de componentes


principales sobre las VI. Los autovalores nos indican los factores distintos que
subyacen en le conjunto de variables. Si hay varios autovalores cercanos a 0, indica
que las VI están muy relacionadas.
En nuestro ejemplo vemos que hay dos autovalores próximos a cero. Parece que
hemos encontrado una contradicción entre lo que nos indican los índices de tolerancia
y lo que indican los autovalores, lo que además se confirma con los valores del índice
de condición21, a esta información se añade la relativa a las proporciones de varianza
que se refiere a la proporción de varianza de cada coeficiente parcial que está
explicada por cada dimensión obtenida en el análisis de componentes principales.
Cuando no hay colinealidad cada dimensión debe explicar bastante varianza de un
solo coeficiente22 (excepto el de la constante que se asocia siempre a alguna de las
otras dimensiones, en el ejemplo a la extroversión, fíjense que es el valor de los
posibles más alto .97), por lo demás vemos que en nuestros datos cada dimensión
explica un alto porcentaje de cada coeficiente, así la dimensión 3 explica el 82 % de la
comprensión verbal; la dimensión 2 explica el 83% de la orientación espacial y la
dimensión 4 el 81% de la extroversión. Todo ello nos lleva a mantener que no hay
colinealidad.23
3.- Normalidad y Homocedasticidad: El Análisis de los residuos.
El análisis de los residuos nos va a permitir verificar el cumplimiento de los supuestos
de homocedasticidad y normalidad.
Homocedasticidad (igualdad de varianzas): lo que hay que ver es si el tamaño de los
residuos es independiente del tamaño de los pronósticos, lo que quiere decir que el
diagrama de dispersión de los pronósticos tipificados (ZPRED) y los residuos (ZRESI)
no puede mostrar pautas de asociación.24
Como se deduce del gráfico 1, en nuestro caso no se observa ninguna pauta
asociativa por tanto podemos decir que se cumple el supuesto de independencia de
los residuos. En cuanto a la igualdad de varianzas en general se observa que no hay
concentración de valores, de hecho si trazamos una línea por el valor 0 (media) de os
residuos estandarizados vemos que prácticamente los puntos se reparten por igual
(por encima y debajo de esa línea) en el diagrama de dispersión.

21
Índice de Condición: Su valor es la raíz cuadrada del cociente entre el autovalor más alto y cada uno de
los otros. Valores mayores de 15 indican posible colinealidad.
22
Hay colinealidad si un mismo componente explica más del 50% de la varianza en dos (o más)
coeficientes a la vez (excluida la intersección).
23
Cuando se presenta colinealidad se puede intentar evitar incrementando la muestra; reducir las
variables mediante análisis de componentes principales, excluir del análisis de regresión las variables
redundantes (las que correlacionan mucho entre si).
24
Las variables ZPRED y ZRESID las crea el SPSS y corresponden a los pronósticos tipificados y a los
residuales tipificados.

10
Notas Regresión Lineal

Grafico 1

Gráfico de dispersión

Variable dependiente: Inteligencia general

3
Regresión Residuo tipificado

-1

-2

-3

-5 -4 -3 -2 -1 0 1 2

Regresión Valor pronosticado tipificado

Normalidad: EL archivo de resultados del SPSS nos ofrece dos gráficos importantes
para estudiar la normalidad de los errores, el histograma de los residuos
estandarizados y el gráfico de probabilidad normal.
El Gráfico 2 corresponde al histograma de los residuos. Como se deduce del gráfico
aunque existen algunos valores atípicos la superposición a la normal es bastante
buena no presentado síntomas excesivos de asimetría o curtosis.

Gráfico 2

Histograma

Variable dependiente: Inteligencia general

25

20
Frecuencia

15

10

Media =-7,78E-16
Desviación típica =0,
0 992
N =200
-3 -2 -1 0 1 2 3

Regresión Residuo tipificado

11
Notas Regresión Lineal

El gráfico 3 corresponde a la probabilidad normal. Como vemos la nube de puntos se


sitúa sobre la diagonal del gráfico, lo cual indica normalidad de la distribución, al igual
que ocurría con el histograma de residuos.
Gráfico 3

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: Inteligencia general

1,0
Prob acum esperada

0,8

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0

Prob acum observada

Linealidad: A través de los gráficos de regresión parcial de cada una de las VI


(eliminado el efecto de las otras) con la V.D. A la vista de los gráficos, parece que la
relación lineal (aunque no muy perfecta) es la mejor posible (lo que es evidente es que
no hay una pauta que informe de una relación curvilínea), aunque evidentemente los
errores en al predicción serán bastante altos en varios casos. (Grafico 4)

Gráfico 4

Gráfico de regresión parcial

Variable dependiente: Inteligencia general

10,00
Inteligencia general

5,00

0,00

-5,00

-10,00

-15,00 -10,00 -5,00 0,00 5,00 10,00

Comprensión verbal

12
Notas Regresión Lineal

Grafico 5: (Similares comentarios que los hechos para el gráfico 4)

Gráfico de regresión parcial

Variable dependiente: Inteligencia general

9,00

6,00
Inteligencia general

3,00

0,00

-3,00

-6,00

-9,00

-30,00 0,00 30,00 60,00 90,00 120,00

Orientación espacial

Grafico 6 (Similares comentarios que los hechos para el gráfico 4 y 5)

Gráfico de regresión parcial

Variable dependiente: Inteligencia general

10,00
Inteligencia general

5,00

0,00

-5,00

-10,00

-15,00 -10,00 -5,00 0,00 5,00 10,00 15,00

Extraversión

Estudio de puntos influyentes:


Se llevo a cabo a través del análisis de los valores obtenidos en las variables creadas
por el SPSS (en la instrucción guardar nuevas variables). Se analizaron los valores de
las puntuaciones de los sujetos en las variables DF Betas tipificadas, comparándose
con el valor 2/√n que es el criterio para decidir si hay algún caso que pueda
considerarse “punto de influencia”. En este ejemplo el valor de 2/√n es 0.1414.
Excepto el caso 26 para la variable SDB3, ningún otro sobrepasó este valor, por lo que
este caso se mantuvo ya que la variable extroversión (a la que corresponde) no es
relevante en la regresión y por tanto no merece la pena quitarlo.
Si la distancia de COOK (en el fichero con las variables solicitadas columna COO) el
valor es menor de 0,2, el punto es poco influyente, por tanto no mencionarlo. Si esta
entre 0.2 y 0.5 es "arriesgado", conviene revisar si ni nos hemos confundido al
introducir los datos, si es el único (en este caso, no preocuparnos) si es mayor de 0.5
peligro, lo mejor es eliminar al sujeto del fichero original de datos y volver a realizar el
análisis y ver en que grado mejora el ajuste R2 y R2 corregido, si la mejora es
relevante, eliminar.
Variables las DFBETAS (diferencia en las betas) y DfBERAS tipificadas (Cociente
entre las DfBETAS y su error típico). Un valor mayor que 2/n indica la posible

13
Notas Regresión Lineal

existencia de un punto de influencia. En el fichero de datos y tras hacer la regresión,


en la lista de variables aparecen listadas con los ombres:

DFBETA Intercept
DFBETA compren
DFBETA orient
DFBETA extra
Standardized DFBETA Intercept
Standardized DFBETA compren
Standardized DFBETA orient
Standardized DFBETA extr

La primera de cada grupo DFBETA y Standardized DFBETA (van acompañadas de


intercep) no se consideran ya que se refieren al punto de corte. Las otras tres de cada
grupo se refieren a los valores de las nuevas variables generadas correspondientes a
cada variable independiente que participa en el modelo estudiado.

Consultando, en el fichero de datos, los valores correspondientes a la variable


Standardized DFBETA "Comprensión", una vez realizado el filtrado todos los casos
están eliminados, por tanto todos son buenos, es decir "no influyentes".

Para la variable Standardized DFBETA Orient vemos que los casos 7 y 16 no están
tachados, luego podemos considerarlos inicialmente influyentes. Para decidir si
eliminar el caso o no, no hay un criterio estadístico, realmente lo que hemos
conseguido es saber que hay un punto de influencia. Existe un criterio que nos
advierte del "grado de peligrosidad de un punto de influencia". Si se considera muy
peligroso (entiéndase coloquialmente lo de peligrosidad) se procede eliminando al
sujeto de forma definitiva de nuestros análisis advirtiendo el cambio del tamaño
muestral y la razón del cambio.
CONCLUSIONES DEL ANÁLISIS DE REGRESION
Nos habíamos planteado un modelo teórico en el cual proponemos Inteligencia
General (medida mediante un test al caso) es función de la Comprensión Verbal; la
Orientación Espacial y la Extroversión, medidas también a través de test. Para ver si
tal modelo tiene consistencia y aporta información y explicación llevamos a cabo un
estudio estadístico mediante regresión lineal múltiple.25
Para ello hemos establecido un modelo de regresión que expresa:
Inteligencia General = 13.166 + 0.338 Comprensión Verbal – 0.030 Orientación
Espacial – 0.51 Extroversión y dado lo poco que aporta a la varianza explicada la
variable tres se plantea como modelo más parsimonioso:
Inteligencia General = 13.166 + 0.338 Comprensión Verbal – 0.030 Orientación
Espacial (reacuérdese que el R2 corregido apenas sufrió cambios.
El modelo obtenido explica un 21,8 % de la varianza, un tamaño del efecto de .2787
(mediano en términos Cohen) y un valor de  de 55.74 que con  = 0.05 y 3 y 196
grados de libertad indican una potencia muy alta (mayor de .995).
El modelo no viola ninguno de los supuestos.
Se estudiaron los posibles puntos de influencia y se vio que no había ningún caso que
eliminar.

25
El modelo teórico debe explicarse de forma correcta, basándose en la literatura etc, y debe tener
consistencia y lógica teórica.

14
Notas Regresión Lineal

INSTRUCCIONES DEL SPSS UTILIZADAS26

1.- Abrir fichero de datos desde SPSS

2.- Pinchar en Analizar y elegir la opción regresión y dentro de ella lineal.

3.- Una vez dentro del cuadro de regresión lineal hay que elegir la V.D (en nuestro
caso Inteligencia General. A continuación seleccionar las VI que han sido:
Comprensión Verbal; Orientación Espacial y Extroversión.

Selección del método


de cálculo de las SC.
(Su elección depende
del planteamiento).

4.- Dentro del cuadro de regresión pinchar en ESTADISTICOS. De las opciones que
ofrece el cuadro de estadísticos activar:
Todos los correspondientes a Coeficientes de Regresión
Todos los correspondientes a Ajuste del modelo

26
Si se emplea el SPSS 15 las instrucciones las verán en español si empelan la versión 19 en ingles. Se
adjuntan los dos ficheros de resultados, los de la versión 15 y los de la 19. para que todos pueden verlos.

15
Notas Regresión Lineal

De los de Residuos elegir: Durban-Watson y Diagnóstico atípicos a 3 desviaciones


típicas.

PULSAR Continuar (volveremos al cuadro Regresión Lineal). En la parte inferior


pinchar GRAFICOS. De las opciones que aparecen seleccionar:
Panel de variables ZRESID y ponerla en el eje Y; Volver sobre ese panel de variables y
seleccionar ZPRED ponerla en le eje X.
En gráficos de Residuos activar: Histograma y gráfico de prob. Normal.
Activar generar todos los gráficos parciales.

PULSAR CONTINUAR (volveremos al cuadro Regresión Lineal). En la parte inferior


pinchar en GUARDAR .

16
Notas Regresión Lineal

De las opciones que aparecen activar:


En Distancias: todas (Mahalanobis; De Cook y Valores de Influencia)
Estadísticos de Influencia: Activar todos los que aparecen.

PULSAR CONTINUAR (volveremos al cuadro Regresión Lineal). En la parte superior


derecha pinchar en ACEPTAR.

17
Notas Regresión Lineal

El análisis se hará (esperar unos minutos) y aparecerán los resultados que deberemos
estudiar e interpretar siguiendo las pautas que hemos dado en este ejemplo.
CASOS ATÍPICOS
ESTUDIO DE LOS PUNTOS (CASOS) DE INFLUENCIA
Para el estudio de los puntos de influencia se emplearon las variables DFBetas
tipificadas (las genera el SPSS y las pone al final del fichero de datos). Tienen el
nombre en la primera fila y son fáciles de localizar). Para seleccionar los casos
considerados como puntos de influencia según el criterio comentado se calcula (a
mano) el valor de
2 / √n, cuyo valor en este caso ha sido .1414.
A continuación y en el fichero de datos se selecciona la opción DATOS (DATA) y se
activa la opción SELECCIONAR CASOS (SELET CASES) . Dentro de este cuadro “si
satisface la condición” (if condition satisfied). Se introdujo la primera variable que
queremos estudiar eligiéndola del cuadro de variables situado a la izquierda (se
compara una variable de cada vez, no se pueden poner todas juntas) y se especifico la
condición, que en este caso era: > 0.1414. Se pincha en CONTINUAR, que nos
devuelve al cuadro “seleccionar casos” y se pincha en aceptar. El fichero de salida es
el fichero da datos donde el ID (número de identificación del sujeto) aparece tachado
para todos aquellos que NO CUMPLEN LA CONDICCIÓN (que son los casos buenos
para nosotros). Si aparece algún caso sin tachar, hay que ver cuales son sus
puntuaciones, cuanto pesa sobre el cálculo de los coeficientes de regresión
(estudiando el valor que en ese sujeto presenta para decidir si eliminarlo o no). Se
repite el procedimiento con las restantes variables.

Para el estudio de las instrucciones de SPSS para el análisis de la supresión;


redundancia, estudios de mediación etc. estudiar el documento AJUSTE DEL
MODELO A LOS DATOS

18