You are on page 1of 26

Regresin lineal

Para otros usos de este trmino, vase Funcin lineal (desambiguacin).

Ejemplo de una regresin lineal con una variable dependiente y una variable independiente.

En estadstica la regresin lineal o ajuste lineal es un modelo matemtico usado para


aproximar la relacin de dependencia entre una variable dependiente Y, las variables
independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

donde:

: variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.

: parmetros, miden la influencia que las variables explicativas tienen sobre el


regrediendo.

donde es la interseccin o trmino "constante", las son los parmetros

respectivos a cada variable independiente, y es el nmero de parmetros


independientes a tener en cuenta en la regresin. La regresin lineal puede ser
contrastada con la

Historia[editar]
La primera forma de regresin lineal documentada fue el mtodo de los mnimos
cuadrados que fue publicada por Legendre en 1805, Gauss public un trabajo en donde
desarrollaba de manera ms profunda el mtodo de los mnimos cuadrados,1 y en dnde se
inclua una versin del teorema de Gauss-Mrkov.
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al
comparar la estatura de padres e hijos, donde result que los hijos cuyos padres tenan una
estatura muy superior al valor medio, tendan a igualarse a ste, mientras que aquellos cuyos
padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir,
"regresaban" al promedio.2 La constatacin emprica de esta propiedad se vio reforzada ms
tarde con la justificacin terica de ese fenmeno.
El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean
modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una
explicacin simplificada de la realidad, mucho ms giles y con un soporte terico mucho ms
extenso por parte de la matemtica y la estadstica.
Pero bien, como se ha dicho, se puede usar el trmino lineal para distinguir modelos basados
en cualquier clase de aplicacin.

El modelo de regresin lineal[editar]

El modelo lineal relaciona la variable dependiente Y con K variables explcitas (k =


1,...K), o cualquier transformacin de stas que generen

un hiperplano de parmetros desconocidos:

(2)

donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no


controlables u observables y que por tanto se asocian con el azar, y es la que confiere al
modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explcita,
el hiperplano es una recta:

(3)
El problema de la regresin consiste en elegir unos valores determinados para los parmetros

desconocidos , de modo que la ecuacin quede completamente especificada. Para ello


se necesita un conjunto de observaciones. En una observacin i-sima (i= 1,... I) cualquiera,
se registra el comportamiento simultneo de la variable dependiente y las variables explcitas
(las perturbaciones aleatorias se suponen no observables).

(4)

Los valores escogidos como estimadores de los parmetros , son los coeficientes de
regresin sin que se pueda garantizar que coincida n con parmetros reales del proceso
generador. Por tanto, en

(5)

Los valores son por su parte estimaciones o errores de la perturbacin aleatoria.


Hiptesis del modelo de regresin lineal clsico[editar]

1. Esperanza matemtica nula: . Para cada valor de X la perturbacin tomar


distintos valores de forma aleatoria, pero no tomar
sistemticamente valores positivos o negativos, sino que se supone tomar algunos valores
mayores que cero y otros menores que cero, de tal forma que su valor esperado sea cero.

1. Homocedasticidad: para todo t. Todos los trminos de la perturbacin tienen la

misma varianza que es desconocida. La dispersin de cada en torno a su valor


esperado es siempre la misma.

2. Incorrelacin o independencia: para todo t,s con t distinto de s. Las


covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no
estn correlacionadas. Esto implica que el valor de la perturbacin para cualquier
observacin muestral no viene influenciado por los valores de las perturbaciones
correspondientes a otras observaciones muestrales.
3. Regresores estocsticos.
4. Independencia lineal. No existen relaciones lineales exactas entre los regresores.

5. . Suponemos que no existen errores de especificacin en el modelo, ni errores de


medida en las variables explicativas.

6. Normalidad de las perturbaciones:


Supuestos del modelo de regresin lineal[editar]
Para poder crear un modelo de regresin lineal es necesario que se cumpla con los siguientes
supuestos:3

1. Que la relacin entre las variables sea lineal.


2. Que los errores en la medicin de las variables explicativas sean independientes entre
s.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemtica igual a cero (los errores de una
misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.

Tipos de modelos de regresin lineal[editar]


Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros:

Regresin lineal simple[editar]


Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son
de la forma:4

(6)
donde es el error asociado a la medicin del valor y siguen los supuestos de modo

que (media cero, varianza constante e igual a un y con ).


Dado el modelo de regresin simple anterior, si se calcula la esperanza (valor esperado) del
valor Y, se obtiene:5

(7)

Derivando respecto a y e igualando a cero, se obtiene:5

(9)

(10)
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la
siguiente solucin para ambos parmetros:4

(11)

(12)

La interpretacin del parmetro medio es que un incremento en Xi de una unidad, Yi

incrementar en

Regresin lineal mltiple[editar]


La regresin lineal permite trabajar con una variable a nivel de intervalo o razn. De la misma
manera, es posible analizar la relacin entre dos o ms variables a travs de ecuaciones, lo
que se denomina regresin mltiple o regresin lineal mltiple.
Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de
alguna manera estn relacionadas entre s, por lo que es posible que una de las variables
puedan relacionarse matemticamente en funcin de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la
forma:6

(13)

donde es el error asociado a la medicin del valor y siguen los supuestos de

modo que (media cero, varianza constante e igual a un y con ).


Rectas de Regresin[editar]
Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin
llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente,
son posibles dos rectas de mximo ajuste:7

La recta de regresin de Y sobre X:

(14)

La recta de regresin de X sobre Y:

(15)
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1,
el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy
fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0,
se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo
obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas
rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.

Aplicaciones de la regresin lineal[editar]


Lneas de tendencia[editar]
Vase tambin: Tendencia

Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de
un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular
(como por ejemplo, el PIB, el precio del petrleo o el valor de las acciones) han aumentado o
decrementado en un determinado perodo.8 Se puede dibujar una lnea de tendencia a simple
vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de
manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas
de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios
de mayor grado dependiendo de la curvatura deseada en la lnea.

Medicina[editar]
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco9 vinieron
de estudios que utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad
de variables en su anlisis de regresin en un esfuerzo por eliminar factores que pudieran
producir correlaciones espurias.
En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para
asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin
o posicin econmica. No obstante, es imposible incluir todas las variables posibles en un
estudio de regresin.10 11 En el ejemplo del tabaquismo, un hipottico gen podra aumentar la
mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el consumo
de tabaco. Por esta razn, en la actualidad las pruebas controladas aleatorias son
consideradas mucho ms confiables que los anlisis de regresin.

Informtica[editar]
Ejemplo de una rutina que utiliza una recta de regresin lineal para proyectar un valor futuro:
Cdigo escrito en PHP
<?php
//Licencia: GNU/GPL
$xarray=array(1, 2, 3, 4, 5 ); //Dias
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaje de ejecucion
$pm=100; //Valor futuro
$x2=0;
$y=0;
$x=0;
$xy=0;
$cantidad=count($xarray);
for($i=0;$i<$cantidad;$i++){
//Tabla de datos
print ($xarray[$i]." ---- ".$yarray[$i]."<br>");
//Calculo de terminos
$x2 += $xarray[$i]*$xarray[$i];
$y += $yarray[$i];
$x += $xarray[$i];
$xy += $xarray[$i]*$yarray[$i];
}
//Coeficiente parcial de regresion
$b=($cantidad*$xy-$x*$y)/($cantidad*$x2-$x*$x);
//Calculo del intercepto
$a=($y-$b*$x)/$cantidad;
//Recta tendencial
//y=a+bx
//Proyeccion en dias para un 100% de la ejecucion:
if ($b!=0) $dias_proyectados=($pm-$a)/$b;
else $dias_proyectados=999999; //Infinitos
$dp=round($dias_proyectados,0);
if($dp<=$pm) print $dp."---> Culmina antes de los $pm dias <br>";
if($dp >$pm) print $dp ."---> ALARMA: No culmina antes de los $pm dias
<br>";
?>

Vase tambin[editar]

Homoscedasticidad
Regresin logstica
Modelos de regresin mltiple postulados y no postulados
Regresin segmentada
Econometra
Mnimos cuadrados
Regularizacin de Tikhonov
Cuarteto de Anscombe
Capital Asset Pricing Model
Regresin simple

Referencias[editar]

1. Volver arriba C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae.
(1821/1823)
2. Volver arriba Introduction to linear regression Curvefit.com (en ingls)
3. Volver arriba "Anlisis de regresin lineal", Universidad Complutense de Madrid
4. Saltar a:a b "Frmulas", Probabilidad y Estadstica. Cs. Bsicas. U.D.B.
Matemtica. Universidad Tecnolgica Nacional, Facultad Regional Buenos Aires. Editorial
CEIT-FRBA. (Cdigo BM2BT2)
5. Saltar a:a b Modelo de regresin lineal simple. EinsteinNet.
6. Volver arriba Tcnicas de regresin: Regresin Lineal Mltiple. Prtega Daz, S., Pita
Fernndez, S. Unidad de Epidemiologa Clnica y Bioestadstica. Complejo Hospitalario de La
Corua (Espaa)
7. Volver arriba Apunte sobre Rectas de regresin. Ministerio de Educacin y Ciencia. Gobierno
de Espaa.
8. Volver arriba Utilizacin de las lneas de tendencia, Paritech (en ingls)
9. Volver arriba Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40
years' observations on male British doctors .BMJ 1994;309:901-911 (8 de octubre)
10. Volver arriba "Environmental Tobacco Smoke and Adult Asthma" Division of Pulmonary and
Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of
Medicine, Institute for Health Policy Studies; and Department of Epidemiology and
Biostatistics, Universidad de California, San Francisco, California. (en ingls)
11. Volver arriba Efecto del tabaquismo, los sntomas respiratorios y el asma sobre la
espirometra de adultos de la Ciudad de Mxico, Justino Regalado-Pineda; Alejandro Gmez-
Gmez; Javier Ramrez-Acosta; Juan Carlos Vzquez-Garca
Bibliografa[editar]
Devore, Jay L.; Probabilidad y Estadstica para Ingeniera y Ciencias. International
Thomson Editores. Mxico. ISBN 9706864571.
Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilidad y Estadstica para
Ingenieros. Pretice-Hall Hispanoamericana, S.A. Mxico. ISBN 9701702646.
Canavos, George C.; Probabilidad y Estadstica. Aplicaciones y Mtodos. McGraw-Hill.
Mxico. ISBN 9684518560.
Enlaces externos[editar]
Clculo de regresiones lineales en lnea. (en ingls)
ZunZun.com Ajuste de curvas y superficies en lnea. (en ingls)
xuru.org Herramientas de regresin lineal en lnea. (en ingls)
[1] Simulacin de la recta de regresin de una variable bidimensional continua con R
(lenguaje de programacin)
1. INTRODUCCIN
Si sabemos que existe una relacin entre una variable denominada dependiente y otras denominadas
independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus
respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes
utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples valores para una
combinacin de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemtica y no necesariamente de causalidad.
As, para un mismo nmero de unidades producidas, pueden existir niveles de costo, que varan empresa a
empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los cuales se obtiene una
nueva relacin pero de un tipo especial denominado funcin, en la cual la variable independiente se asocia
con un indicador de tendencia central de la variable dependiente. Cabe recordar que en trminos generales,
una funcin es un tipo de relacin en la cual para cada valor de la variable independiente le corresponde uno y
slo un valor de la variable dependiente.
2. ASPECTOS TERICOS
REGRESIN SIMPLE Y CORRELACIN
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar para
solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relacin Funcional
entre dos o ms variables, donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin
Simple.
"Y es una funcin de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable
independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable independiente,
razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos variables, una
dependiente y otra independiente y se representa as:
Y = f (X)
"Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama REGRESANDO
VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESOR y se le utiliza para
EXPLICAR Y.
ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE
En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada
independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta,
presenta la siguiente notacin:
Y=a+bX+e
Donde:
a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y.
b es el coeficiente de regresin poblacional (pendiente de la lnea recta)
e es el error
SUPOSICIONES DE LA REGRESIN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y estn sobre la recta.
6. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL


Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b
con los datos observados de la muestra. El mtodo de estimacin es el de Mnimos Cuadrados, mediante el
cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es

Que se interpreta como:


a es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
b es el estimador de b , es el coeficiente de regresin
Est expresado en las mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en que
vara Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del decremento en Y por cada unidad de aumento
en X.
3. ANTECEDENTES DEL PROBLEMA
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12
hombres adultos. Para cada estatura fijada previamente se observ el peso de una persona seleccionada de
entre el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183 178
Y50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82
Con estos datos vamos a plantear una ecuacin de regresin simple que nos permita pronosticar los pesos
conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hiptesis con la prueba F.
4. DESARROLLO
Representacin matemtica y grfica de los datos:

Representacin Matemtica
I.C. para la I. C. individual
estatura pesos Regresin Lineal media
datos x y x ^2 y ^2 xy y est. Residual L. I. L. S. L. I. L. S.
1 152 50 23104 2500 7600 56.43 -6.43 53.07 59.79 47.30 65.56

2 155 61.5 24025 3782.3 9532.5 59.03 2.47 56.09 61.97 50.05 68.02
3 152 54.5 23104 2970.3 8284 56.43 -1.93 53.07 59.79 47.30 65.56
4 155 57.5 24025 3306.3 8912.5 59.03 -1.53 56.09 61.97 50.05 68.02
5 157 63.5 24649 4032.3 9969.5 60.77 2.73 58.05 63.48 51.85 69.68
6 152 59 23104 3481 8968 56.43 2.57 53.07 59.79 47.30 65.56
7 157 61 24649 3721 9577 60.77 0.23 58.05 63.48 51.85 69.68
8 165 72 27225 5184 11880 67.71 4.29 65.17 70.24 58.85 76.57
9 162 66 26244 4356 10692 65.11 0.89 62.65 67.56 56.27 73.94
10 178 72 31684 5184 12816 78.99 -6.99 74.65 83.33 69.45 88.52
11 183 84 33489 7056 15372 83.32 0.68 78.01 88.64 73.31 93.34
12 178 82 31684 6724 14596 78.99 3.01 74.65 83.33 69.45 88.52
Representacin Grfica

5. HIPTESIS
HO: No hay relacin entre la variable peso y la variable estatura.
HA: Hay relacin entre la variable peso y la variable estatura.
Tabla de anlisis de varianza
Fuente de Grados de Suma de Cuadrados
Variacin libertad cuadrados medios estadstico F
Debido a
la regresin 1 1061.1 1061.1 73.08
error 10 145.2 14.5
total 11 1206.3
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y aceptamos que la variable
estatura est relacionada con la variable peso con un 95% de confianza.
De acuerdo al desarrollo matemtico hemos obtenido los siguientes clculos:

Lo que nos permite obtener los coeficientes a y b.


Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 (0.8676) (162.167) = -75.446
6. INTERPRETACIN
La ecuacin de regresin estimada es:

Coeficiente de correlacin: R= 0.9379


Coeficiente de determinacin: R=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centmetro de
aumento en la estatura de los hombres adultos.
El valor de a, no tiene interpretacin prctica en el ejemplo, se interpretara como el valor obtenido, en
promedio, para el peso Y, cuando la estatura es 0.
Utilizando la ecuacin de regresin para estimar o predecir valores de la variable Y: Para una talla de 180 se
obtiene un peso de 80.7 kg.
Cunto se espera que pese (en promedio) una persona que mide 1.60 m?
Sustituyendo el valor de inters en la ecuacin:

Se obtiene:

7. CONCLUSIN
La ecuacin de Regresin Lineal estimada para las variables estatura y peso muestran, de acuerdo a la
prueba F, relacin.
Esta relacin se ha estimado en un R = 93.7, que indica una fuerte relacin positiva.
Adems si consideramos el coeficiente de determinacin R = 87.9 podemos indicar que el 87.9% de las
variaciones que ocurren en el peso se explicaran por las variaciones en la variable estatura.
MARA YSABEL RINCN PINO
UNIVERSIDAD NACIONAL
FEDERICO VILLARREAL
MAESTRA EN SALUD REPRODUCTIVA
CURSO ESTADSTICA
LIMA PER
2005

Leer ms: http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml#ixzz4mcbN4fTI


El modelo de regresin lineal simple.
6.3.1 Formulacin matemtica del modelo.

El modelo de regresin ms sencillo es el Modelo de Regresin Lineal Simple que


estudia la relacin lineal entre la variable respuesta y la variable
regresora , a partir de una muestra i = 1 , que sigue el siguiente
n

modelo:

(6.1)

Por tanto, es un modelo de regresin paramtrico de diseo fijo. En forma matricial

(6.2)

donde t
= , t
= , t
= , t
= .

Se supone que se verifican las siguientes hiptesis:

1. La funcin de regresin es lineal,

o, equivalentemente, E = 0, i = 1,...,n.

2. La varianza es constante (homocedasticidad),

o, equivalentemente, V ar = , i = 1,...,n.
2

3. La distribucin es normal,

o, equivalentemente, i ~N , i = 1,...,n.

4. Las observaciones Y son independientes. Bajo las hiptesis de normalidad, esto


i

equivale a que la Cov(Y ,Y ) = 0, si i j.


i j
Esta hiptesis en funcin de los errores sera los son independientes,
i

que bajo normalidad, equivale a que Cov = 0, si i j.

6.3.2 Estimacin de los parmetros del modelo.

En el modelo de regresin lineal simple hay tres parmetros que se deben


estimar: los coeficientes de la recta de regresin, y ; y la varianza de la
0 1

distribucin normal, . 2

El clculo de estimadores para estos parmetros puede hacerse por diferentes


mtodos, siendo los ms utilizados el mtodo de mxima verosimilitud y el
mtodo de mnimos cuadrados.

Mtodo de mxima verosimilitud.

Conocida una muestra de tamao n, , de la hiptesis de


normalidad se sigue que la densidad condicionada en y es i

y, por tanto, la funcin de densidad conjunta de la muestra es,

Una vez tomada la muestra y, por tanto, que se conocen los valores
de i = 1 , se define la funcin de verosimilitud asociada a la muestra como
n

sigue

(6.3)

esta funcin (con variables 0, 1 y ) mide la verosimilitud de los posibles valores de


2

estas variables en base a la muestra recogida.

El mtodo de mxima verosimilitud se basa en calcular los valores de y 0, 1

2
que maximizan la funcin (9.3) y, por tanto, hacen mxima la probabilidad de
ocurrencia de la muestra obtenida. Por ser la funcin de verosimilitud una
funcin creciente, el problema es ms sencillo si se toman logaritmos y
se maximiza la funcin resultante, denominada funcin soporte,
Maximizando la anterior se obtienen los siguientes estimadores mximo
verosmiles,

donde se ha denotado e a las medias muestrales


de X e Y, respectivamente; sx2 es la varianza muestral de X y s es la covarianza
XY

muestral entre X e Y. Estos valores se calculan de la siguiente forma:

Mtodo de mnimos cuadrados.

A partir de los estimadores: y , se pueden calcular las predicciones para


0 1

las observaciones muestrales, dadas por,

o, en forma matricial,
donde t
= . Ahora se definen los residuos como

e =y -
i i , i = 1,2,...,n,
i

Residuo = Valor observado -Valor previsto,

en forma matricial,

Los estimadores por mnimos cuadrados se obtienen minimizando la suma de


los cuadrados de los residuos, sto es, minimizando la siguiente funcin,

(6.4)

derivando e igualando a cero se obtienen las siguientes ecuaciones,


denominadas ecuaciones cannicas,

(6.5)

De donde se deducen los siguientes estimadores mnimo cuadrticos de los


parmetros de la recta de regresin
Se observa que los estimadores por mxima verosimilitud y los estimadores
mnimo cuadrticos de y son iguales. Esto es debido a la hiptesis de
0 1

normalidad y, en adelante, se denota = = y = 0 =0,MV. 0,mc 1 1,MV 1,mc

6.3.3 Propiedades de los estimadores.

1. De la primera ecuacin cannica se deduce que la recta de regresin pasa por el


punto que es el centro geomtrico de la nube de datos.
2. El estimador es la pendiente de la recta regresin, se denomina coeficiente
1

de regresin y tiene una sencilla interpretacin, indica el crecimiento (o


decrecimiento) de la variable respuesta Y asociado a un incremento unitario en
la variable regresora X.
3. Utilizando las hiptesis de normalidad e independencia se obtiene que la

distribucin del estimador 1 es una normal de media 1 y varianza . sto


es,

(6.6)

4. Por tanto la V ar
5. - disminuye al aumentar n,
6. - disminuye al aumentar sx2
7. - disminuye al disminuir . 2

8. El estimador indica el valor de la ordenada en la recta de regresin estimada


0

para x = 0 tiene menor importancia y, en muchos casos, no tiene una


interpretacin prctica. La distribucin de es una normal de media
0 y 0

varianza + = . sto es,

(6.7)

9. Por tanto la V ar
10. - disminuye al disminuir V ar (disminuye al aumentar n o al
aumentar sx2
11. o al disminuir ). 2

12. - disminuye al disminuir . 2

13. Nuevamente, utilizando las hiptesis de normalidad e independencia se


obtiene que la distribucin del estimador mximo-verosmil de , viene dado
2

por

De las ecuaciones cannicas se deduce que los residuos verifican que i=


ne = 0 y ne x = 0 (ver secin 6.4). Por tanto, el nmero de grados de
1 i i=1 i i

libertad de los residuos es n - 2 porque hay n residuos relacionados por


dos ecuaciones. De donde

y MV 2 es un estimador consistente pero sesgado. Por este motivo, como


estimador de se utiliza la varianza residual, R2 definida como la suma
2

de residuos al cuadrado dividida por el nmero de grados de libertad

(6.8)

2
R es un estimador consistente e insesgado.

La relacin entre los dos estimadores de la varianza es

Para tamaos muestrales grandes, ambos estimadores, 2 y 2 toman


MV R
valores muy prximos.

6. La distribucin de la varianza residual viene dada por

(6.9)
7. A partir de este estadstico se pueden obtener intervalos de confianza de la
varianza poblacional, . Con nivel de confianza 1 -
2
el intervalo de confianza
es

8. En la prctica, de la distribucin de (6.6) no se pueden calcular intervalos de


1

confianza de , porque la varianza poblacional ( ) no es conocida y se tiene que


1
2

sustituir por un estimador, R2. De la distribucin de ste se obtiene que la


distribucin del estadstico pivote que sigue la distribucin tn-2,
1

(6.10)

Un intervalo de confianza para 1 a un nivel de confianza 1 - es

(6.11)

donde t es un nmero que verifica que P


n-2 =
, siendo una variable aleatoria con distribucin t con n - 2 grados de
libertad.

8. De forma anloga se puede obtener un intervalo de confianza del parmetro


. De las funciones de distribucin de
0 0 y R
2 se deduce que la distribucin del
estadstico 0 verifica que

(6.12)

9. Los estimadores y0 no son variables aleatorias independientes ya que su


1

covarianza viene dada por


por tanto, si es positiva, la Cov es negativa, sto es, al crecer
1disminuye . 0

10. Como ya se ha indicado el parmetro 0 tiene menor importancia que 1 y,


en algunas situaciones, no tiene una interpretacin realista si el cero no es un
punto del rango de la X, por ejemplo, al estudiar la relacin entre las variables
peso y altura de un colectivo de personas. Por ello tiene inters la ecuacin de la
recta de regresin que utiliza solo el parmetro 1. Esta ecuacin es la siguiente

(6.13)

11. o bien,

12.
13. Para ello basta con centrar las dos variables en estudio y calcular la
recta de regresin que pasa por el origen de coordenadas.
14. La recta de regresin de X sobre Y es distinta de la recta de regresin
de Y sobre X. En el primer caso se obtiene que

donde 1 = y 0 = - 1 .

Regresin Lineal Simple:


tutorial en Excel
06/06/2017

Este tutorial le mostrar cmo configurar e interpretar una regresin lineal simple en Excel
usando el software XLSTAT. La regresin lineal simple se basa en los Mnimos
Cuadrados Ordinarios (Ordinary Least Squares, OLS)
No est seguro si esta caracterstica de modelado es la que est buscando? Consulte por
favor esta gua.

Datos para ejecutar una regresin lineal simple


Una hoja Excel que contiene los datos y de resultados de este ejemplo puede ser descargado
haciendo clic aqu. Los datos proceden de Lewis T. and Taylor L.R. (1967). Introduction to
Experimental Ecology, New York: Academic Press, Inc.. Corresponden a 237 nios
detallados por su sexo, su edad en meses, su estatura en inch (1 inch = 2.54 cm), y su peso
en libras (1 libra = 0.45 kg).

Objetivo de este tutorial


En utilizar la regresin lineal simple, nuestro objetivo es estudiar como el peso vara en
funcin de la estatura, y si una relacin lineal tiene una orientacin. Se trata aqu de una
regresin lineal simple, porque una sola variable explicativa es utilizada (la estatura). En un
tutorial sobre la regresin lineal multiple, este ejemplo es reproducido con el fin de estudiar
la influencia de la edad sobre est relacin. Un tutorial sobre el ANCOVA reproduce este
ejemplo con el fin de aadir el sexo (variable cualitativa) como variable explicativa, y los
datos que corresponden a los varones son entonces tomados en cuenta.

Configuracin de una regresin lineal simple


Una vez XLSTAT iniciado, elija el comando XLSTAT/Modelacin de datos/Regresin o
haga clic en el botn "Regresin" de la barra de herramientas "Modelacin".
Una vez el botn presionado, aparece el cuadro de dilogo que corresponde a la regresin.
Puede elegir entonces los datos en la hoja Excel. La "Variable dependiente" corresponde a
la variable explicada, es decir en este caso preciso, el peso. La variable cuantitativa
explicativa es aqu la estatura. Queremos explicar aqu la variabilidad del peso por la de la
estatura. La opcin "Etiquetas de las variables" se deja activada ya que la primera lnea de
columnas incluye el nombre de las variables.

Una vez que haga clic en el botn OK, los clculos empiezan y los resultados son
visualizados.

Interpretacin de los resultados de una regresin


lineal simple
El primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R
(coeficiente de determinacin) proporciona una idea del % de variabilidad de la variable a
modelizar, explicado por la variable explicativa. Mientras ms cerca est de 1 este
coeficiente, mejor es el modelo.
En nuestro caso, 60% de la variabilidad del peso es explicada por la estatura. El resto de la
variabilidad es debido a efectos (variables explicativas) que no son tenidos en cuenta en
este ejemplo.

El cuadro de anlisis de la varianza es un resultado que debe ser atentamente analizado (ver
a continuacin). Es en este nivel que comprobamos si podemos considerar que la variable
explicativa seleccionada (la estatura) originan una cantidad de informacin significativa al
modelo (hiptesis nula H0) o no. En otros trminos, es una manera de comprobar si la
media de la variable a modelizar (el peso) bastara con describir los resultados obtenidos o
no.

La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este caso,
es inferior de 0.0001, significa que nos arriesgamos de menos del 0.01% concluyendo que
la variable explicativa origina una cantidad de informacin significativa al modelo.

El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el


modelo debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado a
otros resultados, por ejemplo los coeficientes que obtendramos para los varones. Vemos
que si el parmetro de la estatura tiene un intervalo de confianza bastante restringido, el de
la constante del modelo es bastante importante. La ecuacin del modelo es proporcionada
abajo del cuadro. El modelo ensea que en los lmites proporcionados por las
observaciones del intervalo de la variable tamao, cada vez que la estatura aumenta de un
inch, el peso aumenta de 3.8 libras.

El cuadro siguiente expone el anlisis de los residuos. Los residuos centrados reducidos
deben tener una atencin particular, dado que las hiptesis vinculadas a la regresin lineal,
deben ser distribuidos segn una ley normal N(0,1). Eso significa, entre otros, que 95% de
los residuos deben encontrarse en el intervalo [-1.96, 1.96]. Dado que el escaso nmero de
datos del que disponemos aqu, cualquier valor fuera de este intervalo es revelador de un
dato sospechoso. Hemos utilizado la herramienta DataFlagger de XLSTAT, con el fin de
demostrar rpidamente los valores que se encuentran fuera del intervalo [-1.96, 1.96].

Podemos aqu identificar nueve observaciones dudosas, en 237 observaciones. Este anlisis
de los residuos no anula la hiptesis de normalidad.

El primer grfico permite visualizar los datos, la recta de regresin, y los dos intervalos de
confianza (el intervalo alrededor de la media del estimador es lo ms cerca de la curva, el
segundo es el intervalo alrededor de la estimacin puntual). Vemos as claramente una
tendencia lineal, pero con una intensa variabilidad alrededor de la recta. Los 9 valores
sospechosos estn fuera del segundo intervalo de confianza.
El tercer grafico permite analizar si hay una relacin entre la variable explicativa y los
residuos. Una de las hiptesis del modelo, es que no debe haber ninguna relacin.

El grafico siguiente permite comparar las prediccionses con la observaciones.


El histograma de los residuos estandarizados permite sealar rpidamente y visualmente la
presencia de valores fuera del intervalo [-2, 2].
Conclusin de esta regresin lineal simple
En conclusin, la estatura permite explicar 60% de la variabilidad del peso. Para explicar la
variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el
modelo. En el tutorial sobre la regresin lineal mltiple, la edad es aadida como segunda
variable explicativa.

https://help.xlstat.com/customer/es/portal/articles/2062230

You might also like