Professional Documents
Culture Documents
MODELOS DE REGRESION
Introduccin
Un modelo de regresin es un modelo que permite describir cmo influye una variable X sobre otra variable Y. X: Variable independiente o explicativa o exgena Y: Variable dependiente o respuesta o endgena El objetivo es obtener estimaciones razonables de Y para distintos valores de X a partir de una muestra de n pares de valores (x1, y1), . . . , (xn, yn).
Elementos del modelo: - Variables y trmino de error. - Relacin funcional. - Parmetros. VARIABLES
u : trmino de error o perturbacin: factores distintos a x que afectan a y (y que no observamos). Si los dems factores contenidos en u se mantienen fijos, u = 0, entonces x tiene un efecto lineal sobre y
PARAMETROS : parmetro de pendiente en la relacin entre x e y : es el cambio en y cuando se multiplica por el cambio en x. Es el parmetro clave en aplicaciones. : trmino constante (valor de y cuando x y u son cero). Menos interesante. EJEMPLO:
u : experiencia en el trabajo, habilidad innata, antigedad en el empleo actual, etc. ESTIMACIN DE LOS PARMETROS DE LA RECTA DE REGRESIN. El primer problema a abordar es obtener los estimadores de los parmetros de la recta de regresin, partiendo de una muestra de tamao n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intencin de extraer para cada xi un individuo de la poblacin o variable Yi . Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El mtodo de estimacin aplicable en regresin, denominado de los mnimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parmetros de la recta de regresin obtenidas con este procedimiento son:
Un ejemplo. La recta de regresin representada corresponde a la estimacin obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardaco de un vertebrado.
El modelo de regresin lineal mltiple con p variables predictoras y basado en n observaciones tomadas es de la forma:
para i = 1,2,.n. Escribiendo el modelo para cada una de las observaciones, ste puede ser considerado como un sistema de ecuaciones lineales de la forma
O sea, e X Y (2.2) donde Y es un vector columna n dimensional, X es una matriz n x p', con p'=p+1, b es el vector de coeficientes de regresin a ser estimados, su dimensin es p' y e es un vector columna aleatorio de dimensin n Por ahora, las nicas suposiciones que se requieren son que E(e)=0 y que la matriz de varianza- covarianzas de los errores est dada por Var(e)= 2 In, donde In es la matriz identidad de orden n.
La regresin cuadrtica es el proceso por el cul encontramos los parmetros de una parbola que mejor se ajusten a una serie de datos que poseemos, ya sean mediciones hechas o de otro tipo. Bueno, pero por que habramos de querer ajustar nuestros datos precisamente a una parbola y no a otra funcin. Una funcin cuadrtica o de segundo grado se puede representar de manera genrica como:
x2
Entonces lo que nos interesa es encontrar los valores de a, b y c que hacen que el valor de y calculado sea lo ms cercano posible al medido. Dichos valores se obtienen de resolver el siguiente sistema de ecuaciones: Una vez se haya reemplazado el valor de N, y de las sumatorias, slo habr que solucionar el sistema de ecuaciones por su mtodo preferido. Despus de que ha solucionado el sistema de ecuaciones entonces tendr el valor de los parmetros: a,b,c.
4) MODELO DE INTERPRETACIN.
REGRESIN
EXPONENCIAL
SU
Ser aquella en la que la funcin de ajuste ser una funcin exponencial del tipo y = a.bx La regresin exponencial aunque no es lineal es linealizable tomando logaritmos ya que haciendo el cambio de variable v = log y tendremos que la funcin anterior nos generara: v = log y = log( a.bx) = log a + x log b
la solucin de nuestro problema vendra de resolver la regresin lineal entre v x, y una vez obtenida supuesta sta: v* = A + B x ; obviamente la solucin final ser: a = antilog A y b = antilog B.
Antes de proceder a la regresin, hay que transformar la ecuacin no lineal, y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x, a y b respectivamente.
funcion y y cx 2
parabolica bx x a 2
0 . 9901 resolverlo
8 . 8443 que .
x 7 . 5229 un
para
hay
formar
sistema Este
de ecuaciones ejercicio
se resolvio
por original es :
determinan
La regresin exponencial: X 1.9 2.2 2.9 3.6 3.8 4.6 5.5 0 0 0 0 0 0 24.5 Y 5.5 7.4 9.8 11.6 11.6 12.2 11.2 0 0 0 0 0 0 69.3
Y = a * b^X ni 1 1 1 1 1 1 1 0 0 0 0 0 0 7 X^2 3.61 4.84 8.41 12.96 14.44 21.16 30.25 0 0 0 0 0 0 95.67
ln Y= ln a + X * ln b Y'=lnY 1.704748 2.00148 2.282382 2.451005 2.451005 2.501436 2.415914 Y'^2 2.9061661 4.0059222 5.2092694 6.007426 6.007426 6.2571818 5.8366394
Y' = a' + X * b' XY' 3.239021 4.403256 6.618909 8.823618 9.313819 11.50661 13.28753
la marcada
azul
y = 4.9546e0.188x R2 = 0.66
Y Exponencial (Y)
Totales
15.80797 36.230031
57.19276
7 3.5 2.2583
Para obtener el ajuste exponencial, hacemos un ajuste lineal a los datos (X,lnY)=( X,Y' ) La recta de regresin de Y' sobre X es:
funcion exponencia l y a (b x ) y 4.9546038(1.2068212 x ) excel genera una funcion diferente como vemos en el grafico anterior, genera la funcion : y 4.9546e 0.188x si sustituimo s el valor pronostica do con una x 10, en los dos modelos dan los mismos resultados , excel hace una transform acion para el calculo de la regresion con base en logaritmos naturales que es la base del numero e
Y'= La recta de regresin es Y'= El coeficiente de correlacin lineal vale El coeficiente de determinacin vale
X* X*
b' 0.18798979
Luego la ecuacin para la regresin exponencial se obtiene: siendo a=e^a' y b=e^b' Por tanto a= b= Y=a*b^X 4.9546038 1.2068212
Y la regresin exponencial es
La previsin para X= 10 vale Y*= 32.46671 miles de euros Que como observamos est bastante lejos de lo que parece razonable. Riesgo de extrapolacin.
Este modelo de regresin es una alternativa cuando el modelo lineal no logra un coeficiente de determinacin apropiado, o cuando el fenmeno en estudio tiene un comportamiento que puede considerarse potencial o logartmico. La forma ms simple de tratar de establecer la tendencia es a travs de un diagrama de dispersin o nube de puntos, tal como la siguiente:
Este modelo tambin es conocido como potencial, Cobb-Douglas de primer grado o exponencial inverso. 2. Ecuacin caracterstica La funcin que define el modelo es la siguiente:
Yi=A*XBi* E
desconocidos E: Xi : independiente Al sustituir los parmetros por estimadores, el modelo adopta la siguiente forma: Error asociado al modelo
yi=a*xbi
la ecuacin se transforma aplicando logaritmos de ambos lados, con lo cual se convierte a una forma lineal: Ln yi= Ln a +b*Ln xi
3. Tabla de datos
Para el ajuste de un conjunto de datos al modelo geomtrico de regresin, se construye la siguiente tabla de datos:
X ..
Y ..
Ln x
Ln y ..
ln x
ln y
(lny)2 Lnx*lny
Debido a las propiedades de los logaritmos, ningn valor de x ni de y puede ser negativo. En tal caso, lo que se hace es definir un valor de x o de y muy pequeo (Ej: 0.00000001) Se puede trabajar con logaritmos naturales o logaritmos base 10.
4. Estimadores del modelo los estimadores para el ajuste del modelo se calculan de la siguiente manera
5. Anlisis de varianza para la regresin Con el objeto de determinar si el modelo explica o no el fenmeno en estudio, se realiza el anlisis de varianza, que se calcula de la siguiente manera
Cuadrado medio
F calculada C.M.Reg/C.M.Error
F tabulada
Total
n-1
(lny)2-(lny)2 /n
n-1
Ho: El modelo no explica el fenmeno en estudio Ha: El modelo s explica el fenmeno en estudio
Para buscar en la tabla la F tabulada, se usan el el numerador los grados de libertad de regresin y en el denominador, de acuerdo al nivel de significancia escogido (los ms usuales son al 5% y al 1%) Si el valor de F calculada es mayor que el de F tabulada, se rechaza Ho, en caso contrario se acepta
6. Grado de ajuste del modelo Para determinar el grado de ajuste del modelo, se calcula el coeficiente de determinacin, de la siguiente manera
METODO DE CUADRADOS
LOS
MINIMOS
Mnimos cuadrados es una tcnica de anlisis numrico encuadrada dentro de la optimizacin matemtica, en la que, dados un conjunto de pares ordenados: variable independiente, variable dependiente, y una familia de funciones, se intenta encontrar la funcin, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mnimo error cuadrtico. En su forma ms simple, intenta minimizar la suma de cuadrados de las diferencias en las ordenadas (llamadas residuos) entre los puntos generados por la funcin elegida y los correspondientes valores en los datos. Especficamente, se llama mnimos cuadrados promedio (LMS) cuando el nmero de datos medidos es 1 y se usa el mtodo de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado esperado, con el mnimo de operaciones (por iteracin), pero requiere un gran nmero de iteraciones para converger. Desde un punto de vista estadstico, un requisito implcito para que funcione el mtodo de mnimos cuadrados es que los errores de cada medida estn distribuidos de forma aleatoria. El teorema de Gauss-Mrkov prueba que los estimadores mnimos cuadrticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribucin normal. Tambin es importante que los datos a procesar estn bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar ms peso a un dato en particular). La tcnica de mnimos cuadrados se usa comnmente en el ajuste de curvas. Muchos otros problemas de optimizacin pueden expresarse tambin en forma de mnimos cuadrados, minimizando la energa o maximizando la entropa.
Y ` a bX
Y`= Es el valor pronosticado de la variable Y para un valor seleccionado de X a = Es el valor estimado de Y cuando X= 0 (Es la interseccin con el eje Y) b = Es el cambio promedio en Y por unidad de cambio (incremento o decremento) en la variable independiente X (Es la pendiente de la recta) X = Es cualquier valor seleccionado de la variable independiente
n( XY ) ( X )( Y ) n( X 2 ) ( X ) 2
Y b X
n n
SISTEMAS DE ECUACIONES
Y an b X
Y a bX
XY a X b X
EJEMPLO 1
La empresa Copier Sales of America, Inc,.vende copiadoras a negociaciones grandes, medianas y pequeas en EEUU y Canad. La seorita Marcy Bancer fue promovida recientemente al puesto de gerente nacional de ventas. Para la prxima junta de ventas, reuni alguna informacin acerca de la relacin entre el nmero de llamadas y el nmero de productos vendidos. Seleccion al azar una muestra de 10 representantes y determin el nmero de llamadas que hicieron el ltimo mes, y el de copiadoras que vendieron. A ella le gustara ofrecer informacin especfica referente a la relacin entre el nmero de llamadas y la cantidad de productos vendidos. Utilice el mtodo de mnimos cuadrados para determinar la ecuacin lineal y expresar la relacin entre las dos variables. Cul es el nmero esperado de copiadoras vendidas por un representante que realiza 20 llamadas a sus clientes?
Clculos necesarios
Y ` a bX
b n( XY ) ( X )( Y ) n( X 2 ) ( X ) 2 ; b
Y b X ;
n n
Y ` 18.9476 1.1842X
Y ` a bX
CORRELACIN PERFECTA
n( X
n( XY ) ( X )( Y )
2
) ( X ) 2 n( Y 2 ) ( Y ) 2
EJEMPLO 2
10(5960) (220)(296)
0,8933
Y=45,6-0,7263X
X=N UNIDADES RODUCIDAS a=45,6 Es el precio del producto, sin unidades de produccin (No tiene significancia o no es consistente)
b=-0,7263 Es la reduccin de los precios en el producto por cada unidad adicional producida
REGRESIN MLTIPLE
Y ` a b1 X 1 b2 X 2
Y`= Es el valor pronosticado de la variable Y para un valor seleccionado de X1 y X2 a = Es el valor estimado de Y cuando X1 y X2 = 0 b1 = Es el cambio promedio en Y por unidad de cambio (incremento o decremento) en la variable independiente X1 manteniendo constante X2 cte. b2 = Es el cambio promedio en Y por unidad de cambio (incremento o decremento) en la variable independiente X2 manteniendo constante X1 X1 y X2 = son cualquier valor seleccionado de las variables independientes
ECUACIN
Y a b1 x1 b2 x2
Y na b x b x x Y a x b x b x x x Y a x b x x b x
1 1 2 2 1 1 1 2 1
1
1 2
2 2
( y y ) 2 R ( y y) 2
2
CONCLUSIONES DE MINIMOS CUADRADOS: El mtodo de los mnimos cuadrados nos permite encontrar la ecuacin de una recta a partir de los datos experimentales. Es decir, utilizando solamente las mediciones experimentales se obtendr la pendiente y la ordenada al origen de la recta que mejor se ajuste a tales mediciones Es objetivo, slo depende de los resultados experimentales. Es reproducible, proporciona la misma ecuacin no importa quin realice el anlisis. Proporciona una estimacin probabilstica de la ecuacin que representa a unos datos experimentales. Proporciona intervalos pequeos de error.
RECOMENDACIONES MINIMOS CUADRADOS Slo sirve para ajustar modelos lineales Requiere tener, al menos, diez mediciones bajo las mismas circunstancias experimentales. Tales resultados deben estar descritos por una distribucin de probabilidad conocida. La ms comn es la distribucin normal o gaussiana. Se requiere de algn equipo de clculo, de lo contrario, es muy engorroso.
REFERENCIAS
http://www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r71988.PDF
Wooldridge (2006). Captulo 2. Goldberger (2001). Captulos 2-7. Greene (1999). Captulos 3, 4.2-4.3.
Abdi, H (2003). (2003). Least-squares.. M. Lewis-Beck, A. Bryman, T. Futing (Eds): Encyclopedia for research methods for the social sciences. Thousand Oaks (CA): Sage. pp. 792-795.. SPIEGEL, Murray, (2000), Estadstica, Serie de Compendios Schaum, Ed. McGraw-Hill, Mxico. SUREZ, Mario, (2011), Interaprendizaje de Estadstica Bsica,TAPIA , Fausto Ibarra, Ecuador. SUREZ, Mario, (2004), Interaprendizaje Holstico de Matemtica, Ed. Grficas Planeta, Ibarra,Ecuador.