You are on page 1of 10

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________ CONTINUACION DE LA UNIDAD TEMATICA 3: REGRESION NO LINEAL

En muchos casos, si la recta de regresin no ajusta correctamente al conjunto de datos bivariados, se puede lograr hacer un ajuste de otras curvas conocidas. En algunos casos el procedimiento consiste en aplicar, a los datos, transformaciones previas que permitan la linealizacin de la relacin entre las variables, para luego aplicar el mtodo de los mnimos cuadrados. Entre los modelos ms comunes de regresin no lineal entre las variables X e Y tenemos los siguientes: el polinomio de segundo grado, el modelo exponencial y el modelo potencial. MODELO POLINOMIAL DE SEGUNDO ORDEN (PARABOLA) En muchas situaciones, la relacin que existe entre una variable regresora (independiente) X y una variable de respuesta (dependiente) Y , se representa mediante el modelo de regresin polinomial de segundo orden:
Y = 0 + 1 X + 2 X 2 +

donde , error o perturbacin, es una variable aleatoria que explica la variabilidad de Y que no puede ser explicada por X, segn el modelo planteado. En la prctica, se estima este modelo mediante la funcin:
Y ' = a + bX + cX 2

Utilizando el mtodo de mnimos cuadrados, se trata de estimar los parmetros 0 , 1 , 2 encontrando los valores a, b y c (coeficientes de regresin) de tal manera que la suma de los errores al cuadrado sea mnima.
n i =1

SCE = yi y

' i

sea mnima.

(1)

Utilizando el clculo diferencial se puede demostrar que los valores que minimizan la expresin (1) se obtienen a partir de las siguientes ecuaciones llamadas ecuaciones normales:
n i =1 n n i i i =1 n 2 i =1 n i =1 n i =1 n i =1 n i =1 n i =1 n i =1

yi = na + b xi + c xi2 x y
i =1 n

= a xi + b xi2 + c xi3

x
i =1

y = a xi2 + b xi3 + c xi4

La solucin de este sistema de ecuaciones nos permite obtener los valores de los coeficientes de regresin a, b y c.

1
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________


Aplicando el mtodo de determinantes: n xi xi2 xi2 xi3 a=Det.a / = xi xi2 xi3 xi 4

b= Det.b/

c= Det.c /

La ecuacin de regresin estimada Y ' = a + bX + cX 2 es conocida tambin como parbola mnimo cuadrtica. El coeficiente de regresin C nos indica que el crecimiento de Y en promedio es proporcional al cuadrado del crecimiento de X. Para evaluar la bondad del ajuste se utiliza: El error estndar de estimacin: S yx = [ (yi-y)2/ n-p ] 1/2
S yx =

El coeficiente de determinacin R2= R2 =


Resumiendo tenemos:

Tabla de anlisis de varianza para probar la significancia de la regresin Fuente de Suma de Grados de Cuadrado medio F0 variacin cuadrados libertad Regresin SCR k CMR=SCR/K CMR/CME Residual SCE n-k-1 o (n p) CME=SCE/n-p Total SCT n-1
Donde k es igual al nmero de variables y p es el nmero de trminos de la ecuacin (p=k+1). SCT corresponde a la variacin total de los valores de y i respecto a su media.
SCR corresponde a la suma de cuadrados explicada por la influencia no lineal de X (parbola), se denomina variacin explicada. SCE corresponde a la suma de los cuadrados de los errores , se denomina variacin residual no explicada

Para la adecuacin del modelo se realiza el anlisis de residuos mediante grficos similares al estudiado para el caso de la recta de regresin.

EJEMPLO: Una compaa de electricidad est interesada en estimar el consumo mensual de energa elctrica de una vivienda en funcin del tamao de la misma. Considerando una muestra de 10 viviendas se obtuvieron los siguientes datos:

2
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________ X, tamao de la casa : 1290 1350 1470 1600 1710 1840 1980 2230 2400 2930 (en pies2) Y, consumo mensual : 1182 1172 1264 1493 1571 1711 1804 1840 1956 1954 (en kilowatts / hora) La ecuacin estimada es Y = -1216.14389 + 2.39893X 0.00045X2 Se puede usar esta ecuacin para estimar el consumo de electricidad de una vivienda que tiene 1500 pies cuadrados. Y = -1216.14389 + 2.39893(1500) 0.00045(1500)2 Para evaluar la bondad del ajuste se utiliza: El error estndar de estimacin: S yx = [ (yi- )2/ n-p ] 1/2
S yx = ( queda como ejercicio hallar su valor) =
( )

El coeficiente de determinacin R2= R2 =

Para el ejemplo, R2 = 0,98189 valor que indica que el 98,189% de la variacin del consumo mensual de energa elctrica es explicado por el tamao de la casa, segn un ajuste parablico. Ejercicio: Elaborar la tabla de anlisis de varianza MODELO DE REGRESIN EXPONENCIAL Una funcin no lineal muy til que se aplica en situaciones que son incompatibles con funciones polinomiales es la funcin exponencial, tales como crecimiento de poblaciones (humana, bacterias etc.), crecimiento de dinero colocado en un banco a una tasa constante de inters. Modelo a ajustar: Y = 0 1 donde donde Y: variable dependiente o de respuesta X: variable independiente o regresora 0 y 1 : parmetros desconocidos del modelo : error o perturbacin, variable aleatoria que explica la variabilidad de Y que no puede ser explicada por X, segn el modelo exponencial. Se estima este modelo mediante la funcin: Y' = abX Siendo a y b los coeficientes de regresin. Para linealizar la ecuacin (2) se toma logaritmo en base 10, resultando (2)
X

3
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________ log Y = log a + (log b)X forma equivalente a Y = a + b X Se observa que, segn la expresin (3), se logra un ajuste rectilneo entre X y (log Y). Con los datos se ajusta una recta a los puntos (xi, log yi) usando el mtodo de mnimos cuadrados, obteniendo las ecuaciones normales: log yi = n loga + xi log b x i log yi = x i log a + x i2 log b para luego obtener las estimaciones de los coeficientes de regresin de la ecuacin de la recta mnimo cuadrtica de log y i en x i, donde
COV ( X , log Y ) 2 SX Siendo equivalente a:

(3)

b =

a = log Y b' X

(4)

log b = [ n x i log yi - X i log yi] /[ n x i2 (x i)2 log a =[ log yi/ n ] log b

(5) (6)

Los valores de a y de b de la ecuacin (2) son los antilogaritmos de a y de b de (4). Donde a se interpreta como la cantidad inicial de la poblacin o de dinero en el perodo de estudio y b sirve para conocer la tasa de crecimiento en el perodo de tiempo estudiado, siendo b = 1 + t donde t es la tasa de crecimiento. Para evaluar la bondad del ajuste se utiliza El error estndar de estimacin: S yx = [ (yi- )2/ n-p ] 1/2 (7)

S log yx =

(8)
SCR = 1 [SCE/ SCT] SCT ( 9)

El coeficiente de determinacin R2= R2 =

(10)

Para comprobar si el modelo es adecuado se realiza el anlisis de residuos Ejemplo: Un bilogo registra la siguiente informacin del nmero de bacterias por unidad de volumen (Y) segn el nmero de horas transcurridas (X) con el objetivo de conocer el tipo de relacin entre ambas variables, predecir el nmero de bacterias y hallar la tasa de crecimiento del nmero de bacterias cada hora.

4
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________ N horas x 0 1 2 3 4 5 6 21 N de log y bacterias Y 1.51 32 47 65 92 132 190 275 833
1.67 1.81 1.96 2.12 2.28 2.44 X logY X2 (log yi)2 (yi- )2 (yi- )2 SCE 0 1.67 3.62 5.88 8.48 11.40 14.64 0 1 4 9 16 25 36 2.280 2.7889 3.2761 3.8416 4.4944 5.1984 5.9536 32.15 45.88 65.47 93.42 133.3 1 190.2 4 271.4 7 0.021 5 sct 7.569 i- )2
SCR

13.79

45.69

91

27.8331

12.97 25 18.50 27

45944

45926. 2512

a) Construyendo el grfico de dispersin, se observa que la nube de puntos se asemeja a una exponencial b) Ajustamos la curva exponencial Usando la expresin (5) se obtiene log b = 0.1542857 b= 1.4265457 Usando la expresin (6) se obtiene log a = 1.5071429 a= 32.147181 La exponencial ajustada resulta segn (3) : log Yi' = 1.51 + 0.15 X i Y segn la expresin (2) resulta: Yi' = 32.15 (1.427) Xi Es decir se estima la cantidad inicial de bacterias en 32 a las o horas y la tasa de crecimiento ser igual a: t =b 1= 1.427 -1 = 0.427 = 42.7 % cada hora que transcurre. c) Podemos predecir el nmero de bacterias a la 3.5 horas, usando la expresin (3) como la expresin (2)

log Yi' = 1.51 + 0.15 (3.5) y luego tomar el antilogaritmo o directamente de (2) Yi' = 32.15 (1.427) X
d) Evaluando la bondad de ajuste : Error estndar de estimacin S yx = [ (yi- )2/ n-p ] 1/2 = 1.8840807 . Haciendo uso de (9) tenemos: R2=1 [SCE/ SCT]= 1 =0.999597277=99.9% Haciendo uso de (10) tenemos: R2= 99.9%
. ( . . ) . ( . ( ) . ) ( . )

= 0.999532=

(log yi-

)2

(logyi-

)2

0.216429648 0.088970958 0.024793651 0.0000432964 0.02256004 0.095030392 0.219923481 0.667747905 SCT

0.0000081796 0.0000732736 0.0000329476 0.0001008016 0.0000188356 0.0000018496 0.0000498436 0.0002853916 SCE

0.214239379 0.095209273 0.023796147 0.0000000016 0.123820835 0.095258649 0.214313443 0.666637727 SCR

i-

)2

5
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________

Segn el Minitab, nos muestra:


Model Summary Adjusted R Square 1.000 Std. Error of the Estimate 0.00661165

R 1.000

R Square 1.000

The independent variable is X.

ANOVA Sum of Squares 0.667601 0.000219

df 1 5 6

Regression Residual Total

Mean Square 0.667601 .000044

F 15272.04

Sig. .000

0.667820 The independent variable is X.

Coefficients Unstandardized Coefficients B X (Constant) 1.427 32.147 Std. Error .004 .333 Standardized Coefficients Beta 2.718

t B 347.579 96.401

Sig. Std. Error .000 .000

The dependent variable is ln(Y).

Y
Observed Compound Exponential

300

200

100

0 0 1 2 3 4 5 6

6
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________


Segn el SPSS, nos muestra:
Model Summary Adjusted R Square 1.000 Std. Error of the Estimate .015

R 1.000

R Square 1.000

The independent variable is numero de horas. Coefficients Unstandardized Coefficients B 1.427 Std. Error .004 Standardized Coefficients Beta 2.718

t B 347.579 96.401

Sig. Std. Error .000 .000

numero de horas (Constant)

32.147 .333 The dependent variable is ln(numero de bacterias).

N Horas X 0 1 2 3 4 5 6 21 3

Total Media

N de bacterias Y 32 47 65 92 132 190 275 833

ln y

X lnY

X2

3.465735903 3.8550147602 4.1743877 4.521788577 4.882801923 5.24702407 5.616771098 31.75865635 4.536950907

0 3.850147602 8.34877454 13.56536573 19.53120769 26.23512036 33.70062659 105.2312425

0 1 4 9 16 25 36 91

Ln b=[ 7(105.2312425) (21)(31.75865635)] / [7(91) (21)2] = 69.68691415 / 196 =0.35554548, luego b = antiln(0.35554548) = 1.42695882 Ln a = 4.536950907 (0.35554548)(3) = 3.470314467, luego a = antiln (3.470314467) = 32.14684998 Ln Y = 3.470314467 + 0.35554548 X Y = 32.147(1.427) X Para comprobar si el modelo es adecuado se realiza el anlisis de resduos Queda como ejercicio realizar los grficos apropiados para el anlisis de residuo y la elaboracin de la tabla de anlisis de varianza.

MODELO DE REGRESIN POTENCIAL Modelo a ajustar: Y = 0 X 1 e (11) donde Y: variable dependiente o de respuesta X: variable independiente o regresora 7
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________

0 y 1 : parmetros desconocidos del modelo : error o perturbacin, variable aleatoria que explica la variabilidad de Y que no
puede ser explicada por el modelo. Se estima este modelo mediante la funcin: Y = aXb Para linealizar la ecuacin (12) se toma logaritmo en base 10, resultando log Y = log a + b log X forma equivalente a Y = a + b X Entonces, se logra un ajuste lineal entre (log X) y (log Y). Esto quiere decir que, aplicando a los datos (log xi, log yi) el mtodo de mnimos cuadrados, se obtiene las ecuaciones normales: log y i = n log a + b log x i log xi log yi = log a log x I + b (log xi) 2 los valores de b y de log a = a' se hallan del modo siguiente: b= COV (log X , log Y ) 2 S log X y a' = log Y blog X log b (13) (12)

o tambin de la siguiente manera: b= ( )

log a =

El valor de a en la ecuacin (12) es el antilogaritmo de a. Para evaluar la bondad del ajuste se utiliza: El error estndar de estimacin de log y en log x:Slog y logx = [ (log yi-log y')2/ n-p ] Slog y logx =
( )
1/2

(14)
SCR . SCT
( )

el coeficiente de determinacin R2=


R2
logx log y

(15) (16)

Para comprobar si el modelo es adecuado se realiza el anlisis de residuos

Ejemplo de Ajuste de una funcin potencial: Y* = a Xb

En primer lugar linealizamos: lnY* = lna + b lnX

V* = A + b U

8
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________

1/5

X 1 2 3 4 5 15 3

Y 1,25 5 11,25 20 30,5 68 13,6

U=lnX 0 0,6931 1,0986 1,3863 1,6094 4,7875 0,9575

V=lnY 0,2231 1,6094 2,4203 2,9957 3,4177 10,666 2,1332

U2 0 0,4803 1,2069 1,9215 2,5901 6,1988 1,2397

UV 0 1,1156 2,6590 4,1530 5,5006 13,428 2,6856

Y* 1,2557 4,9888 11,18 19,82 30,901 68,146 13,629

e=Y-Y*
-0,0057 0,0112 0,0697 0,1799 -0,4012 -0,1461 -0,0292

e2 0,0000 0,0001 0,0049 0,0324 0,1610 0,1984 0,0397

V*=lnY* 0.2277 1.6071 2.4141 2.9867 3.4307 10.666

e0
b= C UV 1/5 UV - U V 2,6856 - 0,9575 2,1332 = = = 1,9902 S2 1/5 U 2 U 2 1,2397 0,9575 2 U

A = V - b U = 2,1332 - 1,9902 0,9575 = 0,2277

ln Y* = ln 0.2277 + 1.9902 ln X Deshacemos el cambio efectuado: a= antilnA = antiln 0,2277 = 1,2557 Por lo que el ajuste efectuado es: Y* = 1,2557 X 1,9902 Bondad del Ajuste: Ntese que al haber transformado la variable dependiente ya no se minimiza

sino

(lnY - lnY * )
2

(V - V * )

= 0, de ah que

e 0.

SCE =

(lnY - lnY * )

= 0 CME = SCE/ 3 = 0/3 = 0

ANOVA Sum of Squares 6.399 .000

df 1 3 4

Regression Residual Total

Mean Square 6.399 .000

F 60585.333

Sig. .000

6.399 The independent variable is X.

9
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________


Coefficients Unstandardized Coefficients B ln(X) (Constant) 1.990 1.256 Std. Error .008 .011 Standardized Coefficients Beta 1.000

t B 246.141 111.069

Sig. Std. Error .000 .000

The dependent variable is ln(Y).

Y
Observed Power

40,00

30,00

20,00

10,00

0,00 1 2 3 4 5

Ejercicio: Usando el mtodo de mnimos cuadrados, escriba las ecuaciones normales, y estime el coeficiente de regresin de la ecuacin de regresin: hiprbola equiltera : Y = a / X.

10
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

You might also like