You are on page 1of 14

MODELOS POLINOMIALES DE REGRESIN

Introduccin.El modelo de regresin lineal Y = X + es un modelo general de ajuste de toda


relacin que sea lineal en los parmetros desconocidos . Entre las relaciones estn
incluidos los modelos polinomiales de regresin.
En general, el modelo polinomial de orden k en una variable es:

y = 0 + 1x + 2x2 + + kxk +
Si definimos: X1=X, X2=X2,..., Xk=Xk, el modelo polinomial se transforma en un
MRLM con k regresores. As, un modelo polinomial se puede ajustar con las tcnicas
que ya se estudiaron.
Los modelos polinomiales se deben utilizar
:
Cuando el analista sabe que hay efectos curvilneos presentes en la funcin
verdadera de respuesta.
Cuando se aproximan funciones a relaciones no lineales, desconocidas y
posiblemente muy complejas.

I.- Modelo Polinomial en una Variable:


El siguiente modelo se llama modelo de segundo orden en una variable.

y = 0 + 1x + 2x2 +
Donde 1 es el parmetro de efecto lineal, 2 parmetro de efecto cuadrtico y 0 es el
promedio de y cuando x = 0, si x = 0 est dentro del rango de x, en caso contrario, 0
no tiene interpretacin fsica.
I.1.- Principios bsicos.
Cuando se ajustan modelos polinomiales de una variable se deben tener en cuenta varias
consideraciones importantes:
Orden del modelo.- Se debe mantener tan bajo como sea posible el orden del
modelo, se deben intentar transformaciones para mantener un modelo de primer
orden, si lo anterior falla se debe intentar un polinomio de orden 2. Como regla
general, debemos evitar el uso de polinomios de orden superior (k>2), a menos
que se pueda justificar por razones ajenas a los datos. Se debe usar el modelo
ms simple posible que sea consistente con los datos y el conocimiento del
ambiente del problema.
Estrategia para la construccin del modelo.- Un mtodo es ajustar en forma
sucesiva modelos de orden creciente hasta que la prueba t para el termino de
mximo orden sea no significativo. Un mtodo alterno es ajustar el modelo de
orden mximo adecuado, y luego eliminar trminos, uno por uno, comenzando

con el de orden mximo. Esos dos mtodos son seleccin en avance y


eliminacin en reversa, respectivamente.
En la mayor parte de los casos se debera restringir la atencin a polinomios de
primer y segundo orden.
Extrapolacin.- La extrapolacin con modelos polinomiales puede ser
peligroso. En general los modelos polinomiales pueden dirigirse hacia
direcciones imprevistas e inadecuadas, tanto en la interpolacin como la
extrapolacin.
Mal acondicionamiento I.- A medida que aumenta el orden del polinomio, X
X se vuelve mal acondicionada, es decir, que los clculos de inversin de la
matriz sern inexactos y se puede introducir error en los estimados de .
El mal acondicionamiento no esencial causado por la eleccin arbitraria del
origen se puede eliminar, centrado primero las regresoras, es decir, corregir x
_
por su promedio ( x
), pero a pesar de esto todava se pueden obtener grandes
correlaciones muestrales entre ciertos coeficientes de regresin.
Mal acondicionamiento II.- si los valores de x se limitan a un rango estrecho,
puede haber mal acondicionamiento o multicolinealidad apreciables en las
columnas de la matriz X. Por ejemplo, si x vara entre 1 y 2, entonces x2 vara
entre 1 y 4, lo cual podra crear una fuerte multicolinealidad entre x y x2 .

Ejemplo: La tabla presenta los datos acerca de la resistencia del papel Kraft Y y el
porcentaje de madera dura X en el lote de pulpa con el que se fabric.
n
x
y

1
1
6.3

2
1.5
11.1

3
2
20

4
3
24

5
4
26.1

6
4.5
30

7
5
33.8

8
5.5
34

9
10
6 6.5
38.1 39.9

En la siguiente figura se ve el diagrama de dispersin de los datos. Esta presentacin y


el conocimiento del proceso del produccin parecen indicar que un modelo cuadr- tico
puede describir en forma adecuada la relacin entre la resistencia a la tensin y la
concentracin de madera dura.

Grfico de dispersin
60

Resistencia a la tensin

50

40

30

20

10

0
0

10

12

14

16

Concentracin de madera dura(%)

Si optamos por la recomendacin de corregir los datos por el promedio, podemos


eliminar el mal de acondicionamiento no esencial.
_
_
El modelo ser: Y = 0 + 1( x - x) + 2( x - x)2 +
Formulamos la hiptesis:
H0 = 1 = 2 = 0
VS.

H1 =Al menos un i

0 , para i=1,2.

El modelo ajustado es:


= 45.295 + 2.546(x-7.263) 0.634(x-7.263)2
Anlisis de varianza para el modelo cuadrtico corregido por el promedio
Analysis of Variance
Source
Regression

DF
2

SS
3104.25

MS
1552.12

Error
Total

16
18

312.64
3416.89

19.54

F
79.4336

P
4.912E-09

Observamos que el p-value = 4.912E-09 <0.01=alfa. Por tanto rechazamos la H0 y


llegamos a la conclusin que el trmino lineal o el cuadrtico o ambos contribuyen al
modelo en forma significativa.
Adems dado que R2= 0.9085, esto nos indica que el 90.85% de la variabilidad en la
resistencia de tensin es explicada por la variabilidad del porcentaje de la
concentracin de madera dura.
Ahora supngase que se desea investigar la contribucin del trmino cuadrtico al
modelo:
H0 : 2 = 0 vs

H1 : 2 distinto de 0.

Realizando clculos para obtener la estadstica F0.

F0 = (SSR (2 / 0 1) /1)/ CMerror= 105.47


Como F0 = 105.47 > 8.53 = Ftabla , rechazamos la H0, concluimos que el trmino
cuadrtico contribuye al modelo en forma significativa.

POLINOMIOS ORTOGONALES
En el ajuste de modelos polimoniales en una variable, aun cuando se elimine el mal
acondicionamiento no esencial mediante el centrado, pueden haber haber todava altos
niveles de multicolinealidad. Algunas de esas dificultades se pueden eliminar usando
Polinomios Ortogonales para ajustar el modelo, supngase que el modelo es:

yi 0 1 xi 2 xi2 ... k xik i

i 1,..., n

En general, las columnas de la matriz X no sern ortogonales, adems, si se aumenta


1
k 1
el orden del polinomio agregndole un termino k 1 x
se debe calcular X ' X y
cambiarn los estimados de los parmetros de rdenes inferiores 0 , 1 ,..., k .
Ahora, supngase que se ajusta el modelo
yi 0 P0 ( xi ) 1 P1 ( xi ) 2 P2 ( xi ) ... k Pk ( xi ) i

i 1,..., n

En donde u i es un polinomio ortogonal de u-esimo orden, definido de tal modo


que:
n

P (x )P ( x ) 0
i 1

rs

r , s 0,1,2,..., k

P0 ( xi ) 1

Entonces nuestro modelo se transforma en y X , siendo la matriz X :


P0 ( x1 )
P (x )
0
2

P1 ( x1 )

P1 ( x2 )

Pk ( x2 )

P1 ( xn )

Pk ( xn )

P0 ( xn )

Pk ( x1 )

Como esta matriz tiene columnas ortogonales, la matriz X ' X es:

i 1

P (x )

2
0

X'X

P12 ( xi )

i 1

0
0
P ( xi )

i 1

Modelos Polinomiales de Regresin


Los estimadores de por mnimos cuadrados se calculan a

como sigue:

2
k

1
partir de X ' X X ' y

P (x ) y
i 1
n

j 0,1,..., k

Como 0 i es un polinomio
Pj2 ( xi ) de grado cero, se puede igualar 0 i 1y en
i 1
consecuencia 0 y
La suma de cuadrados de los residuales es:

SSRe s (k ) SST j
k

i 1

P ( x ) y
n

i 1

La suma de cuadrados de la regresin para cualquier parmetro del modelo, no depende


de los dems parmetros de este. Esta suma de cuadrados de regresin es:
n

SS R ( j ) j Pj ( xi ) yi
i 1

Si se desea evaluar el significado del trmino de orden mximo, se debe probar:


H0 : k 0
Esto equivale a probar:
H 0 : k 0
Para esto usaremos:

F0

k Pk ( xi ) yi

SS R ( k )
i 1

SS Re s (k ) (n k 1) SS Re s (k ) (n k 1)

Como el estadstico F . Adems, ntese que si cambia el orden del modelo a k r ,


slo se deben calcular los r nuevos coeficientes.
Los coeficientes 0 , 1 ,..., n no cambian, por la propiedad de la ortogonalidad de los
polinomios. As se facilita el cmputo del ajuste secuencial del modelo.
Los polinomios ortogonales j i se forma con facilidad para el caso en que los
niveles de x tiene igual espaciamiento. Los cinco primeros polinomios ortogonales
son:
P0 1
xi x
d

P1 1

x x 2 n2 1
P2 2 i


12
d
xi x 3 xi x 3n 2 7
P3 3

20
d
d

x x 4 xi x 2 3n 2 13 3 n 2 1 n 2 9
P4 4 i


d
14
560

En las que d es el espacio de niveles de x y las j son constantes que se eligen de


tal modo que los polinomios tengan valores enteros. En la tabla A.5 del apndice del
Libro Regresin Lineal de Montgomery[2004] se presentan algunos valores numricos
de estos polinomios ortogonales. Se pueden encontrar tablas ms extensas en
DeLury[1960] y en Pearson y Hartley[1966].
Ejemplo:

Un analista de investigacin de operaciones ha desarrollado un modelo de cmputo para


simulacin de un sistema de inventarios con un solo artculo. Ha probado ese modelo
para investigar el efecto de diversas cantidades de pedidos sobre el costo promedio
anual del inventario. Los datos obtenidos se vern en la siguiente tabla.
Cantidad de Pedido
Costo Anual Promedio
50

335

75

326

100

316

125

313

150

311

175

314

200

318

225

328

250

337

275
345
Como se sabe que el costo anual promedio del inventario es una funcin compleja de las
cantidades de pedidos se cree que un polinomio de segundo orden tiene el orden
mximo que se debe tener en cuenta, en consecuencia se ajustar con el siguiente
modelo:
yi 0 P0 ( xi ) 1 P1 ( xi ) 2 P2 ( xi ) i
i 1,2,...,10
Los coeficientes de los polinomios ortogonales 0 i , 1 i y 2 i , obtenidos
de la tabla mencionada anteriormente, se obtendr:

i
1
2
3
4
5
6
7
8
9
10

Pj2 ( x i )

P0 x i

1
1
1
1
1
1
1
1
1
1 X'X
10

i 1

P1 x i

P2 x i

-9
6
-7
2
-5
-1
-3
-3
-1
-4
1
-4
3
-3
5
-1
7 10
02
6
9 0 330

P3 x i
-42
14
35
31
12
-12
-31
-35
0 -14

0 42

0
132
132
8580

330 0
2

n = 10

P ( x1/2) y
10

5/3

3243


X ' y correspondientes
P1 ( xi ) yi tenemos:
245
Realizando los clculos

i101
369

P2 ( xi ) yi
i 1

324.3
1
( X ' X ) X ' y 0.7424

2.7955
i 1
10

P4 x i

P5 x i

P6 x i

18
-22
-17
3
18
18
3
-17
-22
18

-6
14
-1
-11
-6
6
11
1
-14
6

3
-11
10
6
-8
-8
6
10
-11
3

2860

780

660

5/12

1/10

11/240

El modelo ajustado es:


y 324.3 0.7424 P1 ( x) 2.7955 P2 ( x)

Analisis de Varianza para el Modelo Cuadrtico es:


Fuentes de Suma de
Grados de Cuadrado
Variacin

Cuadrados Libertad

Medio

Fo

Valor P

Regresin

1213.43

606.72

159.24

<0.0001

Lineal

(181.89)

181.89

47.74

<0.0002

Cuadrtica

(1031.54)

1031.54

270.75

<0.0001

Residual

26.67

3.81

Total

1240.1

Se puede obtener una ecuacin ajustada en trminos del regresor inicial


y 324.3 0.7424 P1 ( x ) 2.7955 P2 ( x )
x 162.5
x 162.5
y 324.3 0.7424( 2)
2.7955(1 / 2)

25
25


y 312.7686 0.0594( x 162.5) 0.0022( x 162.5) 2

Esta es la ecuacin que se debe proporcionar al usuario.

102 1

12

REGRESIN NO PARAMTRICA
Es un procedimiento muy relacionado con la regresin polinomial por segmentos. Este
procedimiento consiste bsicamente en desarrollar una base de modelo libre para
predecir la respuesta sobre el rango de los datos. La idea fundamental de la regresin no
paramtrica es la naturaleza del valor predicho. Considerando los mnimos cuadrados
ordinarios se tiene que:
y X X X X

X y

Hy

Por lo que se tiene que

h11
h
21

hn1

h12

h1n
h2 n



hnn

h22

hn 2

y1

y2

yn

y i hij y j
j 1

Entonces se tiene que el valor predicho para la i-sima respuesta es una combinacin
lineal de los datos originales.
Regresin De Kernel
Llamado el mtodo alisador de Kernel, el cual esta basado en un promedio ponderado
y i es el estimado del alisador de ncleo para i-sima respuesta, se tiene
de los datos. Si ~
que el alisador de Kernel es
n
~
yi wij y j
j 1

Donde wij es el factor de ponderacin y tales que


Como resultado se tiene que

~
y Sy

wij 1

j 1

Donde S= [wij] es la matriz de alisamiento. Generalmente los factores de ponderacin se


escogen de tal forma que wij 0 para todas las yi fuera de la proximidad del lugar de
inters especifico. Los alisadores de Kernel usan un ancho de banda b para definir la
proximidad de inters. Cuando b es grande da como resultado que un mayor nmero de
datos se usaran para predecir la respuesta en el lugar especifico.
Este mtodo se llama alisador de Kernel dado que usa una funcin d Kernel K para
especificar los pesos. Las propiedades de las funciones de Kernel son las siguientes:
1. K (t ) 0

2.

K (t )dt

t
1

3. K (t ) K (t )

Estas propiedades tambin son las de una funcin de densidad simtrica de


probabilidades.
Los pesos especficos del alisador de Kernel se calculan con

xi x j

wij n
x xk
K i

k 1
K

Regresin Ponderada Localmente (Loess)


Es otro mtodo de regresin no paramtrica al que se le llama loess. Este tipo de
regresin tambin utiliza los datos prximos al lugar especfico. La proximidad se
define como el tramo, que es la fraccin de los puntos totales que se usan para formar
las proximidades. Este procedimiento usa los puntos en la proximidad para generar un
estimado por mnimos por mnimos cuadrados ponderados, d la respuesta especifica.
Los pesos o factores de ponderacin para la parte de mnimos cuadrados ponderados de
la estimacin se basan en la distancia de los puntos que se usaron en la estimacin, al
lugar especifico de inters.
El proceso de loess de estimacin se resume como sigue:
~
y Sy

En donde S es la matriz de alisamiento creada por la regresin localmente ponderada.


El concepto de suma de residuales al cuadrado lleva en forma directa a la regresin no
paramtrica. En particular
n

2
SS Re s yi ~
yi
i 1

y Sy

y Sy

y ' [ I S ' ][ I S ] y
y ' [ I S ' S S ' S ] y

En forma asinttica este procedimiento de alisamiento es insesgado, por consiguiente el


valor asinttico esperado de SSRes es
traza[( I S ' S S ' S ) 2 I ]
2traza[ I S ' S S ' S ]

Es importante observar que S es una matriz cuadrada n x n. Entonces la


traza[S]=traza[S], y as
E ( SS Re s ) 2 [n 2traza ( S ) traza ( S ' S )]

Se puede e interpretar a [2traza(S) traza(SS)] como los grados de libertad asociados


con el modelo total. En algunos programas de computo [2traza(S) traza(SS)] es

llamada la cantidad equivalente de parmetros, y representa una medida de la


complejidad del procedimiento de estimacin. Un estimado de 2 es:
n

~ 2

y
i 1

~
yi

[n 2traza ( S ) traza ( S ' S )]

Por ultimo, se puede definir una versin de R2 como sigue:


R2

SST SS Re s
SST

Que tiene la misma interpretacin que el R2 conocido de mnimos cuadrados ordinarios.


Este tipo de modelos son usados en casos en los que ningn modelo paramtrico simple
proporciona un ajuste adecuado a los datos, o cuando no existe una teora que gui al
analista, o en situaciones donde no se puede aplicar transformaciones sencillas
adecuadas, en este tipo de casos la regresin no paramtrica proporciona un ajuste
adecuado a los datos.
MODELOS POLINOMIALES CON DOS O MS VARIABLES
El ajuste de un modelos polinomial con dos o mas variables regresoras es una extensin
del modelo polinomial con una variable.
El caso de un modelo con dos variables es el ms usado y es expresado como sigue

y 0 1 x1 2 x2 11 x1 22 x2 12 x1 x2
2

Donde existe dos parmetros de efecto lineal, 1 y 2, dos parmetros de efecto


cuadrtico, 12 y 22, y un parmetro de interaccin, 12.
A la funcin de regresin

E y 0 1 x1 2 x2 11 x1 22 x2 12 x1 x2
2

Se le llama superficie de respuesta. Este tipo de superficie de respuesta se puede


representar en forma grafica trazando los ejes x1 y x2 en el plano, y visualizando al eje
E(y) como perpendicular a ese plano.
Ejemplo:
Se tiene un experimento donde se desea estudiar el efecto de de dos variables: la
temperatura de reaccin T y la concentracin C, sobre el porcentaje de conversin y en
un proceso qumico. Los ingenieros de proceso haban usado un mtodo para mejorar
este proceso basado en experimentos diseados. El primer experimento fue uno de
cribado, donde intervinieron algunos factores que aislaban a la temperatura y la
concentracin con carcter de las dos variables ms importantes. Como los
experimentadores crean que este proceso estaba trabajando cerca del ptimo, optaron
por ajustar un modelo cuadrtico que relacionara el rendimiento con la temperatura y la
concentracin, ajuste dicho modelo a los siguientes datos:
A

Observacin

Orden
de la
corrida
4
12
11
5
6
7
1
3
8
10
9
2

1
2
3
4
5
6
7
8
9
10
11
12

Temperatura(C) Conc.(%)
T
C
200
250
200
250
189.65
260.35
225
225
225
225
225
225

15
15
25
25
20
20
12.93
27.07
20
20
20
20

x1

x2

-1
1
-1
1
-1.414
1.414
0
0
0
0
0
0

-1
-1
1
1
0
0
-1.414
1.414
0
0
0
0

43
78
69
73
48
76
65
74
76
79
83
81

La parte A muestra los niveles que se usaron de T y C en las unidades naturales de


medida, y la parte B muestra los niveles en funcin de las variables codificadas x1 y x2.
El modelo ajustado de segundo orden es

y 0 1 x1 2 x2 11 x1 22 x2 12 x1 x2
2

Usando las variables codificadas. La matriz X y el vector y son:


1
1
1 1
1
1
1
1
1 1

1
1
1
1 1

1
1
1 1
1
1 1.414
0
2 0

1 1.414
0
2 0
X
1
0
1.414 0 2

1
0
1.414
0 2

1
0
0
0 0

1
0
0
0 0

0
0
0 0
1
0
0
0 0
Donde 1la segunda
y tercera
columna

1
43

78
1

69
1

1
73
48
0

0
76

y
0
65

0
74
76
0

0
79

0
83

0
representan
a las 81
variables
x1 y x2, y la cuarta y

quinta columna representan a las variables x12 y x22, y la ultima columna representan a la
variable x1x2.
La matriz XX y el vector Xy son:
12
0

0
X X
8
8

8
0
0
0
0

0
8
0
0
0

0
0
12
4
0

0
0
4
12
0

845.000
78.592
0

0
33.726

0 X y 511 .000

0
541.000

4
31.000

Y a partir de X X 1 X y se obtiene

79.75
9.83

4.22

8.88
5.13

7.75

Entonces el modelo ajustado del porcentaje de conversin es


y 79.75 9.83 x1 4.22 x2 8.88 x12 5.13 x22 7.75 x1 x2
El anlisis de varianza para este modelo se muestra a continuacin:
Analysis of Variance
Source
Regression
Residual Error
Lack of Fit
Pure Error
Total

DF
5
6
3
3
11

SS
1733.57
35.34
8.59
26.75
1768.92

MS
346.71
5.89
2.86
8.92

F
58.86

P
0.000

0.32

0.812

Dado que hay replicas en los datos, se puede agrupar la suma de cuadrados de residuales
en componentes de error puro y falta de ajuste, para este caso la falta de ajuste es para el
modelo cuadrtico. Dado que el valor P=0.812 para esta prueba es grande se puede
decir que el modelo cuadrtico es adecuado para estos datos. La prueba F para la
significanca de la regresin es F0=58.86, y como su valor P es muy pequeo, se rechaza
la hiptesis de que los coeficientes son todos iguales a cero. A continuacin se muestra
la suma de cuadrados debido a todas las variables en el modelo:
Source
x1
x2
x1_2
x2_2
x1_x2

DF
1
1
1
1
1

Seq SS
772.20
142.20
410.82
168.10
240.25

Con estas sumas de cuadrados se puede probar la contribucin de los trminos lineales y
cuadrticos al modelo. Para los terminos lineales seria:
SS , / / 2 772.20 142.20 / 2
F0 R 1 2 0

77.62
MS Re s
5.89
Cuyo valor P=5.2 x 10-5.
Y para los terminos cuadrticos seria:
SS , , / , , / 3 410.82 168.10 240.25 / 3
F0 R 11 22 12 0 1 2

46.37
MS Re s
5.89
Cuyo valor P=0.0002. por tanto los terminos lineales y cuadrticos contribuyen al
modelo en forma significativa. A continuacin tambin se muestran los valores para las

pruebas t da cada variable individual, las cuales muestran que no hay terminos no
significativos en el modelo.
Predictor
Constant
x1
x2
x1_2
x2_2
x1_x2

Coef
79.750
9.8255
4.2164
-8.8750
-5.1250
-7.750

SE Coef
1.214
0.8582
0.8582
0.9594
0.9594
1.214

T
65.72
11.45
4.91
-9.25
-5.34
-6.39

P
0.000
0.000
0.003
0.000
0.002
0.001

A continuacin tambin se muestran los valores de R2 y R2 ajustada, asi como el valor


del PRESS y el R2prediccin.
S = 2.42706

R-Sq = 98.0%

PRESS = 108.667

R-Sq(adj) = 96.3%

R-Sq(pred) = 93.86%

Los cuales son satisfactorios para el modelo, dado que indican que el modelo explica
probablemente un 94% ms o menos de la variabilidad de los datos.
Ejercicio
El grado de carbonatacin de una bebida gaseosa se afecta por la temperatura del
producto y por la presin de funcionamiento de la llenadora. Se obtuvieron 12
observaciones, y los datos resultantes se presentan a continuacin.
Carbonatacin,y
2.60
2.40
17.32
15.60
16.12
5.36
6.19
10.17
2.62
2.98
6.92
7.06
a.
b.
c.
d.
e.

Temperatura,x1
31.0
31.0
31.5
31.5
31.5
30.5
31.5
30.5
31.0
30.5
31.0
30.5

Presin,x2
21.0
21.0
24.0
24.0
24.0
22.0
22.0
23.0
21.5
21.5
22.5
22.5

Ajustar un polinomio de segundo orden.


Probar la significancia de la regresin.
Probar la falta de ajuste y llegar a conclusiones.
Contribuye al modelo el trmino de interaccin, en forma significativa?
Contribuye al modelo los trminos de segundo orden, en forma significativa?

You might also like