You are on page 1of 80

Regresion

Introduccin al anlisis de regresin. El anlisis de regresin involucra el estudio


entre dos juegos de variables cuantitativas, es decir, entre una variable dependiente
(tambin llamada variable de respuesta) y una o ms variables independientes
(tambin llamadas variables predictoras o explicativas). El convencionalismo que se
sigue en estudios de regresin es de usar la letra Y para denotar la variable
dependiente y la letra X para denotar la variable independiente. Por ejemplo, en
regresin lineal simple, las tcnicas de regresin nos ayudar a entender, como el
valor de la variable dependiente cambia, cuando la variable independiente vara.
Anlogamente, en regresin lineal mltiple, stas tcnicas nos ayudan a entender,
como el valor de la variable dependiente cambia, cuando una de las variables
independientes vara, mientras que las otras variables independientes se mantienen
constantes. El anlisis de regresin investiga la relacin de causa y efecto entre dos
o ms variables relacionadas de una manera no determinista (probabilstica).
Este captulo discute la aplicacin de modelos de regresin lineal simple y
mltiple, tambin discute regresin no lineal, es decir, regresin polinomial. La
finalidad de estudiar regresin lineal simple, mltiple o polinomial, aplicando diseo
experimental es para obtener el modelo de regresin ms apropiado, es decir, una
ecuacin o modelo de regresin (que incluye la variable dependiente Y y las
variables independientes, X), para fines de prediccin y estimacin. Para calcular la
ecuacin de regresin lineal y no lineal se usa lo que se llama el mtodo de los
cuadrados mnimos, que ajusta los datos de la muestra a la lnea de regresin. Este
mtodo se relaciona con la propiedad de que, la suma de los cuadrados de las
desviaciones verticales de la lnea de regresin es la suma posible ms pequea.
Esta metodologa es una de las tcnicas ms usadas en investigaciones cientficas,
para encontrar la relacin entre dos o ms variables que estn causalmente
relacionadas entre si.

9-1
El modelo de regresin tiene muchas aplicaciones en un gran nmero de
campos de la ingeniera y la ciencia, como en la rama de la mecnica de ingeniera
civil (y todas sus subdisciplinas, como la ingeniera ambiental), la qumica, la
ingeniera elctrica, la medicina, ingeniera informtica, la fsica, las ciencias
biolgicas, calibracin de sensores, hidrologa, ingeniera industrial, etc. Por ejemplo,
con la ingeniera civil de construccin, se puede aplicar las tcnicas de regresin
para caracterizar las diversas cualidades del hormign para predecir la resistencia de
la compresin de una determinada composicin de un hormign. Igualmente, en los
campos de la ingeniera ambiental, la regresin estadstica se puede aplicar a los usos
y tecnologas del agua, caractersticas del agua (densidad), en funcin de la
temperatura, estudios del calentamiento global que estn afectando todos los sistemas
socio-polticos, econmicos, ambientales, de salud, etc. En aplicaciones a la qumica,
la regresin se puede aplicar para estudiar las soluciones de gases (como el oxgeno o
el CO2), en funcin de la temperatura, equilibrio qumico, relaciones entre la demanda
bioqumica de oxigeno (DBO), DQO, y COT, relacin entre el DBO, NO 3-, NO2- y
NH3, etc. Mas adelante, en estudios de hidrologa, la regresin estadstica se aplica
para estructurar un modelo de regresin lineal mltiple, para calcular caudales o
gastos, esta variable se puede modelar en funcin de otras variables, como la
pendiente de la cuenca o del canal principal, la presin atmosfrica, la tasa de
evaporacin, los coeficientes de escorrenta, la temperatura, el rea y longitud de la
cuenca, la intensidad de la lluvia, permeabilidad del terreno, factores orogrficos y as
sucesivamente. Con relacin a las tecnologas del agua, digamos en estudios de
contaminacin de corrientes, existe una relacin entre la solubilidad del oxgeno en el
agua, que va en funcin de la temperatura, la salinidad, la turbulencia, la actividad
fotosinttica, la presin atmosfrica, las concentraciones de materia orgnica y
actividad bacterial. Todos estos factores son fuente potencial de ruido experimental
que puede degradar la calidad de la variable de respuesta.
Por otra parte, Goodale et al. (1998) discuten la aplicacin de modelos
polinomiales de ecosistemas para CO2 y ciclado de agua, en funcin de las
precipitaciones mensuales, temperaturas y radiacin solar. Tambin, Hanavis et al.
(2010) discuten mtodos alternativos a los mtodos tradicionales de frecuencias de
inundaciones, que usan una sola distribucin y que tal vez no sean adecuados para
describir la variabilidad de las inundaciones observadas. Finalmente, es importante
recalcar que el calentamiento global (una parte muy importante de la ingeniera
ambiental) est distorsionando los patrones de precipitacin y, por lo tanto, debido a
este fenmeno (que no se vea antes de la era industrial) en tiempos modernos,
actualmente existe una relacin cercana entre la ingeniera ambiental y la hidrologa
(periodos de retorno y probabilidades de ocurrencia).
9-2
Regresin lineal simple. En regresin lineal simple se estudia la relacin de causa
y efecto entre una variable dependiente o de respuesta (Y) y una variable
independiente (X). Por ejemplo, usando la ecuacin de regresin podemos predecir
valores de Y, para un valor dado de X. Tambin, para efectos de estimacin se hacen
intervalos de confianza e intervalos de prediccin. Los componentes de esta
ecuacin de regresin lineal, con una sola variable independiente, asimismo llamado
modelo lineal de primer orden, son la variable explicativa, funcin de respuesta o
variable dependiente Y, y, la variable independiente X. El modelo de esta ecuacin,
que describe la relacin de la variable X con la variable Y, se llama la ecuacin de
regresin de Y sobre X y, la grfica de esta funcin, se llama la curva de regresin.
El modelo de regresin lineal poblacional que describe la relacin entre la
respuesta o variable dependiente Y, y la variable independiente o predictora X, es:

Y = o + 1x1 + i = 1, 2, ., n (1)

Donde:
Y = variable dependiente o de respuesta poblacional (tambin se usa la anotacin y
o Y)
o = coeficiente de regresin poblacional o intercepto en la ordenada
1 = pendiente de la ecuacin de regresin
x1 = variable independiente o regresora
= error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la
diferencia entre el valor terico de Y y el valor de Y calculado u observado. Las
condiciones de son de que este parmetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de es Var() = 2 y
n = nmero de (X,Y) pares de observaciones

La ecuacin de regresin muestral, que estima al modelo de regresin poblacional


(9-1) de arriba se da como:

Y = a + bx + e (1a)

Donde:
Y = variable dependiente o de respuesta de la muestra
a = coeficiente de la ecuacin muestral o intercepto en la ordenada
b = pendiente de la lnea
x = variable independiente, predictora o explicativa
e = error o residual de la muestra denotado por ei = (yi - Yi). Esta estadstica es la
estimadora del parmetro
9-3
Suposiciones requeridas por el modelo de regresin lineal (para evitar el ruido
experimental).
1. Linealidad. Debe haber una relacin lineal derecha entre los valores de Y y X.
Esta suposicin se evala fcilmente, por medio de analizar una grfica esparcida.
2. Varianza constante. La varianza de los residuos se asume que es constante para
todos los valores de X o sea que la varianza del error es 2 es constante. Esto es lo
que se llama homoscedasticidad. La suposicin de varianza constante se detecta por
medio de graficar los residuos versus la variable independiente. Si esta grfica
muestra un patrn rectangular, se asume que hay una varianza constante; es lo que
se denomina homoscedasticidad. No obstante, si la grfica de residuos muestra una
varianza no constante, es decir, en forma de arco, hay lo que se llama
heteroscedasticidad (que puede causar ruido), la cual debe corregirse ipso facto,
para que no degrade los resultados esperados. Esto se puede hacer haciendo
transformaciones de los ejes, como por ejemplo, transformaciones logartmicas del
eje Y.
3. Valores extrnsecos. Hay otras condiciones que deben corregirse para estar de
acuerdo con las suposiciones del modelo de regresin lineal y as evitar el ruido. Por
ejemplo, los valores extremos (outliers) pueden causar varianza no constante o falta
de normalidad, lo que puede causar ruido estadstico o ruido de fondo en las
aplicaciones de diseo de experimentos. Los valores extremos se pueden eliminar
considerando grficas de Y y X, as como tambin graficando los residuos versus
valores de X.
4. Normalidad. La suposicin de normalidad de los datos debe de acatarse. Hay
varias expectativas de revisar por esto. Por ejemplo, haciendo grficas de
probabilidad, estadsticas descriptivas, aplicando la regla de 68-95-99.7, prueba de
Anderson-Darling, prueba de Kolmogprov-Smirnov, prueba de Shapiro y Wilks. etc.
Aqu es redundante afirmar que la falta de normalidad es una fuente importante de
ruido de fondo.
5. Independencia. Los residuos no deben estar correlacionados uno con el otro, lo
que implica que los valores de Y tampoco deben estar correlacionados; debe haber
independencia. De no existir independencia, es decir cuando hay correlacin entre
las variables, esta condicin puede ocasionar ruido de fondo, lo que puede afectar
la calidad del sistema que se desea optimizar.

Evaluacin de la utilidad del modelo de regresin seleccionado. Una vez que se


obtiene el mejor modelo candidato, con la ecuacin de regresin lineal, sta se tiene
que evaluar o validar para ver, qu tanta confiabilidad se le puede dar al modelo de
regresin seleccionado, para usos de prediccin. Esto se hace usando enfoques
objetivistas y subjetivistas. Por ejemplo, el enfoque objetivista se refiere a los
9-4
clculos de las estadsticas como R2, s, PRESS, tabla de ANOVA, etc. Este enfoque
se complementa usando enfoques subjetivos, es decir, analizando las grficas de los
residuos estandarizados o no estandarizados (crudos), es decir, a travs de
inspecciones visuales.

Anlisis objetivistas estadsticos para la evaluacin del modelo de regresin


lineal. Como se dijo antes, una vez que se selecciona el mejor modelo de regresin,
ste se tiene que evaluar. Como se asent antes, para tales fines se usa lo que se
llama enfoque objetivista (estadstica inferencial), para la validacin del modelo de
regresin. Este enfoque incluye el uso de estadsticas como el coeficiente de
determinacin R2 (o r2), el coeficiente de determinacin ajustado R2ajustado, el error
estndar estimado, s, tablas de anlisis de varianza, pruebas de t de Estudiante,
intervalos de confianza, PRESS (predicted sum of squares por sus siglas en ingls o
suma de los cuadrados de prediccin, es decir, suma de los cuadrados
pronosticados), valores de varianza inflados, VIFs, valor de error cuadrtico medio,
F y p en ANOVA, etc.

Tipos de coeficientes de regresin. Cuando se habla de coeficientes usados en la


evaluacin de los modelos de regresin existen varios tipos de coeficientes de
regresin. Ejemplos de stos son: el coeficiente de determinacin R 2, el coeficiente
de correlacin R, el coeficiente de determinacin ajustado (R2ajustado) y el coeficiente
parcial de correlacin mltiple (Rij.k).

Coeficiente de determinacin lineal simple R2. Este coeficiente R2 es uno de los


ms importantes diagnsticos evaluatorios y representa la proporcin de la variacin
total de los valores de la variable Y que se pueden explicar por una relacin lineal
con los valores de la variable X. El coeficiente de determinacin muestral R2 es el
estimador del coeficiente poblacional 2. El coeficiente de determinacin R2 es la
medida estadstica ms comnmente usada para medir, qu tan bien encaja el
modelo de regresin en los datos de la muestra. El uso de R2 es una tcnica
objetivista para medir la calidad del modelo de regresin lineal seleccionado. Esta
estadstica se puede definir como una proporcin o como un porcentaje. Como
proporcin, sus valores varan de cero a uno. Por ejemplo, si el valor de R2 est
cercano a cero, esto indica que no hay una relacin lineal entre Y y las Xs, mientras
que, un valor cercano a uno, indica una ajuste perfecto. El valor de este coeficiente
pude ser afectado por la presencia de ruido. No obstante, aqu hay que aclarar que,
el valor del coeficiente R2 no debe de interpretarse ligeramente, sin el apoyo de
otras estadsticas objetivistas, como el error estndar estimado s, o la estadstica
PRESS. Adems, todo lo anterior, se tiene que complementar la evaluacin usando
diagnsticos subjetivistas como grficos de residuos estandarizados, y otros
9-5
diagnsticos como la tabla de ANOVA o la estadstica de Durbin-Watson (para
regresin en series de tiempo). Todo lo anterior tiene que contemplarse antes de
intentar hacer una decisin final sobre la calidad del modelo de regresin
seleccionado.

Criterio de error estndar estimado, se (o error estndar de estimacin), para


evaluar la calidad del modelo de regresin seleccionado. El error estndar
estimado (tambin llamado desviacin estndar de residuos) mide el esparcimiento
de los valores observados de Y alrededor de los valores correspondientes estimados
de la lnea de regresin ajustada. El valor del error estndar puede dar una
indicacin de la cantidad de ruido que pueda existir, porque a medida que su valor
se aleja de cero, ms ruido experimental habr y viceversa. De la misma manera que
la desviacin estndar mide la desviacin de los valores de su media, el error
estndar estimado se es una medicin, de cmo los datos de la muestra se desvan de
su lnea de regresin. En trminos poblacionales, es la desviacin estndar de la
variable del error y, debido a que es un parmetro poblacional, es necesario
estimar su valor usando s. Esto se mostrar ms adelante. En cuanto a la
interpretacin del valor de s para la validacin del modelo de regresin sabemos
que el valor ms pequeo que puede asumir s, es cero, el cual ocurre cuando la
suma de los cuadrados del error, SSe es igual a 0. Esto sucede cuando todos los
puntos caen en la lnea de regresin, (cuando el ruido de fondo ha sido controlado),
lo que dice que el modelo de regresin es ptimo. Sin embargo, si s es grande, el
modelo es inaceptable. En trminos generales, una manera de juzgar el valor de s es
comparando su valor con la media, pero esto es difcil, a menos de que s est muy
cercano a cero. De cualquier manera, antes de emitir un juicio final sobre la utilidad
del modelo, a ser tomando en consideracin, todos los dems diagnsticos
estadsticos como R2, PRESS, valor de F y p en la tabla de ANOVA, etc., deben
analizarse cuidadosamente.

Criterio PRESS usado en la evaluacin del modelo de regresin. Esta funcin


PRESS se usa como un criterio o diagnstico objetivista para evaluar la calidad del
modelo de regresin. El trmino PRESS (predicted sum of squares por sus siglas en
ingls) es la sigla de suma de cuadrados de prediccin. Este criterio PRESS es
definido, como una medida de, que tan bien el uso de los valores ajustados para un
modelo, puedan predecir las respuestas observadas de Yi. Acordemente, modelos
con valores pequeos de PRESS se consideran buenos modelos candidatos, y
viceversa. Por lo tanto, modelos con valores de PRESS pequeos se ajustan bien en
el sentido de que tienen errores de prediccin pequeos y menor error experimental.
Esto ocurre porque cuando los errores de prediccin son pequeos, tambin lo sern
los errores de prediccin cuadrticos y la suma de los errores de prediccin al
9-6
cuadrado. En este rengln, el ruido experimental puede aumentar el valor de
PRESS.

Anlisis de varianza (ANOVA) y su relacin evaluatoria con el modelo de


regresin. Ms adelante, dentro de la categora de anlisis objetivos de estadstica
inferencial para evaluar la ecuacin del modelo de regresin lineal, tenemos lo que
se llama anlisis de varianza (ANOVA) discutido en captulos anteriores. En forma
anloga como el uso de R2, este anlisis es un mtodo complementario para revisar
las suposiciones del modelo de regresin. La confiabilidad de los resultados del
ANOVA est mancomunada a la suposicin de que los residuos estn normalmente
distribuidos. El uso de ANOVA prueba las medias poblacionales, donde se analiza la
variacin total. ANOVA evala la utilidad del modelo de regresin probando la
hiptesis nula de que los coeficientes (i) de la ecuacin de regresin (pendientes)
son iguales a cero. Los componentes del anlisis de varianza o de ANOVA, son
parecidos a los del anlisis de varianza simple dados en captulos anteriores. Por
ejemplo, los componentes de la tabla de ANOVA son la fuente de variacin o de
ruido, los grados de libertad, la suma de los cuadrados, la media cuadrtica, la
prueba de F y el nivel de probabilidad p. As, la fuente de variacin representa las
particiones de la variacin en Y. Hay cuatro fuentes de variacin es decir, el
intercepto, el modelo, el residuo o error y, el total ajustado. La prueba de inferencia
con la estadstica F se usa para probar la hiptesis nula de que todas las pendientes
de la ecuacin de regresin son iguales a cero, v.g., i = 0 y el valor de p dictar la
confiabilidad que se le dar a la decisin de rechazar la hiptesis nula. Otros
estadsticos objetivistas para validar el modelo de regresin son las pruebas
individuales de T de estudiante, para probar la hiptesis nula de los coeficientes de
regresin. Adems, se pueden usar los intervalos de confianza y de prediccin.

Valor de p. El valor de p usado en la evaluacin del modelo de regresin, con


relacin a la tabla de ANOVA, tiene el mismo significado que en las pruebas
discutidas en el captulo de pruebas de hiptesis. En el ANOVA relacionado con
regresin, el valor de p es una medida, de cuanta evidencia estadstica existe en el
rechazo o aceptacin de la prueba de hiptesis relacionadas con los valores de F. El
valor de p es el valor de significancia ms pequeo, con el cual la hiptesis nula se
rechaza, cuando se hace una prueba de hiptesis especfica. El valor de p es la
probabilidad de obtener un estadstico de prueba, al menos tan contradictorio o ms
extremo para la hiptesis nula Ho:i = 0, como el valor observado que se obtuvo,
asumiendo que Ho: es verdadera. Si el valor de p es menor qu, digamos el nivel de
significancia = 0.05, la hiptesis nula se rechaza; pero si el valor de p es mayor
que , no se rechaza la hiptesis nula y sta se retiene. En trminos simples, esto
dice que, entre ms pequeo sea el valor de p, mayor evidencia habr para apoyar la

9-7
hiptesis alternativa de HA: i 0, y, por lo tanto, menos credibilidad tendr la
hiptesis nula. El rango del valor de p est entre cero y uno y entre ms se aproxime
a cero (aunque matemticamente hablando el valor de p no puede ser cero ni uno,
porque?), ms confiabilidad habr en los datos. En forma anloga, entre ms se
aproxime el valor de p a uno, menos confiabilidad tendrn los datos, lo cual indica
que el proceso ha sido grandemente afectado por ruido de fondo causado por mucha
variacin y, consecuentemente, de error experimental.

Diagnsticos grficos subjetivistas o grficos de residuos para evaluar la


calidad el modelo de regresin. En cuanto al uso de criterios subjetivistas, es
decir, anlisis de grficos, para evaluar la utilidad del modelo de regresin lineal
simple, esto se logra analizando los grficos de los residuos estandarizados. Los
residuos estandarizados son los residuos ei divididos por una estimacin de su
desviacin estndar. Estos residuos estandarizados toman en consideracin que los
residuos pueden tener diferentes varianzas, lo cual hace que sea ms fcil detectar
valores inusuales extremos, que cuando se usan los residuos crudos, regulares o no
estandarizados. El programa Minitab considera valores extremos aquellos residuos
mayores que 2 o menores que -2.
De acuerdo a la lgica del programa de computadora Minitab, los
diagnsticos grficos subjetivos o grficas de residuos se usan para ver, que tan bien
encaja el modelo en los datos. Tambin, estas grficas de residuos se usan para
detectar valores extrnsecos. Las grficas de residuos se describen como:
(1) Grfica de probabilidad normal de residuos.
(2) Grfica de residuos en funcin de los valores ajustados.
(3) Grfica de residuos versus rdenes en que se coleccionaron los datos.
(4) Histograma de residuos.
Con respecto a la grfica de probabilidad normal de residuos, los puntos en
esta grfica, generalmente, debern formar una lnea recta, si los residuos estn
normalmente distribuidos. Si no es as, la suposicin de normalidad puede
invalidarse (ruido experimental). Siendo as, los valores de la variable aleatoria
estadstica ei deben estar normalmente distribuidos. Para lograr esto, se grafican los
residuos de la variable dependiente, en funcin de los valores de z o normales
esperados. Para que se rena la condicin de normalidad de los datos, todos los
puntos deben de estar dentro de las bandas de confianza (del 95% o 99%) y deben
de estar muy cercanos a la lnea de regresin. Adems, si los trminos del error ei
estn normalmente distribuidos, los residuos debern estar, aproximadamente, de
acuerdo con las reglas del 68%, 95% y 99.7%. Esto quiere decir qu, el 68% de los
residuos debern estar entre z = 1; el 95% debern estar entre z = 2 y, finalmente,
el 99.7% de los residuos debern estar entre z = 3. Con relacin a la grfica de
residuos, en funcin de valores ajustados, sta debe mostrar aleatoriedad de los
9-8
residuos con, aproximadamente, el mismo nmero de residuos positivos y negativos,
sin tendencias definidas que indiquen multicolinealidad o correlacin en serie, es
decir, falta de independencia entre las variables. De no ser as, esto puede
abanderar errores experimentales. Anlogamente, la grfica de los residuos versus
rdenes est relacionada con todos los residuos en el orden en que los datos se
coleccionaron, y se usa para encontrar errores no aleatorios, especialmente de
efectos relacionados con el tiempo. Finalmente, el histograma de residuos es una
herramienta exploratoria para analizar las caractersticas de los datos como valores
inusuales, variacin y forma. Cuando el error de la variable es aproximadamente
normal, el histograma tiene forma de campana. Si una o dos barras estn alejadas de
las otras, esto puede abanderar valores extrnsecos.
En las grficas de residuos, el Minitab da la opcin de usar residuos crudos o
no estandarizados y residuos estandarizados. Por ejemplo los residuales
estandarizados (o residuales estudentizados) se usan para detectar valores extremos.
De acuerdo al Minitab, si los residuos estandarizados > 2 o < -2 se consideran
grandes y abanderan valores extrnsecos. Los residuos crudos son la diferencia entre
la respuesta actual y el valor estimado del modelo, pero no dan la informacin que
dan los residuos estandarizados, porque los residuos de observaciones no son
directamente interpretables, debido a que no hay valores obvios de Y.

Uso de criterios de homoscedasticidad y heteroscedasticidad para investigar la


existencia de errores experimentales. Otros diagnsticos importantes que tienen
que revisarse en la validacin del modelo de regresin seleccionado, y analizar el
potencial de ruido experimental es lo que se llama homoscedasticidad (cuando se
satisfacen las condiciones requeridas del modelo de regresin, e. g., la varianza de
(2) es un valor fijo o constante). Esto, es cuando la variable aleatoria ei tiene la
misma varianza. Esto se logra graficando los residuos, contra cada valor de las
variables independientes (Xi). Como se dijo antes, aqu tiene que haber la misma
cantidad de valores positivos y negativos expresados en la grfica, lo cual se
denomina homoscedasticidad (No hay ruido). Adems, debe haber aleatoriedad en
los puntos graficados, sin seguir patrones definidos. Sin embargo, de no ser as,
existe el problema de heteroscedasticidad es decir, cuando se viola el requerimiento
de que, la varianza de (2) sea constante. (Hay ruido experimental). Esta situacin
se retomar en la seccin de regresin polinomial.
Recapitulando todo lo anteriormente dicho, las condiciones o suposiciones
requeridas para validar el modelo, subjetivamente, se hace a travs de los anlisis de
los residuos estandarizados. Los llamados residuos se definen como las diferencias
entre el valor actual de Y y el valor pronosticado de y por el modelo de regresin
estimado. Los residuos se denotan por ei, esto es, ei = (Yi Yi). Las grficas de los
residuos dan informacin muy importante, acerca de la naturaleza y fuerza de la
9-9
relacin entre las variables. La figura de abajo muestra los residuos que son las
diferencias entre los valores de Y1, Y2, Y3,,Yk y los valores observados de Y1, Y2,
Y3,,Yk de la lnea de regresin de la muestra. Por otra parte, los residuos
estandarizados se obtienen dividindolos por sus respectivas desviaciones
estndares.

Figura. Grfica mostrando los residuos de un ejemplo.


Fuente: Tomado del texto de Quevedo et al. 2008

Ecuaciones para derivar, manualmente, el valor del intercepto en la ordenada a y


la pendiente b de la curva o lnea de regresin. Las variables a y b se obtienen de
las ecuaciones normales de abajo, es decir, resolvindolas simultneamente:

Y = a n + b X
XY = a X + b X

As, al resolverse simultneamente dan el intercepto, a en la ordenada y la pendiente


de la lnea, b:

Intercepto = a = [(Y)(X 2) (X)(XY)] / [(nX 2) (X)2]


= Y b X

Donde:
Pendiente = b = [n XY (X)(Y)] / [n X 2 (X)2]
= xy / x2
Donde:
xy y x2 se dan por las ecuaciones (3) y (3a) de abajo.
Y y X son las medias de las variables aleatorias X e Y.

Las siguientes ecuaciones son muy importantes y es conveniente memorizarlas.

x2 = Sxx = X2 (X)2 / n (3)

9-10
xy = Sxy = XY XY / n (3a)
y2 = Syy = Y 2 (Y)2 / n (3b)

Donde Sxx, Sxy y Syy son las formas abreviadas de x2, xy y y2, respectivamente

Nota. Es muy importante distinguir las diferencias entre el uso de las variables
minsculas y las maysculas en las ecuaciones de arriba.

Clculos para determinar el coeficiente de determinacin R2 muestral que


estima a 2, el coeficiente de determinacin poblacional. El coeficiente de
determinacin R2 es una funcin estadstica muy importante usada para validar el
modelo de regresin lineal y analizar la existencia de ruido. El coeficiente de
determinacin muestral R2 estima al coeficiente de determinacin poblacional 2..
Por ejemplo, un valor cercano a 0 indica que no hay una relacin lineal entre Y y X,
mientras que un valor cercano a 1 indica un ajuste lineal perfecto. Aqu, sin
embargo, como se asent anteriormente, es necesario estar conscientes que, un valor
grande de R2, no necesariamente indica un buen ajuste del modelo de regresin.
Esto ocurre, porque, a pesar de que R2 fuera grande, la suma cuadrtica del error,
MSe, pudiera, de todas maneras, ser muy grande para sacar inferencias tiles,
cuando se requiere de mucha precisin. En forma anloga, si las observaciones
pudieran haberse tomado, solamente, en algunos pocos niveles, entonces, a pesar de
que el valor de R2 fuera grande, el modelo de regresin pudiera no ser de mucha
utilidad, si la mayor parte de las predicciones requieren de extrapolaciones afuera de
la regin de observaciones. De la misma manera, un valor pequeo de R2 no
necesariamente indica que el modelo no sea bueno. Es por estas razones que, antes
de emitir un juicio sano, sobre la utilidad del modelo, se necesitan analizar
cuidadosamente, todas las pruebas objetivistas y subjetivistas.
Las funciones que definen el coeficiente de determinacin muestral R2 son:

SS a SSe
R = = 1 -
2
(4)
SS t SSt
= (xy) /x y
2 2 2
(4a)

Donde: SSa es la suma de los cuadrados de los tratamientos, SSt es la suma de los
cuadrados del total y SSe es la suma de los cuadrados del error. Todas estas
funciones, ya se definieron en el captulo de anlisis de varianza, es decir, en el
formato de la tabla de ANOVA. Adems, xy, x2 y y2, ya se definieron por las
funciones (3) (3b) descritas anteriormente. Aqu, sin embargo, debido a que, 0
9-11
SSe SSt, por lo tanto, el rango de este coeficiente de determinacin R 2 es 0 R2
1.
En forma anloga, tambin hay el llamado coeficiente R2 de determinacin
ajustada (R2ajustado). Esta es una versin ajustada de R2, la cual muchos expertos en
estadstica usan para remover la variacin debida a un tamao de muestra pequeo.
Este coeficiente se define como:

R2ajustado = 1 [(1 R2) (n 1)/(n 2)] (4b)

Donde:
R2 ajustado ya definido anteriormente
n es el tamao de la muestra
R2 ya definido anteriormente

Clculos para determinar el error estndar estimado se, que emula al error
estndar poblacional . Recordando que, de las secciones del captulo de ANOVA,
SSe ya se haba definido como la suma de los cuadrados del error, es decir:
a n

SSe = (Xij X i.)2. Entonces, tomando en consideracin esto, para calcular el


i=1 j=1

estimador imparcial de 2, la funcin estadstica usada es:

SS e
s e =
2
(5)
n2

La raz cuadrada de s2e es el error estndar estimado, el cual se da como:

se = [SSe / (n 2)]0.5 (5a)

Donde:
se es el error estndar estimado o error estndar de la estimacin
SSe es la suma mnima de los cuadrados del error
(n 2) representa en nmero de grados de libertad alrededor de la lnea de regresin
ajustada. Aqu, el divisor (n 2) se usa, porque 2 grados de libertad se pierden en
calcular los coeficientes de regresin, es decir, el intercepto o y la pendiente 1.

Como se asent antes, aqu el valor del error estndar estimado, tambin se puede
usar como diagnstico para identificar la presencia de ruido. Valores cercanos a cero

9-12
abanderan poco ruido experimental, pero lo contrario tambin es correcto.

Por otro lado, Keller et al. (1990), discuten un mtodo corto para calcular la
suma de los cuadrados del error, SSe. Este mtodo corto se hace usando los
estadsticos de resumen dadas como, x2 = X2 (X)2/n, es decir Sxx, xy = XY
XY/n, esto es, Sxy; y y2 = Y 2 (Y)2/n, es decir, Syy. De manera que, cuadrando
xy se puede usar el mtodo corto para calcular SSe, v. g.:

SSe = Syy (S2xy / Sxx) (6)

Dnde: Syy = y2, S2xy es el cuadrado de xy, y Sxx = x2.

9.5. Tipos de correlacin lineal.


1. Correlacin simple. Este tipo de correlacin consiste de dos variables, la
dependiente (Y) y la independiente (X).
(a) Correlacin directa. Esta correlacin consiste en el incremento en una variable la
cual es acompaada por el incremento de otra variable (correlacin positiva).
(b) Correlacin inversa. Esta correlacin consiste en el incremento de una variable la
cual es acompaada por el incremento de otra (correlacin negativa).
(c) Correlacin no lineal. En esta correlacin no hay ninguna asociacin entre las dos
variables.

Las figuras de abajo muestran diferentes tipos de correlaciones.

Figura. Las figuras de abajo representan varios tipos de correlaciones.

(a) (b)
Correlacin positiva perfecta entre X e Y Grfica donde no hay correlacin entre X e Y

6 6

5 5

4 4
Y

3 3

2 2

1 1

1 2 3 4 5 6 7 1 2 3 4 5 6 7
X X

(c) (d)

9-13
Grfica donde no hay correlacin entre Y vs X
Grfica mostrando una correlacin perfecta negativa
6
6

5
5

4
4

Y
3
Y.

3
2

2
1

1
0
1.5 2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 7
X.. X

(e) (f)
Grfica de Y vs X para una correlacin perfecta cuadrtica Grfica de Y vs X para una correlacin perfecta cuadrtica inversa

20 4

2
15
1

0
10

Y
y

-1

-2
5
-3

-4
0
-5
-5.0 -2.5 0.0 2.5 5.0 -5 -4 -3 -2 -1 0 1 2 3 4
x X

(g)
Grfica de Y vs X donde no hay ninguna correlacin.
7

4
Y

1 2 3 4 5 6 7
X

Por ejemplo, de acuerdo a las grficas de arriba, la Figura 2. (a) exhibe una
correlacin directa. Esta correlacin consiste en el incremento de la variable Y, la
cual es acompaada por el incremento de la variable X (correlacin positiva
perfecta), aqu el valor de R = +1.00. Adems, la Figura 2 (b) muestra una
correlacin positiva muy pobre o nula, aqu el valor de R es muy bajo. Otros, la
Figura 9.2(c) muestra una correlacin consiste en el decremento de la variable Y la
cual es acompaada por el decremento de la variable X (correlacin negativa
perfecta), aqu el valor de R = -1.00. Tambin la Figura 2(d) muestra una correlacin
negativa muy pobre, aqu el valor de R es muy bajo. Finalmente, la Figura 9.2(g) da
una correlacin no lineal. Aqu no hay ninguna asociacin, entre las dos variables.

Ejemplo. Este es un ejemplo encaminado a usar tres maneras de calcular la


ecuacin de regresin y su correspondiente evaluacin. Este ejercicio est
relacionado con las leyes de los gases de una sustancia de masa molar desconocida,
es decir, entre la relacin de la densidad y la presin de este gas. Esta informacin
9-14
fue recabada del texto Chemistry. The Central Science de los autores, Brown et al
(2002). La tabla de abajo muestra los datos. La tabla de abajo muestra los datos.
Tabla 1. Tabla mostrando los valores de la presin (atmsferas) y de la densidad
(gramos por litro) de un gas desconocido.

Presin Densidad
(atm) (g/L)
1.000 2.3074
0.666 1.5263 La grfica representando estos datos se da en la figura
0.500 1.1401 de abajo.
0.333 0.7571
0.250 0.5660

Grafica de densidad vs presion


0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
2.5 2.5

2.0 2.0
Densidad (g/ L)

1.5 1.5

1.0 1.0

0.5 0.5
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Presion (atm)

Figura3. Figura mostrando el inverso de los valores graficados de la presin y de la


densidad, de la tabla de arriba.
Se requiere hacer lo siguiente:
(1) Establecer la ecuacin de regresin que mejor ajuste los datos usando los
valores de la tabla de arriba. Para tales fines usar la ecuacin del intercepto (9-2) y
la ecuacin para calcular la pendiente (9-2b). Una vez que se haga lo anterior, se
requiere validar la utilidad del modelo de regresin a travs de los clculos de R 2 y
del error estndar estimado, s usando las ecuaciones (9-4) y (9-4). Como
informacin adicional para este inciso se da la tabla de ANOVA de abajo, la cual
requiere del llenado de los faltantes. Esta tabla se estructur usando el formato de la
tabla de ANOVA de una clasificacin como se discuti en el captulo de anlisis de
varianza.

9-15
Tabla 1. Tabla de ANOVA la cual requiere del llenado de los faltantes.

Tabla de ANOVA
Fuente de variacin MS Valor de p
g.l. SS Fcalc. Ftab.
Debido a la Reg. 1.916800
Residual 3 0.0000125
Total 4 1.9169

(2) Nuevamente, para este inciso se requiere establecer la ecuacin de regresin,


pero en esta ocasin por medio de usar la grfica de la Figura 9.3. Para tales fines se
pide usar la frmula de la pendiente = (y2 y1)/(x2 x1) y de la ecuacin punto-
intercepto dada como (y y1) = m(x x1).
(3) Para este inciso se requiere establecer la ecuacin de regresin y luego su
validacin objetivista por medio de calcular R2, s, PRESS, ANOVA, etc., usando el
programa de cmputo Minitab.
(4) De acuerdo a un diseo experimental y de los resultados obtenidos, considera
usted que los resultados sean fidedignos?
Solucin:
(1) En este inciso, para establecer la ecuacin de regresin que mejor ajuste los
datos usando los valores de la tabla de arriba se procede a usar la ecuacin de la
pendiente (9-2b) y del intercepto (9-2) reiteradas abajo.
Pendiente = b = [n XY (X)(Y)] / [n X 2 (X)2]
Intercepto = a = [(Y)(X 2) (X)(XY)] / [(nX 2) (X)2] = Y b X
Pero primero se hacen los siguientes clculos usando los valores de la Tabla 9.1:
XY = (1)(2.3074) + (0.666)(1.5263) +...+ (0.25)(0.566) = 4.2875.
X = 2.749. Y = 6.2969. (X)(Y) = (2.749)(6.2969) = 17.31. X2 = (1)2 +
(0.666)2 +(0.5)2 + (0.333)2 + (0.25)2 = 1.867. (X)2 = (2.749)2 = 7.557. n = 5.
Y = 1.2594. X = 0.5498.

Ahora, sustituyendo estos valores en la frmula de la pendiente y del intercepto da:


Pendiente = b = [(5)(4.2875) (2.749)(6.2969)] / [(5)( 1.867 (7.557)] = 2.3213
Intercepto = a = 1.2594 (2.3213)(0.5498) = -0.01685 ~ 0.017
Consiguientemente, la ecuacin de regresin es: y = -0.017 + 2.3213x

9-16
Para la validacin del modelo de regresin seleccionado, se usan las ecuaciones para
calcular R2 y el error estndar estimado, s. Pero primeramente se procede a llenar los
faltantes de la tabla de ANOVA de abajo.

Tabla 1b. Tabla de ANOVA mostrando el llenado de los faltantes.

Tabla de ANOVA

Fuente de SS MS Fcalc. Ftab. Valor de p


variacin g. l.
Debido a la 1 1.9168 1.9168 10.13 <<< 0
Regresin 152,981.54
Residual 3 0.000039 0.00001253
Total 4 1.9169

Ahora, usando las ecuaciones de abajo con SSa igual a 1.9168 y SSt igual a 1.9169 y
sustituyendo da:
SSa
R = = 1.9168/1.9169 = 0.9999 ~ 100%
2

SSt
se = [SSe / (n 2)]0.5 = [0.000039 / (5 2)]0.5 = 0.0036
(2) Para este inciso se requiere establecer la ecuacin de regresin, pero en esta
ocasin por medio de usar la grfica de la Figura 9.7. Para tales fines se pide usar la
frmula de la pendiente = (y2 y1)/(x2 x1) y de la ecuacin punto-intercepto dada
como (y y1) = m(x x1).
Sugerencia: usar las coordenadas (0.5, 1.1401) y (0.666, 1.5263) o cualquier otras
coordenadas de la grfica de arriba.

Solucin:

De esta manera, se estructura la ecuacin de regresin calculando la pendiente y el


intercepto tomando los puntos y1 = 1.1401, x1 = 0.5; y2 = 1.5263 y x2 = 0.666.
9-17
Siendo as: Pendiente = (y2 y1)/(x2 x1) = (1.5263 1.1401)/(0.666 0.5) =
2.3265. Ahora usando la ecuacin punto-intercepto (y y1) = m(x x1) y
sustituyendo da: (y 1.1401) = 2.3265(x 0.5). Esto da y = 2.3265x 0.02315.
Poniendo x = 0 da Intercepto = -0.02315. Por lo tanto, usando estos valores se
estructura la ecuacin de regresin como: y = -0.02315 + 2.3265x. Esta ecuacin no
es precisamente igual que la calculada con el Minitab debido a las inexactitudes que
pudieron ocurrir al hacer las extrapolaciones en la Figura 9.3 para calcular,
manualmente, la pendiente y el intercepto.
(3) Para este inciso se usa el Minitab para establecer la ecuacin de regresin y
luego su validacin objetivista por medio de calcular R 2, s, PRESS, ANOVA, etc., y
enseguida se complementa la evaluacin a travs de grficos subjetivos de residuos.
La tabla de abajo muestra los resultados impresos del Minitab.
Tabla 1c. Tabla mostrando la impresin de los resultados usando el Minitab.
The regression equation is: Densidad = - 0.0172 + 2.32 (Presion)

Predictor Coef SE Coef T P VIF


Constant -0.017208 0.003627 -4.74 0.018
Presion (atm) 2.32191 0.00594 391.13 0.000 1.000

S = 0.00353976 R-Sq = 100.0% R-Sq(adj) = 100.0%, PRESS = 0.000200461


R-Sq(pred) = 99.99%

Analysis of Variance

Source DF SS MS F P
Regression 1 1.9168 1.9168 152981.54 0.000
Residual Error 3 0.0000 0.0000
Total 4 1.9169

Nota: Los resultados usando los tres mtodos no son absolutamente idnticos debido a los
redondeos aritmticos.

(4) De acuerdo a un diseo experimental y de los resultados obtenidos, si se


considera que los resultados son fidedignos, porque los diagnsticos estadsticos de
R2, s, PRESS, y adems el valor de F y p de la tabla de ANOVA as lo atestiguan.
Sin embargo, haciendo un anlisis muy profundo de la Figura 9.3, se observa que los
valores de las presiones de 0.333 y 0.250 y sus correspondientes densidades de
0.7571 y 0.5660, no estn, exactamente, dentro de la lnea de regresin, lo que
pudiera cobijar lo que se llamara autocorrelacin espacial, que puede dar a errores
experimentales. Esto se discutir detalladamente, ms adelante.

Ejemplo 2. Este ejercicio es una exposicin de levantamientos topogrficos


(topografa del griego , 'lugar', y -grafa, 'descripcin') mediante
fotogrametra aplicando tcnicas de regresin lineal simple. En este rengln, la
fotogrametra consiste en capturar imgenes del terreno mediante vuelos con
9-18
cmaras aereas fotogramtricas desde satlites, drones o aviones, especialmente, en
zonas muy inaccesibles, donde la nica manera de hacer la cartografia es por medio
de esas tecnologas. Los datos de la tabla de abajo corresponden a una muestra
aleatoria de mediciones de alturas (metros) arriba del nivel del mar, de 22 puntos de
levantamientos areos y terrestres. Los puntos fueron espaciados igualmente sobre
un sobre una rea de 10 x 10 kilmetros. La tabla de abajo muestra los datos de este
experimento.

Tabla 2. Tabla mostrando los datos de los levantamientos terrestres y areos de este
problema.

Levantamiento Levantamiento
terrestre (m) areo (m)
744.0 732.9
789.5 804.9
749.7 760.5
701.5 712.3
689.2 696.0
800.5 812.8
891.2 902.7
812.8 820.0
780.6 793.6
710.5 720.2
870.0 896.0
829.4 845.1
808.7 820.3
781.7 796.1
868.7 870.0
920.0 920.1
780.7 790.2
649.6 660.0
732.1 741.2
770.4 781.2
733.7 745.6
620.0 633.4

Se requiere hacer lo siguiente:


(a) Identificar la variable independiente y la variable dependiente.
(b) Establecer la ecuacin de regresin que mejor ajuste los datos. Luego validar su

9-19
utilidad usando enfoques objetivistas y subjetivistas.
(c) Con la ecuacin de regresin predecir el levantamiento terrestre, cuando el
levantamiento areo es de 820 metros.
(d) Al juzgar por los resultados, cree usted que no existan errores experimentales y
que los resultados sean muy confiables?

Solucin:

(a) La variable independiente se refiere a los valores de los levantamientos areos


(X) y la variable dependiente (Y) se refiere a los levantamientos terrestres.
(b) La tabla de abajo muestra los resultados de la evaluacin objetivista.

Tabla 9.2. Tabla mostrando la ecuacin de regresin y los diagnsticos objetivistas


como el coeficiente de determinacin R2, error estndar estimado, s, PRESS, y la
tabla de ANOVA.
Regresin Analysis: Levantamiento terrestre versus Levantamiento areo
The regression equation is
Levantamiento terrestre = - 2.7 + 0.991 (Levantamiento areo estimado)

Predictor Coef SE Coef T P VIF


Constant -2.68 15.96 -0.17 0.868
Levantamiento areo estimado,_1 0.99063 0.02026 48.90 0.000 1.000

S = 7.07383 R-Sq = 99.2% R-Sq(adj) = 99.1% PRESS = 1271.63 R-Sq(pred) = 98.95%

Analysis of Variance

Source DF SS MS F P
Regression 1 119656 119656 2391.26 0.000
Residual Error 20 1001 50
Total 21 120657

Durbin-Watson statistic = 1.43639

La Figura 2 de abajo muestral la validacin subjetivista de los grficos de residuos.


Grafica de residuos de los levantamientos terrestres y aereos.
Normal Probability Plot Versus Fits
99
3.0
Standardized Residual

90
1.5
Percent

50 0.0

10 -1.5

1 -3.0
-3.0 -1.5 0.0 1.5 3.0 600 700 800 900
Standardized Residual Fitted Value

Histogram Versus Order


10.0 3.0
Standardized Residual

7.5 1.5
Frequency

5.0 0.0

2.5 -1.5

0.0 -3.0
-2.4 -1.2 0.0 1.2 2.4 2 4 6 8 10 12 14 16 18 20 22
Standardized Residual Observation Order

9-20
Figura 2. Grafica de residuos de levantamientos terrestres y areos.

(c) Para pronosticar el valor del levantamiento usando la ecuacin de regresin y


sustituyendo el valor de 820 se calcula el correspondiente valor del levantamiento
terrestre, esto es: Levantamiento terrestre = - 2.7 + 0.991 (820) = 809.92 metros.

(d) Tal parece que si existe un poco de ruido experimental, porque el valor de la
estadstica PRESS = 1271.63 es muy alto. Adems, analizando la grfica de los
residuos, se observa que en la grfica de probabilidad normal (grafica superior
izquierda) los puntos estn muy dispersos con respecto a la lnea de regresin.
Conjuntamente, en la grfica de los valores ajustados (grafica superior derecha) no
existe el mismo nmero de residuos positivos y negativos. Tomando en
consideracin todos estos argumentos, si es factible existan errores experimentales
que puedan comprometer los resultados.

Ejemplo 2. Hacer el mismo ejemplo anterior, pero ahora identificando las fuentes
de ruido experimental y controlando esos factores. Luego, hacer lo siguiente:
(a) Establecer el modelo de regresin y validar su utilidad por medio de
diagnsticos objetivistas y subjetivistas.
(b) Comparar los resultados con aquellos obtenidos en el Ejemplo 9.1. Hubo
cambios significativos?.
(c) Usar la ecuacin de regresin y calcular el levantamiento areo cuando X = es
de 850 metros.
La tabla de abajo muestra los valores de los levantamientos con el error
experimental ya controlado.

Tabla 2b. Tabla mostrando los datos de los levantamientos terrestres y areos
estimados expresados en metros (m), despus de controlar el error experimental.

Levantamiento Levantamiento
terrestre (m) areo (m)
720.2 732.9
791.0 804.9
749.7 760.5
701.5 716.0
688.0 706.0
800.5 812.8
886.0 896.0
810.0 820.0
775.0 788.0
9-21
710.5 726.0
860.0 870.0
829.4 840.0
812.0 826.0
783.0 796.1
840.0 850.0
768.0 780.0
658.0 677.0
725.0 741.2
762.0 774.0
739.0 750.0
675.0 692.0
634.0 650.0

Solucin:

Las posibles fuentes de errores experimentales que pudieron intervenir en la


fotogrametra pudieron trazarse a las cantidades de partculas orgnicas e
inorgnicas en la atmosfera. Tambin la temperatura, la altura, la presin
atmosfrica y la humedad relativa pudieron contribuir al ruido experimental de este
tipo. Tambin las cmaras defectuosas pudieron contribuir al ruido.

(a) La tabla de abajo muestra los resultados de la evaluacin objetivista con ruido
controlado.

Tabla 2c. Resultados impresos mostrando la ecuacin de regresin y los


diagnsticos objetivistas como el coeficiente de determinacin R2, error estndar
estimado, s, PRESS, y la tabla de ANOVA.
Regression Analysis: Levantamiento te versus Levantamiento areo
The regression equation is
Levantamiento terrestre estimad = - 39.5 + 1.03 (Levantamiento areo)

Predictor Coef SE Coef T P VIF


Constant -39.474 4.451 -8.87 0.000
Levantamiento aereo estimado, m 1.03391 0.00574 180.20 0.000 1.000

S = 1.69761 R-Sq = 99.9% R-Sq(adj) = 99.9% PRESS = 68.9208 R-Sq(pred) = 99.93%

Analysis of Variance

Source DF SS MS F P
Regression 1 93579 93579 32471.68 0.000
Residual Error 20 58 3
Total 21 93637

9-22
Durbin-Watson statistic = 2.19493

La figura de abajo muestral la validacin subjetivista de los residuos.


Graficas de residuos (Ruido controlado
Normal Probability Plot Versus Fits
99 2

Standardized Residual
90 1

Percent
50 0

10 -1

1 -2
-2 -1 0 1 2 600 700 800 900
Standardized Residual Fitted Value

Histogram Versus Order


2
4

Standardized Residual
3 1
Frequency

2 0

1 -1

0 -2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2 4 6 8 10 12 14 16 18 20 22
Standardized Residual Observation Order

Figura 3. Grafica de residuos de levantamientos terrestres y areos, con ruido


controlado.

(b) Al comparar los resultados con aquellos obtenidos en el Ejemplo 9.1, si hubo
cambios significativos. Por ejemplo, en los diagnsticos objetivistas, el coeficiente
de determinacin R2, subi de 99.2 a 99.9 cuando se control el ruido. Mas
importante todava, el valor de PRESS bajo muy significativamente a 68.92 de 1277
(con ruido). Adems, el error cuadratica medio baj a 3 (sin ruido) de 50 (con
ruido). No obstante, el histograma est un poco sesgado.
(d) Usando la ecuacin de regresin con ruido y la ecuacin de regresin con el
ruido controlado, calcular el porcentaje de error cuando el levantamiento areo es de
726 metros. Tambin la grfica de residuos de levantamientos terrestres y areos,
con el ruido controlado, mejor mucho con respecto a aquel con ruido experimental.
Tambin el error cuadrtico medio de la tabla de ANOVA baj de 50 a 3 (sin ruido)
y as sucesivamente.
(d) Usando la ecuacin de regresin con el ruido controlado, y sustituyendo el valor
de 726 metros da: Levantamiento terrestre estimado = - 39.5 + 1.03 (850) = 836
metros.

Ejemplo 4. Este es un ejemplo de una reaccin qumica de primer orden de la


sucrosa, la cual procede a una tasa que depende linealmente en la concentracin de
esta sustancia qumica. Esta informacin fue tomada del texto Chemistry. The
Central Science de la pgina 531 de los autores Brown et al (2000). Para estudiar
este ejemplo se da como informacin adicional la ecuacin diferencial que describe
la cintica de primer orden como: Tasa = -d[A]/dt = k[A] donde la Tasa se
expresa en unidades de molaridad por tiempo y donde [A] es la concentracin molar
de la sustancia y k es el coeficiente de la tasa de la reaccin en unidades de 1/time.

9-23
La representacin integrada es ln[A] ln[A]o = -kt. Esta ecuacin puede arreglarse
en la forma de una ecuacin lineal, es decir, como y = mx + b, esto es, ln[A] = -kt +
ln[A]0, donde la pendiente es mx = -kt y el intercepto es b = ln[A]0. Usando las
leyes de los logaritmos se puede expresar como ln([A]t / [A]0) = -kt donde ([A]t es la
concentracin a un tiempo t y [A]0 es la concentracin inicial o total. Para describir
si la tasa de la reaccin es de primer orden, la grfica del logaritmo de la
concentracin versus tiempo da una lnea recta.
Siendo as, se sabe que la sucrosa (C12H22O11) reacciona en soluciones cidas
diluidas con agua para formar glucosa y fructosa siguiendo una ecuacin de primer
orden. La ecuacin de esta reaccin es: C12H22O11(ac) + H2O(l) 2C6H12O6(ac).

La tabla de abajo da la informacin pertinente para este estudio citando las


concentraciones originales de sucrosa y su transformacin logartmica.
Tabla 5. Tabla mostrando la informacin pertinente.
Tiempo Concentracin
(min.) sucrosa
0 0.316
39 0.274
80 0.238
140 0.19
210 0.146
Fuente: Brown, T. L., LeMay, H.E., Bursten, B. E. Chemistry. The Central Science.

Hacer lo siguiente:
(a) Aplicar un diseo experimental y citar la variable de entrada y de salida y la
posible fuente de ruido experimental, si es que as existiese.
(b) Hacer una grfica con el logaritmo de las concentraciones de sucrosa vs tiempo
usando la tabla de arriba, para poder atestiguar de que esta reaccin qumica siga
estrictamente a una lnea recta, es decir, a una reaccin de primer orden. Hacer esto,
ajustando una lnea de regresin lineal.
(c) Si la grfica de los datos siguiesen estrictamente una lnea recta, que es lo que se
esperara, porque la reaccin qumica de la sucrosa vs tiempo es una reaccin de
primer orden, entonces, esto comprobara que las tcnicas de laboratorio usadas en
la elaboracin de este experimento fueron ptimas.
(d) Despus de lo anterior, establecer la ecuacin de regresin para fines de
prediccin, con los datos de la tabla de arriba y luego validar la utilidad del modelo
de regresin, a travs de diagnsticos objetivistas y subjetivistas.
(e) Si por alguna razn los datos no estuvieran en concordancia con la grfica de la
transformacin logartmica y de los resultados estadsticos, decir si as ocurri.

9-24
(f) Hacer una grfica de series de tiempo y calcular las mediciones de precisin
MAPE, MAD y MSD para estimar el porcentaje de error que el modelo de
prediccin pudiera tener. El tpico de series de tiempo se explicara detalladamente
en el Captulo 10 de series de tiempo.
Solucin:

(a) La variable de entrada son los valores de las concentraciones de sucrosa y el


tiempo. La variable de salida se refiere a lo pedido por el problema o sea la
evidencia de que la reaccin qumica es de primer orden. La posible fuente de ruido
experimental pudiera remontarse a tcnicas de laboratorio deficientes, tcnicos de
laboratorio que no estn bien entrenados, uso de funciones estadsticas
inapropiadas, medidores de pH mal calibrados, reactivos contaminados, etc.
(b) La grafica se da abajo.

Grafica de log concentracion sucrosa vs tiempo (min.)


0 50 100 150 200

-0.50 -0.50

-0.55 -0.55
Log concentracion sucrosa

-0.60 -0.60

-0.65 -0.65

-0.70 -0.70

-0.75 -0.75

-0.80 -0.80

-0.85 -0.85
0 50 100 150 200
Tiempo (min.)

Figura 6. Grafica mostrando el logaritmo de los datos de las concentraciones de


sucrosa vs tiempo con lnea de regresin lineal ajustada.

(c) De acuerdo a la figura de arriba, evidentemente, algunos datos no estn


perfectamente en la lnea de regresin ajustada, como se esperara, porque la grfica
del logaritmo de la sucrosa vs tiempo es una reaccin de primer orden. Este
escenario est generando un poquito de ruido experimental, lo que indica que el
modelo de regresin no dar predicciones estrictamente perfectas. Para refrendar
estas aserciones, al analizando la grfica de arriba, se observa que el punto
correspondiente a la fila 3 es de -0.62342 en 80 minutos. Adems, el punto de la fila
1 no est perfectamente sobre la lnea de los cuadrados mnimos.
9-25
.
(d) La ecuacin de regresin para fines de prediccin con los datos ya depurados
asumiendo un modelo lineal se da en la tabla de abajo:
Tabla 5a. Impreso mostrando la evaluacin objetivista del modelo de la sucrosa.
The regression equation is:Log conc. sucrosa = - 0.499 - 0.00160 Tiempo (min.)

Predictor Coef SE Coef T P VIF


Constant -0.498924 0.001708 -292.06 0.000
Tiempo (min.) -0.00159543 0.00001427 -111.78 0.000 1.000

S = 0.00237253 R-Sq = 100.0% R-Sq(adj) = 100.0%


PRESS = 0.0000577559 R-Sq(pred) = 99.92%

Analysis of Variance

Source DF SS MS F P
Regression 1 0.070327 0.070327 12493.90 0.000
Residual Error 3 0.000017 0.000006
Total 4 0.070343

Durbin-Watson statistic = 1.76775

Analizando los resultados de arriba se observa que la estadstica de Durbin-Watson


igual a 1.76775, la cual es menor que el valor de 2.0 sugiere que la distribucin de
los datos est un poco sesgada hacia la izquierda. Adems, de la grfica de residuos
de la grfica de probabilidad normal, hay dos puntos de las filas 2 y 3 que no estn
sobre la lnea ajustada. Todo lo dems est bien.

Residual Plots for Log conc. sucrosa


Normal Probability Plot Versus Fits
99
Standardized Residual

90 1
Percent

50 0

10
-1
1
-3.0 -1.5 0.0 1.5 3.0 -0.8 -0.7 -0.6 -0.5
Standardized Residual Fitted Value

Histogram Versus Order


1.00
Standardized Residual

1
0.75
Frequency

0.50 0

0.25
-1
0.00
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5
Standardized Residual Observation Order

Figura 7. Grafica mostrando los diagnsticos grficos subjetivistas de los datos de


las concentraciones de sucrosa vs tiempo.

9-26
Grafica de series de tiempo de sucrosa vs tiempo.
Linear Trend Model
Yt = 0.36000 - 0.042400* t
0.325 Variable
Actual
0.300 Fits
Concentracion sucrosa

Accuracy Measures
0.275 MAPE 0.941910
MAD 0.002080
0.250 MSD 0.000007

0.225

0.200

0.175

0.150

1 2 3 4 5
Tiempo (min.)

Figura 7a. Grafica de series de tiempo las mediciones de precisin MAPE, MAD y
MSD. El valor de MAPE = 0.9419 dice que la prediccin del modelo de regresin
pudiera tener un 0.9419 de error.

Analizando la grfica de arriba, se observa que la medicin de la tercera fila (0.238


con 3 minutos) est un poco fuera de la lnea de prediccin (color rojo).

Regresin y correlacin lineal mltiple. En el estudio de regresin lineal mltiple,


el objetivo es construir un modelo probabilstico que relacione una variable
dependiente con dos o ms variables independientes. Siendo as, muchas aplicaciones
del anlisis de regresin involucran situaciones donde se tiene ms de una variable
independiente (en contraste con regresin lineal simple, que tiene, solamente, una
variable independiente). En la mayor parte de los problemas de investigacin se
necesitan muchas variables independientes para ver el efecto en la variable
dependiente. La variable dependiente o de respuesta (Y) puede estar relacionada con
muchas variables independientes o regresoras X1, X2, .., Xk. En el estudio de
regresin lineal mltiple se pueden usar el enfoque matricial.

Aplicaciones de regresin lineal mltiple. El modelo de regresin lineal tiene


aplicaciones en muchos campos, desde el mbito cientfico hasta el mbito social,
pasando por aplicaciones industriales Ejemplos de estas aplicaciones estn con la
ingeniera mecnica, elctrica, la fsica, ingeniera civil de construccin, la
hidrologa, la ingeniera ambiental, en las reas de agua, aire, suelos, etc. Por
ejemplo, en estudios de tecnologas del agua, existen aplicaciones, como en el caso
de proyectos de dilucin usando las corrientes como plantas naturales de degradacin
de remanentes de aguas residuales, el oxgeno disuelto en el agua va en funcin de la
9-27
temperatura, de la velocidad de la corriente, turbulencia, distancia de la descarga,
tipos de zonas bnticas, descargas fugitivas, presin atmosfrica, etc. En este
contexto, McCuen (1986) discute aplicaciones a la hidrologa, relacionadas con el
estudio de la descarga pico, en pies cbicos por segundo (cfs) en funcin de la
precipitacin en pulgadas (in), duracin de la precipitacin (in/da), los das
antecedentes a la precipitacin y as sucesivamente. En este rengln, sin embargo, en
la hidrologa, de acuerdo a Bedient et al. (1988) el rea y el porcentaje de
pearmiabilidad del suelo son los factores ms importantes para una buena
prediccin de volmenes de agua. Nuevamente, estos factores causantes de ruido, si
no se identifican y se eliminan acordemente, pueden degradar el resultado final que
se pretende mejorar.

Diagnsticos o criterios usados en la evaluacin de los modelos de regresin


lineal mltiple. Para la evaluacin de la utilidad de los modelos de regresin lineal
mltiple, estos diagnsticos o criterios son anlogos a los usados en la validacin de
los modelos de regresin lineal simple. Por ejemplo, tambin se pueden hacer anlisis
objetivos, como los clculos de las estadsticas R2, s, PRESS, etc. Igualmente, se
pueden hacer grficos de residuos para complementar la calidad del modelo de
regresin lineal mltiple. Tambin se pueden hacer pruebas de hiptesis e intervalos
de confianza. Sin embargo, en este caso, se puede calcular el coeficiente de
correlacin general y coeficientes de correlacin parciales, es decir, en forma anloga
a como se hace con los coeficientes o, 1, , k.

Coeficiente de determinacin R2 de regresin lineal mltiple. Este coeficiente R2


mide la reduccin proporcionada de la variacin total en Y asociada con el uso de las
variables X1, X2, ,Xk. Para la regresin lineal mltiple, este coeficiente de
determinacin se da por las funciones:

R2 = SSa / SSt (10)


= 1 SSe / SSt (10a)

Donde SSa es la suma de regresin de los cuadrados de los tratamientos, SS t es la


suma total de los cuadrados de los tratamientos y SSe es la suma de los cuadrados del
error, todos stos calculados de la tabla de ANOVA. Este coeficiente R 2 tambin se
puede dar como R2 = SSa / Syy = 1 (SSe / Syy), donde estas variables ya se definieron
anteriormente.
De la misma manera que en el caso de regresin lineal simple, el rango del coeficiente
de determinacin mltiple R2 es 0 R2 1. Como se asent en la seccin de
regresin lineal simple, aqu, en la interpretacin de R2, hay que estar conscientes de
que, un valor grande de R2, no necesariamente implica que el modelo ajustado sea
9-28
bueno. Esto ocurre, porque a pesar de que R 2 sea grande, el error de la media
cuadrtica MSe todava pueda ser muy grande, para sacar inferencias tiles.
Similarmente, un valor bajo de R2, no necesariamente indica que el modelo de
regresin no sea bueno.
En el caso del coeficiente de correlacin mltiple R, este coeficiente es
simplemente, la raz cuadrada de R, es decir, R = R2. Este coeficiente de correlacin
mltiple R es una medida de asociacin lineal entre Y y X 1, X2,,, Xk. Sin embargo,
como en el caso de regresin lineal simple, R2 tiene ventajas sobre R, porque la
medicin de R2 es ms fcil de interpretar, que el coeficiente de correlacin R.
Igualmente, se usa el coeficiente de correlacin (R), el error estndar estimado, s,
PRESS, etc., todo esto, como en el caso de la regresin lineal simple.

Definicin del error estndar estimado s. Para anlisis de regresin lineal mltiple,
el error estndar estimado se define como:

s = [SSe / (n k - 1)]0.5 (11)

Donde k es el nmero de coeficientes (o, 1, 2, , k) del modelo de regresin que


se van a usar.

Este valor de s entre ms difiera de cero, ms factible ser la presencia de ruido de


fondo.
Nota: En regresin mltiple este modelo debe de estimar un parmetro por cada trmino
seleccionado que se incluye en el modelo y cada trmino consume un grado de libertad. Por lo
tanto, la inclusin de trminos excesivos en el modelo de regresin lineal mltiple reduce los
grados de libertad disponibles, para estimar la variabilidad de los parmetros y lo puede hacer
menos confiable.

Igualmente, se pueden hacer grficos de residuos para complementar la calidad del


modelo de regresin lineal mltiple. Tambin se pueden hacer pruebas de hiptesis,
intervalos de confianza, y as sucesivamente.

Otros criterios usados en la validacin del modelo de regresin lineal mltiple


(VIPs, Cp, Eigenvalues, etc.). Hay otros criterios o diagnsticos (aparte de las
anteriores), que se usan en la evaluacin del modelo de regresin lineal mltiple. Para
mencionar algunos son los llamados factores de varianza inflada (VIPs o variance
inflation factors por sus siglas en ingls) y la estadstica Cp de Mallow (para la
contabilizacin del nmero ptimo de variables en el modelo de regresin). Tambin
los Eigenvalues son valores especiales de escalas asociados con sistemas de
ecuaciones lineales e ecuaciones matriciales. En estadstica cuando el valor de los

9-29
Eigenvalues est cercano a cero, esto anuncia colinealidad. En este rengln, para
explicar el concepto de los factores de varianza inflada, es menester definir,
primeramente, algunos trminos como los siguientes:

Multicolinealidad. Colinealidad o multicolinealidad, es la existencia de una


relacin cercanamente lineal entre los pronosticadores que estn correlacionados
con otros pronosticadores. La multicolinealidad severa es problemtica, porque
aumenta la varianza de los coeficientes de regresin hacindolos inestables y
difciles de interpretar. De esta manera, la presencia de multicolinealidad causa toda
clase de problemas de ruido con el anlisis de regresin y es muy importante su
identificacin para corregirla. La multicolinealidad significa que algunas variables
independientes estn correlacionadas con otras variables predictoras.

Efectos de multicolinealidad. La multicolinealidad puede crear estimaciones


inexactas de los coeficientes de regresin, infla los errores estndar de los
coeficientes de regresin, desinfla las pruebas parciales de t para los coeficientes de
regresin, da valores falsos de p que no son significantes. Estas situaciones son
fuentes de ruido experimental que degrada la prediccin del modelo de regresin.

Fuentes de multicolinealidad. Para corregir la colinealidad, se tiene que identificar


su fuente. De acuerdo a Montgomery (1996), hay cinco fuentes de colinealidad:
1. Coleccin de datos. En este caso, los datos se han coleccionado de un subespacio
angosto de variables independientes. La colinealidad ha sido creada por la
metodologa usada en el muestreo. El ruido generado por este problema de
colinealidad se puede mitigar obteniendo ms datos en un rango ms expandido.
2. Otras fuentes de colinealidad son constreimientos fsicos del modelo lineal o
poblacional. Esta fuente de colinealidad existir sin importar que tcnica de
muestreo, se use.
3. Modelo sobre definido. Aqu hay ms variables que observaciones que pueden
ser fuentes potenciales de ruido experimental.
4. Seleccin del modelo o especificacin. Esta fuente de colinealidad viene por usar
variables independientes que son poderes ms altos o interacciones de un juego de
variables originales. Debe de notarse que, si un subespacio de muestreo de Xj es
angosto, entonces, cualquier combinacin de variables con Xj aumentar el
problema de colinealidad, an ms.
5. Valores extremos. Estos valores extremos en el espacio de X pueden causar
problemas de colinealidad y mucha variacin y, por ende, ruido experimental.

Mtodos para la deteccin de colinealidad. Existen varias maneras para detectar


colinealidad y, por ende, de reducir el ruido experimental. Los siguientes pasos, de
9-30
simple a complejo, se usan para detectar la colinealidad.
1. Empezar por estudiar las grficas esparcidas de pares de variables independientes
buscando relaciones cercanamente perfectas. Desafortunadamente, la
multicolinealidad no siempre se muestra cuando se consideran las variables, dos a
un tiempo.
2. Considerar los factores de varianza inflada (VIFs). Los VIFs miden, cuanto de la
varianza de un coeficiente de regresin estimado aumenta, si las variables
pronosticadoras estn correlacionadas. Valores grandes de VIFs anuncian variables
colineales. Como se dijo antes, segn la lgica del Minitab, si los VIFs < 1 no hay
colinealidad, pero si son VIFs > 1 si puede haber colinealidad. Por otra parte, segn
la lgica del programa de cmputo NCSS, para que no haya problemas de
colinealidad el promedio de los VIFs debe ser menor que 10. De acuerdo a esta
fuente de informacin, el promedio de 10 es el VIF mximo aceptable. Aqu es de
saberse que, no hay un consenso bien definido entre los investigadores estadsticos,
acerca de valores aceptables de VIF.
3. Otros factores que se tienen que tomar en consideracin son los llamados
Eigenvalues. La suma de los valores de los Eigenvalues es igual al nmero de
variables independientes. De acuerdo al programa de cmputo NCSS, valores de
Eigenvalues cercanos a cero, dicen que hay colinealidad en los datos, es decir, que
los datos estn correlacionados (hay dependencia). Por ejemplo, un valor de un
Eigenvalue de cero o cercano a cero indica la existencia de una dependencia lineal
exacta.
4. Anlogamente, de acuerdo a la lgica del NCSS, el diagnstico Cp da el nmero
ptimo de variables para el modelo de regresin. Esta estadstica, tambin llamada
estadstica Cp de Mallow, es importante en la seleccin del nmero de variables
incluidas en el modelo de regresin. El valor ptimo de Cp deber estar cercano a (p
+ 1), donde p es el nmero de variables independientes. No obstante, un valor de Cp
mayor (p + 1) indica que el modelo de regresin contiene muchas variables
innecesarias, mismas que llevan al problema de colinealidad. Adems, un modelo
con un Cp menor que (p + 1), indica que el modelo de regresin est
subespecificado o que, cuando menos, una variable independiente fue omitida.
5. Otros estadsticos objetivistas para validar el modelo de regresin mltiple son
las pruebas individuales de t de estudiante, para probar la hiptesis nula de que los
coeficientes de regresin, 1, 2, 3,.. k son iguales a cero. Adems se pueden usar
los intervalos de confianza. Por ejemplo, en regresin mltiple el valor de t de
estudiante se usa para probar la hiptesis de que uno de los coeficientes es igual a
cero, despus de remover la influencia de los otros.
6. Otra estadstica relacionada con regresin lineal mltiple es la estadstica Durbin-
Watson para detectar problemas de autocorrelacin en series de tiempo. Esta
estadstica se calcula como DW = 2(1 - r1). Aqu, debido a que r1 est en el rango de
9-31
-1 y 1, la estadstica de Durbin-Watson est entre 0 y 4. Si la estadstica D-W est
cercana a 2, entonces, r1 est cercana a cero, lo cual indica que los residuos no estn
correlacionados. Sin embargo, si la estadstica D-W es muy diferente de 2 (ya sea
mayor o menor de 2) se dice que los residuos estn correlacionados. Esta situacin
se explicar detalladamente, en el captulo de series de tiempo.
Ms adelante, cuando hablamos de regresin lineal mltiple describiremos los
tipos de modelos regresin lineal mltiple de primer orden con una y ms variables
independientes.
Comentario. Usando un intelectualismo especulativo, aqu es interesante notar que el modelo
econmico de Estados Unidos de Amrica, siempre ha padecido de colinealidad con valores Cp
menores que (p + 1). Esto ocurre, porque cuando hablamos del criterio de Mallow, ste dice que,
un modelo con un Cp menor que (p + 1), dice que el modelo de regresin est subespecificado o
que, cuando menos, una variable independiente fue omitida. Tal parece que ese es el problema con
el actual modelo econmico de E. U., porque se est simulando como si fuera un sistema
independiente del resto de los dems sistemas que interactan con el hombre. Esto dice que, este
modelo econmico no se est modelando al unsono, con los dems sistemas como polticos,
climatolgicos, sociales y dems sistemas que gobiernan con el hombre moderno (A nivel
mundial); se estn omitiendo todas esas variables. Aqu no se est razonando que todos los
sistemas universales (como los sistemas polticos, econmicos, sociales, climatolgicos, etc.) son
partes dependientes de todo un macrosistema o conjunto universal, como parte independiente.
(Ver Paztor 1998). La condicin del actual modelo econmico, es una situacin que no se le ha
dado importancia, porque aparentemente, la economa de E. U., todava no se ha visto seriamente
afectada, aunque algunos economistas arguyen que las predicciones del modelo econmico no son
precisas. (Por ahora, este modelo econmico no ha sido muy seriamente afectado, tal vez por las
influencias polticas y econmicas que, tradicionalmente, se han ejercido a los dems pases). Por
otra parte, de mi punto de vista, sostengo la teora de que, para que pueda haber predicciones ms
precisas, todos los sistemas que interactan con el hombre deben modelarse conjuntamente, es
decir, confabuladamente, para que pueda haber buenas predicciones. Usando un intelectualismo
cientfico imaginativo, el suscrito sostiene la teora de que, si se modelara (al unsono) todo el
conjunto de sistemas universales, que estuvieran en su estado perfecto de equilibrio prstino u
original, la simulacin matemtica, bajo esas condiciones prstinas, dara como resultado final, la
unidad o el equilibrio. Por otro lado, predicciones imprecisas ya se han observado en el modelado
del sistema climatolgico mundial. El problema es que, este sistema se est simulando, como si
fuera una parte independiente del conjunto universal, sin tomar en cuenta los sistemas
econmicos, polticos, sociales, de salud, etc. Como resultado de esta omisin; no ha habido un
consenso definido en los resultados; ha habido disparidad en los resultados obtenidos en los pases
donde se han usado estos modelos que han tomado en consideracin, nicamente, el sistema
climatolgico (como si fuera una parte independiente del resto de los dems sistemas), y no en
combinacin con los dems sistemas que interactan con el hombre (como debiera ser). En
trminos analgicos, para aclarar, aun ms esta situacin, si consideramos, por ejemplo, un
microsistema como el cuerpo humano, sera un error tratar de simular el funcionamiento de cada
rgano como parte independiente del resto del organismo. Es decir, como por ejemplo, del
funcionamiento del corazn o de cualquier otro rgano del cuerpo, como si fuera una parte
independiente de todo el organismo, como unidad independiente. Esto dara resultados

9-32
incorrectos. Esto ocurre as, porque en el caso del cuerpo humano, no se est razonando que
todos los rganos o sistemas de este microconjunto, son partes dependientes de todo el
organismo, como unidad independiente (Ver Paztor 1998).

Modelo de regresin mltiple generalizado. Cuando este modelo general es lineal


en los coeficientes, se denomina modelo de regresin mltiple. Por ejemplo, para el
caso de k variables independientes X1, X2, X3,..., Xk, el promedio est dado por Y|
x1, x2, x3,..., xk y se da por el modelo de regresin mltiple poblacional:

Y = Y|x1, x2, x3,..., xk = o + 1x1 + 2x2 + ...+ kxk + k (12)

Este modelo, tambin se puede expresar con otra anotacin como:

Y j = o + 1X1j + 2X2j + . + kXkj + j (12a)

Los parmetros j, j = 0, 1, 2, 3,.., k se conocen como coeficientes de regresin


poblacionales. Por ejemplo, el parmetro j representa el cambio esperado en la
respuesta Y, por unidad de cambio en Xj, cuando todos los dems pronosticadores
Xi se mantienen constantes. Adems, i y ei son los errores aleatorios o residuos de
poblacin de la estadstica asociados con la respuesta Yi.
El modelo de regresin lineal mltiple de la muestra, que trata de armonizarse
con el modelo poblacional de arriba es:

Y = bo + b1X1 + b2X2 + ... + bk Xk + e (12b)

Donde Y es la variable de respuesta y X1, X2 y Xk son las variables independientes,


que tiene el mismo significado que en el caso del modelo de regresin lineal.
Adems, cada coeficiente de regresin parcial i es estimado por bi. Esto se debe a
qu, cada coeficiente parcial i mide el cambio esperado en Y por unidad de cambio
en X1, cuando X2 se mantiene constante. Igualmente, 2 mide el cambio esperado en
Y por unidad de cambio en X2 cuando X1 se mantiene constante.

Modelo de regresin de primer orden con dos variables independientes. Este


tipo de modelo de regresin debe usarse cuando el investigador estadstico funde
que, en promedio, la variable Y est relacionada linealmente para cada una de las
variables x1 y x2. Este modelo poblacional se describe como:

y = o + 1x1 + 2x2 + (13)


El estimador estadstico del modelo poblacional de arriba es:

Y = bo + b1 x1 + b2 x2 + e (13a)
9-33
Donde Y es la variable dependiente o de respuesta; x1 y x2 son las dos variables
independientes o regresoras; bo, b1, b2 son los coeficientes de regresin y, e es el
residuo o error aleatorio estadstico.

Este modelo de regresin estadstico trata de concordar con el modelo de regresin


poblacional de arriba. (Aqu se espera que la concordancia entre el modelo de
regresin estadstico y el poblacional sea buena, cuando el tamao de la muestra sea
grande y la diferencia entre ei y i sea pequea).

Modelo poblacional de regresin lineal mltiple de primer orden con dos


variables independientes con interaccin. La interaccin ocurre cuando los
efectos de las variables independientes sobre la variable dependiente no son aditivos
o sea que el efecto de una variable independiente depende en los niveles de las otras
variables independientes. En trminos simples, esto significa que el efecto de x1
sobre Y es influenciado por el valor de x2 y tambin significa que el efecto de x2
sobre Y es influenciado por el valor de x1. La ecuacin del modelo poblacional de
regresin de primer orden con dos variables independientes con interaccin se da
como:

y = o + 1 x1 + 2 x2 + 3( x1 x2) + (14)

El modelo estadstico que trata de armonizarse con el modelo poblacional de arriba,


con interaccin se da como:

Y = bo + b1 x1 + b2 x2 + b3 (x1 x2) + e (14)

Donde los componentes de este modelo ya se definieron anteriormente.

Modelo de regresin mltiple con ms de dos variables independientes.

Yi = o + 1xi1 + 2xi2 + + p-1xi,p-1 + (15)

El modelo de regresin estadstico que trata de concordarse con el modelo


poblacional de arriba, es:

yi = bo + b1xi1 + b2xi2 + + bp-1xi,p-1 + e (15)

Donde yi, la variable dependiente o de respuesta que denota la respuesta en las i-


simas tentativas; xi1, xi2, xi,p-1 son las dos variables independientes; bo, b1, b2 son los
9-34
coeficientes de regresin y, e es el error o residual.

Como se asent anteriormente, cuando hablamos de regresin lineal mltiple,


el principal objetivo es la obtencin de la ecuacin de la lnea de regresin muestral,
para prediccin y estimacin, la cual se trata de armonizarse con la ecuacin
poblacional. Sin embargo, antes de poder usar el modelo de regresin calculado,
ste tiene que evaluarse, para ver qu tanta confiabilidad o veracidad se le pueda
dar. La evaluacin o validacin del modelo de regresin estimado se hace a travs
de anlisis objetivos y subjetivos, en forma anloga como en el caso de la regresin
lineal simple. Por ejemplo, los anlisis objetivistas se hacen a travs de funciones
estadsticas de inferencia. Posteriormente, para que la validacin del modelo sea
completa, el procedimiento se complementa usando enfoques subjetivistas, a travs
de anlisis de las grficas de los valores residuos. Si la validacin no es
satisfactoria, se procede con remediacin del modelo, ya sea haciendo
transformaciones de los ejes o probando otros modelos ms apropiados, como
cuadrticos o cbicos, etc. El tpico de regresin polinomial se discutir en breve.

Ejemplo.. Este es un ejercicio relacionado con una variable de respuesta (Y) y dos
variables independientes (X1, X2), para que el lector se familiarice con aplicaciones
de modelos de regresin lineal mltiple. La tabla de abajo da la informacin
pertinente para este ejercicio.

Tabla 9. Tabla mostrando la informacin requerida para este problema de regresin


lineal mltiple con y sin interaccin.

Y X1 X2
1.19824 2.92024 13.000
1.33362 3.32258 13.80
1.39536 3.42011 14.00
1.5000 3.45669 14.20
1.5900 3.56032 14.60
1.7000 4.0000 14.90
1.9000 4.3000 15.40
1.85528 4.12725 15.30
2.25000 4.49301 16.00
2.43727 4.79171 16.200
3.1000 5.16662 16.50
3.40725 5.59943 16.90

9-35
Usando el programa Minitab hacer lo siguiente:
(a) Hacer una grfica sobrepuesta que vaya en funcin de la variable de respuesta y
las variables regresoras.
(b) Describir el modelo poblacional, que represente a estos datos.
(c) Estructurar el modelo de regresin, que estime al modelo poblacional, sin
interaccin.
(d) Validar la utilidad del modelo en (c) usando criterios objetivistas y subjetivistas
(e) Incluir el factor de interaccin en el modelo de regresin. Es factible su
inclusin que pudiera aminorar el ruido y as para mejorar los resultados?
(f) Aplicar un diseo experimental citando la variable de entrada y de salida y la
posible fuente de ruido experimental. Discutir todos los resultados obtenidos. (El
estudiante lo deber hacer)

Solucin:

(a) La grfica se da en la figura de abajo:

Grfica de mediciones
0 2 4 6 8 10 12 14 16
5.0 5.0 Variable
X1
X2
4.5 4.5
Variable de respuesta Y

4.0 4.0

3.5 3.5

3.0 3.0

2.5 2.5

2.0 2.0

0 2 4 6 8 10 12 14 16

Figura. Grfica sobrepuesta de la variable de respuesta Y y las variables


independientes X1 y X2.

(b) El modelo poblacional se da como: y = o + 1x1 + 2x2 +


(c) La estructuracin del modelo de regresin se da en la tabla de abajo.

Tabla. Impreso mostrando los valores obtenidos del modelo de regresin y su


evaluacin correspondiente.
Regression Analysis: Medicin (Y) versus variables regresoras X1 y X2
The regression equation is: Medicion = - 2.63 + 0.524 (X 1) + 0.378 (X 2)

Predictor Coef SE Coef T P VIF


Constant -2.6307 0.7786 -3.38 0.008
Variable independiente X1 0.5237 0.1106 4.74 0.001 7.902
Variable independiente X2 0.37794 0.06492 5.82 0.000 7.902

9-36
s = 0.0916360 R-Sq = 99.0% R-Sq(adj) = 98.7% PRESS = 0.124481 R-Sq(pred) = 98.28%

Analysis of Variance

Source DF SS MS F P
Regression 2 7.1575 3.5787 426.18 0.000
Residual Error 9 0.0756 0.0084
Total 11 7.2331

Grfica de residuales
Grfica de probabilidad normal Versus Fits
99

Residuo estandarizado
1
90
Porcentaje

0
50

-1
10

1 -2
-2 -1 0 1 2 3.0 3.6 4.2 4.8 5.4
Residual estandarizado Valores ajustados

Histograma Versus Order


3

Residuo estandarizado
1
Frecuencia

2
0

1 -1

0 -2
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7 8 9 10 11 12
Residual estandarizado Orden de la Observacin

Figura. Figura mostrando los grficos de residuos que complementan la evaluacin


del modelo de regresin.

(e) La inclusin del factor de interaccin no mejora, de ninguna manera, la calidad


del modelo de regresin. El estudiante deber comprobar y argumentar, porque es
as.

9-37
Figura. Impresin esquemtica de la hoja del Minitab mostrando los datos
originales y los clculos de la interaccin.

Anlisis de regresin con variables transformadas. En estudios de regresin, la


transformacin de los datos es necesaria para asegurarse de que los datos tengan
una distribucin normal, porque en el anlisis de regresin se asume que los datos
son lineales, normales y homoscedsticos. El uso de transformaciones es una
herramienta muy valiosa para controlar el ruido experimental. Siendo as, para
detectar mayores desviaciones de lo normal, lo primero que se tiene que hacer es
graficar los datos. Luego hacer estadsticas descriptivas y analizar la relacin entre
el sesgo y la curtosis. Por ejemplo, una buena indicacin de que los datos son
normales es el sesgo, el cual debe estar en el rango de -0.8 a 0.8 y la curtosis debe
estar en el rango de -3.0 a 3.0. (Ver referencia: http:/www.backrags.com (2015)).
Sin embargo, si los datos no siguen a una distribucin normal, en algunas
ocasiones es necesario hacer transformaciones de las variables del modelo de
regresin, para remediar las fuentes de ruido y as mejorar la calidad de la
prediccin. Keller et al. (1990) discuten varios casos de transformaciones. Por
ejemplo, estos investigadores estadsticos recomiendan hacer una transformacin
logartmica en la ordenada, cuando la varianza del error 2 aumenta a medida que
los valores de y aumentan, es decir, cuando existe el problema de
heteroscedasticidad. Tambin recomiendan hacer este tipo de transformaciones
logartmicas, cuando la distribucin de la variable del error no es normal, esto es,
cuando la distribucin se sesgada hacia la derecha. Igualmente, se recomienda hacer
transformaciones cuadrticas (y = y2), cuando el error 2 es proporcional al valor
esperado de y o cuando la distribucin del error est sesgada hacia la izquierda.
Ms adelante, ellos recomiendan hacer transformaciones de la raz cuadrada de y,
esto es, y, cuando el error 2 es proporcional al valor esperado de y. Finalmente,
estos investigadores recomiendan hacer transformaciones del recproco, es decir, y
= 1/y, es decir, cuando el error 2 significantemente se incrementa, esto es, cuando
el valor de y aumenta ms all de algn valor crtico. Otras transformaciones que se
pueden hacer son transformaciones de raz cbica, transformaciones angulares,
transformaciones del arco-seno para proporciones, etc. Igualmente, otros
investigadores (Sakia, 1992, y Box, 1964) discuten el uso de la familia de
transformaciones de Box-Cox, el cual es un enfoque muy til para transformar los
datos en estudios de regresin lineal.

Ejemplo. Este es un ejercicio de regresin lineal mltiple, usando una variable


dependiente (Y) y dos variables independientes (X1 y X2), cuya finalidad es la
aplicacin de transformaciones (tendientes a mitigar el ruido experimental) para

9-38
encontrar el mejor modelo candidato de regresin que represente los datos.

Tabla mostrando la informacin requerida para este problema.

Y X1 X2
0.19824 1.92024 12.0
0.33362 2.32260 12.8
0.39536 2.42011 13.0
0.50000 2.45669 13.2
0.48796 2.56032 14.0
1.20000 3.80000 13.4
0.70348 2.93218 16.0
0.85528 3.12725 14.3
1.97000 3.49301 13.7
1.43727 3.79171 13.9
2.90000 4.16662 13.8
2.40725 4.59943 14.1

Hacer lo siguiente:
(a) Usando los datos originales de la tabla de arriba, estructurar un modelo de
regresin lineal mltiple
(b) Validar la utilidad del modelo en (a) usando criterios objetivistas y subjetivistas
(c) Hacer una transformacin logartmica (base 10), y con los datos transformados y
estructurar un modelo de regresin lineal mltiple
(d) Evaluar la calidad del modelo de regresin con los datos transformados en (c).
(e) Hacer comentarios acerca de los resultados de los dos modelos. Hubo alguna
una mejora significante al transformar los datos, es decir, de control del ruido
experimental?

Solucin:

Para hacer los clculos con el Minitab proceder como:


Irse a: Stat Regression Regression. En la ventana de dilogo de Regresin
poner los valores de la variable dependiente y las variables independientes. Luego
puntear la ventanilla de Graphs y puntear Four in One y Standardized y
OK. Enseguida, puntear la ventanilla de Variance inflation factors, PRESS y
teclear OK, OK. Esto genera los datos dados en la Figura 9.1 de abajo.

(a) (b) La estructuracin del modelo se da abajo con sus respectivos criterios
evaluadores.
9-39
Tabla. Impreso mostrando los resultados.
Regression Analysis: Y versus X1, X2
The regression equation is: Y = - 0.56 + 1.02 X1 - 0.111 X2

Predictor Coef SE Coef T P VIF


Constant -0.556 1.677 -0.33 0.748
X1 1.0191 0.1542 6.61 0.000 1.193
X2 -0.1112 0.1321 -0.84 0.422 1.193

S = 0.391440 R-Sq = 84.1% R-Sq(adj) = 80.6% PRESS = 2.19073 R-Sq(pred) =


74.75%

Analysis of Variance

Source DF SS MS F P
Regression 2 7.2963 3.6482 23.81 0.000
Residual Error 9 1.3790 0.1532
Total 11 8.6753

Durbin-Watson statistic = 2.91095

Residual Plots for Y


Normal Probability Plot Versus Fits
99
Standardized Residual

2
90
1
Percent

50 0

10 -1

1 -2
-2 -1 0 1 2 0.0 0.6 1.2 1.8 2.4
Standardized Residual Fitted Value

Histogram Versus Order


4
Standardized Residual

3 1
Frequency

2 0

1 -1

0 -2
-2 -1 0 1 2 1 2 3 4 5 6 7 8 9 10 11 12
Standardized Residual Observation Order

Figura. Grfica de residuos usando los datos originales.

(c), (d). La tabla de abajo muestra los resultados despus de hacer las
transformaciones logartmicas.

Tabla. Impreso mostrando los resultados obtenidos al hacer las transformaciones.


Regression Analysis: Log Y versus X1, X2

The regression equation is: Log Y = - 1.74 + 0.408 X1 + 0.0272 X2

Predictor Coef SE Coef T P VIF


Constant -1.7379 0.4853 -3.58 0.006
X1 0.40846 0.04464 9.15 0.000 1.193
X2 0.02717 0.03824 0.71 0.495 1.193

9-40
S = 0.113316 R-Sq = 92.2% R-Sq(adj) = 90.5% PRESS = 0.223182 R-Sq(pred) =
84.98%

Analysis of Variance

Source DF SS MS F P
Regression 2 1.37065 0.68532 53.37 0.000
Residual Error 9 0.11557 0.01284
Total 11 1.48621

Durbin-Watson statistic = 2.13543

Residual Plots for Log Y


Normal Probability Plot Versus Fits
99

Standardized Residual
2
90
1
Percent

50 0

10 -1

1 -2
-2 -1 0 1 2 -0.50 -0.25 0.00 0.25 0.50
Standardized Residual Fitted Value

Histogram Versus Order


3
Standardized Residual

1
Frequency

2
0
1
-1

0 -2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6 7 8 9 10 11 12
Standardized Residual Observation Order

Figura. Grficos de residuos con transformaciones. Ntese la diferencia y mejora


con respecto a la Figura 9.7a.

(e) Se hacen los siguientes comentarios: Al hacer las transformaciones de los datos,
el valor del error estndar estimado s baj de 0.3914 a 0.1133. El valor de R2 subi
a 92.2% de 85.7%. El valor de PRESS baj por una orden de magnitud, es decir, de
2.19 a 0.2231. El valor de F subi a 53.37 de 23.81. En cuanto a los diagnsticos
evaluadores de los residuales, se observa que la grfica de probabilidad normal ms
aceptable con las transformaciones, que sin stas. Tambin ser observa que el error
del MS en la tabla de anlisis de varianza en la baj de 0.1532 hasta 0.0128 en la
tabla de anlisis de varianza. Finalmente, el valor de la estadstica Durbin-Watson
bajo a 2.1354 con respecto a 2.91 de los datos originales. Todas estas mejoras
ocurrieron al hacer transformaciones logartmicas que mitigaron el ruido
experimental.

Ejemplo. Este es un problema de hidrologa relacionado con el flujo promedio anual


(m3/seg) en funcin del rea (km2), la longitud (Km.) y la media anual mxima de
profundidad de lluvia (cm.) de varias cuencas hidrolgicas. En este estudio no se
estn considerando otros factores como temperaturas, impermeabilidad de los suelos,
pendientes, orografa, etc., que pudieran modificar los resultados obtenidos.
9-41
Tabla. La tabla de abajo muestra los datos del flujo (m3/seg), rea de la cuenca (km2),
la longitud de la cuenca (km) y la profundidad media anual mxima (km).
Tabla mostrando los datos de este problema.
Flujo rea Cuenca Longitud cuenca Profundidad media anual mxima
(X1) (X2) (X3) (Y)
214.677 316.293 330 2.3
529.000 605.483 640 8.8
220.000 300.000 280 2.0
476.963 520.541 498 7.2
320.000 245.000 300 6.0
207.775 250.000 249 2.1
280.000 320.000 346 4.0
390.000 350.000 247 5.0

(a) Identificar la variable dependiente (Y) y las variables independientes (X1, X2, X3).
(b) Estimar un modelo de regresin para estas cuencas hidrolgicas, ajustando el
modelo de regresin ms idneo. Valorar su utilidad a travs de diagnsticos
objetivistas y de grficos de residuos. Sugerencia: usar el Minitab.
(c) Existen indicios de errores experimentales serios?
(d) Cree usted que el calentamiento global, mismo que est distorsionando los
patrones de lluvias (por eventos extremos, como muchas inundaciones y/o muchas
sequas) est afectando los flujos promedio anuales y la profundidad promedio anual
mxima de las vertientes hidrolgicas?

Solucin:

(a) La variable dependiente se refiere a la profundidad media anual mxima (cm) y


las variables independientes se refieren al flujo del agua, el rea de la ciencia y la
longitud de la cuenca.
(b) Los resultados de las estadsticas objetivistas se ven en la tabla de abajo:

Tabla. Figura mostrando los resultados impresos del Minitab.


Regression Analysis: Y versus X1, X2, X3
The regression equation is
Y = - 1.58 + 0.0256 X 1 - 0.0207 X2 + 0.0147 X3

Predictor Coef SE Coef T P VIF


Constant -1.5791 0.1176 -13.43 0.001
X1 0.0256174 0.0009232 27.75 0.000 8.661
X2 -0.020736 0.001454 -14.26 0.001 24.533
X3 0.014712 0.001737 8.47 0.003 35.118

9-42
S = 0.100969 R-Sq = 99.9% R-Sq(adj) = 99.9% PRESS = 0.335029 R-Sq(pred) =
99.26%

Analysis of Variance

Source DF SS MS F P
Regression 3 44.984 14.995 1470.83 0.000
Residual Error 3 0.031 0.010
Total 6 45.014

Durbin-Watson statistic = 1.79845

Residual Plots for Y


Normal Probability Plot Versus Fits
99

Standardized Residual
90 1
Percent

50 0

10 -1

1
-3.0 -1.5 0.0 1.5 3.0 2 4 6 8
Standardized Residual Fitted Value

Histogram Versus Order


2.0
Standardized Residual

1
1.5
Frequency

1.0 0

0.5 -1

0.0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7
Standardized Residual Observation Order

Figura. Figura mostrando los grficos de residuos.

(c) Los valores de las varianzas infladas (VIF) estn un poco altos. De esta
perspectiva existe un poco de error experimental.

Ejemplo. Hacer el mismo ejemplo de arriba pero ahora haciendo transformaciones


logartmicas para mitigar el ruido experimental que pueda existir. Para tales fines,
hacer lo siguiente:
(a) Estimar un modelo de regresin para estas cuencas hidrolgicas, ajustando el
modelo de regresin ms idneo, pero ahora usando transformando logartmicamente,
los valores originales. Valorar su utilidad a travs de diagnsticos objetivistas y de
grficos de residuos. Hacer una tabla sealando los valores transformados.
Sugerencia: usar el Minitab.
(b) Se control el ruido de fondo? Sustentar el argumento haciendo comparaciones
entre los diagnsticos objetivistas obtenidos en este ejemplo y con aquellos obtenidos
en el Ejemplo 9.6 de arriba.
Tabla mostrando los valores transformados Log10.

Log Y log X1 Log X2 Log X3


0.36173 2.33179 2.50009 2.51851
0.94448 2.72346 2.7821 2.80618
0.30103 2.34242 2.47712 2.44716
0.85733 2.67848 2.71645 2.69723
9-43
0.77815 2.50515 2.38917 2.47712
0.32222 2.31759 2.39794 2.3962
0.60206 2.44716 2.50515 2.53908

(a) Los resultados para este inciso son:

Tabla. Impreso mostrando los resultados de los diagnsticos objetivistas.


Regression Analysis: Log Y versus log X1, Log X2, Log X3
The regression equation is
Log Y = - 3.01 + 1.71 (log X 1) - 1.70 (Log X2) + 1.45 (Log X3)

Predictor Coef SE Coef T P VIF


Constant -3.0134 0.1654 -18.22 0.000
log X1. 1.7113 0.1492 11.47 0.001 7.316
Log X2. -1.7033 0.2562 -6.65 0.007 17.934
Log X3 1.4451 0.3569 4.05 0.027 31.916

S = 0.0225862 R-Sq = 99.7% R-Sq(adj) = 99.3% PRESS = 0.0106885 R-Sq(pred) =


97.57%

Analysis of Variance

Source DF SS MS F P
Regression 3 0.43826 0.14609 286.37 0.000
Residual Error 3 0.00153 0.00051
Total 6 0.43979

Durbin-Watson statistic = 1.96401

La evaluacin subjetivista de los grficos de residuos se da abajo.


Residual Plots for Log Y
Normal Probability Plot Versus Fits
99
Standardized Residual

1
90
Percent

50 0

10 -1

1
-2 -1 0 1 2 0.4 0.6 0.8 1.0
Standardized Residual Fitted Value

Histogram Versus Order


2.0
Standardized Residual

1
1.5
Frequency

0
1.0

0.5 -1

0.0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7
Standardized Residual Observation Order

Figura. Figura mostrando los grficos de residuos.

b) Si hubo mejoras al mitigar el ruido de fondo. Las siguientes razones sustentan el


argumento:
Con los valores originales:

9-44
S = 0.100969, R2 = 99.9% , R2(adj) = 99.9%, PRESS = 0.335029, R2(pred) =
99.26%. Valor de error cuadrtico medio = 0.01. Estadstica Durbin-Watson statistic
= 1.79845. Promedio de los valores de VIF = 22.77
Con los valores transformados:
S = 0.0225862, R2 = 99.7%, R2(adj) = 99.3%, PRESS = 0.0106885 R2(pred) =
97.57%. Los valores de VIFs tambin bajaron. Valor de la estadstica Durbin-
Watson statistic = 1.96401 se aproxim ms al criterio de 2. Promedio de los
valores de VIF = 19.05

Regresin polinomial. La regresin polinomial o no lineal es un caso especial de la


regresin lineal, en la cual la relacin entre la variable dependiente y la variable
independiente se modelan como un polinomio de un orden k. Dentro del tpico de
regresin no lineal se incluye la regresin polinomial (cuadrtica, cbica, curtica,
etc.), la regresin logstica, regresin con variables transformadas y as sucesivamente.
Con relacin a la regresin polinomial existen modelos polinomiales de segundo
(cuadrticos) o tercer orden (cbicos). Adems, existen modelos con una variable
independiente, con ecuaciones cuadrticas, cbicas o con rdenes ms altos que k = 3.
Tambin hay modelos polinomiales con dos o ms variables independientes, con
ecuaciones de segundo, tercer orden, etc. Igualmente, puede haber modelos de
segundo orden o tercer orden con interaccin. Sin embargo, los modelos polinomiales
que tienen tres o ms variables independientes, con valores de k > 3 son aplicaciones
muy dificultosas y no se discutirn en este texto. Dentro del tpico de regresin,
tambin hay modelos de regresin no lineal, como los modelos de regresin
exponenciales, en los cuales los parmetros no son lineales.

Modelo de regresin polinomial poblacional. El modelo poblacional de regresin


polinomial generalizado se da como:

y = o + 1x + 2 x2 + + k xk + (16)

El modelo estimador estadstico del modelo de regresin poblacional de arriba es:

y = bo + b1x + b2 x2 + + bk xk + e (16)

Modelo polinomial poblacional de segundo orden (k = 2), con una variable


independiente. El modelo polinomial poblacional de segundo orden, con una
variable independiente, con la funcin de respuesta cuadrtica Y se da como:

Y = o + 1x + 2 x2 + (17)

9-45
El modelo polinomial estadstico que estima al modelo polinomial poblacional de
arriba es:

y = bo + b1x + b2x2 + e (17a)

Donde:
y = variable dependiente o funcin de respuesta
bo = intercepto en la ordenada que representa la respuesta media de y, cuando x = 0
b1 = coeficiente de regresin de efecto lineal
b2 = coeficiente de efecto cuadrtico
x = variable independiente o regresora
e = error aleatorio o residuo

La forma bsica de este modelo de regresin polinomial de segundo orden es una


parbola de la forma f(x) = x2, o sea, una parbola abierta hacia arriba, es decir,
cuando b2 > 0. No obstante, cuando b2 < 0, la parbola se abre hacia abajo, y puede
ser de la forma f(x) = -0.5x2 + 4. Estas situaciones se ven en las figuras de abajo.
Grfica de una parbola cuando b > 0 Grfica de una parbola con b < 0.
y

x x

Figura. En la grfica del lado izquierdo, b > 0 y la parbola se abre hacia arriba. En la
grfica del lado derecho, b < 0 y la parbola se abre hacia abajo.

Modelo cuadrtico de regresin con dos variables independientes, sin


interaccin. Este modelo de regresin poblacional se da como:

Y = o + 1 x1 + 2 x2 + 3 x21 + 4 x22 + (18)

Su correspondiente estimador de regresin estadstico es:

y = bo + b1 x1 + b2 x2 + b3 x21 + b4 x22 + e (18)

Donde: y es la variable de respuesta, bo es el intercepto en la ordenada; b1, b2, b3, b4


son los coeficientes de la ecuacin de regresin de efecto lineal. Adems, x21, x22 son
los coeficientes de efecto cuadrtico y e es el error aleatorio.

9-46
Modelo cuadrtico con dos variables independientes con interaccin. El modelo
de regresin cuadrtico poblacional con dos variables regresoras es:

Y = o + 1 x1 + 2 x2 + 3 x21 + 4 x22 + 5(x1x2) + (19)


Su correspondiente concordante de regresin estadstico es:

y = bo + b1 x1 + b2 x2 + b3 x21 + b4 x22 + b5(x1x2) + e (19)


\
Sin embargo, antes de discutir estos modelos de regresin, hay que definir el
trmino interaccin relacionado con regresin polinomial, en la misma forma que
se hizo con la regresin lineal mltiple. Estas condiciones pueden dar a errores
experimentales. Por ejemplo, en el caso de regresin polinomial con dos variables
independientes (x1 y x2) con interaccin, esto significa que no hay aditividad, y al
graficar los resultados hay cruzamiento entre las lneas. Esta situacin puede
indicar la existencia de ruido de fondo. Sin embargo, en el caso de no interaccin,
hay lo que se llama aditividad, y al graficar los resultados las lneas no se cruzan
entre s. De esta manera, si un investigador estadstico sospecha que en sus datos
existe una interaccin entre la variable dependiente (y) y las variables
independientes x1 y x2, entonces, se debe de inclinar por el modelo de segundo
orden con interaccin.

Nota: las aplicaciones de modelos de regresin cuadrtica, con ms de dos variables


independientes son difciles de hacer, porque casi siempre causan problemas de colinealidad
haciendo que los VIFs sean muy altos. Por esta razn, en este texto no se darn ejemplos donde
se involucren ms de dos variables independientes. Sin embargo, el autor los menciona,
nicamente para fines didcticos.

Modelo polinomial poblacional (de segundo orden o cuadrtico), con tres


variables independientes, sin interaccin. El modelo de segundo orden con tres
variables independientes, cuando estas variables no interaccionan entre si (para fines
didcticos) se da como:

y = o + 1x1 + 2 x2 + 3 x3 + 4 x21 + 5 x22 + 6 x23 + (20)

Modelo polinomial poblacional (de segundo orden o cuadrtico), con tres


variables independientes con interaccin. De esta manera, el modelo de segundo
orden con tres variables independientes, con interaccin es:

Y = o + 1x1 + 2 x2 + 3 x3 + 4 x21 + 5 x22 + 6 x23 + 7(x1x2) + 8(x1x3) + 9(x2x3) + (21)


Y el modelo estadstico que trata de concordarse con el modelo poblacional de
9-47
arriba es:

y = bo + b1x1 + b2 x2 + b3 x3 + b4 x21 + b5 x22 + b6 x23 + b7(x1x2) + b8(x1x3) + b9(x2x3) + e (21)

Donde:
y = variable dependiente o funcin de respuesta
bo = intercepto en la ordenada
b7, b8, b9 son los coeficientes del efecto de interaccin entre los pares de variables
x1x2, x1x3 y x2x3
e, ya definido anteriormente

Nota: Nuevamente, el autor menciona someramente estos modelos polinomiales con


tres o ms variables independientes, nicamente con fines didcticos o pedaggicos.

Modelo polinomial poblacional de tercer orden (k = 3), o cbico con una variable
independiente.

y = o + 1 x + 2 x2 + 3 x3 + (22)

El modelo de regresin estadstico que trata de emular al modelo poblacional de arriba


se da como:

Y = bo + b1 x + b2 x2 + b3 x3 + e (22a)
Donde:
Y = variable dependiente
bo = intercepto en la ordenada
b1 = coeficiente de efecto lineal
b2 = coeficiente de efecto cuadrtico
b3 = coeficiente de efecto cbico.
e = error

La Figura de abajo muestra grficas de un modelo cbico.

9-48
y

Figura mostrando la grfica de una ecuacin cbica de la forma f(x) = 2x3 x2 5x.
Nota: Los modelos polinomiales de poderes ms altos que k = 3 deben de usarse con precaucin.
Esto se debe a que, la interpretacin de los coeficientes es difcil, y las interpolaciones pueden ser
peligrosas. Adems, cuando hablamos de modelos con valores de k = 4, o k = 5, el comportamiento
de semejantes modelos es extrao y de aplicaciones raras y, por lo tanto, no se discutirn aqu.

Evaluacin de los modelos de regresin polinomiales. Como se dijo antes, la


regresin polinomial es un caso especial de los modelos de regresin lineal simple y
mltiple. La validacin de estos modelos es anloga a la de los modelos de regresin
lineal. Sin embargo, antes de estar totalmente seguros acerca de la utilidad del modelo
de regresin seleccionado, para fines de prediccin y estimacin, hay que asegurarse
que el modelo represente adecuadamente la relacin entre las variables. Esto se puede
hacer en forma anloga a como se hizo con los modelos de regresin lineal o mltiple.
Esto es, a travs de enfoques objetivistas, es decir, de estadstica de inferencia (R 2, s,
PRESS, etc.), y de enfoques subjetivistas, es decir, de anlisis de grficos de
residuales.
Para la validacin de los modelos de regresin seleccionados, se puede
proceder, jerrquicamente, es decir, ajustando modelos de segundo y tercer orden, con
interaccin y sin interaccin y, luego se explora la posibilidad de ajustar un modelo de
orden ms bajo como modelos de regresin lineal mltiple, pero con interaccin y sin
interaccin.
De cualquier manera, como se dijo antes, para evaluar los modelos de regresin
polinomiales se procede explorando los criterios estadsticos, como el coeficiente de
determinacin mltiple (R2), el error estndar estimado (s), el coeficiente de
determinacin mltiple (R2), el criterio Cp de Mallow, PRESS o, los valores de t, etc.
Adems, se revisan los valores de VIF (factores de varianza inflada; en donde valores
grandes de VIFs indican grandes diferencias entre los coeficientes de regresin
estimados y los estandarizados), es decir, para ver posibles problemas de colinealidad.
Tambin, se puede usar la estadstica de Durbin-Watson para revisar problemas
de autocorrelacin de los residuos, en series de tiempo. Ejemplos de este tipo de
herramienta son los modelos ARIMA. Con respecto a la estadstica D-W, para

9-49
regresin mltiple, de acuerdo a la lgica del programa NCSS, sta dice que, si esta
funcin est cercana a 2, no hay autocorrelacin, pero si es muy diferente de 2,
entonces, si la hay. Similarmente, se pueden usar otros mtodos como Regresin por
Pasos o Todas las Regresiones Posibles, que seleccionan los modelos ptimos
basndose en los criterios arriba citados, es decir, agregando y/o eliminando las
variables independientes o de respuesta. Finalmente, todo esto se puede complementar
analizando, subjetivamente, los grficos de los residuos estandarizados o no
estandarizados, esto es, examinando la prueba de normalidad, residuos versus valores
ajustados, residuos versus los rdenes, etc. Por otro lado, tambin se puede usar lo
que se llama autocorrelacin espacial que esta relacionada con Geoestadistica clsica;
ejemplos de estas herramientas son los variogramas. Este tipo de autocorrelacin o
estadstica espacial se discutir mas adelante.

Clculos y definiciones de los estadsticos objetivistas, para evaluar la utilidad


del modelo polinomial, usando diagnsticos estadsticos como R2, s, PRESS o
criterio Cp de Mallow.
Como se asent anteriormente, el coeficiente de determinacin R2 mide la reduccin
de proporcin de variacin total en Y asociada con el uso de las variables
independientes X1, X2,.. Xp-1. Aqu, cuando p = 1, el coeficiente de determinacin
mltiple se reduce al coeficiente de determinacin lineal simple, es decir, cuando hay
una variable aleatoria X en el modelo de regresin. Este coeficiente de determinacin
usado en la validacin del modelo de regresin lineal mltiple se describe como:

R2 = SSa / SSt (23)


= Syy SSe / Syy (23a)

Dnde: SSa y SSt son las sumas de los cuadrados de los tratamientos y suma de los
cuadrados del total, respectivamente, y donde Syy = SSa + SSe, donde SSe = (yi
Yi)2 o sea la suma de los cuadrados del error

Similarmente, el clculo del estadstico del error estndar estimado se da como:

se = (SSe /n 1 k)0.5 (24)

Donde, SSe = e2i es la suma de los cuadrados del error o residuo ya definido
anteriormente, n es el tamao de muestra y, k es el nmero de coeficientes i
probados. Un valor de se cercano a cero, indica un buen ajuste del modelo, pero sin ser
una medida absoluta de la utilidad del modelo, es decir, sin antes analizar todos los
dems diagnsticos objetivistas y subjetivistas. No obstante, un valor grande de s e
indica un modelo pobre que tiene que mejorarse. El programa Minitab reporta el error
9-50
estndar estimado como s.
Criterio Cp o criterio de Colin Mallow. Este diagnstico est relacionado con el
error cuadrtico medio de un valor ajustado. De acuerdo a una fuente de
informacin ciberntica (ver referencias bibliogrficas), uno de los problemas que
pueden ocurrir con el modelo de regresin es el problema de colinealidad. Esta
situacin comnmente ocurre cuando el investigador incluye muchas variables
independientes en el modelo de regresin, esperanzado a que la prediccin sea
mejor. Sin embargo, si no se es parsimonioso, en la inclusin de las variables
independientes, esto tendr efectos de correlaciones altas, las cuales no se pueden
estimar separadamente. Acordemente, cuando se incluyen muchas variables
regresoras cuyos coeficientes deben ser estimados, se dice que el modelo esta
sobre ajustado (que puede dar a ruido experimental). El peor de los casos ocurre
cuando el nmero de parmetros a ser estimados es ms grande que el nmero de
observaciones de tal manera que, algunos efectos no podrn ser estimados del todo.
De acuerdo a la informacin anterior, si P regresores se seleccionan de un juego de
valores K > P, la estadstica Cp se define como:

SSEp
Cp = - N + 2P (25)
s2
Donde:

N
SSEp = (Yi Ypi)2 es la suma de los cuadrados del error con P regresores
i=1

s2 es la media cuadrtica residual, despus de la regresin sobre el juego completo


de valores de K
N es el tamao de la muestra
P es el nmero de variables independientes
Aunado a lo anterior, generalmente se prefieren valores pequeos de Cp. El modelo
ptimo tiene un valor de Cp cercano a (P + 1), donde, P es el nmero de variables
independientes. Por ejemplo, un Cp > (P + 1) indica que el modelo de regresin
contiene variables innecesarias que puedan dar problemas de colinialidad. Sin
embargo, si Cp < (P + 1), esto indica que se han omitido variables importantes. De
cualquier manera, si no se selecciona el valor apropiado de Cp, esto puede
contribuir al error experimental.
Criterio PRESS. Como se demostr antes, este criterio o diagnstico estadstico
mide, qu tan bien el uso de los valores ajustados, para un modelo pueden predecir las
respuestas observadas de Yi. Modelos con valores bajos de PRESS son deseables,
9-51
porque cuando los errores de prediccin son bajos, tambin lo sern los errores del
cuadrado de prediccin y la suma de estos errores. (Ver Neter et al. 1996, para la
funcin dada por estos autores). A medida que el valor de PRESS se aproxime a cero,
menos ruido experimental existir.

Anlisis grficos, para la evaluacin subjetiva del modelo de regresin. Para hacer
la evaluacin, subjetivamente, de la bondad de ajuste de los modelos polinomiales
usados, son semejantes a aqullos usados en la evaluacin de los modelos de regresin
lineal mltiple. Es decir, la grfica de normalidad, grfica de residuos versus valores
ajustados de Y para la prueba de independencia (la ms recomendada para anlisis de
regresin), valores ajustados vs. rdenes e histogramas de residuos, esto es, de los
residuales vs. la secuencia de las observaciones.
Por ejemplo, en cuanto a la grfica de normalidad, aqu todos los puntos deben
de formar una lnea recta o estar muy cercanos de la lnea de regresin ajustada.
Igualmente, con respecto a la grafica de residuos estandarizados versus valores
ajustados de Y, aqu, debe haber aleatoriedad de los residuos; no debe haber
tendencias crecientes o decrecientes. Adems, debe haber el mismo nmero de
residuos positivos y negativos. De no ser as, se violan las suposiciones del modelo;
situaciones que conllevaran a la presencia de ruido experimental Con respecto a la
grfica del histograma, es decir, de frecuencia vs. residuos estandarizados, las barras
deben de tener una forma de campana, para revisar por la simetra de los datos.
Finalmente, en cuanto a la grfica de residuos estandarizados vs. las rdenes de las
observaciones, nuevamente, aqu debe haber aleatoriedad, sin tendencia creciente o
decreciente, y debe haber el mismo nmero de residuos positivos y negativos.

Anlisis de grficos para diagnosticar colinialidad. Cuando los grficos de residuos


abanderan una correlacin o dependencia casi lineal entre las variables de regresin,
entonces, para mitigar esto, se recomienda hacer transformaciones de la forma: Y=
Log Y, Y = Y 2, Y = Y , Y= 1/Y, etc. Las transformaciones de los ejes se discutirn
en otra seccin.

Este es un estudio acerca de las caractersticas del agua relacionada con la densidad
(g/mL) del lquido (asumiendo que esta agua no contiene impurezas, como el agua
destilada), y la temperatura, en grados Celsius ( oC). El investigador principal
estadstico autor de este libro, contiende que la relacin entre la densidad del agua y
la temperatura se pueden modelar usando un modelo cuadrtico. La tabla de abajo
muestra la informacin requerida. Siendo as, hacer lo siguiente:
(a) Una grfica de diagrama esparcido para visualizar la configuracin de los datos.
Luego hacer la misma grfica ajustando una lnea de regresin cuadrtica.
(b) Estructurar el modelo de regresin que mejor ajuste los datos de las densidades
9-52
en funcin de las as temperaturas del agua (uno cuadrtico de acuerdo al autor de
este estudio).
(c) Validar la utilidad del modelo a travs de diagnsticos estadsticos (R 2, s,
PRESS, tabla de ANOVA) y de grficos de residuales estandarizados.
(d) Con el modelo de regresin seleccionado, confirmar que la densidad del agua es
de 1.0 g/mL, cuando la temperatura es de 4 oC.

Tabla. Datos de la densidad y temperatura.


Temperatura Densidad Temperatura Densidad
o
C (g/mL) (oC) (g/mL)
0 1 19 0.998440
1 0.999994 20 0.998230
3 0.999990 21 0.998040
4 0.999993 22 0.997791
5 0.999970 23 0.997580
7 0.999880 24 0.997320
9 0.999760 25 0.997070
10 0.999680 26 0.996800
11 0.999600 27 0.996530
12 0.999500 28 0.996230
13 0.999370 29 0.995940
14 0.999250 30 0.995620
15 0.99912 17 0.9988
18 0.9986

Solucin:

La variable de entrada o independiente se refiere a la densidad del agua y la variable


dependiente se refiere a la temperatura. Las posibles fuentes de ruido experimental,
pueden ser impurezas que pudiera tener el agua usada en el experimento. Tambin,
los instrumentos para medir la temperatura pudieran contribuir al ruido de fondo.
Otra fuente de ruido pudiera trazarse a un modelo de regresin que no fuera el
adecuado.
(a) La Figura de abajo muestra la grfica de densidad vs. temperatura.

9-53
Grafica de datos de densidad del agua vs temperaturas
0 5 10 15 20 25 30
1.000 1.000

0.999 0.999

Densidad 0.998 0.998

0.997 0.997

0.996 0.996

0.995 0.995
0 5 10 15 20 25 30
Temperatura en grados Celsius

Figura 15. Figura mostrando la grfica de la densidad del agua en funcin de la


temperatura.

(b), (c) De acuerdo al diagrama de arriba, el mejor modelo candidato de regresin es


uno cuadrtico.

Usando el Minitab se obtienen los resultados impresos en la tabla de abajo.


Tabla. Figura mostrando la impresin de los resultados.
Regression Analysis: Densidad versus Temperatura oC., XSQR temperatura
The regression equation is:
Densidad = 1.00 + 0.000029 (Temperatura o
C) - 0.000006 (Temperatura C)2
o

Predictor Coef SE Coef T P VIF


Constant 0.99997 0.00001 159846.70 0.000
Temperatura oC. 0.00002933 0.00000093 31.66 0.000 15.001
XSQR temperatura -0.00000581 0.00000003 -197.97 0.000 15.001

S = 0.0000110915 R-Sq = 100.0% R-Sq(adj) = 100.0% PRESS = 4.250283E-09 R-


Sq(pred) = 99.99%

Analysis of Variance

Source DF SS MS F P
Regression 2 0.000051828 0.000025914 210644.24 0.000
Residual Error 24 0.000000003 0.000000000
Total 26 0.000051831

Durbin-Watson statistic = 2.10504

(d) Usando la ecuacin de regresin arriba calculada, y sustituyendo 4 se obtiene:


Densidad = 1.00 + 0.000029 (4) - 0.000006 (4)2 = 1.00002 contra 1.0000.
El porcentaje de error es de .002%. Esto posiblemente se atribuya a algunas fuentes
de error experimental de laboratorio, como impurezas en el agua, termmetros mal
calibrados o tcnicos de laboratorio no bien entrenados. El valor de la estadstica
9-54
Durbin=Watson de 2.10504 (lo ideal es 2) indica que la distribucin de las
densidades est un poco sesgada a la derecha, lo que puede atribuirse al .002% de
error.
Residual Plots for Densidad
Normal Probability Plot Versus Fits
99

Standardized Residual
Percent 90 2

50
0
10

1 -2
-3.0 -1.5 0.0 1.5 3.0 0.996 0.997 0.998 0.999 1.000
Standardized Residual Fitted Value

Histogram Versus Order


8

Standardized Residual
2
6
Frequency

4
0
2

0 -2
-2 -1 0 1 2 3 2 4 6 8 10 12 14 16 18 20 22 24 26
Standardized Residual Observation Order

Figura. Grficas de residuos, para complementar la validacin del modelo


cuadrtico.

Metodologa para mitigar valores altos de VIFs causantes de colinealidad en


problemas de regresin polinomial cuadrtica o cbica--Centrado de valores
de X. Como se ha estado mencionando, el problema de colinealidad causa toda
clase de problemas en la prediccin del modelo de regresin. Estas circunstancias
son fuentes de errores experimentales. El investigador estadstico Devore (2000)
discute un procedimiento para reducir los valores de los VIFs. Este mtodo consiste
en generar una nueva variable X prima. Esto se hace por medio de restarle la media
de los valores de X a cada valor X i para obtener la nueva variable X = X i - X , para
luego usar los valores de la X i en lugar de las Xs. Este mtodo se puede aplicar a
problemas de regresin cuadrtica, cuando los valores de los VIFs son ms altos
que el criterio de 10. De acuerdo a esta informacin, el modelo poblacional
cuadrtico que se obtiene bajo estas circunstancias es:

Y = o* + 1*(X X ) + 2* (X X )2 + (26)

Y su estimador estadstico es:

Y = bo* + b1*(X X ) + b2* (X X )2 + e (26)

Ejemplo. Este es un ejemplo encaminado a demostrar como el centrado de valores de


X pueden controlar los VIFs y, por consiguiente, el ruido experimental. Para esto se
dan los siguientes datos en la tabla de abajo y se requiere ajustar un modelo de
9-55
regresin cuadrtico. Sin embargo, si VIFs o los valores de varianza inflada (que
causan problemas de colinealidad y, consecuentemente, de ruido) son mayores que los
criterios aceptables, entonces, restarle el valor de la media de cada Xi para obtener X
= Xi - X y generar una nueva variable X prima. Todo esto, para mitigar los problemas
de colinealidad (y de ruido), y por lo tanto, de refinar la calidad de los resultados, es
decir, para describir el comportamiento de la funcin de regresin cerca del centro de
la media de los datos.

Tabla. Tabla mostrando los datos de este ejemplo.


X Y
0 9.1
1 7.3
3 5.2
4 4.8
6 5.7
7 7.0
8 8.5
9 10.5
2 6.0
5 5.2

Hacer lo siguiente:
(a) Obtener el modelo de regresin cuadrtico y evaluar su utilidad usando criterios
estadsticos objetivistas como R2, R2ajustado, error estndar de estimacin y PRESS y
complementar la evaluacin usando grficos subjetivos.
(b) Si los valores de los VIFs son mayores que 10, centrar los valores de X y generar
una nueva variable X prima. Luego, calcular una nueva ecuacin de regresin.
(c) Enseguida, comparar los valores de los coeficientes de cada una de las ecuaciones
de regresin obtenidas en (b) y (c). Se control el ruido experimental?
(d) Decir que fue lo que cambi y que fue lo que qued igual.

Solucin:

(a) La tabla impresa de abajo muestra los resultados del modelo de regresin
cuadrtico usando los valores originales.

Tabla. Tabla mostrando los impresos del modelo de regresin cuadrtico usando los
valores originales.
The regression equation is: y = 9.06 - 2.00 X + 0.241 (X) 2

9-56
Predictor Coef SE Coef T P VIF
Constant 9.05545 0.06959 130.13 0.000
X -1.99568 0.03601 -55.42 0.000 13.656
xsqr 0.240530 0.003852 62.45 0.000 13.656

s = 0.0885061 R-Sq = 99.8% R-Sq(adj) = 99.8% PRESS = 0.129428 R-Sq(pred) = 99.61%

Analysis of Variance

Source DF SS MS F P
Regression 2 32.906 16.453 2100.39 0.000
Residual Error 7 0.055 0.008
Total 9 32.961

Nota: Los valores de los VIFs se dan en color lila.

La grfica de abajo muestra la evaluacin del modelo usando criterios subjetivistas.

Grfica de residuaes para y.


Grfica de probabilidad normal Versus Fits
99 2
Standardized Residual

90 1
Porcentaje

50 0

10 -1

1 -2
-2 -1 0 1 2 5.0 7.5 10.0
Residual estandarizado Valor ajustado

Histograma Versus Order


3 2
Standardized Residual

1
Frecuencia

2
0

1
-1

0 -2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7 8 9 10
Residual estandarizado Orden de la observacin

Figura. Evaluacin subjetiva del modelo a travs de grficos de residuos.

(c) Debido a que la media de los valores de los VIFs son ms altos que el criterio de
10, se procede a restarle la media a los valores originales de Xi. El diagrama de
abajo muestra la tabla impresa del Minitab, con los valores de VIFs reducidos.
Tabla 14b. Resultados impresos usando los valores generados de X prima.
Regression Analysis:
The regression equation is
y = 4.95 + 0.169 (x - 4.5) + 0.241 (x - 4.5) 2

Predictor Coef SE Coef T P VIF


Constant 4.94563 0.04234 116.79 0.000
x - 4.5 0.169091 0.009744 17.35 0.000 1.000
XSQR (x-4.5) 0.240530 0.003852 62.45 0.000 1.000

s = 0.0885061 R-Sq = 99.8% R-Sq(adj) = 99.8% PRESS = 0.129428 R-Sq(pred) = 99.61%

Analysis of Variance

Source DF SS MS F P
Regression 2 32.906 16.453 2100.39 0.000

9-57
Residual Error 7 0.055 0.008
Total 9 32.961

Aqu se nota que los valores de los VIFs bajaron considerablemente (color lila).
Esta situacin, desde luego, mitigo el ruido experimental.

(d) Las ecuaciones de regresin con los valores originales y los transformados se
dan como: y = 9.06 - 2.00 (X) + 0.241 (X)2
y = 4.95 + 0.169 (X - 4.5) + 0.241 (X - 4.5)2

(e) Lo que cambi, desde luego, fueron los valores de los VIFs y los coeficientes de
los dos modelos de regresin. Los valores de T y de p tambin cambiaron. Todo
mitigo el error experimental, por lo tanto, optimizando los resultados.

Ejercicios

9.1. Este es un ejemplo relacionado con la altura y la edad de una muestra aleatoria
de chiquillos. La tabla de abajo da la informacin pertinente a este problema.

Edad Altura Edad Altura


(Cont.) (Cont.)

2 30.0 7 44.0

3 32.5 8 47.2

4 35.3 9 50.0

5 38.0 10 52.7

6 41.0

Hacer lo siguiente:
(a) Identificar la variable independiente y la variable dependiente. Luego hacer una
grfica con los datos.
(b) Establecer la ecuacin de regresin para fines de prediccin. Luego evaluar la
utilidad del modelo a travs de diagnsticos objetivistas (R2, s, PRESS, error
cuadratico medio y valor de p en la tabla de ANOVA), y subjetivistas (Grficos de
residuos).

9-58
(c) Del punto de vista de diseos experimentales, identificar las fuentes potenciales
de ruido experimental, Cree usted que los resultados sean absolutamente
confiables?
Respuesta:
(a) La variable independiente es la altura y la dependiente la edad. La grafica se da abajo.
Grafica de las alturas en funcion de la edad.
1 2 3 4 5 6 7 8 9 10
55 55

50 50

45 45
Altura

40 40

35 35

30 30

1 2 3 4 5 6 7 8 9 10
Edad

(b) La ecuacin de regresin y los diagnsticos objetivistas y subjetivistas se dan abajo.


Altura = 23.9 + 2.88 (Edad). s = 0.225322 R-Sq = 99.9% R-Sq(adj) = 99.9%. PRESS = 0.647936 R-Sq(pred) =
99.87%
Tabla de ANOVA (error cuadratica medio = 0.05, p << 0).
La evaluacin subjetivista de grficos de residuos es:
(c) Del punto de vista de diseos experimentales, las fuentes potenciales de ruido experimental pudieran remontarse a la
falta de homogenizacin de las caractersticas de los nios como la herencia, etnicidad, antecedentes mdicos clnicos,
etc. Si se puede afirmar que los resultados sean razonablemente fidedignos, al juzgar por la grfica de alturas vs edades
y los diagnsticos objetivistas que apoyan la idea de que existe poco ruido experimental.

9.2. Este es un ejercicio relacionado con la estructuracin de la ecuacin de


regresin y su validacin objetivista usando los estadsticos de R2, error estndar
estimado, s, y PRESS, es decir, usando los datos que siguen a una funcin
diferencial de segundo orden. Para esto se da la grfica de abajo y sus
correspondientes evaluaciones objetivistas de s, R2, PRESS, etc.

Grafica del inverso de las concentraciones vs tiempo.


0 50 100 150 200 250 300
280 280

260 260

240 240
1/ concentracion

220 220

200 200

180 180

160 160

140 140

120 120

100 100

0 50 100 150 200 250 300


Tiempo (seg.)

s = 0.407697 R-Sq = 100.0% R-Sq(adj) = 100.0% PRESS = 2.34965 R-Sq(pred) = 99.99%

(a) Se requiere establecer la ecuacin de regresin que represente la grfica de


arriba usando la frmula de la pendiente de la lnea: m = (y2 y1) / (x2 x1) y la
ecuacin de punto intercepto dada como: (y y1) = m (x x2). Una vez estructurada
la ecuacin de regresin, calcular la concentracin en 250 segundos.

9-59
(b) De acuerdo a la lgica de un diseo experimental, Cree usted que los resultados
de la ecuacin de regresin calculada en (a), sean autenticos?
Respuesta:
(a) 1/conc. = 99.8 + 0.543 (Tiempo, seg.)
(b) Deben ser asi, aunque no absolutamente. Porque?

9.3. En investigaciones de qumica relacionadas con la contaminacin del agua, se


sabe que los metales pesados, como el mercurio (Hg), cromo (Cr), plomo (Pb), etc.,
pueden contaminar las aguas para uso domstico. Los compuestos de mercurio,
especialmente, los compuestos orgnicos son altamente venenosos, como en el caso
del compuesto de mercurio CH3HgSCH3 (ver Atkins et al. 1989). De acuerdo a esta
fuente de informacin, desperdicios de compuestos de Hg fueron los causantes de 52
muertes en Minimata, Japn, en 1952. De cualquier manera, en este estudio en
particular se calcularon las medias de varios aos en una planta piloto usada para las
reducciones de las concentraciones de Hg, en microgramos por litro (g/L), antes y
despus del tratamiento. Los resultados de las concentraciones de Hg se dan abajo.
Tabla mostrando los datos.

Entrada del Efluente Entrada Efluente


flujo (g/L) (g/L) (Cont.) (Cont.)
250 19 700 60
290 22 900 80
270 21 1000 85
100 11 200 17
300 23 800 68
410 33 500 35
110 10 820 78
130 12 50 7
1100 100 350 20
600 48 450 45

Desarrollar los siguientes enunciados:


(a) Aplicar un diseo experimental e identificar la relacin causal entre la variable de
entrada y la variable de salida. Tambin, identificar las potenciales fuentes de ruido
que puedan afectar la precisin de los resultados.
(b) Hacer un diagrama esparcido con los datos dados.
(c) Encontrar el modelo de regresin que mejor ajuste los datos.
(d) Evaluar la calidad del modelo seleccionado usando diagnsticos objetivistas (R2,
s, PRESS, tabla de ANOVA, etc.) y subjetivistas (grficos de residuos).

9-60
(e) Usando el modelo de regresin ms idneo, calcular Y cuando X = 300.

9.4. Con la qumica del agua es bien sabido que la solubilidad de muchos gases va
en funcin de la temperatura. Esto dice que, a mayor temperatura, los gases como el
oxgeno, metano (CH4), bixido de carbono (CO2), etc., su solubilidad disminuir
(asumiendo que el agua no contenga impurezas). Lo contrario tambin es correcto,
porque a medida que disminuye la temperatura, la solubilidad de estos gases
aumenta. En este estudio se da una tabla con las concentraciones promedio de CO 2
en milimoles/litro (mM/L) en funcin de la temperatura en grados Celsius.
Tabla mostrando los datos de este ejercicio.
Solubilidad de CO2 Temperatura
(mM/L) (oC)
74.4405 0
70.1054 2
63.4340 5
59.1455 7
53.5170 10
50.4000 12
45.4630 15
42.5210 17
38.47470 20
35.87350 22
32.45970 25

Hacer lo siguiente:
(a) Una grfica de mM/L en funcin de la temperatura en oC. Mejorara la
representacin grfica con una transformacin logartmica?
(b) Es la reaccin de primer orden en la concentracin de la solubilidad?
(c) Estimar la ecuacin de regresin que mejor ajuste los datos. Evaluar la utilidad
del modelo a travs de diagnsticos objetivistas y de grficos de residuos.
(d) Usando la ecuacin de regresin, calcular la concentracin de CO2 a 3 oC.
(e) Existen problemas de ruido experimental que puedan comprometer los
resultados?
Respuesta:
(a) Las grficas son:
Scatterplot of Solubilidad vs Temp. Scatterplot of Ln Solubilidad vs Temp.
80 0 5 10 15 20 25

4.3 4.3
70 4.2 4.2

4.1 4.1
60
Solubilidad

Ln Solubilidad

4.0 4.0

3.9 3.9
50 3.8 3.8
3.7 3.7
40 3.6 3.6

3.5 3.5

30 3.4 3.4
0 5 10 15 20 25 0 5 10 15 20 25
Temp. Temp.

(b) La ecuacin es de primer orden


(c) Ln solubilidad = 4.31 - 0.0333 (Temperatura)
(e) Absolutamente, no existen problemas de ruido de fondo, porque los resultados as lo atestiguan

9-61
9.5. Este es un estudio problemtico relacionado con el rendimiento de combustible,
medido en millas por galn y la velocidad de los vehculos, medida en millas por
hora. En este rengln es bien sabido que existe una relacin directamente
proporcional entre la velocidad del vehculo de combustin interna y el rendimiento
del combustible. De esta manera, cuando los vehculos transitan a altas velocidades,
hay ms consumo de combustible, circunstancias que est distorsionando el clima,
por las emisiones de gases de invernadero inherentes de las emisiones vehiculares.
De manera que, para el establecimiento de modelos computacionales para fines de
prediccin es muy importante tomar en consideracin todos los factores que puedan
afectar la relacin rendimiento-velocidad y la generacin de contaminantes
atmosfricos. Algunos de estos factores son el tipo de vehculo, ya sea grande,
mediano o pequeo. Otros factores son la edad del vehculo, el manteamiento que se
le d, la carga que pueda llevar, la presin adecuada de los neumticos, la poca del
ao que se desee tomar en cuenta, el tipo de combustible, los aditivos que se le
puedan agregar al motor, el tipo de aceite usado, la regin geogrfica donde se vaya
a hacer el estudio, la manera de manejar el vehculo, el nmero de pasajeros, etc.
Todos estos son factores o variables que, si no se consideran adecuadamente,
pueden ser fuentes potenciales de error experimental estadstico. Estas son
circunstancias que puedan degradar la precisin del modelo estadstico-matemtico
que se desee establecer. Para tales fines, se seleccion un tramo carretero en cierta
regin del hemisferio norte y se tom una muestra aleatoria de 31 casos
promediados durante 10 aos. Los datos se dan en la tabla de abajo.
Tabla mostrando los datos pertinentes a este problema con los datos originales.

Rendimiento Velocidad Rendimiento Velocidad


(mi/gal) (mi/hr) (Cont.) (Cont.)
15.5 30 10.0 82 Se requiere hacer lo
15.0 60 12.0 68 siguiente:
9.0 80 17.0 25 (a) Una grfica que vaya
11.0 95 20.0 33 en funcin del
5.6 100 15.0 48 rendimiento del
7.5 90 17.0 53 combustible y la
11.0 85 15.0 62 velocidad del vehculo
11.5 75 10.8 72 ajustando un modelo de
13.0 70 19.5 20 regresin lineal.
10.0 65 19.0 28 (b) Calcular la ecuacin
13.5 55 17.0 43 de regresin lineal y
14.0 50 12.0 78 enseguida evaluar la
utilidad del modelo a
13.0 45 25.0 22
travs de diagnsticos
16.0 40 19.0 38
16.0 35 12.0 9-62 58
7.0 97
objetivistas, como el coeficiente de determinacin R2, el coeficiente del error
estndar estimado s, el valor de PRESS y tabla de ANOVA. Enseguida, evaluar la
confiabilidad del modelo a travs de grficos de residuales.
(c) Existe error experimental que pueda degradar los resultados? Dar una
explicacin narrativa de las secuelas.
Respuesta:
(a) La grafica es:
Grafica del rendimiento (m/ gal.) en funciion de la velocidad (mi/ hr)
10 20 30 40 50 60 70 80 90 100

25 25
Rendimiento (mi/ gal) con ruido.

20 20

15 15

10 10

5 5
10 20 30 40 50 60 70 80 90 100
Velocidad (mi/ hr) con ruido..

(b) Los resultados para este inciso son:


The regression equation is
Rendimiento (mi/gal) = 23.2 - 0.162 (Velocidad, mi/hr)

Predictor Coef SE Coef T P VIF


Constant 23.2491 0.9343 24.88 0.000
Velocidad (mi/hr) con ruido.. -0.16194 0.01493 -10.85 0.000 1.000

S = 1.92643 R-Sq = 80.2% R-Sq(adj) = 79.5%


PRESS = 126.758 R-Sq(pred) = 76.71%

Analysis of Variance

Source DF SS MS F P
Regression 1 436.59 436.59 117.64 0.000
Residual Error 29 107.62 3.71
Total 30 544.21

(c) Al analizar los valores estadsticos objetivistas de R 2= 80.2, s = 1.9264, PRESS = 126.758 y los valores de la tabla de
ANOVA, es muy factible que pudiese existir ruido experimental, porque lo ideal de R 2 es que est lo ms cercanamente
posible a 100%; situacin que no ocurri aqu. Adems el valor del error estndar estimado, s, lo ideal es que se
aproxime a cero. Tambin el valor de PRESS es muy alto, lo que sugiere mucha dispersin de los puntos en la grfica.
Adems, en las grficas de residuos de la grfica de probabilidad normal, hay varios puntos que se alejan de la lnea de
los cuadrados mnimos. Igualmente se observa que el histograma est muy sesgado hacia la derecha. Estos resultados
son un poco preocupantes, porque sugieren la existencia de ruido experimental. Lo que se recomienda en este instante,
es de hacer un refinamiento de los procedimientos y de las tcnicas de campo, para que se pueda controlar el error
experimental y por ende, la optimizacin del modelo de prediccin.

9.6. Con respecto al estudio anterior de los vehculos contaminantes, se observ que
los valores de R2, s, PRESS y los valores de la tabla de ANOVA acogieron ruido
experimental. Por lo tanto se procedi a agrupar por caractersticas similares los
factores que afectaron la relacin rendimiento-velocidad y la generacin de
contaminantes atmosfricos. Para corregir estas interferencias se corrigieron los
valores extrnsecos y se estructur una tabla similar a la del estudio anterior con los
valores corregidos. Posteriormente se procedi a evaluar el nuevo modelo con los
resultados obtenidos despus de controlar el ruido de fondo. La tabla de abajo
muestra este nuevo contrato.
Tabla mostrando los datos pertinentes a este problema, sin ruido.
Rendimie Velocidad Rendimiento Velocidad

9-63
nto (mi/hr) (mi/gal) (mi/hr)
(mi/gal) (Cont.) (Cont.)
18.0 30 8.5 82
12.5 60 11.0 68
9.0 80 19.0 25
6.5 95 17.5 33
5.6 100 15.0 48
7.5 90 14.0 53
8.0 85 12.5 62
10.0 75 10.8 72
11.0 70 19.5 20
11.8 65 18.0 28
13.5 55 15.5 43
14.0 50 9.3 78
15.0 45 18.9 22
16.0 40 16.3 38
17.0 35 13.0 58
6.0 97

Hacer lo siguiente:
(a) Una grfica que vaya en funcin del rendimiento del combustible y la velocidad
del vehculo ajustando un modelo de regresin lineal, es decir, con los nuevos
valores.
(b) Calcular la ecuacin de regresin lineal y enseguida evaluar la utilidad del
modelo a travs de diagnsticos objetivistas, como el coeficiente de determinacin
R2, el coeficiente del error estndar estimado s, el valor de PRESS y tabla de
ANOVA. Enseguida, evaluar la confiabilidad del modelo a travs de grficos de
residuales.
(c) Dar una explicacin narrativa de los resultados por medio de hacer
comparaciones entre los resultados del ejercicio anterior donde haba errores
experimentales y con los nuevos resultados con el ruido experimental controlado.
Respuesta:
(a) La grafica usando los valores depurados se da abajo.
Grafica del rendimiento (m/ gal.) en funciion de la velocidad (mi/ hr), sin ruido
10 20 30 40 50 60 70 80 90 100
20.0 20.0

17.5 17.5
Rendimiento (mi/ gal)

15.0 15.0

12.5 12.5

10.0 10.0

7.5 7.5

5.0 5.0
10 20 30 40 50 60 70 80 90 100
Velocidad (mi/ hr)

(b) Los diagnsticos objetivistas y subjetivistas con los valores depurados se dan abajo.
The regression equation is
Rendimiento (mi/gal) sin ruido = 23.1 - 0.175 (Velocidad,mi/hr)
Predictor Coef SE Coef T P VIF
Constant 23.0778 0.0920 250.94 0.000
Velocidad (mi/hr) sin ruido -0.174924 0.001470 -119.03 0.000 1.000

S = 0.189613 R-Sq = 99.8% R-Sq(adj) = 99.8% PRESS = 1.18743 R-Sq(pred) = 99.77%


Analysis of Variance
Source DF SS MS F P

9-64
Regression 1 509.38 509.38 14167.96 0.000
Residual Error 29 1.04 0.04
Total 30 510.43
La evaluacin subjetivista se da en la figura de abajo.
Residual Plots for Rendimiento (mi/ gal) sin ruido
Normal Probability Plot Versus Fits
99 2
Standardized Residual

90 1
Percent

50 0

10 -1

1 -2
-2 -1 0 1 2 5 10 15 20
Standardized Residual Fitted Value

Histogram Versus Order


8 2
Standardized Residual

6 1
Frequency

4 0

2 -1

0 -2
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Standardized Residual Observation Order

(c) Se hacen los siguientes comentarios: Al controlar el ruido experimental, el valor de R 2 = 99.8 aument
sustancialmente con respecto a 80.2. El valor del error estndar estimado s = 0.1896 disminuy por una orden de
magnitud con respecto a 1.9264. Igualmente, el valor de PRESS = 1.1874 disminuy considerablemente, con respecto a
126.758. Los valores de la tabla de ANOVA tambin mejoraron, porque el error cuadrtico medio de 0.04 bajo
significantemente con respecto al valor de 3.71, con ruido. Con respecto a la evaluacin subjetiva, se observa que en la
grfica de probabilidad normal, mejor notablemente con respecto a la anterior con ruido de fondo y as sucesivamente.
Por todo lo anteriormente descrito se concluye que el ruido experimental fue prcticamente eliminado, al refinar las
tcnicas de campo o de laboratorio; condiciones que optimizaron la calidad del modelo buscado.

9.7. Este es un artculo de qumica relacionado con la solubilidad del oxgeno, en


unidades de milimoles por litro (mM/L), en funcin de la temperatura (oC). La
disminucin de la solubilidad de oxgeno en el agua, a medida que la temperatura del
agua aumenta, es uno de los efectos de la llamada contaminacin termal (producida
por enfriamiento de calderas en procesos industriales, plantas elctricas o plantas
nucleares, y cuya agua caliente es arrojada a los lagos o ros). Este efecto es una
situacin muy seria en vasos profundos de agua, porque el agua caliente es menos
densa que el agua fra. Por lo tanto, el agua caliente tiende a permanecer arriba del
agua fra, es decir, en la superficie del agua. Esta situacin impide la disolucin del
oxgeno a aguas ms profundas, lo que ocasiona el sofocamiento de la respiracin de
la vida acutica que necesita del oxgeno disuelto. Todo esto sin mencionar el efecto
en el metabolismo (que el agua caliente lo acelera) de la fauna marina (lo que ocasiona
que los contaminantes en el agua sean mayormente absorbidos por la fauna marina
expuesta). De un punto de vista intelectual especulativo, el calentamiento global
pudiera estar causando efectos similares en aguas marinas, ros, lagos, etc., aunque
muy difcil de probar. De cualquier manera, este problema est relacionado con la
solubilidad del oxgeno (en milimoles/L, con presin constante de 760 mm Hg sobre la
solucin), en funcin de la temperatura.
Tabla mostrando la informacin requerida.
Solubilidad del O2 Temperatura
(mM/L) (oC)
2.11 0
1.89 5
1.69 10
1.51 15
1.37 20
1.25 25
9-65
1.14 30
1.05 35

Hacer los siguientes clculos:


(a) Identificar la variable dependiente y la variable independiente y hacer un diagrama
esparcido.
(b) Ajustar el modelo de regresin ms idneo.
(c) Con el modelo de regresin calculado en (b) predecir la solubilidad del oxgeno, en
mM/L, cuando la temperatura es de 60 oF o su equivalente en oC.
Respueta:
(a) Solubilidad de O2 es la variable de respuesta y la temperatura es la independiente. La grfica es:
Scatterplot of Solubilidad del oxigeno_ 1 vs Temperatura_ 1
2.2

2.0
Solubilidad del oxigeno_1

1.8

1.6

1.4

1.2

1.0

0 10 20 30 40 50
Temperatura_ 1

(b) Uno cuadrtico. Solubilidad del oxgeno = 2.11 - 0.0461 (Temperatura) + 0.000459 (Temperatura) 2.
(c) 1.399 mM/L

9.8. Cuando se habla de mediciones de ozono (O3), es necesario aclarar que hay dos
tipos de ozono (O3): el ozono natural (bueno) situado en la estratosfera, que nos
protege de la daina radiacin ultravioleta y el ozono artificial (malo), que se
genera a nivel del suelo, mismo que se discute en este ejercicio. El O3 artificial es un
gas contaminante secundario que se forma por la reaccin qumica entre los xidos
de nitrgeno (NOx) y los compuestos orgnicos voltiles (COV), en la presencia de
luz solar y la temperatura. Por esta razn, las concentraciones del ozono malo son
ms altas en verano y alcanzan los mximos al medio da. Los ingredientes qumicos
que intervienen en la formacin del O3 malo son las emisiones vehiculares e
industriales, vapores de la gasolina, solventes qumicos y compuestos orgnicos
voltiles y el calor. El O3 artificial es el principal constituyente en la formacin del
llamado smog fotoqumico. Los estndares del ozono por 8 horas son de 0.075
partes por milln (ppm) y de 0.012 (ppm), para 1 hora. De acuerdo a la
Environmental Protection Agency (EPA) de los E. U. A., la exposicin al O3
artificial (ms comn en verano) puede ocasionar varios problemas sintomticos de
salud, como dolor de pecho, tos, irritacin de la garganta, irritacin de los ojos y
congestin. Adems puede agravar los sntomas de la bronquitis, enfisema y el asma
(que no son enfermedades particulares, sino sntomas de enfermedad, que no es lo
mismo). La exposicin continua al O3 puede causar cicatrices permanentes en los
tejidos pulmonares. Para este estudio se usaron datos reales provenientes de dos
estaciones de muestreo localizadas en El Paso, Texas, U.S.A., llamadas Chamizal
y UTEP. Estas estaciones de muestreo son manejadas por la EPA, a travs de la
agencia estatal ambiental del estado de Texas (TNRCC). La informacin se tom
cada hora por 365 das del ao correspondientes al periodo (1999-2004). Esto

9-66
equivali a 37,265 entradas. Despus, se calcularon los promedios mensuales, en
unidades partes por billn (ppb), para cada uno de los 6 aos. Aqu, se asume que
hay dependencia entre las concentraciones de ozono captadas por los dos
muestreadores. Las tablas de abajo muestran las concentraciones promedio de O 3
(ppb), para las estaciones de muestreo Chamizal y UTEP.
Tabla mostrando las concentraciones promedio de ozono a nivel del suelo (ppb),
para la estacin muestreadora Chamizal correspondientes al periodo (1999-2004).

Promedios de ozono Promedios de ozono Meses


(Chamizal) (UTEP)
17.36 18.49 Enero
21.62 21.83 Febrero
30.25 32.286 Marzo
34.91 36.11 Abril
38.1 37.68 Mayo
38.59 40.39 Junio
40.21 41.6 Julio
37.79 39.82 Agosto
31.87 33.77 Septiembre
22.94 24.25 Octubre
18.31 19.23 Noviembre
15.59 16.74 Diciembre

Hacer lo siguiente:
(a) Hacer grficas de probabilidad normal para cada uno de los 12 meses, para el
periodo (1999-2004), para los datos de las dos estaciones de muestreo, para revisar
por la simetra de los datos. (b) Hacer una correlacin de Pearson y calcular el
coeficiente R, entre los dos juegos de promedios de ozono de las dos estaciones. El
coeficiente de correlacin R es una medida de la extensin con que las dos
mediciones varan conjuntamente.
(c) Hacer una grfica sobrepuesta que vaya en funcin de las concentraciones de
ozono de cada una de las dos estaciones de muestreo y del tiempo en meses.
(d) Cree usted que exista algn tipo de error experimental?
Respuesta:
(a) Las grficas de probabilidad normal se dan abajo.

afica de probabilidad normal para los datos de las dos estaciones de muestreos de ozo
Normal - 95% CI

0 15 30 45 60 0 15 30 45 60
Chamizal UT EP Chamizal
0.99 0.99 0.99 0.99
Mean 28.96
StDev 9.260
0.95 0.95 0.95 0.95 N 12
AD 0.545
0.9 0.9 0.9 0.9
P-Value 0.126
0.8 0.8 0.8 0.8 UTEP
Probability

0.7 0.7 0.7 0.7 Mean 30.18


0.6 0.6 0.6 0.6 StDev 9.431
0.5 0.5 0.5 0.5 N 12
0.4 0.4 0.4 0.4 AD 0.565
0.3 0.3 0.3 0.3 P-Value 0.113

0.2 0.2 0.2 0.2

0.1 0.1 0.1 0.1


0.05 0.05 0.05 0.05

0.01 0.01 0.01 0.01


0 15 30 45 60 0 15 30 45 60

9-67
(b) El coeficiente de correlacin de Pearson de Chamizal y UTEP = 0.997, P-Value = 0.000
(c) Las grficas sobrepuesas de las concentraciones de las dos estaciones se dan abajo.

Scatterplot of Promedio de prom, Promedio de prom vs Tiempo (meses)


0 2 4 6 8 10 12
45 45 V ariable
Promedio de promedios Chamizal
Promedio de promedios UTE P
40 40

35 35
Y-Data

30 30

25 25

20 20

15 15
0 2 4 6 8 10 12
Tiempo (meses)

(d)Si es factible que exista ruido experimental al juzgar por la configuracin de


las grficas sobrepuestas.

9.9. En un estudio de cinemtica, como rama de la fsica, se observaron los


siguientes datos experimentales como se muestra en la tabla de abajo:
DistaDistancia (m)
TiemTiempo (seg)
(seg)
0 0
3 1
6 2 2
9 3
12 4
15 5

Hacer lo siguiente:
(a) Un diagrama esparcido para analizar la configuracin de los datos.
(b) Calcular la ecuacin de regresin. Luego, validar la utilidad del sistema usando
Enfoques objetivistas y subjetivistas.
(c) Calcular la distancia despus de 10 segundos.
(d) Enlistar las posibles fuentes de errores experimentales (Para contestarse por el
Lector).
Respuesta:
(a) El diagrama esparcido es:
Scatterplot of Distancia (m) vs Tiempo (seg)
16

14

12

10
Distancia (m)

0 1 2 3 4 5
Tiempo (seg)

(b) La ecuacin de regression es:


Distancia (m) = - 0.000000 + 3.00 Tiempo (seg)
S = 0 R-Sq = 100.0% R-Sq(adj) = 100.0% PRESS = 0 R-Sq(pred) = 100.00%
Para la evaluacin subjetivista no se pueden hacer las grficas de los residuos porque el error cuadratica medio es cero.
(c)Usando la ecuacin de regresin y sustituyendo 10 segundos da:
Distancia (m) = - 0.000000 + 3.00 Tiempo (10 seg)= 30 metros

9.10. Este es un ejercicio prctico encaminado a demostrar, como las transformaciones


logartmicas mejoran, considerablemente, la relacin entre la media, mediana y moda, la relacin
entre la media y la desviacin estndar y la variacin, el sesgo, la curtosis, los cuartiles, el
intervalo de confianza, el valor de la prueba de bondad de ajuste de Anderson-Darling, etc., y,
subsecuentemente, el ruido experimental. Para tales fines se da la tabla de abajo.
9-68
Mediciones
1
10
100
1000
10000

Se requiere hacer lo siguiente:


(a) Una estadstica descriptiva
(b) Una grfica de probabilidad normal
(c) Enseguida, hacer una transformacin logartmica y tabular los valores obtenidos. Luego
repetir los clculos de los incisos (a)-(b)
(e) Comparar los resultados y hacer una discusin de los cambios suscitados, especialmente,
aquellos relacionados con el error experimental.
Respuesta:
Para los incisos (a) (b): Summary for Mediciones
Probability Plot of Mediciones
Anderson-Darling N ormality Test
Normal - 95% CI
A-S quared 0.99
P-V alue < 0.005 99
Mean 2222
Mean 2222.2
StDev 4368.0
StDev 4368
Variance 19079809.2 95 N 5
Skewness 2. 18650 AD 0.992
90
Kurtosis 4. 80890 P-Value <0.005
N 5
80
Minimum 1.0
70
1st Quartile 5.5
Percent

Median 100.0 60
3rd Quartile 5500.0 50
0 2000 4000 6000 8000 10000 Maximum 10000.0 40
95% C onfidence I nterval for Mean 30
-3201.4 7645.8 20
95% Confidence I nterval for Median
1.0 10000.0 10
95% C onfidence I nterval for StDev 5
9 5% C onfidence I ntervals
2617.0 12551.8
Mean
1
Median -20000 -10000 0 10000 20000
- 5000 - 2500 0 2500 5000 7500 10000
Mediciones

(c) La tabla con las transformaciones es:

Log mediciones
0
1
2
3
4

La estadstica descriptiva y la grfica de probabilidad lognormal son:


Summary for Log mediciones
Probability Plot of Mediciones
Anderson-D arling Normality Test
Lognormal - 95% CI
A -S quared 0.14
P -V alue 0.920 99
Loc 4.605
Mean 2.0000
Scale 3.641
S tD ev 1.5811 95
V ariance 2.5000 N 5
90 AD 0.144
S kewness 0.0
K urtosis -1.2 80 P-Value 0.920
N 5
70
Percent

Minimum 0.0000 60
1st Q uartile 0.5000 50
Median 2.0000 40
3rd Q uartile 3.5000 30
0 1 2 3 4
Maximum 4.0000 20
95% Confidence I nterv al for Mean
10
0.0368 3.9632
5
95% Confidence Interval for Median
0.0000 4.0000
1
95% Confidence Interv al for S tDev
1 01 1 1 1 10 100 00 000 00 000 00 000 00
00 0.01
95 % Confidence I nter vals
0.9473 4.5435 00 0.
Mean 00 0. 00 0. 10 10 00 00
10 1000 00 0000 00
00
0.
10 10 00
Median 10
Mediciones
0 1 2 3 4

REFERENCIAS
9-69
1. Daniel, W. W., Terrel, J. C. (1989). Business Statistics. For Management and Economics.
Hougton Mifflin Company.

2. McCuen, R. H., Snyder, W. M. (1986). Hydrologic Modeling. Statistical Methods and


Applications. Prentice-Hall, Englewood Cliffs, New Jersey 07632. (p. 215).

3. Chow, V. T. (1964). Handbook of Applied Hydrology. A Compendium of Water-resources


Technology. McGRAW-HILL Book Company (pp. 8.44-8-45) y (p.8.61)

4. Goodale, C. L. , Aber, J. D., Ollinger, S. V. (1998). Mapping Monthly Precipitation,


Temperature, and Solar radiation for Ireland with Polynomial Regression and Digital Elevation
Model. Climate Research, Vol 10:35-49.

5. Hanavis, S. A. , Rajagapolon, B., Lall, U. (2010). Local Polynomial Based Flood Frequency
Estimation of Mixed Population. Journal of Hydrologic Engineering.

6. Quevedo, H., Prez, B. R. (2008). Estadsica para Ingeniera y Ciencias. Grupo Editorial
Patria, S. A. de C. V. (p. 364)

7. Hamburg, M. (1989). Statistical Analysis for Decision Making. Quinta edicin. Harcourt Brace
Jovanovich, Publishers (p. 547).

8. Keller, G., Warrack, B, Bartel, H. (1990). Statistics for Management and Economics. Second
edition. Wadsworth Publishing Company. (p. 775).

9. Sharma, H. D. Sharma, Lewis, S. S. (1994). Waste Containment Systems, Waste Stabilization and
Landfill, Design and Evaluation. John Wiley & Sons, Inc.

10. Bedient, P. B., Huber, W. C. (1988). Hydrology and Floodplain Analysis. Addison-Wesley
Publishing Company. (p. 342)

11. Montgomery, D. C., Runger, G. C. (1996). Probabilidad y Estadstica Aplicadas a la


Ingeniera. McGraw-HILL INTERAMERICANA EDITORES, S.A. DE C..V.

12. NCSS (Statistical Software). Computer Program for statistical analyses, created in 1981. NCSS
LLC is the company that produced NCSS.

13. Paztor, A. R. (1998). Una Nueva Filosofa Mdica Racionalista: Cncer y SIDA y la
Importancia de Vivir Naturalmente. Naturheilkunde Publishing Company. El Paso, Texas, U. S. A.
E:mail:hquevedo@elp.rr.com.
14. http:/www.backrags.com (2010).

13. Keller, G., Warrack, B, Bartel, H. (1990). Statistics for Management and Economics. Second
edition. Wadsworth Publishing Company. (p. 775).

9-70
15. Sakia, R. M. (1992). The Box-Cox Transformation Technique: a Review. The Statistitian, 41,
169-178.

16. Box, G. E. P. and Cox, D. R. (1964), An Analysis of Transformations, Journal of the Royal
Statistical Society, 211-243, discussion 244-252.

17. Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear Regression
Models. The McGraw-Hill Companies, Inc. (p.345).

18. White, H. (1980). A Heteroscedasticity-Consistent Covariance Matrix and Direct Test for
Heteroscedasticity. Econometrica, p. 48:817-838).

19. Breusch, T. S.; Pagan, A. R. (1979). "A Simple Test for Heteroskedasticity and Random
Coefficient Variation". Econometrica47 (5): 12871294.

20. Devore, J. L. (2000). Probability and Statistics for Engineering and the Sciences. Duxbury
Thomson Learning. (p.568-569, p. 571).

21. Atkins, P., Jones, L. (1997). Chemistry. Molecules and Matter. W. H. Freeman and Company,
New York. (P. 223, P. 822).

22. Sheila Murphy. General Information on solids.


http//bcn.boulder.co.us/basin/data/BACT/info/TTS.html). (2010).

23. White, H. (1980). A Heteroscedasticity-Consistent Covariance Matrix and Direct Test for
Heteroscedasticity. Econometrica, p. 48:817-838).

24. http://www.epa.ohio.gov/portals/35/documents/ewhdojus.pdf .(2015)

25. http://ir.library.oregonstate.edu/xmlui/bitstream/handle/1957/4182/SR%20no.
%20141_ocr.p df?sequence=1(2015).

26. Theodore Brown, Eugene H. LeMay, Bruce E. Burnsten, Catherine Murph, Patrick
Woodward. Chemistry de Central Science, Vol. 3 (2012).
27. Moran, P. A. P. (1950). "Notes on Continuous Stochastic
Phenomena". Biometrika 37 (1): 1723. doi:10.2307/2332142. JSTOR 2332142.

http://www.uru.edu/fondoeditorial/libros/pdf/manualdestatistix/cap6.pdf

GEOB 479.
http://ibis.geog.ubc.ca/courses/geob479/notes/spatial_analysis/spatial_autocorrelation.htm

9-71
http://blog.naver.com/PostView.nhn?

9-72
blogId=fltops&logNo=114706341&parentCategoryNo=7&categoryNo=&viewDate=&isShowPop
ularPosts=true&from=search

9-73
Spatial autocorrelation approaches to
testing residuals from least squares
regression
Yanguang Chen
(Submitted on 15 Mar 2015)
In statistics, the Durbin-Watson test is always employed to detect the presence of serial correlation of
residuals from a least squares regression analysis. However, the Durbin-Watson statistic is only
suitable for ordered time or spatial series. If the variables comprise cross-sectional data coming from
spatial random sampling, the Durbin-Watson will be ineffectual because the value of Durbin-Watson's
statistic depends on the sequences of data point arrangement. Based on the ideas from spatial
autocorrelation, this paper presents two new statistics for testing serial correlation of residuals from
least squares regression based on spatial samples. By analogy with the new form of Moran's index,
an autocorrelation coefficient is defined with a standardized residual vector and a normalized spatial
weight matrix. Then on the analogy of the Durbin-Watson statistic, a serial correlation index is
constructed. As a case, the two statistics are applied to the spatial sample of 29 China's regions.
These results show that the new spatial autocorrelation model can be used to test the serial
correlation of residuals from regression analysis. In practice, the new statistics can make up for the
deficiency of the Durbin-Watson test.
Comments:27 pages, 4 figures, 5 tables, 2 appendices
Subjects:Methodology (stat.ME); Physics and Society (physics.soc-ph)
DOI: 10.1371/journal.pone.0146865
Cite as: arXiv:1503.04407 [stat.ME]
(or arXiv:1503.04407v1 [stat.ME] for this version)
Submission history
From: Yanguang Chen [view email]
[v1] Sun, 15 Mar 2015 10:07:50 GMT (312kb)

9-74
What is spatial autocorrelation (spatial
dependency)?
Spatial autocorrelation in GIS helps understand the degree to which one
object is similar to other nearby objects. Morans I (Index) is used to
measure spatial autocorrelation.

Spatial autocorrelation definition measures how much close objects are in


comparison with other close objects. Morans I can be classified as: positive,
negative and no spatial auto-correlation.
Positive spatial autocorrelation is when similar values cluster together
in a map.
Negative spatial autocorrelation is when dissimilar values cluster
together in a map.
Why is spatial autocorrelation important?

One of the main reasons why spatial auto-correlation is important is because


statistics relies on observations being independent from one another. If
autocorrelation exists in a map, then this violates the fact that
observations are independent from one another.

Positive Spatial Autocorrelation Example

Positive spatial auto-correlation occurs when Morans I is close to +1. This


means values are clustered together. An example of this would be an
elevation dataset because wed expect similar elevation values be close to
each other.

Negative Spatial Autocorrelation Example

Negative spatial autocorrelation occurs when Morans I is near -1. A


checkerboard is an example where Morans I is -1 because dissimilar
values are next to each other. A value of 0 for Morans I typically
indicates no autocorrelation.
Using the spatial autocorrelation tool in ArcGIS, the checkerboard pattern

9-75
generates a Morans index of -1.00 with a z-score of -7.59. (Remember that
the z-score indicates the statistical significance given the number of features
in the dataset). This checkerboard pattern has a less than 1% likelihood that
it is the result of random choice

FAQ: How can I detect/address spatial autocorrelation in my data?


Commonly used statistical approaches often assume that the measured outcomes are independent of each
other. In spatial data, it is often the case that some or all outcome measures exhibit spatial autocorrelation. This
occurs when the relative outcomes of two points is related to their distance. When analyzing spatial data, it is
important to check for autocorrelation. If there is no evidence of spatial autocorrelation, then proceeding with a
standard approach is acceptable. However, if there is evidence of spatial autocorrelation, then one of the
underlying assumptions of your analysis may be violated and your results may not be valid.

Addressing spatial autocorrelation in your analysis is not impossible and leads to more robust and replicable
results.

Analysis of spatial autocorrelation can be broken down into steps: detecting, describing, and
adjusting/predicting.

Detecting autocorrelation
These pages demonstrate how to use Moran's I or a Mantel test to check for spatial autocorrelation in your
data. Moran's I is a parametric test while Mantel's test is semi-parametric. Both will also indicate if your spatial
autocorrelation is positive or negative and provide a p-value for the level of autocorrelation. Both test against the
null that there is no spatial autocorrelation. Moran's I does this with a correlation that is weighted by inverse
distances; the Mantel test examines the correlation between two distance matrices and generating a null
distribution for this correlation by randomly permuting one of the matrices.

Using SAS. Autocorrelation Statistics


Assumption Coefficient Observed Expected Std Dev Z Pr > |Z|

Normality Moran's I 0.188 -0.0323 0.0323 6.82 <.0001


Normality Geary's c 0.794 1.0000 0.0851 -2.42 0.0156

Moran Coefficient An index of spatial autocorrelation, involving


the computation of cross-products of meanadjusted values that are
geographic neighbors (i.e., covariations), that ranges from
roughly (1, 0.5) to nearly 0 for negative, and nearly 0 to
approximately 1 for positive, spatial autocorrelation, with an
expected value of 1/(n 1) for zero spatial autocorrelation,
where n denotes the number of areal units.

Negative Spatial Autocorrelation For the geographic distribution

9-76
of some variable across a map, high values tend to be geographic
neighbors of low values, intermediate values tend to be
geographic neighbors of intermediate values, and low values tend
to be geographic neighbors of high values.

Positive Spatial Autocorrelation For the geographic distribution


of some variable across a map, high values tend to be geographic
neighbors of high values, intermediate values tend to be
geographic neighbors ofintermediate values, and low values tend
to be geographic neighbors of low values.

Spatial autocorrelation is the correlation among values of a


single variable strictly attributable to their relatively close
locational positions on a two-dimensional (2-D) surface,
introducing a deviation from the independent observations
assumption of classical statistics.

How Spatial Autocorrelation (Global


Moran's I) works
ArcMap 10.3

|
Other versions

Calculations

Interpretation

Output

Best practice guidelines

FAQs

Potential applications

Additional resources

9-77
The Spatial Autocorrelation (Global Moran's I) tool measures spatial autocorrelation based on
both feature locations and feature values simultaneously. Given a set of features and an associated
attribute, it evaluates whether the pattern expressed is clustered, dispersed, or random. The tool
calculates the Moran's I Index value and both a a z-score and p-value to evaluate the significance
of that Index. P-values are numerical approximations of the area under the curve for a known
distribution, limited by the test statistic.

Calculations

View additional mathematics for Global Moran's I

9-78
n n

wi,j zi zj
i=1 j=1

I = n/So
n

z2i
i=1

Donde: I es el indice global de Moran, zi es la desviacion de un atributo para i de su


media (xi - X ), wi,j es el peso espacial entre los elementos i y j, n es el numero total
de casos y So es el agregado de todos los pesos espaciales.
n n

Donde: So = wi,j
i=1 j=1

El valor zI se calcula como:

I E[I]
zI =
(V[I])0.5
Donde: E[I] = - 1 / (n 1), V[I] = E[I2] E[I]2

9-79
SAS (Statistical Analysis System)[1] is a software suite developed by SAS Institute for advanced
analytics, multivariate analyses, business intelligence, data management, and predictive analytics

9-80

You might also like