You are on page 1of 15

APUNTES DE QUIMIOMETRIA

REGRESIO LINEAL

Datos anmalos y levas en las rectas de calibrado. Regresin robusta
Mnima mediana de cuadrados
Recta de calibrado mediante mnimos cuadrados. Hiptesis bsicas
Estimacin de los coeficientes de regresin por mnimos cuadrados
La elipse: regin de confianza conjunta de la pendiente y la ordenada
Validacin de un mtodo analtico en estudio con uno de referencia





















Datos anmalos y levas en las rectas de calibrado. Regresin robusta.

La obtencin de las rectas de calibrado requiere un estudio previo de los
datos experimentales obtenidos con el objetivo de detectar la presencia de
observaciones heterogneas, ya que, un solo punto puede condicionar la posicin de
la recta de regresin. La identificacin de las observaciones heterogneas es una
etapa clave en la obtencin del calibrado de forma que, una vez que sean tratadas
convenientemente, se pueda realizar el ajuste de los datos experimentales mediante
mnimos cuadrados con garantas de precisin y exactitud.
El propsito del anlisis de regresin es ajustar las variables observadas a
ecuaciones. En el modelo lineal clsico se asume una relacin del tipo: y
i
= + x
i

+ e
i
para i = 1,..., n; donde:
n es el tamao de la muestra o nmero de casos; x
i
es la variable independiente; y
i
es
la variable respuesta; e
i
error asociado a la variable respuesta y, y son la
ordenada en el origen y la pendiente de la verdadera recta que relaciona ambas
variables.
Los mtodos de regresin lineal permiten obtener los coeficientes de la
regresin a y b, estimadores de y que, operando sobre la variable independiente
resultan los valores estimados de la variable respuesta,
i
= a + bx
i
. El residuo de
cada variable respuesta, r
i
, es la diferencia entre el valor de dicha variable y su valor
observado. Los distintos mtodos de regresin se basan en hacer ptimo el ajuste
minimizando una funcin de los residuales.
A continuacin se explicar e ilustrar el efecto de datos heterogneos en el
modelo de regresin lineal. En la figura 1.a se representan cinco puntos alineados
(x
1
, y
1
),.., (x
5
,y
5
), por lo que, el mtodo de mnimos cuadrados ofrece un ajuste muy
bueno. Supongamos que se ha cometido un error en el valor de y
4
que aleja el punto

(x
4
, y
4
) de la recta anteriormente considerada (figura 1.b). Este tipo de datos
heterogneos los denominaremos puntos anmalos y mantienen el valor medio de
los x
i
, variando el de los y
i
. Los datos anmalos tienen una gran influencia en la
localizacin de la recta de mnimos cuadrados, as, la recta obtenida en este caso
difiere bastante de la anterior, ya que, para minimizar el sumatorio de errores al
cuadrado, la recta de mnimos cuadrados gira sobre la nueva posicin de ) y , x ( para
aproximarse al dato anmalo y hacer ms pequeo su error. Se provoca as que el
punto anmalo (x
4
, y
4
) deje un residual positivo, mientras que los puntos restantes
dejen residuales negativos. El efecto es, sin duda, que la recta de mnimos
cuadrados, debido a su gran sensibilidad ante las variaciones del valor medio, puede
enmascarar datos anmalos y conducindonos a su vez a predicciones poco
congruentes.











Figura 1. a) Conjunto de cinco datos y su recta de regresin por mnimos
cuadrados. b) Los mismos datos pero con un punto anmalo de la recta en el eje de
ordenadas.

Si, adems, el punto considerado dista bastante del resto de las observaciones
constituye lo que denominamos un punto leva, lo que, potencialmente, puede afectar
significativamente a los valores de los coeficientes de regresin, pero que, no
necesariamente, tiene por qu afectarlos. (figura 2).
Es importante hacer notar que para que un punto (x
i
, y
i
) sea considerado como
leva slo se tiene en cuenta el valor de x
i,
por lo que no necesariamente tiene que ser
un punto anmalo de la recta, ya que no tenemos en cuenta el valor de y
i
.












Figura 2. El punto (x
k
, y
k
) es un punto leva que no constituye un punto
anmalo de la recta de regresin por mnimos cuadrados y no afecta a los
coeficientes de regresin.

Mnima mediana de cuadrados

La regresin por mnima mediana de cuadrados es un estimador muy robusto
con respecto a la presencia de datos anmalos (recordemos que la mediana es un
estadstico poco sensible a las grandes desviaciones con respecto al grueso de los
datos). La solucin se basa en minimizar las desviaciones con respecto a la

mediana, es decir:

Geomtricamente, corresponde a encontrar la banda ms estrecha, medida en el eje
de ordenadas, que contiene la mitad de las observaciones. La recta se sita justo en
medio de dicha banda, por tanto, la robustez de este mtodo es tal que puede
discernir la recta buscada con una contaminacin de los datos incluso del 50%.
El principio bsico de la mnima mediana de cuadrados es ajustar los datos y,
posteriormente, identificar los datos anmalos como aquellos que distan bastante
del ajuste robusto, es decir, aquellos que producen grandes residuos RS positivos
o negativos.
Los puntos leva se determinan calculando la resistencia al diagnstico RD
teniendo en cuenta la lejana de la observacin
El 50% de las RD
i
valdrn menos que la unidad. Un punto i ser leva si RD
i
>
2.5. En cualquier caso, una observacin que tenga RD
i
grande necesariamente no es
un punto anmalo de la recta en el sentido de producir un gran residuo.

Recta de calibrado mediante mnimos cuadrados. Hiptesis bsicas

El mtodo de mnimos cuadrados admite que los factores que pueden influir
en la variable respuesta (seal analtica) pueden dividirse en dos grupos: el primero
contiene a la variable independiente (concentracin), que se supone no aleatoria y
conocida al registrar la seal analtica; el segundo incluye un conjunto de muchos
factores, cada uno de los cuales influye en la respuesta slo en pequea magnitud, y
que, se engloban en la perturbacin o error aleatorio. El modelo de regresin es por
tanto: y
i
= + x
i
+ e
i
, donde y
i
y e
i
son variables aleatorias, x
i
es una variable
predeterminada con valores conocidos y y son parmetros desconocidos. Las
hiptesis que se establecen para el error aleatorio son:
) )
x
b + (a - y ( med Minimizar
2
i
i
i b a,

a) El error aleatorio tiene esperanza nula, es decir su media se hace cero:
b) La varianza del error es siempre constante, y no depende de la
concentracin, es decir, el error aleatorio es homocedstico:
c) El error est distribuido segn una distribucin Gaussinana para cualquier
y
i
.
d) Los errores aleatorios son independientes entre s.

Estos postulados se representan grficamente en la figura 3.













Figura 3. Hiptesis del modelo de regresin para la recta de calibrado.



Estas hiptesis debern comprobarse una vez construida la recta de calibrado.
0 =
e
n
1
= e
i
n
1 = i

2
i
= )
e
Var(

Sin duda, la hiptesis principal del modelo es aquella que plantea que la media de
las distribuciones de y, para cada valor de x, vara linealmente al aumentar el valor
de x. Esta hiptesis condiciona toda la construccin del modelo, por tanto, en la
aproximacin lineal se ha de tener presente el intervalo de concentraciones dentro
del cual se van a hacer estimaciones y el peligro de extrapolar.
La suposicin de que los errores tengan media nula no ser cierta cuando
existan observaciones tomadas en distintas condiciones con respecto al resto. Este
hecho puede detectarse mediante un anlisis de residuos del modelo y es muy
importante, ya que, una sola observacin anmala puede tener una gran influencia
en el modelo. La hiptesis de homocedasticidad no se cumplir si la variabilidad de
cada distribucin depende de la media de dicha distribucin. As, a bajos niveles de
concentracin, se puede tener una variabilidad ms limitada en la seal analtica,
mientras que a mayores niveles de concentracin, las desviaciones de la ley de
Lambert Beer o factores de filtro interno cobran ms importancia, existiendo ms
variabilidad entre las muestras.

Estimacin de los coeficientes de regresin por mnimos cuadrados

En el mtodo de mnimos cuadrados la funcin objetivo a minimizar, a partir
de la cual se obtienen los coeficientes de la regresin, es el sumatorio de los
residuales al cuadrado, es decir:
Igualando a cero las derivadas parciales de la funcin objetivo respecto a ambos
coeficientes, ordenada en el origen y pendiente, se obtienen las ecuaciones normales
de la regresin:
) )
x
b + (a - y ( Minimizar
2
i
i
n
=1 i
b a,

x
b +
x
a =
x
y
2
i i i
i

x
b + na = y
i
i

Dividiendo por n la primera resulta: , x b + a = y lo que indica que la recta de
regresin siempre contiene el punto ). y , x ( Dividiendo tambin por n la segunda
resulta:

x b + x a = x - y
2
, que al restarse a la primera ecuacin normal resulta la
expresin que permite calcular la pendiente:
el trmino de la izquierda es la covarianza entre ambas variables y el que multiplica
a la pendiente es la varianza muestral de x, s
x
2
, por tanto, la pendiente estimada es
proporcional a la covarianza entre ambas variables, expresndose como:
La ordenada en el origen se obtiene inmediatamente si tenemos en cuenta que
la recta de calibrado pasa por el punto medio, la obtencin de la ordenada en el
origen es inmediata, ya que: . x b - y = a
Las ecuaciones normales de la regresin pueden escribirse como:
que nos indican que los n residuos no son independientes y al existir dos ecuaciones
de restriccin entre los residuos hay n-2 grados de libertad. Por tanto, la varianza de
la estimacin es:

El coeficiente de la determinacin del modelo es la medida ms adecuada de
la bondad del ajuste, que se define como la proporcin de variabilidad explicada, es
decir:
) x -
n
x
b( = y x -
n
x
y
2
2
i i
i


s
y) Cov(x,
= b
2
x

0 =
ri
n
=1 i


0 =
x r i i
n
=1 i


2 - n
r
=
s
2
i 2
yx


) y - y (
) y - y (
=
tal VarianzaTo
plicada VarianzaEx
=
r
2
i
2
i 2

^


a) si la regresin entre x e y es exacta existe, por tanto, una total dependencia entre
ambas variables entonces
i
= y
i
y r
2
= 1.
b) si no existe relacin lineal entre ambas variables
i
ser prximo a y-,y r
2
ser
pequeo e incluso nulo.
No obstante, el criterio principal para juzgar un modelo es estudiar si las
hiptesis que se han realizado al construirlo son ciertas. En este sentido, es de gran
utilidad, una vez realizada la regresin, el anlisis de los residuos (figura 4), ya que
con l comprobaremos:
a) Si su distribucin es aproximadamente normal (por supuesto se requiere un
elevado nmero de observaciones).
b) Si su variabilidad es constante, y no depende de x o de otra causa asignable.
c) Si presentan evidencia de una relacin no lineal entre variables.
d) Si existen observaciones anmalas.

La observacin de los residuos, tanto de su forma como de la proximidad
entre el nmero de residuos positivos y negativos, pone de manifiesto si la regresin
es homocedstica o heterocedstica. En cuanto a la estimacin y su error, es preciso
que las bandas de dispersin de la recta y de la estimacin sean lo ms estrechas
posible (figura 5).





















Figura 4. Distribucin de residuos a la recta de mnimos cuadrados.












Figura 5. Bandas de dispersin de la recta de regresin y de la estimacin.

La elipse: regin de confianza conjunta de la pendiente y la ordenada


Los intervalos de y para un nivel de confianza del 95%, establecidos
anteriormente, se han calculado de forma independiente, pero no se puede asegurar
con el mismo nivel de confianza que y se siten, simultneamente, en los
extremos de los intervalos calculados en su estimacin. Las estimaciones a y b son
dependientes entre s. Errores por exceso en la pendiente producirn errores por
defecto en la ordenada, y viceversa. Esta dependencia disminuir con el valor de x y
con los factores que contribuyen a estimar la pendiente con ms precisin. De esta
forma, al representar los valores de a frente a b para repetidas muestras aleatorias,
se obtiene una elipse (Figura 6) en torno al centro verdadero (, ), y a la inversa,
en el que los extremos del intervalo conjunto para un nivel de confianza del 95%
son ligeramente superiores que los de los intervalos independientes (el estadstico
t
(0.05,n-2)
a dos lados, se debe reemplazar por
F
2
2) - n (0.05,2,
de un lado).
En una recta de calibrado, la construccin de la elipse es interesante en el
estudio de los intervalos de confianza de la pendiente y ordenada teniendo en cuenta
la covarianza existente entre stas. Pero, es de especial relevancia en la comparacin
de mtodos analticos, ya que, esta herramienta pone de manifiesto la existencia de
diferencias significativas en la capacidad de estimacin a diferentes niveles de
concentracin.



















Figura 6. Regin de confianza conjunta para la pendiente y ordenada.

Validacin de un mtodo analtico en estudio con uno de referencia

Cuando se quieren comparar la concentracin estimada por dos mtodos
analticos a diferentes niveles de concentracin, se prepara un conjunto de muestras
en las que la concentracin de analito vara en el intervalo de valores ms frecuentes
que van a encontrarse en la prctica, y se analizan con los dos mtodos que se
pretenden comparar. Los errores ms comunes que pueden obtenerse cuando el
conjunto de muestras se analiza por dos mtodos, pueden ponerse de manifiesto
mediante tcnicas de regresin. La ausencia de todo error en los datos se
manifestara mediante la obtencin de una lnea recta de pendiente unidad y
ordenada en el origen cero, tal como muestra la lnea discontinua de las figuras7, 8
y 9. La presencia de un error sistemtico proporcional llevara a la obtencin de una
recta, representada en la figura 7, con pendiente distinta a la unidad pero ordenada
nula, mientras que la presencia de errores sistemticos constantes conducira a la
obtencin de una recta con una ordenada en el origen distinta de cero (figura 8). Los
errores aleatorios, que acompaan siempre a todo tipo de resultados, daran lugar a

una dispersin de los puntos experimentales alrededor de la lnea de regresin,
afectando al valor del coeficiente de determinacin. De este modo, la presencia de
los tres tipos de errores mencionados, aleatorios, sistemticos constantes y
sistemticos proporcionales dara lugar a la recta de la figura 9.













Figura 7. Validacin de un mtodo en el que se presentan errores
sistemticos proporcionales.

















Figura 8. Validacin de un mtodo en el que se presentan errores
sistemticos constantes.












Figura 9. Validacin de un mtodo en el que se presentan errores
sistemticos constantes, sistemticos proporcionales y aleatorios.

El anlisis de regresin parece el ms indicado para detectar y cuantificar este
tipo de errores. La tcnica de regresin lineal por mnimos cuadrados es la que
normalmente se utiliza, pero hay que sealar que, desde el punto de vista

estadstico, existe una diferencia notable cuando dicha tcnica se aplica a la
calibracin o cuando se utiliza, como en esta ocasin, para comparar dos conjuntos
de resultados obtenidos experimentalmente. Este hecho es debido a que, en este
ltimo, caso ninguno de los dos conjuntos de datos est libre de error, por lo que se
tendran que aplicar tcnicas de regresin que contemplen la presencia de errores en
ambos ejes de coordenadas x e y.
Como lgicamente nunca estamos en el caso ideal de que la pendiente sea
exactamente igual a uno y la ordenada en el origen d un valor exacto de cero al
estar siempre presentes los errores aleatorios, es preciso dilucidar si los valores
obtenidos no son significativamente distintos de uno y de cero, respectivamente.
Esto se hace mediante la construccin de la regin conjunta de confianza para la
pendiente y la ordenada en el origen que, como es sabido, da como resultado una
elipse (figura 6). Si el punto de pendiente unidad y ordenada en el origen nula est
contenido dentro de la regin delimitada por la elipse significa que no existen
diferencias estadsticamente significativas entre ambos mtodos para un nivel de
confianza elegido, es decir, pueden considerarse iguales las concentraciones
estimadas por ambos mtodos. Si por el contrario el punto (1,0) est situado fuera
de la elipse se concluye que, para ese nivel de confianza, existen diferencias
significativas entre las concentraciones obtenidas por cada uno de los mtodos.

You might also like