Apunte Regresion Lineal

Regresin lineal en qumica analtica
Alejandro C. Olivieri
Departamento de Qumica Analtica, Facultad de Ciencias Bioqumicas y Farmacuticas, Universidad Nacional de Rosario, Suipacha 531, Rosario (S2002LRK), Argentina. E-mail: aolivier@fbioyf.unr.edu.ar
Tabla de Contenidos
CLASE 1 REGRESIN LINEAL
Material suministrado con la clase 1 3 Parte 1: calibracin univariada 3 Determinacin del extremo superior del rango lineal 4 Preparacin de patrones 4 Medicin de la respuesta de los patrones 5 Estimacin de los parmetros de la regresin 5 Prediccin en muestras incgnita 6 Cifras de mrito del mtodo 7 Sensibilidad de calibracin 7 Sensibilidad analtica 7 Lmite de deteccin 8 Lmite de cuantificacin 9 Rango dinmico 9 Rango lineal 9 Programas de computacin 12
3 3
Material suministrado con la clase 2 20 Parte 2: exactitud y comparacin de mtodos analticos 20 Exactitud de un mtodo analtico 21 Regin de confianza en el caso homoscedstico22 Regresin ponderada 24 Regin de confianza en el caso heteroscedstico 25 Comparacin de mtodos analticos 26 Programas de computacin 27
EJERCICIO RESUELTO RESPUESTA DETALLADA EJERCICIOS PROPUESTOS CLASE 2 REGRESIN LINEAL
12 14 18 20 20
EJERCICIO RESUELTO RESPUESTA DETALLADA EJERCICIOS PROPUESTOS RESOLUCIONES A LOS EJERCICIOS PROPUESTOS RESPUESTAS A LOS EJERCICIOS PROPUESTOS EN LA CLASE 1 RESPUESTA A LOS EJERCICIOS PROPUESTOS EN LA CLASE 2 REFERENCIAS
27 27 32 34 34 35 38
La estadstica es un mtodo sistemtico para llegar a la conclusin incorrecta con un 95% de confianza.
Clase 1
Regresin lineal
"Camino recto", fotografa, www34.brinkster.com.
tomada
de
Material suministrado con la clase 1

Para esta clase se proveen los siguientes archivos: Archivos de texto (*.TXT) conteniendo datos tpicos. Rutinas (*.M) para el entorno de programacin MATLAB. COMO OPERAR CON MATLAB.PDF, documento de Adobe que explica el empleo del entorno MATLAB. Programas ejecutables en QB (*.EXE). COMO OPERAR CON QB.PDF, documento de Adobe que explica el uso de los programas en QB.
Parte 1: calibracin univariada

En este captulo estudiaremos una de las ms populares aplicaciones de la regresin lineal en qumica analtica: la recta de calibracin univariada. La teora se expone en este
documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la seccin Ejercicio Resuelto. El anlisis mediante recta de calibracin puede hacerse cuando slo el analito de inters presenta seal analtica o respuesta (absorbancia, fluorescencia, potencial elctrico, corriente, etc.), o cuando la seal del blanco es constante. Las etapas que deben seguirse en un anlisis mediante recta de calibracin son: Determinacin del extremo superior del rango lineal Preparacin de patrones Medicin de la respuesta de los patrones Estimacin de los parmetros de la regresin Clculo de las cifras de mrito del mtodo Prediccin en muestras incgnita Las expresiones matemticas que se presentarn a continuacin y su empleo en el anlisis univariado estn tomadas, en general, del trabajo de referencia clsico de Danzer y Currie, preparado para la Unin Internacional de Qumica Pura y Aplicada (IUPAC).1 De la amplia literatura que existe en este campo, recomendamos tambin los libros de Gardiner2 y Miller y Miller.3
Determinacin del extremo superior del rango lineal

Esta etapa es fundamental, ya que la regresin lineal est basada en la suposicin de que los datos de respuesta analtica estn linealmente relacionados con la concentracin del analito. Si se sospecha que existen desvos de la linealidad, se recomienda realizar un anlisis exploratorio previo cuyo objeto es extender el rango de aplicabilidad de la tcnica analtica a la mxima concentracin posible. En dicho anlisis, se incluyen patrones de concentracin conocida del analito desde cero hasta valores que se desven visiblemente de la linealidad. Una prueba estadstica apropiada permitir luego decidir hasta qu concentracin se cumple la relacin lineal respuesta-concentracin. Sin embargo, dado que los parmetros a emplear en esta prueba se obtienen del anlisis matemtico-estadstico de la regresin, diferiremos el clculo detallado para ms adelante.
Preparacin de patrones
Una vez estimado el extremo superior del rango lineal de la tcnica, deben prepararse patrones de concentracin conocida dentro de dicho rango, e incluyendo el valor cero de concentracin del analito (blanco). Usualmente, se preparan varios patrones (como mnimo cinco) con concentraciones igualmente espaciadas entre cero y el extremo superior del rango lineal, y cada patrn se analiza por triplicado. Debe ponerse especial cuidado en la preparacin de los patrones del analito para la calibracin, de manera que las concentraciones de calibrado se conozcan con la mxima precisin posible. Este requisito se relaciona con el hecho de que la recta de regresin se ajusta mediante ecuaciones que suponen que los valores del eje x (concentraciones) tienen una incertidumbre considerablemente menor que los del eje y (respuestas). Slo a modo de ejemplo, si se realizan mediciones de absorbancia como respuesta, podemos suponer que el nivel de incertidumbre en la respuesta puede ser de alrededor de 0,005 unidades de absorbancia. Si los valores de las respuestas son, en promedio, de 1 unidad de absorbancia, esto implica un nivel relativo de incertidumbre de aproximadamente 0,5% en la respuesta. Por lo tanto, se deben preparar patrones de calibrado cuyas concentraciones se conozcan con un error menor al 0,5%. Preparar soluciones de calibrado, por ejemplo, con incertidumbres del orden del 0,1% en promedio, requiere pesar ms de 100 mg de reactivo, preparar soluciones en matraces calibrados de al menos 100 mL, tomar alcuotas con pipetas aforadas calibradas, etc. 4
Medicin de la respuesta de los patrones

Una vez preparados los patrones de concentracin conocida, se miden sus respuestas analticas, incluyendo rplicas de cada medicin. Usualmente cada patrn se mide por triplicado. Es importante establecer la siguiente nomenclatura: si se emplean 6 patrones, cada uno por triplicado, entonces el nmero de niveles diferentes de concentracin (p) es 6, y el nmero total de puntos de la recta de calibrado (m) es 18.
Estimacin de los parmetros de la regresin

El anlisis de los datos de calibrado mediante regresin lineal implica el clculo de la pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuacin y = A x + B. Los valores estimados de A y B se calculan mediante las siguientes ecuaciones: A=
Qxy Qxx
( xi x )( yi y )
i =1
( xi
i =1
(1)
x)2
B = y Ax (2) donde xi es la concentracin de cada uno de los m patrones de calibrado, x es el promedio de las concentraciones de calibrado, yi es la respuesta en cada punto e y es el promedio de las respuestas de los patrones de calibrado. Adems de los valores individuales de A y B, es importante tener una idea de su incertidumbre asociada, ya que los datos instrumentales llevan asociados un error que depende del ruido instrumental, y el ajuste por cuadrados mnimos slo provee estimaciones de la pendiente y ordenada al origen. Los desvos estndar en los parmetros A y B se calculan con las siguientes ecuaciones: sy/ x sA = (3) Qxx
1 x2 + (4) m Qxx En las ecuaciones precedentes, el parmetro sy/x es el desvo estndar de los residuos de la regresin y est dado por:
sB = s y / x
(5) m2 donde yi es la respuesta experimental de cada patrn de calibrado e yi representa la respuesta estimada en cada punto, esto es, yi = A xi + B. En la ecuacin (5) se emplean m 2 grados de libertad, ya que hay m datos disponibles, y 2 parmetros estimados en la regresin (A y B). Estos parmetros estadsticos dan tambin una idea de la bondad de la regresin. Es deseable que sy/x sea lo ms pequea posible; no obstante su valor est limitado por el ruido instrumental. La distribucin de los residuos, es decir, el modo en que los valores de (yi yi ) varan con la respuesta, cumple tambin un papel importante en el anlisis de la adecuacin de los datos al modelo lineal, como veremos ms adelante.
sy/x =
( yi yi ) 2
i =1
Prediccin en muestras incgnita

Los valores de A y B se requieren para realizar predicciones en muestras incgnitas, a travs de la ecuacin yinc = A xinc + B, de donde puede obtenerse la concentracin estimada del analito en la muestra: (6) xinc = (yinc B) / A donde yinc es, en general, un promedio de las respuestas obtenidas para un determinado nmero de rplicas de la incgnita (habitualmente tres). Un resultado no es tal, sin embargo, si no est acompaado por su correspondiente nivel de incertidumbre. Para informar xinc con su incertidumbre asociada, y establecer su nmero correcto de cifras significativas, es necesario calcular el error estndar en la concentracin predicha s(xinc), lo cual se lleva a cabo mediante la siguiente expresin: s y / x 1 1 ( yinc y ) 2 s y / x 1 1 ( xinc x ) 2 s(xinc) = + + = + + (7) A n m A 2Qxx A n m Qxx donde sy/x es el desvo estndar de los residuos de la regresin dado por la ecuacin (5), A es la pendiente de la recta de regresin, n es el nmero de rplicas de la muestra incgnita, m es el nmero total de patrones de calibrado, yinc es el promedio de las respuestas de las rplicas de la incgnita, y es el promedio de las respuestas de los patrones de calibrado, y Qxx fue definido en la ecuacin (1). La ecuacin (7) es responsable de que la incertidumbre en la prediccin dependa de cada muestra y no de la calibracin en forma global, ya que para cada muestra incgnita hay un valor predicho de la concentracin (xinc) y por lo tanto un valor asociado del desvo estndar s(xinc). La forma de la ecuacin (7) proviene de un anlisis de la propagacin de las distintas fuentes de error a la concentracin predicha. Puede demostrarse que hay dos fuentes principales de incertidumbre: 1) la seal medida para la muestra incgnita y 2) las seales medidas para las muestras de calibrado. La primera contribuye con el trmino (1/n) dentro de 1 (x x)2 , que la raz cuadrada de la ecuacin (7), y la segunda con los trminos + inc m Qxx colectivamente reciben el nombre de leva (del ingls leverage). La leva mide, de algn modo, la "distancia" de la muestra incgnita al centro de la calibracin. Dado que la leva es mnima cuando la concentracin de la incgnita es igual al promedio de las concentraciones de calibrado (esto es, cuando xinc = x ), se concluye que el mtodo posee su mxima precisin en este ltimo caso. De ah que se recomiende analizar muestras cuya concentracin de analito sea cercana al centro de las concentraciones de calibrado. La extrapolacin a concentraciones mucho mayores o menores que el promedio de la calibracin aumenta la leva y con ello el error en la prediccin. Otra conclusin que puede extraerse de la ecuacin (7) es que el efecto de la calibracin sobre el error de prediccin ser tambin menor si m > n, es decir, cuando el nmero de patrones de calibrado es superior al de rplicas empleadas para predecir. En todo caso, el anlisis de la ecuacin (7) muestra que, para muestras no demasiado alejadas del centro de la calibracin, y dado que en general se cumple que m > n, el error estndar en la concentracin se puede aproximar por s(xinc) = sy/x / (A n1/2). Debe notarse finalmente que el intervalo de confianza para la concentracin predicha puede calcularse multiplicando el valor del desvo estndar dado por la ecuacin (7) por el correspondiente coeficiente de student para un dado nivel de confianza (usualmente 95%) y un nmero de grados de libertad igual a (m 2).
Cifras de mrito del mtodo

Las cifras de mrito de un mtodo analtico se utilizan regularmente con el propsito de calificar un determinado mtodo y comparar sus propiedades analticas con las provistas por otras tcnicas. Incluyen, entre otras, las siguientes: Sensibilidad de calibracin Sensibilidad analtica Lmite de deteccin Lmite de cuantificacin Rango dinmico Rango lineal Debe notarse que la expresin "cifras de mrito" es la traduccin correcta del ingls figures of merit. Esta ltima no debe traducirse como "figuras de mrito".
Sensibilidad de calibracin
La sensibilidad de calibracin es igual a la pendiente de la recta de calibrado: SEN = A (8) Indica la variacin de respuesta producida por una unidad de variacin de concentracin del analito, y sus unidades son de seal concentracin1.
Sensibilidad analtica
La sensibilidad de calibracin no es adecuada para comparar dos mtodos analticos cuando estos estn basados en respuestas de diferente naturaleza (por ejemplo, absorbancia y fluorescencia, o absorbancia y medidas electroqumicas, etc.). Para ello es preferible utilizar la llamada sensibilidad analtica , definida por la relacin entre la sensibilidad y el ruido instrumental: = SEN / sy (9) donde sy es una medida conveniente del nivel de ruido en la respuesta. Para estimar el nivel de ruido pueden usarse dos procedimientos, que en teora deberan coincidir. En el primero, se estima el ruido instrumental (sy) a travs de los desvos de las rplicas de las mediciones de calibrado respecto de sus promedios:
( yij yi ) 2
(10) m p donde p es el nmero de niveles de concentracin estudiados en la recta, r es el nmero de rplicas de cada punto, yij es el valor de la respuesta correspondiente a cada nivel y rplica, e yi es el promedio de las respuestas de las rplicas para cada nivel de concentracin. En la ecuacin (10), el nmero de grados de libertad es m p, ya que de los m datos disponibles, p grados de libertad se reservan para el clculo de las p medias y i . Este clculo se ilustra en forma detallada en el ejercicio resuelto que acompaa al presente documento. En el segundo mtodo de estimacin del nivel de ruido, se lo estima como el desvo estndar de los residuos de la regresin lineal, el parmetro ya definido sy/x [vase la ecuacin (5)]. Si los datos estudiados cumplen la relacin lineal entre respuesta y concentracin, los dos mtodos anteriormente descritos deben proveer resultados similares en cuanto a la estimacin del ruido instrumental. sy =
i =1 j =1
Lmite de deteccin
Es la mnima concentracin detectable de manera confiable por la tcnica. En la definicin moderna, el lmite de deteccin (LOD) se calcula en funcin del desvo estndar de la concentracin predicha para una muestra blanco (s0).4 Para estimar s0 se recurre a la ecuacin (7), escrita del modo siguiente: s y / x 1 1 ( xinc x ) 2 + + (11) s(xinc) = A n m Qxx Si suponemos que se analiza una muestra por triplicado (lo ms usual es n = 3) en la que el analito no est presente (xinc = 0), la ecuacin (11) se reduce a: sy/ x 1 1 x 2 (12) s0 = + + A 3 m Q xx aunque s0 ser diferente si se emplea un nmero diferente de rplicas. En todo caso, es importante informar qu valor de n se considera en el clculo de s0 y por lo tanto del LOD. Como se muestra en la Figura 1, el LOD se calcula mediante una prueba de hiptesis estadstica. En primer lugar se fija una concentracin llamada nivel crtico (LC en la Figura 1), a partir de la cual se toman decisiones respecto de la deteccin del analito. Para concentraciones superiores a LC, existe una probabilidad de cometer el llamado error de tipo I o falso positivo. Este ltimo consiste en aceptar errneamente la hiptesis alternativa, admitiendo que el analito est presente cuando en realidad est ausente. Como se aprecia en la Figura 1, la probabilidad de cometer este error de tipo I est dada por la zona sombreada de azul (rea ), siendo la "distancia" de LC al cero de la escala igual al producto de s0 por el coeficiente t,. Si se toma igual a 0,05, entonces una concentracin superior a LC tendr slo un 5% de probabilidad de constituir un falso positivo. Del mismo modo, existe una probabilidad de cometer un error de tipo II o falso negativo, en el que se acepta errneamente la hiptesis nula, admitiendo que el analito est ausente cuando en realidad est presente (zona sombreada de rojo en la Figura 1, con probabilidad igual a ). Si se toma tambin como 0,05, la probabilidad de obtener un falso negativo ser del 5%. En este caso la distancia de LC a la concentracin correspondiente a dicho valor de es el producto del coeficiente t, por s0, considerando que este ltimo parmetro es muy cercano al desvo estndar en la concentracin de una muestra blanco. Puede notarse entonces que el valor de LOD depende de y , y de los desvos estndar de las dos curvas gaussianas de la Figura 1. En general, ambas probabilidades se toman como iguales 0,05, mientras que los desvos estndar se suponen ambos iguales a s0. De este modo, el LOD est dado por:5 (13) LOD = 2 t0,05,m2 s0 6 7 definicin que ha sido adoptada tambin por IUPAC e ISO. En la prctica, dado que m es un nmero relativamente grande, el valor de (2t0,05,m2) tiende a 3,3, por lo que una ecuacin aproximada para el lmite de deteccin es LOD = 3,3 s0. Ntese que antiguamente se defina el LOD contemplando nicamente errores de tipo I, como la concentracin correspondiente a una relacin seal/ruido igual a 3, lo que equivale a fijar el lmite de deteccin como LOD = 3sbl / A, donde sbl es el desvo estndar en la seal del blanco. En esta aproximacin, la probabilidad de cometer errores de tipo I era de 0,1%, que corresponde a t0,001, = 3 (para un nmero muy grande de grados de libertad). Esta definicin, ya abandonada por la IUPAC, no contempla los errores de tipo II.
(t, + t,) s0
Hiptesis nula: analito ausente
Hiptesis alternativa: analito presente a este nivel
0 LC
LOD Prediccin
Figura 1. Prueba de significacin empleada para estimar el lmite de deteccin. LC es el nivel crtico, LOD el lmite de deteccin, y las probabilidades correspondientes a errores de tipo I y II respectivamente, s0 el desvo estndar del blanco (en unidades de concentracin) y t, y t, los coeficientes de student para grados de libertad.
Lmite de cuantificacin
Es la mnima concentracin cuantificable en forma confiable. Este parmetro (LOQ) se toma como la concentracin correspondiente a 10 veces el desvo estndar (en unidades de concentracin) del blanco, con lo cual: LOQ = 10 s0 (14) De este modo, el desvo estndar relativo (DSR) para una concentracin igual al LOQ es del 10%, nivel que se toma convencionalmente como el mximo DSR aceptable para cuantificar el analito en una muestra.
Rango dinmico
Se considera que va desde la menor concentracin detectable (el LOD) hasta la prdida de relacin entre respuesta y concentracin; vase la Figura 2, adaptada de la excelente obra de Valcrcel.8 El rango dinmico es tambin el rango de aplicabilidad de la tcnica. En la zona de prdida de la linealidad, podra aplicarse, en principio, un mtodo de regresin polinmica para la calibracin (o algn otro de naturaleza no lineal), de modo que nada impide que dicha zona sea utilizada con propsitos predictivos.
Rango lineal
Se considera que el rango lineal comprende desde la menor concentracin que puede medirse (el LOQ) hasta la prdida de la linealidad (Figura 2). Una manera conveniente de medir el cumplimiento de la linealidad es a travs de la relacin que existe entre la variancia de la regresin, medida por (sy/x)2 [ecuacin (5)], y la del ruido instrumental, medida por (sy)2 [ecuacin (10)]. Si la primera es significativamente mayor que la segunda, se supone que hay causas de desvo de la ley lineal que son estadsticamente superiores al ruido en la respuesta. Para emplear esta prueba es esencial que se cumpla el supuesto bajo el cual se realiza el ajuste lineal, esto es, que los errores en concentracin de calibrado sean menores que en respuesta. De lo contrario, se acumularan en (sy/x)2 incertidumbres derivadas de la imprecisin en las concentraciones de los patrones, que nada tienen que ver con el ruido instrumental o las prdidas de la linealidad. La prueba estadstica que se utiliza para determinar si los datos se ajustan a la ley lineal es la F: en primer lugar se calcula un valor "experimental" de F, dado por: 9
(s y / x )2 Fexp = (s y )2
(15)
Luego se compara este valor con el crtico que se encuentra en tablas de F (de una cola) para m 2 y m p grados de libertad, y un determinado nivel de confianza, por ejemplo 95%. Si Fexp < F, se acepta que los datos se comportan linealmente. Alternativamente, se calcula la probabilidad pF asociada a este valor de Fexp, y se considera que la prueba de linealidad es aceptada si pF > 0,05. Esta prueba se describe en detalle en el trabajo de Danzer y Currie.1
Rango dinmico
Respuesta
Rango lineal Prdida de la relacin respuesta-concentracin Extremo superior del rango lineal
Concentracin
LOD LOQ
Figura 2. Rangos dinmico y lineal de un mtodo analtico.
10
A
Residuos
0
B
Residuos
0
C
Residuos
0
Concentracin
Figura 3. Residuos de la regresin. A) Comportamiento lineal. B) Comportamiento no lineal. C) Comportamiento lineal con alta incertidumbre en la concentracin de los patrones.
Tambin es til, como en todo ajuste por cuadrados mnimos, examinar visualmente la distribucin de los residuos de la regresin. Un grfico de residuos (yi A xi + B) en funcin de xi puede ser muy informativo respecto de la presencia de no linealidades, ya que el valor de Fexp puede resultar significativo no solamente porque la relacin entre las variables no sea lineal, sino por incertidumbres en la preparacin de los patrones. La Figura 3 ilustra casos representativos al respecto. En el caso A), el comportamiento es lineal: se espera que la
11
distribucin de los residuos sea al azar, y que la variabilidad interna de las rplicas a cada nivel de concentracin sea comparable a la variabilidad global (precisamente este es el sentido de la prueba estadstica F antes comentada). En el caso B) se aprecia visualmente que los residuos poseen un comportamiento parablico, caso tpico de desvos de la ley lineal. Finalmente, en el caso C), los residuos muestran una variabilidad global significativamente mayor que la que presentan las rplicas a cada nivel. Esta situacin es tpica de la presencia de mayor incertidumbre en las concentraciones nominales de los patrones de calibrado que en la seal instrumental, aunque el sistema se comporte linealmente. De ah que se haya puesto hincapi en la necesidad de contar con patrones cuya concentracin se conozca con mayor precisin que el ruido instrumental. En general, sin embargo, la distribucin de los residuos no es tan clara como los casos presentados en la Figura 3, por lo que es importante aplicar el criterio estadstico F. Debe notarse que no hemos empleado, en todo este documento, al parmetro r, el coeficiente de correlacin, an cuando popularmente se recurre a l como prueba de linealidad o de bondad del ajuste. En este sentido, vale la pena repetir textualmente el siguiente pasaje del trabajo de Danzer y Currie: "el coeficiente de correlacin, que es una medida de la relacin de dos variables azarosas, no tiene ningn significado en la calibracin analtica, debido a que los valores de x no estn distribuidos al azar".1 El coeficiente de correlacin se emplea para responder preguntas tales como: est correlacionada la concentracin de antimonio con la de plomo en muestras de agua de una zona productora de metales?. En este caso se trata de analizar si existe correlacin entre variables sobre las que el operador tiene muy poco control.
Programas de computacin
Los mtodos descritos en esta clase pueden aplicarse con cualquier programa comercial que sea capaz de efectuar una regresin por cuadrados mnimos. Los parmetros faltantes pueden calcularse luego "a mano" con las ecuaciones provistas en este documento. En este sentido, la obra de Gardiner2 hace una excelente descripcin del uso de la planilla de clculo EXCEL para propsitos analticos en general, y para estudios mediante regresin univariada en particular. Para quienes deseen introducirse al mundo del entorno matricial MATLAB, esencial para clculos avanzados en quimiometa, se proveen dos rutinas que calculan todos los parmetros aqu descritos, y permiten calibrar y predecir a partir de datos univariados. Confiamos que la discusin del ejercicio resuelto que se acompaa, el contenido del documento 'COMO OPERAR CON MATLAB.PDF', as como las rutinas 'LR_CAL.M' y 'LR_PRED.M', proveern la informacin requerida para organizar los datos e implementar las rutinas. Tambin se proveen programas independientes ejecutables en QB, como alternativa para quienes no puedan acceder a MATLAB: 'LR_CAL.EXE' y 'LR_PRED.EXE'. Para operarlos puede consultarse el documento 'COMO OPERAR CON QB.PDF'.
Ejercicio resuelto
1) La Tabla 1 proporciona un ejemplo de datos de respuesta-concentracin para su anlisis, incluyendo respuestas medidas por triplicado. Grafique los datos de respuesta en funcin de la concentracin y compruebe en forma visual que se desvan de la linealidad. Establezca un lmite superior del rango lineal en forma cualitativa, para luego compararlo con el calculado mediante una prueba estadstica apropiada.
12
Tabla 1. Concentraciones y respuestas para un rango en el que se sospecha que existen desvos de la linealidad. Concentracin Respuesta 1 Respuesta 2 Respuesta 3 del patrn 0,06 0,08 0,06 0,00 1,41 1,56 1,44 1,00 2,90 2,76 2,82 2,00 4,08 4,20 4,15 3,00 5,52 5,46 5,29 4,00 6,69 6,54 6,61 5,00 7,69 7,70 7,79 6,00 8,83 8,97 8,89 7,00 9,77 9,88 10,03 8,00 10,65 10,91 10,84 9,00 11,90 11,81 11,87 10,00 Note que los valores de concentracin estn dados con una precisin de 0,01, lo cual implica un error relativo porcentual promedio de 0,01100/5 = 0,2% (Tomamos 5 como el valor promedio de las concentraciones de calibrado). Los valores de respuesta tambin estn informados con una incertidumbre de 0,01 unidades, si bien un anlisis cualitativo de la variabilidad de los replicados indica que la incertidumbre en esta medicin es mayor que lo informado en la Tabla 1. Posteriormente haremos un anlisis ms detallado, pero en principio es importante verificar que la incertidumbre relativa es mayor en la respuesta que en la concentracin. Usuarios de MATLAB: los datos de la Tabla 1 estn contenidos, en el formato apropiado para ser estudiados por la rutina 'LR_CAL.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_COMPLETOS.TXT'. Usuarios de QB: los datos estn en el archivo de texto 'D_E_R_C.TXT', para ser estudiados por el programa 'LR_CAL.EXE'. 2) La Tabla 2 muestra los mismos datos que la Tabla 1, restringidos hasta un lmite superior de concentracin para el cual se cumple la linealidad (ms adelante se muestra cmo se lleg a esta conclusin). Tabla 2. Concentraciones y respuestas para un rango en el que existe linealidad. Concentracin Respuesta 1 Respuesta 2 Respuesta 3 del patrn 0,06 0,08 0,06 0,00 1,41 1,56 1,44 1,00 2,90 2,76 2,82 2,00 4,08 4,20 4,15 3,00 5,52 5,46 5,29 4,00 6,69 6,54 6,61 5,00 Usuarios de MATLAB: los datos de la Tabla 2 estn contenidos, en el formato apropiado para ser estudiados por la rutina 'LR_CAL.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_LINEAL.TXT'. Usuarios de QB: los datos estn disponibles para ser estudiados por el programa 'LR_CAL.EXE' en el archivo de texto 'D_E_R_L.TXT'. 13
Calcule los valores de la pendiente y ordenada al origen para la recta ajustada con los datos de la Tabla 2. 3) Estime los desvos estndar en la pendiente y ordenada al origen, e informe los valores de A y B con el nmero correcto de cifras significativas. 4) La Tabla 3 muestra los valores de la respuesta para cuatro muestras incgnita, todos por triplicado. Tabla 3. Respuestas para cuatro muestras incgnita. Muestra Respuesta 1 Respuesta 2 0,65 0,69 1 2,13 2,20 2 3,41 3,55 3 4,71 4,82 4 Respuesta 3 0,75 2,05 3,52 4,70
Los datos de la Tabla 3 estn contenidos, en el formato apropiado para ser estudiados por la rutina 'LR_PRED.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_TEST.TXT'. Estime la concentracin del analito en las cuatro muestras de la Tabla 3, calcule sus desvos estndar e informe el resultado con el nmero apropiado de cifras significativas. 5) Calcule las cifras de mrito del mtodo.
Respuesta detallada
1) El anlisis de estos datos mediante los programas LR_CAL.M (Matlab) o LR_CAL.EXE (QB) indica que los datos no se comportan en forma lineal. En particular, se obtiene un valor de Fexp de 8,88, con una probabilidad asociada pF de 0,001. La grfica de los residuos es informativa al respecto:
14
2) Los valores estimados, dados por las ecuaciones (1) y (2) son, para el ejemplo de la Tabla 2, A = 1,3174 y B = 0,1237. Estos ltimos nmeros tienen, probablemente, ms cifras significativas que lo permitido por sus desvos estndar. Para acotarlos al nmero correcto de cifras es necesario estimar sus incertidumbres. 3) Los desvos estndar calculados son sy/x = 0,1, sA = 0,01 y sB = 0,04. Lo correcto es informar la pendiente y ordenada al origen de la recta ajustada del modo que sigue:
A = 1,32(1) B = 0,12(4)
En la Tabla 3 encontrar un resumen de todos los clculos intermedios necesarios para estimar A, B y sus errores estndar. Tabla 3. Parmetros necesarios para el clculo de A, B, sA y sB. i xi yi ( xi x ) 2 xi x yi y 6,25 3,36 0,06 2,50 0,00 1 2,25 1,98 1,44 1,50 1,00 2 0,25 0,60 2,82 0,50 2,00 3 0,25 0,73 4,15 0,50 3,00 4 2,25 1,87 5,29 1,50 4,00 5 6,25 3,19 6,61 2,50 5,00 6 6,25 3,34 0,08 2,50 0,00 7 2,25 1,86 1,56 1,50 1,00 8 0,25 0,66 2,76 0,50 2,00 9 0,25 0,78 4,20 0,50 3,00 10 2,25 2,04 5,46 1,50 4,00 11 6,25 3,12 6,54 2,50 5,00 12 6,25 3,48 0,06 2,50 0,00 13 2,25 2,01 1,41 1,50 1,00 14 0,25 0,52 2,90 0,50 2,00 15 0,25 0,66 4,08 0,50 3,00 16 2,25 2,10 5,52 1,50 4,00 17 6,25 3,27 6,69 2,50 5,00 18 Total Qxx = 52,5 Promedio x = 2,50 y = 3,42 4) Los valores de prediccin se muestran en la Tabla 4. Tabla 4. Predicciones en muestras incgnita. Muestra Respuesta Concentracin Desvo DSR = 100 s(xinc) a promedio (yinc) / xinc (%) predicha (xinc) estndar s(xinc) 12 0,05 0,44 0,70 1 3,3 0,05 1,52 2,13 2 1,9 0,05 2,56 3,49 3 1,4 0,05 3,51 4,74 4 a A partir de la ecuacin (6), insertando sy/x = 0,1; A = 1,32; n = 3; m = 18; yinc de la columna 2 de la Tabla 4, y = 3,42 y Qxx = 52,5. Note que los valores pueden aproximarse por s(xinc) = sy/x / (A n1/2), tal como se dijo en la parte terica. ( xi x ) ( yi y ) 8,39 2,97 0,30 0,37 2,81 7,98 8,34 2,79 0,33 0,39 3,06 7,81 8,69 3,01 0,26 0,33 3,15 8,18 Qxy = 69,17
15
Puede notarse que la concentracin predicha se acot a dos cifras decimales significativas, teniendo en cuenta que los desvos estndar son todos aproximadamente de 0,05 unidades. Ntese que los valores de s(xinc) son iguales en la Tabla 4 porque se informan con una sola cifra significativa, aunque su clculo detallado demuestra que difieren entre s, de la manera prevista por el efecto de la leva. Es importante destacar tambin que el desvo estndar relativo (DSR) dado en la Tabla 4 es alto para la primera muestra, y razonablemente bajo para las otras. En el primer caso, la concentracin predicha es tambin baja. Estas consideraciones se relacionan con la mnima concentracin detectable por la tcnica, que se considerar a continuacin. Tambin pueden fijarse los intervalos de confianza alrededor de una prediccin, empleando los coeficientes de student de dos colas para un 95% de confianza y (m 2) grados de libertad. Por ejemplo, para la muestra No. 4 en la Tabla 4: xinc = 3,51 t(p = 0,05; 16 GL) s(xinc) = 3,51 2,1 0,05 = 3,5 0,1 5) Es importante analizar la grfica de los residuos para este caso.
Como puede verse en la figura anterior, la distribucin de los residuos conserva an rastros de la falta de linealidad de los datos, pero la prueba F dice que esta impresin no es estadsticamente relevante: Fexp = 1,58, pF = 0,21. La Tabla 5 ilustra el clculo detallado de sy para esta prueba. En el presente ejemplo, la sensibilidad est dada por SEN = 1,32 (Unidades de respuesta)(Unidades de concentracin)1 Para el clculo de la sensibilidad analtica se requiere una estimacin del nivel de ruido instrumental. Para los datos de la Tabla 2, p = 6, r = 3, sy = 0,08 (vase la Tabla 5 para el detalle del clculo).
16
Tabla 5. Parmetros requeridos para el clculo de sy. i j yij yi 1 2 3 4 5 6 Total 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 0,06 0,08 0,06 1,44 1,56 1,41 2,82 2,76 2,90 4,15 4,20 4,08 5,29 5,46 5,52 6,61 6,54 6,69 0,03 1,47 2,83 4,14 5,42 6,61
p r
(yij yi )2 0,0009 0,0025 0,0081 0,0009 0,0081 0,0036 0,0001 0,0049 0,0049 0,0001 0,0036 0,0036 0,0169 0,0016 0,0100 0,0000 0,0049 0,0064
( yij yi ) 2 = 0,081
i =1 j =1
A partir de los resultados de la tabla anterior, se puede calcular un nivel de ruido instrumental de (0,081/12)1/2 = 0,08. Dado que, para los mismos datos, sy/x = 0,1, puede notarse que ambos procedimientos para estimar el ruido producen resultados similares. Empleando 0,1 unidades de respuesta como nivel de ruido, podemos calcular la sensibilidad analtica para el ejemplo en estudio a partir de la ecuacin (10), como = SEN / sy/x = 13 (Unidades de concentracin)1. El parmetro se interpreta mejor en trminos de su inversa. El valor de 1 (0,08 unidades de concentracin en nuestro caso) indica la menor diferencia de concentracin que puede apreciarse a lo largo del intervalo de aplicacin de la tcnica analtica. Con respecto al lmite de deteccin, puede estimarse como LOD = 2t0,05,16 0.06 = 0,2. Se interpreta este ltimo resultado diciendo que la tcnica es capaz de detectar al analito cuando est en concentraciones superiores a 0,2. Para el ejemplo de la Tabla 2 el LOQ se calcula como 0,6 unidades de concentracin. Se interpreta como la menor concentracin que se puede cuantificar, esto es, en el intervalo de concentracin entre 0,2 y 0,6 la tcnica puede detectar pero no cuantificar al analito. Con esto se comprueba que la concentracin predicha para la muestra incgnita No. 1 de la Tabla 4 est por debajo del LOQ, lo cual explica el alto valor de DSR. Con respecto al rango dinmico, la mxima concentracin probada fue de 10,00 unidades (Tabla 1). Hasta esa concentracin existe un cambio de respuesta al cambiar la concentracin, por lo que, a falta de mayor informacin, supondremos que el rango dinmico est entre 0,3 y 10 unidades de concentracin. Para estimar el rango lineal, se recurre a los datos de la Tabla 1, y se comprueba que para este caso, si se incluyen todos los datos, Fexp = 8,88, pF = 0,001, con lo cual dichos datos se declaran no lineales. Si vamos quitando datos, comenzando con los de mayor concentracin, y recalculamos los valores de Fexp y sus pF asociadas, se obtienen los resultados informados en la Tabla 6. 17
Tabla 6. Rangos de concentracin y estudio de la linealidad mediante la prueba F. Rango de concentracin Fexp pF 0,001 8,88 0-10 0,001 6,69 0-9 0,001 4,62 0-8 0,007 3,50 0-7 0,031 2,73 0-6 0,214 1,58 0-5 Estos resultados indican que a partir de una concentracin de analito igual a 6 unidades se pierde la linealidad. En realidad, la no-linealidad se mantiene. Debera decirse que a partir de 6 unidades de concentracin no es posible distinguir la incertidumbre por falta la linealidad de la incertidumbre intrnseca de la respuesta analtica. La Tabla 7 resume las cifras de mrito calculadas. Tabla 6. Cifras de mrito. Cifra de mrito Valor (unidades) Sensibilidad SEN = 1,32 (Unidades de respuesta)(Unidades de concentracin)1 Sensibilidad analtica = SEN / sy/x = 13 (Unidades de concentracin)1 Lmite de deteccin LOD = 0,2 (Unidades de concentracin) Lmite de cuantificacin LOQ = 0,6 (Unidades de concentracin) Rango dinmico 0,2-10,0 (Unidades de concentracin) Rango lineal 0,6-6,0 (Unidades de concentracin)
Ejercicios propuestos
1) Se analiza una serie de muestras patrones mediante dos mtodos analticos, uno basado en medidas de absorbancia y otro basado en medidas de fluorescencia. Los resultados se muestran en la siguiente tabla:
Concentraciones de patrones y respuestas obtenidas mediante dos mtodos analticos. Concentracin Mtodo A Mtodo B del patrn Respuesta Respuesta Respuesta Respuesta Respuesta Respuesta 1 2 3 1 2 3 1,9 1,9 2,0 0,02 0,02 0,01 0,000 17,3 17,4 17,4 0,17 0,17 0,17 0,100 32,6 32,6 32,5 0,32 0,33 0,32 0,200 48,0 47,8 47,8 0,48 0,48 0,48 0,300 63,3 63,3 63,2 0,64 0,64 0,64 0,400 78,4 78,5 78,4 0,79 0,79 0,79 0,500
Calcule las cifras de mrito para cada mtodo. Cul de estos mtodos puede considerarse ms sensible? Qu parmetro(s) emplea para justificar la mayor sensibilidad de un mtodo sobre el otro?. 2) Se mide por triplicado una muestra incgnita, usando ambos mtodos descriptos en el problema anterior. Los resultados se presentan en la siguiente tabla:
18
Respuesta 1 0,25
Mtodo A Respuesta 2 0,26
Respuesta 3 0,25
Respuesta 1 25,2
Mtodo B Respuesta 2 25,1
Respuesta 3 25,3
Calcular la concentracin del analito por ambos mtodos, y estimar su desvo estndar. Qu comentarios pueden hacerse respecto de estos resultados? Se recomienda emplear las rutinas de MATLAB 'LR_CAL.M' y 'LR_PRED.M' (o sus versiones respectivas en QB) organizando los datos de los ejercicios propuestos de la manera que se presenta en los archivos de texto correspondientes al ejercicio resuelto. 3) En el anlisis fluorimtrico de un compuesto, se realizan dos curvas de calibrado, empleando dos longitudes de onda diferentes para la excitacin. En el caso A, la emisin del compuesto est superpuesta con la dispersin Ramana del solvente, y el analista observa por lo tanto la presencia de un blanco constante de intensidad significativa. Decide modificar la longitud de onda de excitacin, en este caso generando los datos del caso B, donde el blanco parece ser menor. En la tabla siguiente se informan los datos de calibracin para cada caso, en sus respectivos rangos lineales. Qu conclusiones pueden extraerse respecto de las cifras de mrito de estos dos casos? Muestra 1 2 3 4 5 6 Muestra 1 2 3 4 5 6 7 8 Concentracin 0,000 0,198 0,392 0,583 0,769 0,950 Concentracin 0,000 0,198 0,392 0,583 0,769 0,950 1,130 1,310 Caso A Respuesta 1 0,78 3,38 5,75 8,53 10,97 13,40 Caso B Respuesta 1 0,01 1,96 3,75 5,59 7,30 9,07 10,83 12,08 Respuesta 2 0,80 3,44 6,16 8,51 11,04 13,08 Respuesta 2 0,03 1,88 3,75 5,52 7,35 8,95 10,71 12,11 Respuesta 3 0,82 3,51 6,01 8,68 10,89 13,37 Respuesta 3 0,04 1,90 3,80 5,56 7,27 9,03 10,46 12,21
19
El 42,57 % de toda la estadstica est equivocado.
Clase 2
Regresin lineal
"Elliptical viewpoint", escultura, tomada de www.sculpturedesign.com.
Material suministrado con la clase 2

Para esta clase se proveen los siguientes archivos: LECTURA ADICIONAL CLASE 2.PDF, documento de Adobe con un trabajo educativo para lectura adicional. Archivos de texto (*.TXT) conteniendo datos tpicos para estudios de exactitud y comparacin de mtodos. Archivos (*.M) con rutinas para el entorno de programacin MATLAB. Archivos (*.EXE) con programas ejecutables en QB.
Parte 2: exactitud y comparacin de mtodos analticos

En este segundo captulo sobre regresin lineal exploraremos su uso para el anlisis de la exactitud de un mtodo analtico y para la comparacin de dos mtodos analticos diferentes. La teora se expone en este documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la seccin Ejercicio Resuelto. La discusin que sigue est basada en trabajos recientes acerca del empleo de ensayos de recuperacin para la validacin y comparacin de mtodos,9 as como en la obra clsica de Massart y colaboradores.10 Para el estudio de la exactitud de un mtodo analtico, es usual preparar una serie de patrones con concentraciones conocidas del analito de inters, diferentes a las utilizadas en la etapa de calibracin. Luego se determina la concentracin del analito en cada uno de ellos por interpolacin en la recta de calibrado, y se analiza la exactitud de la determinacin a travs de la recuperacin de las concentraciones nominales del analito.
20
Por otro lado, cuando se desean comparar dos mtodos analticos, se determina, por ambos mtodos, el contenido de un analito en una serie de muestras en las que su concentracin es variable (dentro del rango lineal de cada uno de ellos). En ambos casos se trata de comparar parejas de valores que idealmente seran iguales, y estudiar el posible desvo de esta situacin ideal, en un contexto estadstico y con un cierto nivel de confianza. Es por esta razn que ambos procedimientos se incluyen en la presente clase.
Exactitud de un mtodo analtico

Si se dispone de una serie de patrones de concentracin conocida para la validacin de un mtodo analtico, se procede del modo siguiente. En primer lugar se miden sus respuestas, incluyendo rplicas de cada medicin (usualmente cada patrn se mide por triplicado). Se estima la concentracin a partir de cada respuesta analtica, se promedian los valores para cada nivel y se calcula el desvo estndar asociado. Luego se realiza una regresin lineal de los promedios en funcin de las concentraciones nominales a cada nivel. El anlisis difiere en ciertas sutilezas respecto del realizado en el caso de la Clase 1. La nomenclatura empleada aqu se describe a continuacin: x indica la variable concentracin nominal de cada nivel, y la variable concentracin promedio predicha para las rplicas de cada nivel, n el nmero de rplicas, q el nmero de niveles de validacin estudiados, y s(yi) el desvo estndar en la seal para cada nivel de concentracin (xi). Hay q desvos estndar, dados por:
( yij yi ) 2
(1) n 1 En la ecuacin (1), yij indica la concentracin para el patrn i en la rplica j, e yi es el promedio de las n rplicas para el nivel i. Debemos notar que una de las premisas para realizar un estudio por regresin lineal simple es que la variancia de la variable y sea aproximadamente constante, u homoscedstica.11 La Figura 1 muestra las diferencias entre una variancia homoscedstica y otra heteroscedstica. En la calibracin de datos analticos se supone que la distribucin del ruido instrumental es constante a lo largo del rango de calibracin, o en otras palabras, que la respuesta analtica es homoscedstica. Esto no es necesariamente as, sin embargo, si la variable y es la concentracin predicha para patrones de validacin, y no la respuesta analtica. Como se estudi en la Clase 1, el desvo estndar en la concentracin predicha mediante una recta de calibrado no es constante para diferentes muestras, sino que vara con la concentracin del analito. Es decir que, en principio, la variable y que estamos considerando en esta clase no es homoscedstica. En estos casos, se recomienda realizar una regresin lineal mediante cuadrados mnimos ponderados (WLS, por weighted least-squares) y no una regresin ordinaria (OLS, por ordinary least-squares) como la empleada en la Clase 1. Dado que el mtodo WLS es ms complicado que el OLS, lo recomendable es previamente verificar si efectivamente la variancia no es constante, para utilizar el primero en los casos en los que es estrictamente necesario. Una prueba de constancia de la variancia (o prueba de la homoscedasticidad) puede realizarse mediante el uso del parmetro estadstico F, calculando el valor "experimental" Fexp definido por el cociente entre el mximo y el mnimo valor de las variancias en las rplicas de los patrones [se toma como medida de cada variancia el valor de s(yi)2]:
s(yi) =
j =1
21
max[s ( yi ) 2 ] (2) min[s ( yi ) 2 ] Este valor se compara luego con el valor crtico de tablas para n 1 y n 1 grados de libertad (usualmente con el 95% de confianza). Si Fexp > Fcrit entonces se recomienda calcular los parmetros A y B de la regresin con el mtodo WLS que se describe ms adelante.
Fexp =
Figura 1. Arriba, variancia homoscedstica; abajo, variancia heteroscedstica.
Regin de confianza en el caso homoscedstico

Si se ha podido aplicar el mtodo OLS descrito en la Clase 1, debido a que las variancias son aproximadamente constantes, se dispone de los valores ajustados de A y B y de sus desvos estndar. Estos parmetros han sido utilizados tradicionalmente para determinar si las concentraciones estimadas de los patrones de validacin se diferencian estadsticamente (o no), de las nominales. El procedimiento consista en verificar si los valores ideales de A y B (1 y 0 respectivamente) estaban contenidos dentro de los correspondientes intervalos de confianza para la pendiente y ordenada al origen ajustadas. Sin embargo, actualmente se considera que este procedimiento es incorrecto, puesto que no tiene en cuenta que A y B no
22
son variables estadsticamente independientes, y que siempre existe un cierto grado de correlacin entre ellas. El procedimiento correcto debe considerar el intervalo de confianza conjunto entre la pendiente y la ordenada al origen. Este intervalo es una regin en el plano de las dos variables (pendiente y ordenada al origen) que tiene forma elptica. Por este motivo, la prueba estadstica correcta consiste en investigar si el punto (1,0) est contenido en la regin elptica de confianza conjunta de la pendiente y la ordenada al origen. La prueba se conoce como EJCR (por elliptical joint confidence region). Especficamente, la regin elptica est descripta por la siguiente ecuacin:9 q( B) 2 + 2( A)( B) xi + ( A) 2 xi2 = 2 s 2 / x F2,q 2 y
i =1 i =1 q q
(3)
En la ecuacin precedente, y son las variables que corresponden a las dos dimensiones del plano en que se representa la regin elptica, y F2,q2 es el valor del parmetro estadstico F con 2 y q 2 grados de libertad para un dado nivel de confianza (usualmente 95%). Por lo tanto, debe dibujarse en un grfico bidimensional la regin anterior y verificar si contiene al punto (1,0). Detalles de cmo se dibuja esta elipse en un caso particular se dan en el ejercicio resuelto del documento que se acompaa. La Figura 2 ilustra este tipo de regin para un caso tpico: si el punto (1,0) no est contenido dentro de la elipse, esto implica que el mtodo no es exacto. Es importante remarcar que el tamao de la elipse, que est controlado, entre otros parmetros, por el desvo estndar de la regresin sy/x, da una idea de la precisin del mtodo analtico que se est probando. En este sentido, es importante utilizar un nmero significativo de niveles de concentracin para la prueba de exactitud, de manera que sy/x sea representativo de la regresin. De lo contrario, si se emplean slo unos pocos niveles de concentracin, se corre el riesgo de que la elipse abarque un rea considerable, e incluya al punto ideal (1,0) slo por azar. Vase la Figura 3 para aclarar este punto. Ntese que el valor de sy/x en este caso es similar al parmetro usualmente empleado en la comparacin de concentraciones predichas y nominales, llamado RMSE (por root mean square error):
( y predicho y nominal ) 2
(4) q Se divide el numerador por q (y no por q 1) debido a que RMSE no es un desvo estndar, sino la raz cuadrada de una media de desvos.
RMSE =
23
0.2
0.2
Ordenada al origen
0.0
Ordenada al origen
1.0 1.1
0.0
-0.2
-0.2 1.0 1.1
Pendiente
Pendiente
Figura 2. Dos regiones elpticas de confianza conjunta. Izquierda, mtodo exacto. Derecha, mtodo no exacto. El cuadrado marca el punto ideal (1,0).
Ordenada al origen
Pendiente
Figura 3. Distintos tipos de elipses, de acuerdo con la exactitud y precisin: verde, exacta y precisa; celeste, exacta e imprecisa; amarilla, inexacta e imprecisa; naranja, inexacta y precisa. El cuadrado negro marca el punto ideal (1,0).
Regresin ponderada
Si los datos no cumplen con la prueba de homoscedasticidad, el anlisis de los datos de validacin debe hacerse mediante regresin lineal ponderada. En este caso se calculan la pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuacin y = A x + B, minimizando la siguiente suma ponderada de cuadrados (SC): SC = wi ( yi yi ) 2
i =1 q
(5)
24
donde wi es el "peso" o "ponderacin" aplicado a cada punto de la regresin, q el nmero de puntos, yi el valor de la variable y en cada punto (los promedios yi de las rplicas) e y es el promedio de los valores de la variable y. En el mtodo OLS utilizado en calibracin, la suma de cuadrados no incluye peso o ponderacin alguna. Cuando los datos son heteroscedsticos, el peso wi se define como inversamente proporcional a la variancia de la variable en el punto i: 1 wi = (6) s ( yi ) 2 El efecto concreto del pesado de los datos en forma inversamente proporcional a su variancia es dar mayor contribucin, en la regresin, a los datos ms precisos, y comparativamente menor peso a los menos precisos. Los valores estimados de A y B de una regresin lineal ponderada se calculan mediante las siguientes ecuaciones:
wi ( xi x w )( yi y w )
A=
i =1
wi ( xi
i =1
(7) xw ) 2
(8) B = y w A xw donde xi es la concentracin de cada uno de los q patrones de validacin, y los parmetros xw e y w son las coordenadas del centro de gravedad pesado por donde pasa la recta ajustada, que estn dadas por:
wi xi
xw =
i =1 q
(9)
wi
i =1 q
wi yi
yw =
i =1 q
(10)
wi
i =1
En el mtodo WLS el parmetro sy/x (el desvo estndar de los residuos de la regresin) est dado por:
wi ( yi yi ) 2
q i =1
(11) q2 donde yi es la respuesta experimental, e yi representa la respuesta estimada en cada punto, esto es, yi = A xi + B. El lector podr comprobar que si todos los wi son idnticos entre s (homoscedasticidad perfecta), las ecuaciones anteriores se reducen al caso OLS tratado en la Clase 1.
sy/x =
Regin de confianza en el caso heteroscedstico

Cuando se aplica el mtodo WLS para determinar A y B, la prueba de exactitud del mtodo analtico es idntica a la descrita en el caso OLS, excepto que la ecuacin que describe la elipse de confianza conjunta es: 25
B) 2
wi + 2( A)( B) wi xi + (
i =1 i =1
A) 2
wi xi2 = 2s 2 / x F2,q2 y
i =1
(12)
Comparacin de mtodos analticos

La comparacin de dos mtodos se lleva a cabo disponiendo de una serie de muestras para las que se ha determinado el contenido de un analito por dos mtodos alternativos. Usualmente se mide cada muestra por triplicado por ambos mtodos, y se aplica un modelo de regresin lineal para verificar si los resultados provistos por ambos mtodos son comparables. Cada muestra estudiada proporciona entonces una concentracin predicha por cada uno de los dos mtodos, acompaadas por sus respectivas variancias. Supongamos que los resultados determinados por el mtodo 1 se consideran la variable x y los provistos por el mtodo 2 la variable y (en la comparacin de un mtodo dado frente a otro considerado como referencia, este ltimo se toma como mtodo 1). Ambas variables, por lo tanto, tienen asociada una incertidumbre finita. La regresin lineal de y vs. x en este caso difiere tanto del mtodo OLS como del WLS, ya que en estos dos ltimos la suposicin bsica es que no hay error en la variable x, aunque en realidad debera decirse que en OLS y WLS la incertidumbre asociada a la variable x (concentracin nominal de patrones) es significativamente menor que la asociada a la variable y (respuesta analtica de los patrones, o concentracin predicha por un dado mtodo). Este supuesto no se cumple en la comparacin de mtodos analticos, y es necesario recurrir a un mtodo de regresin que tenga en cuenta los errores en ambos ejes. Un mtodo popular para estos casos es el de cuadrados mnimos bivariados o BLS (por bivariate leastsquares).12 En la tcnica BLS la pendiente y la ordenada al origen de la recta ajustada se obtienen minimizando una funcin idntica a la mostrada en la ecuacin (5), excepto que los pesos son una funcin de las variancias en ambas variables: wi = [s ( yi ) 2 + A 2 s ( xi ) 2 ]1 (13) En otras palabras, los pesos de la regresin "doblemente ponderada" BLS se eligen como inversamente proporcionales a una combinacin de las variancias en x y en y. Lamentablemente no existen frmulas explcitas para estimar la pendiente y la ordenada al origen cuando los pesos tienen la forma dada por la ecuacin (13), y debe recurrirse a un algoritmo matemtico iterativo que no est disponible en los programas comerciales de ajuste por cuadrados mnimos. Esto es as porque en la ecuacin (13) interviene la pendiente estimada A, que a su vez depende de los pesos. Sin embargo, hay ocasiones en que no es imprescindible aplicar el mtodo BLS: cuando la variancia en la variable x es significativamente menor que en la variable y, la comparacin puede realizarse con xito empleando el mtodo WLS, considerando que no hay error en la variable x. De hecho, si s(xi)2 << s(yi)2, la ecuacin (13) se reduce al caso WLS en que wi = s(yi)2. Por este motivo se aconseja asignar, para la regresin lineal, la variable x a los valores hallados por el mtodo ms preciso, y la variable y al mtodo menos preciso. Si puede hacerse esta ltima aproximacin, la comparacin de mtodos consiste en el clculo de la pendiente y ordenada al origen mediante WLS, y consideracin de la regin elptica de confianza conjunta, tal como se describi para el estudio de exactitud. Si el punto ideal (1,0) est contenido dentro de la elipse, los mtodos son comparables estadsticamente en cuanto a la prediccin de la concentracin del analito en las muestras de validacin. Se recomienda consultar el trabajo que se adjunta (LECTURA ADICIONAL CLASE 2.PDF), en el que se ilustran los peligros de no emplear el mtodo correcto de regresin para la comparacin de mtodos analticos. Tambin se discute el hecho de que en ciertos casos los mtodos WLS y BLS pueden producir resultados similares, pero muy diferentes a los provistos por OLS. 26
Programas de computacin
Usuarios de MATLAB: se provee acceso a la rutina EJCR.M que puede usarse para aplicar los mtodos OLS, WLS y BLS, y generar la elipse correspondiente. Usuarios de QB: se provee acceso al programa EJCR.EXE, que realiza las operaciones necesarias pero no grafica la elipse. Esta ltima puede obtenerse importando los datos generados por el programa en un entorno grfico apropiado. Vase tambin el ejercicio resuelto detalladamente que se acompaa.
Ejercicio resuelto
1) La Tabla 1 muestra datos para analizar la exactitud de un mtodo analtico. Determine si el mtodo es exacto mediante regresin lineal y estudio de la regin elptica de confianza conjunta para A y B. Tabla 1. Concentraciones nominales de patrones, y valores hallados por un mtodo analtico (con sus desvos estndar). Muestra Nominal Hallada Desvo estndar (promedio de cinco rplicas) 0,06 0,06 0,05 1 0,05 5,02 5,16 2 0,04 10,00 9,91 3 0,02 15,20 14,90 4 0,03 19,90 19,80 5 0,04 25,00 24,90 6 0,06 30,00 30,00 7 2) La Tabla 2 muestra datos para la comparacin de dos mtodos analticos (promedios de tres rplicas en cada caso), incluyendo los desvos estndar de cada uno. Compare los resultados mediante regresin WLS y anlisis de la regin elptica conjunta. Tabla 2. Concentraciones halladas por dos mtodos analticos con sus desvos estndar. Muestra Mtodo 1 Desvo Mtodo 2 Desvo estndar estndar 0,06 0,06 0,03 0,05 1 0,05 5,02 0,02 5,16 2 0,04 10,00 0,02 9,91 3 0,02 15,20 0,01 14,90 4 0,03 19,90 0,02 19,80 5 0,04 25,00 0,01 24,90 6 0,06 30,00 0,03 30,00 7
Respuesta detallada
1) En primer lugar debemos determinar si los datos de la Tabla 1 son homoscedsticos. Para ello calculamos el cociente: max[s ( yi ) 2 ] (0,06) 2 Fexp = = =9 min[s ( yi ) 2 ] (0,02) 2
27
Dado que este ltimo valor es mayor que el de tabla [Fcrit (95%,4,4) = 6,5] concluimos que los datos son heteroscedsticos, y que debemos emplear el mtodo WLS para el anlisis por regresin lineal. Calculamos entonces los pesos wi de cada dato, los que se renen en la Tabla 3. El clculo de cada peso se realiza mediante la ecuacin: qs ( yi ) 2 wi = q s( yi ) 2
i =1
De esta manera, se consigue que la suma de los pesos sea igual a q, lo que facilita los clculos. Tabla 3. Datos xi, yi y pesos wi para exactitud de mtodos. i xi yi 0,06 0,05 1 5,02 5,16 2 10,00 9,91 3 15,20 14,90 4 19,90 19,80 5 25,00 24,90 6 30,00 30,00 7
wi 0,33 0,48 0,75 3,00 1,33 0,75 0,33
Note que los pesos son mayores para datos con menor desvo estndar. Para la muestra nmero 1, por ejemplo, tendremos: 7 (0,06) 2 w1 = = 0,33 1 1 1 1 1 1 1 + + + + + + (0,06) 2 (0,05) 2 (0,04) 2 (0,02) 2 (0,03) 2 (0,04) 2 (0,06) 2 Luego debemos calcular los valores de los diferentes productos de variables y pesos, que se muestran en la Tabla 4. Tabla 4. Clculos parciales para el mtodo WLS. i wi xi wi xi2 wi yi 0,0201 0,0008 0,0167 1 2,4165 12,8169 2,4839 2 7,5215 73,8671 7,4538 3 45,7307 667,9384 44,8281 4 26,6094 524,2178 26,4756 5 18,8037 466,3399 18,7285 6 10,0287 300,8596 10,0287 7 Total 110,0153 2.046,0405 111,1304 Con los resultados anteriores, calculamos: xw = 110,0153 / 7 = 15,72 y w = 111,1304 / 7 = 15,88
wi xi yi 0,0010 12,4692 74,5380 681,3868 526,8653 468,2128 300,8596 2.064,3327
28
wi ( xi x w )( yi y w )
A=
i =1
wi ( xi
i =1 q i =1
= xw ) 2 2.064,3327 7 15,72 15,88 = 1,0022 2.046,0405 7 (15,72) 2
wi xi yi vx w y w
=
2 wi xi2 vx w i =1 q
B = y w A xw = 15,88 1,0022 15,72 = 0,12 Estos valores deben acotarse al nmero correcto de cifras significativas conociendo los desvos estndar correspondientes. Los desvos estndar en la pendiente y la ordenada al origen, estimadas por el mtodo WLS de regresin lineal, estn dados por ecuaciones anlogas a las empleadas en el mtodo OLS, pero con los valores de x e y pesados convenientemente: sy/ x sA = Qxx
2 1 xw + m Qxx donde sy/x se determina mediante la ecuacin apropiada para datos pesados (WLS), tal como se describi en la parte terica:
sB = s y / x
wi ( yi yi ) 2
= 0,16 q2 Por su parte, Qxx est dado por: Qxx =

2 wi xi2 qx w = 316,2 i =1 q
sy/x =
i =1
A partir de estos parmetros, se obtiene (redondeando a una cifra significativa): sA = 0,01 sB = 0,2 Por lo tanto, la pendiente y la ordenada al origen se informan como A = 1,00(1) y B = 0,1(2). Para el estudio de la regin elptica, necesitamos los siguientes parmetros: q=7
wi xi = 110,0153 wi xi2 = 2.046,0405

i =1 i =1 q
s 2 / x = 0,026 y
F2,q 2 = 8,6 Por lo tanto, la ecuacin de la elipse estar dada por: 7( 0,1) 2 + 220,0306( 1)( 0,1) + 2.046,0405( 1) 2 = 0,44
29
La ecuacin anterior tiene la siguiente forma: a1 ( A) 2 + a 2 ( A)( B) + a3 ( B) 2 = a 4 donde a1, a2, a3, a4, A y B son constantes y y son las variables. Los valores de las constantes son: a1 = 2,046103 a2 = 220,03 a3 = 7 a4 = 0,44 A=1 B = 0,1 La ecuacin describe una elipse en el plano (,). Para dibujar esta elipse es necesario conocer sus lmites en el eje de las abscisas (). Estos lmites se pueden calcular a partir de las siguientes consideraciones. En primer lugar re-escribimos la ecuacin anterior como de segundo grado en ( B): a3 ( B) 2 + a 2 ( A)( B) + [a1 ( A) 2 a 4 ] = 0 Luego calculamos los valores de ( B) a partir de la resolvente de segundo grado:
2a 3 Observamos que slo se obtendrn valores reales de ( B) si se cumple que la expresin dentro de la raz cuadrada es positiva; los lmites se encuentran cuando esta expresin se iguala a cero: a 2 2 ( A) 2 4a3 [a1 ( A) 2 a 4 ] = 0
( B) =
a 2 ( A) a 2 ( A) 2 4a3 [a1 ( A) 2 a 4 ]
2
de donde se pueden calcular los lmites superior e inferior de ( A) como: 4a 3 a 4 = 0,0373 LIM( A) = a 2 2 + 4a3 a1
Para construir una tabla de valores de y , y graficar la elipse se calculan los correspondientes valores de dentro de estos lmites de mediante la ecuacin: =B+
a 2 ( A) a 2 ( A) 2 4a3 [a1 ( A) 2 a 4 )]
2
2a 3 Ejemplos de pares de valores de y calculados con la ecuacin anterior son:
A 0,0373 0,0273 0,0173 0,0073 0,0027 0,0127 0,0227 0,0327
0,9627 0,9727 0,9827 0,9927 1,0027 1,0127 1,0227 1,0327
0,7110 0,6971 0,5903 0,4563 0,3027 0,1306 0,0642 0,3022 0,6520 0,3516 0,1441 0,0362 0,1970 0,3393 0,4587 0,5350
La grfica de la elipse correspondiente, construida con datos de la tabla anterior, es la siguiente (el cuadrado slido marca el punto ideal de pendiente 1 y ordenada 0):
30
Ordenada al origen ()
-1 0.96
0.98
1.00
1.02
1.04
1.06
Pendiente ()
Se aprecia claramente que el punto ideal (1,0) est contenido en la elipse, por lo que el mtodo analizado es exacto. Usuarios de MATLAB: los datos de la tabla estn contenidos en el archivo de texto 'DATOS_EXACT_WLS.TXT', y organizados de tal modo que pueden estudiarse mediante la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numricos necesarios para graficar la regin elptica mediante programas grficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse. Usuarios de QB: los datos estn en el archivo 'D_E_WLS.TXT' para ser estudiados por EJCR.EXE. 2) En este caso se trata de comparar dos mtodos analticos. Los resultados del anlisis mediante WLS son idnticos a los discutidos para la parte 1) (porqu?). Cuando se realiza un anlisis BLS se calculan los siguientes valores de pendiente y ordenada al origen: A = 1.00(1) B = 0,1(2) Ntese que son idnticos a los hallados mediante la tcnica WLS. La explicacin es que los valores de la variable x (las concentraciones estimadas mediante el mtodo analtico 1) tienen desvos estndar menores que los de y (las concentraciones estimadas mediante el mtodo analtico 2). Como consecuencia, es prcticamente lo mismo realizar el anlisis mediante WLS o mediante BLS. Usuarios de MATLAB: los datos de la tabla estn contenidos en el archivo de texto 'DATOS_COMPAR_BLS.TXT', y organizados de tal modo que pueden estudiarse mediante la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona
31
los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numricos necesarios para graficar la regin elptica mediante programas grficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse. Usuarios de QB: los datos estn en D_C_BLS.TXT.
Ejercicios propuestos
1) Los valores siguientes corresponden a la comparacin entre las predicciones efectuadas para la determinacin de teofilina en sangre mediante un mtodo espectrofotomtrico, comparado con un mtodo de inmunofluorescencia polarizada (FPIA). No se determinaron las muestras por triplicado debido a la cantidad insuficiente de muestra (sueros de pacientes peditricos). Sin embargo, se estima que los desvos estndar promedio para cada mtodo son: 0.4 g ml1 para el mtodo FPIA y 0.9 g ml1 para el espectrofotomtrico. Llevar a cabo el anlisis de comparacin de mtodos mediante la construccin de la elipse apropiada, suponiendo que los desvos estndar anteriores son constantes para todos los datos. Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Teofilina hallada / g ml1 FPIA Espectrofotomtrico 0.0 1.4 6.5 5.3 33.2 30.6 9.7 12.7 12.2 14.9 14.8 17.7 20.1 19.9 15.6 18.5 19.3 20.4 16.8 22.6 24.2 27.1 28.6 29.8 0.0 0.0 3.9 1.6 8.0 5.7 11.2 14.2 11.4 15.3 14.7 17.5 16.5 17.6 16.6 19.4 19.8 18.7 19.5 18.9 23.0 21.2
2) En la determinacin del antibitico ciprofloxacina en orina se emplean tres mtodos multivariados diferentes. La tabla que sigue proporciona datos para estudiar la exactitud de cada mtodo, frente a un grupo de muestras de referencia, cuya concentracin de analito es conocida. Grafique las correspondientes EJCR y comente los resultados. Note que no hay datos disponibles acerca de los desvos estndar, por lo que deber realizarse un anlisis OLS.
32
Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Nominal 190 87 23 13 38 150 26 58 125 65 90 160 48 75 0 0 0 0
Mtodo 1 173 80 26 6 19 142 33 67 146 63 89 158 41 64 10 5 3 11
Mtodo 2 214 86 29 14 28 145 16 60 126 67 92 172 52 68 11 8 7 7
Mtodo 3 208 107 46 28 50 160 47 80 146 75 120 174 61 92 26 21 30 27
Se recomienda emplear la rutina de MATLAB 'EJCR.M' (o su equivalente en QB) organizando los datos del ejercicio propuesto de la manera que se presenta en los archivos de texto correspondientes al ejercicio resuelto.
33
Resoluciones a los ejercicios propuestos Respuestas a los ejercicios propuestos en la clase 1

1) Empleando las ecuaciones de regresin lineal y clculo de cifras de mrito expuestas en la teora de la clase 1, se obtienen los siguientes resultados respecto de la sensibilidad: Mtodo A B Sensibilidad de calibracin 1,552 153.0 Sensibilidad analtica 4,3102 1,8103
Ntese que la sensibilidad de calibracin tiene cifras significativas compatibles con su desvo estndar. En cambio, la sensibilidad analtica se informa con un nmero de cifras significativas que depende del cociente sensibilidad/ruido. Dado que el ruido se conoce con una o a lo sumo dos cifras significativas, la sensibilidad analtica se informa con dos cifras como mximo. Estos resultados indican que tanto la sensibilidad de calibracin como la sensibilidad analtica es significativamente mayor para el mtodo B. Sin embargo, la sensibilidad de calibracin es dos rdenes de magnitud mayor para B, mientras que la sensibilidad analtica es superior, pero en menos de un orden de magnitud. La sensibilidad analtica es un mejor parmetro para la comparacin. 2) Las concentraciones predichas para la incgnita y sus desvos estndar, usando ambos mtodos, son: Mtodo Concentracin (desvo estndar) A 0,153(1) B 0,1517(4) Como puede apreciarse, el desvo estndar calculado mediante el mtodo B es menor, debido a su mayor sensibilidad analtica. Como comentario, la sensibilidad analtica parece comportarse mejor, en cuanto cifra de mrito, para calificar el desempeo de estos dos mtodos, ya que se correlaciona con la precisin de cada clculo de concentracin. 3) Cifras de mrito en cada caso: Caso A B Sensibilidad Sensibilidad analtica 13,2 114,1 9,3 91,2 1/ 0,009 0,011 LOD 0,02 0,03 LOQ 0,06 0,08 Rango lineal 0,06-0,95 0,08-1,31
Debe notarse que el caso A posee efectivamente un blanco significativo, ya que la ordenada al origen es significativamente distinta de cero. En cuanto a las cifras de mrito, son algo mejores en el caso A, aunque el rango lineal es tambin sensiblemente menor.
34
La eleccin entre estos dos casos es un ejemplo de que no se puede tener todo en la vida: habra que decidir qu es ms importante para aplicaciones concretas, si el rango lineal extendido o la mayor sensibilidad.
Respuesta a los ejercicios propuestos en la clase 2

1) La tabla de datos debe complementarse con la de los desvos estndar. En este caso, dado que el desvo estndar para FPIA es menor que para el mtodo espectrofotomtrico, podra emplearse un anlisis de tipo WLS, con los valores de desvo estndar igual a 0,9 para todos los datos de la tabla anterior. Esto ltimo, sin embargo, es idntico al uso de un mtodo OLS (ver la teora de la clase 2). Por lo tanto, podemos en este caso particular realizar una regresin lineal ordinaria empleando como variable y los valores provistos por el mtodo espectrofotomtrico y como variable x los provistos por el mtodo FPIA. Los resultados del anlisis OLS son: Pendiente: 0,983 Ordenada al origen: 1,35 sy/x: 2,35 La elipse correspondiente contiene, aunque marginalmente, al punto ideal (1,0):
Vale la pena destacar el resultado que se obtendra mediante un anlisis BLS, esto es, considerando que tanto la variable x como la y estn sujetas a incertidumbre: Pendiente: 0.996 Ordenada al origen: 1.16 sy/x: 2.39
35
Como puede apreciarse en la figura siguiente, el resultado final en cuanto al estudio de la comparacin de los mtodos es similar al hallado mediante el anlisis OLS sencillo.
La rutina de MATLAB 'EJCR.M', proporciona los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numricos necesarios para graficar la regin elptica mediante programas grficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse. 2) Se requiere graficar tres elipses, calculadas por OLS, que proporcionan visualmente una buena impresin de la exactitud y precisin relativas de los tres mtodos probados:
30
Ordenada al origen
3
20
10
1 2
-10 0.8 0.9 1.0 1.1
Pendiente
36
La conclusin es que el mtodo ms preciso es el 3 (menor tamao de elipse), pero es muy poco exacto (alejado del punto ideal). El mtodo 2 es el ms exacto, y adems es ms preciso que el mtodo 1.
37
Referencias
K. Danzer y L. A. Currie, Guidelines for calibration in analytical chemistry. Part 1. Fundamentals and single component calibration, Pure & Appl. Chem. 1998, 70, 9931014. 2. W. P. Gardiner, Statistical analysis methods for chemists. A software-based approach, The Royal Society of Chemistry, Cambridge, 1997. 3. J. N. Miller y J. C. Miller, Estadstica y quimiometra para qumica analtica, 4ta. Edicin, Prentice Hall, Madrid, 2002. 4. C. A. Clayton, J. W. Hines y P. D. Elkins, Detection limits with specified assurance probabilities, Anal. Chem. 1987, 59, 2506-2514. 5. L. A. Currie, Detection and quantification limits: origins and historical perspective, Anal. Chim. Acta 1999, 391, 127-134. 6. L. A. Currie, Recommendations in Evaluation of Analytical Methods including Detection and Quantification Capabilities, Pure Appl. Chem. 1995, 67, 1699-1723. 7. P. Wilrich, ISO/DIS 11843-1,2 (1995), Capability of Detection, ISO/TC69/SC6, ISO Standard, 11843-1, 1977. 8. M. Valcrcel, Principios de qumica analtica, Springer-Verlag Ibrica, Barcelona, 1999, p. 81. 9. A. G. Gonzlez, M. A. Herrador y A. G. Asuero, Intra-laboratory testing of method accuracy from recovery assays, Talanta 1999, 48, 729-736. 10. D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. De Jong, P. J. Lewi y J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics, Elsevier, Amsterdam, 1997, Captulo 8. 11. Los trminos homoscedstico/a y homoscedasticidad existen en el contexto del "Diccionario Estadstico" que puede consultarse en http://www.estadistico.com/dic.html. Tambin se usan, en forma equivalente, homocedstico/a y homocedasticidad. 12. J. Riu y F. X. Rius, Assessing the accuracy of analyical methods using linear regression with errors in both axes, Anal. Chem. 1996, 68, 1851-1857. 1.
38

Apunte Regresion Lineal

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apunte Regresion Lineal

Uploaded by

Copyright:

Available Formats

Regresin lineal en qumica analtica

EJERCICIO RESUELTO RESPUESTA DETALLADA EJERCICIOS PROPUESTOS CLASE 2 REGRESIN LINEAL

"Camino recto", fotografa, www34.brinkster.com.

Material suministrado con la clase 1

Parte 1: calibracin univariada

Determinacin del extremo superior del rango lineal

Medicin de la respuesta de los patrones

Estimacin de los parmetros de la regresin

Prediccin en muestras incgnita

Cifras de mrito del mtodo

Hiptesis nula: analito ausente

Hiptesis alternativa: analito presente a este nivel

Figura 2. Rangos dinmico y lineal de un mtodo analtico.

Mtodo A Respuesta 2 0,26

Mtodo B Respuesta 2 25,1

El 42,57 % de toda la estadstica est equivocado.

"Elliptical viewpoint", escultura, tomada de www.sculpturedesign.com.

Material suministrado con la clase 2

Parte 2: exactitud y comparacin de mtodos analticos

Exactitud de un mtodo analtico

Figura 1. Arriba, variancia homoscedstica; abajo, variancia heteroscedstica.

Regin de confianza en el caso homoscedstico

-0.2 1.0 1.1

Regin de confianza en el caso heteroscedstico

Comparacin de mtodos analticos

wi 0,33 0,48 0,75 3,00 1,33 0,75 0,33

wi xi yi 0,0010 12,4692 74,5380 681,3868 526,8653 468,2128 300,8596 2.064,3327

= xw ) 2 2.064,3327 7 15,72 15,88 = 1,0022 2.046,0405 7 (15,72) 2

= 0,16 q2 Por su parte, Qxx est dado por: Qxx =

wi xi = 110,0153 wi xi2 = 2.046,0405

2a 3 Ejemplos de pares de valores de y calculados con la ecuacin anterior son:

A 0,0373 0,0273 0,0173 0,0073 0,0027 0,0127 0,0227 0,0327

0,9627 0,9727 0,9827 0,9927 1,0027 1,0127 1,0227 1,0327

Nominal 190 87 23 13 38 150 26 58 125 65 90 160 48 75 0 0 0 0

Mtodo 1 173 80 26 6 19 142 33 67 146 63 89 158 41 64 10 5 3 11

Mtodo 2 214 86 29 14 28 145 16 60 126 67 92 172 52 68 11 8 7 7

Mtodo 3 208 107 46 28 50 160 47 80 146 75 120 174 61 92 26 21 30 27

Resoluciones a los ejercicios propuestos Respuestas a los ejercicios propuestos en la clase 1

Respuesta a los ejercicios propuestos en la clase 2

-10 0.8 0.9 1.0 1.1

You might also like