Diagnósticos de Regresión

Diagnsticos de regresin aplicados en el proceso de datos cinticos: el reconocimiento de valores atpicos y procedimientos slidos de ponderacin.
Abstracto: Un protocolo eficaz, basado en diagnsticos avanzados de estadstica y tcnicas de montaje slidos aplicada al proceso de mnimos cuadrados de los datos cinticos de las reacciones qumicas, es presentado y discutido. El procedimiento, que est dirigido a la obtencin de estimacin precisa de los parmetros de ajuste, consiste en la identificacin de los valores atpicos que perjudiquen notablemente el ajuste por medio del llamado anlisis de apalancamiento y algunos diagnsticos relacionados. Esta posicin permite la eliminacin de las observaciones realmente aberrantes del conjunto de datos y/o su ponderacin slida para inhibir los efectos negativos inducidos en la conexin de datos, con la consiguiente reduccin del sesgo introducido en las estimaciones de los parmetros. Se ha encontrado que el procedimiento propuesto, se aplica a datos cinticos experimentales, cede a una mejora significativa en los resultados de regresin. 2010 Wiley Periodicals, Inc. Int J Chem Kinet 42: 587-607, 2010
INTRODUCCIN El estudio de la cintica en las reacciones qumicas juega un rol importante en el marco cientfico. De hecho, el conocimiento de la escala temporal del proceso podra ser incluso ms importante que identificar el estado final del equilibrio del sistema. La racionalizacin de los datos cinticos a travs de un ajuste de curva lineal o no lineal se realiza generalmente para proponer el mecanismo de reaccin y para determinar el valor constante de velocidad para cada reaccin implicada. Sin embargo, como consecuencia de una serie de factores, los datos cinticos a menudo se ven afectados por la fuerte presencia de valores atpicos, es decir, puntos de datos notablemente distantes de la parte principal del sistema. Este hecho se convierte en una gran discrepancia entre lo observado y lo calculado con datos, en un modelo correcto del experimento. El efecto de tratar de encajar un valor atpico es hacer encajar los otros datos un poco peor (especialmente en la solucin de sistemas con bajo grado de libertad), con la consiguiente polarizacin de los parmetros estimados. Esto es particularmente cierto cuando el punto atpico es tambin un dato influyente (es decir, un punto que afecta notoriamente al modelo). Por esta razn, una identificacin adecuada de los puntos influyentes (o de influencia) es sumamente importante si se necesita una alta precisin de los parmetros del modelo, como es en el caso de los estudios cinticos. Una de las herramientas ms fiables para detectar la influencia de cada entrada de datos en la regresin es el llamado anlisis de apalancamiento y los diagnsticos de regresin [1]. Este enfoque permite una identificacin fiable de los valores extremos (peligrosos) y una eleccin adecuada de las estrategias de regresin. Por ejemplo, en nuestra experiencia cristalogrfica [2], este
procedimiento se ha aplicado con xito para la identificacin y la eliminacin posterior de los valores atpicos peligrosos en el refinamiento de una estructura cristalina de mnimos cuadrados. Adems, la eleccin de la tcnica de regresin ms adecuada es otra tarea fundamental que depende de la naturaleza de los datos experimentales y/o la especie del modelo en cuestin. En general, el mtodo de mnimos cuadrados ordinarias (OLS), donde los pesos unitarios se asignan para cada dato, es el ms utilizado herramienta de anlisis [3-7] y se aplica de hecho en la mayora de los estudios cinticos de la reaccin qumica. Pero vale la pena recordar que hay algunos supuestos que deben cumplirse para asegurar la fiabilidad de un modelo de regresin OLS: en primer lugar, la varianza del error a lo largo de la lnea prevista debe ser constante (homocedasticidad) [8]. En experimentos de cintica, este supuesto es infringido con frecuencia, ya que es bastante usual que los puntos iniciales del perfil cintico estn ms sesgados que los datos posteriores, por ejemplo, a causa de una mezcla no instantnea o termorregulacin de las especies reactivas. Esto es particularmente frecuente en la presencia de reacciones qumicas rpidas. En el caso de varianza no constante de los residuos (heterocedasticidad), se requieren procedimientos que implican la introduccin de una matriz de ponderacin en la regresin [9]. La estimacin ponderada de mnimos cuadrados (WLS), en la que los pesos se calculan como la inversa de las varianzas de las variables dependientes, puede ser aplicada [10]: en este caso, las variaciones se pueden obtener mediante la replicacin de los experimentos o mediante la derivacin de una analtica expresin de la varianza como una funcin de la respuesta [11]. Una alternativa fiable para WLS est dada por las tcnicas de regresin slida, es decir, una clase de herramientas estadsticas diseadas para reducir el sesgo introducido por la presencia de algunos valores atpicos en el conjunto de datos [12-14]. Una clase importante de tcnicas slidas es la as llamada iterativamente re ponderados mtodos de mnimos cuadrados (IRLS) [15-18]. En estas tcnicas, algunos esquemas de ponderacin particulares alivianan los puntos de datos desviados que se introducen. Otras tcnicas slidas comunes incluyen al menos la mediana de cuadrados (LMS) de regresin [19-21] y los mnimos cuadrados recortados (LTS) de regresin [17]. Teniendo en cuenta que los conjuntos de datos cinticos experimentales se ven afectados por un cierto nmero de valores atpicos aberrantes y con el objetivo de obtener ideas sobre lo mucho que puede afectar a la estimacin del modelo, en el presente estudio hemos analizado la posibilidad de mejorar los resultados de los datos cinticos tratamiento mediante anlisis de apalancamiento por medio de la SOLVERSTAT, utilidad de gran alcance estadstico publicado recientemente por Comuzzi et al. [22]. La utilidad puede realizar todas las regresiones de mnimos cuadrados mencionados anteriormente mediante el complemento de Excel "Solver" (basado en el
Generalized Gradient reducida optimizacin no lineal (GRG2) Cdigo [23], junto con un gran nmero de anlisis estadsticos. En [22], la utilidad se explota para determinar la constante de estabilidad para la captacin de dioxgeno molecular por un Co (II) y para distinguir entre modelos cinticos de primer o segundo orden. En el presente trabajo de sntesis, ambos perfiles cinticos elementales y complejos (por ejemplo, paralelos y consecutivos), las reacciones han sido equipados con modelos tanto correctas e incorrectas, y algunas tcnicas de regresin diferentes han sido probadas. Los resultados de cada estudio de caso investigado pueden dar algunas sugerencias tiles para llevar a cabo un anlisis preciso de los datos cinticos. En una segunda etapa del trabajo, los procedimientos de regresin aplicados a los datos sintticos se han aplicado a un conjunto de datos cinticos experimentales.
FORMACIN MATEMTICA Base terica.

La teora de los mtodos de mnimos cuadrados y el anlisis de apalancamiento ha sido ampliamente discutido en otra parte (vase, por ejemplo, [24,25]), por lo tanto, en esta seccin slo un breve resumen de los temas principales ser proporcionado. El mtodo de los mnimos cuadrados consiste en encontrar el vector p-vector x1, Siendo p el nmero de parmetros en el modelo, en el que la suma residual denominado de cuadrados RSS= [y M(x)]T W[y M(x)] es un mnimo. En esta expresin, y es un vector de n datos experimentales y la (n p) de la matriz, M (x) representa un conjunto de funciones de modelo de modo que y i = Mi (x) + ei (donde Ei es un error experimental) para cierto x desconocido. W es la matriz de peso (n x n) y es definida positiva. Tenga en cuenta que en la regresin OLS, W es la matriz identidad I, mientras que en el WLS - si los errores no estn correlacionados - W es una matriz diagonal con wii = 1/2i, es decir, el recproco de la varianza de la medicin. Si el modelo es una aplicacin lineal M(x) = Ax, el mnimo es de x = (A WA) A Wy. Si M no es lineal, los mtodos busca un punto x que es lo suficientemente cerca del mnimo para la aproximacin lineal M(x) =M(x) + A(x x), donde A es la matriz con elementos Aij = Mi/xj, para ser un uno bueno. El mnimo se encuentra entonces en (x x) = (A WA) A W[y M(x)]. Debido a que W es definida positiva, existe una matriz triangular superior U tal que W = UTU. Con errores no correlacionados, U es una matriz diagonal con U ii = 1/i (es decir, la inversa de la desviacin tpica asociada a la i-sima observacin). Sea Z = UA e Y = U [y - M (x)]: La solucin de mnimos cuadrados es entonces x X = (ZTZ)-1ZTy. El (n x n) de la matriz H = Z (ZTZ)-1ZT se llama la "matriz de proyeccin" o "matriz de sombrero." H es simtrica y idempotente, y elementos traza (H) = p.
1 T 1 T T 1 T
Los trminos diagonales 0 <hii <1 de la matriz de sombrero se define como la influencia de cada punto de datos i-simo. Una observacin de alto apalancamiento ejerce una gran influencia en la estimacin de cualquier parmetro o en la instalacin de cualquier punto de datos, mientras que una observacin de bajo apalancamiento tiene menos influencia en los resultados de mnimos cuadrados. Hay que destacar que el anlisis de apalancamiento y los diagnsticos relacionados puede ser extendido para problemas no lineales, as (ver [1] para una explicacin ms detallada). Como se mencion anteriormente, OLS se debe utilizar slo si la homocedasticidad de los residuos se ha verificado. La variacin constante de los residuos se puede comprobar por medio de algunas pruebas estadsticas como la "prueba de Levene F" [14] o la "Breush-Pagan prueba de homocedasticidad de los residuos" [26]. En particular, el test de Levene rechaza la hiptesis de que las varianzas de los subgrupos k de una muestra de tamao n son iguales si los diagnsticos calculado es mayor que F, k-1, N-k, es decir, un cuantil de la distribucin F con k - 1 y N - k grados de libertad a un nivel de significacin de (en nuestro caso = 0,05). En cuanto a la prueba Breush-Pagan, homocedasticidad de los residuos se rechaza si el diagnstico calculado excede el valor crtico en relacin a la distribucin 2. En los IRLS, los pesos se definen de forma recursiva, por la relacin residual en la iteracin i-sima para el peso en la iteracin (i + 1)-sima [15]. Esquemas tpicos de ponderacin utilizados en IRLS son [12] Huber y Tukey bisquare [18] funacionan. El esquema de Huber downweighs slo aquellos puntos que superen un umbral (definido como "ajuste constante"), mientras que el peso de Tukey bisquare reduce la influencia de los puntos como sus residuos crecen. *NO ENTIENDO!!* El peso de Huber se define como w = 1/max (1, | r |), mientras que el peso de Tukey se define como w = (1 - r2)2 para | r | <1 y w = 0 para | r | 1. Aqu r es alguna estimacin robusta de los residuos (ver [12,18] para ms detalles). Como ya se ha mencionado, otras tcnicas slidas son los LMS y la regresin LTS ([19-21] y [17], respectivamente). El algoritmo LMS minimiza la mediana de los cuadrados de los residuos, mientras que el procedimiento LTS minimiza la suma de los valores absolutos de los residuos al cuadrado de trabajo en unos datos recortados establecidos.
DIAGNSTICOS DE REGRESIN BASADOS EN EL APALANCAMIENTO.

Los resultados de un procedimiento de regresin se pueden comprobar por medio de un nmero de estimadores estadsticos y diagnsticos de regresin. Entre ellas, recordaremos brevemente aqu algunos de los ms importantes que se han utilizado en este trabajo. El lector puede remitirse a Belsey et al. [1] para una explicacin ms detallada de las expresiones inform aqu. El "studentized eliminada residual" (SDR), tambin llamado "Jacknife residual" o "externamente studentized residual", es una medida estandarizada de los residuales con s- i, es decir, una "estimacin externa" del error estndar de los residuales calculados de volver a montar el modelo sin observacin i. Su expresin es s-i = {[(n-p)s2 (e2i / (1 - hii)] / (n - p - 1)}1/2, donde s es una medida
de la "interna" varianza del error estimado es entonces esta medida definida como SDRi = ei / [s-i (1 - hii)1/2] cortes adecuados para SDR son 2 o 3 Tenga en cuenta que en el presente trabajo, por lo general se refieren al valor total de SDR. La "Distancia Cook" D, es una medida de la distancia normalizada para la distancia que el vector x de las estimaciones se mueve cuando la i-sima observacin se mueve. Se define como Di= [(x-x-i)T (ZTZ)(x-x-i)] / (PS2). Un umbral adecuado para la deteccin de casos influyentes viene dada por F 0.5, p-1, n-p p / n, es decir, la distribucin de Fisher con p - 1 y n - p parmetros calculados en el percentil 50. Otros valores de corte son sugeridas o 1/4 (n - 2). En este trabajo, las observaciones con valores de D mayor que 1 se han considerado influyente. COVRATIO (es decir, tasa de covariancia) examina la forma en la precisin de las estimaciones de parmetros cambia con la eliminacin de la i-sima observacin. Las estadsticas es la relacin del determinante de la matriz de varianza-covarianza calculada cuando la i-sima observacin se omite para determinar la matriz de varianza-covarianza calculada cuando se consideran todas las observaciones: COVRATIO i = |(ZT-iZ-i)-1s2-i| / | (ZT Z)-1s2|. Los valores inferiores COVRATIO a un umbral fijo (normalmente se establece a 1 - 3p / n) indican las observaciones cuya eliminacin puede aumentar la precisin de la estimacin de algunos parmetros, mientras que la eliminacin de las observaciones con un valor COVRATIO ms grande que un umbral (generalmente se determina a 1 +3 p / n) o bien pueden mejorar o empeorar algunas estimaciones. Una vista sinptica que permite una visualizacin simultnea de los valores atpicos y los puntos influyentes est representado por el llamado "grfico Williams" [22,27], en la que se representa frente al SDR. Los posibles valores atpicos son la observacin con SDR ms alto que el valor de corte y, al mismo tiempo, un alto nivel de apalancamiento (los umbrales comnmente aceptados para el apalancamiento son 2p/n o 3p/n). Sin embargo, esta informacin no es suficiente para optar por quitar o no una observacin: El grfico Williams podra ceder a la eliminacin de los dos valores extremos y atpicos reales cuya supresin no mejora ni empeora los resultados de la regresin. Una vez que los posibles valores atpicos se han encontrado por medio del grfico de Williams, un nuevo anlisis de los valores COVRATIO debe llevarse a cabo y evaluar su influencia sobre las estimaciones de los parmetros. Slo los valores atpicos con valores COVRATIO menor que el umbral inferior se han de considerar como "valores atpicos peligrosos."
DISCRIMINACIN DE MODELOS.
Como se describe en Comuzzi et al. [22] y las referencias en l, cuando se dispone de diferentes modelos, la comparacin se puede realizar sobre la base de diversos criterios estadsticos. El lector puede remitirse a Neter et al. [14] para una explicacin detallada de estos diagnsticos. La informacin preliminar puede ser obtenido a partir de figuras de mrito, como ESS (suma de errores cuadrticos), R (coeficiente de correlacin mltiple), R2 (coeficiente de determinacin mltiple), y por medio de la t de Student prueba en los parmetros estimados y su asociada desviacin estndar.
La evaluacin adicional de la correccin del modelo se obtiene tambin mediante el anlisis de la estadstica de prueba ANOVA (anlisis de la varianza, es decir, una prueba F) que proporciona la contribucin de las variables independientes en la prediccin de la variable dependiente. Si la relacin de F es alrededor de 1, el modelo de asociacin entre las variables descritas en el modelo no es estadsticamente significativo. Cuando las diferencias dentro de dos o ms modelos son bajos, una herramienta de seleccin disponible que ayuda en la seleccin de la ms fiable es la llamada prueba F para la comparacin de modelos (FRSS), que compara los valores de dos modelos de ESS y determinar si la diferencias son estadsticamente significativas sobre la base del nmero de grados de libertad asociados con cada modelo. Si el valor F calculado es significativamente mayor que 1, entonces los dos modelos son diferentes y el modelo con la baja varianza puede considerarse como la mejor, mientras que si el valor F calculado excede un valor crtico seleccionado, los dos modelos son significativamente diferentes y el modelo con el valor bajo de RSS debe ser seleccionado. La evaluacin adicional de la exactitud del modelo tambin se obtiene por medio de herramientas de decisin basada en el conocimiento como palanca PRESS (suma del error de prediccin [27]), que proporciona informacin sobre la capacidad de prediccin del modelo, y el AIC (Akaike criterio de informacin [28]), que ofrece una medida de la prdida de informacin cuando un determinado modelo se utiliza para describir los datos experimentales. La PRESS ms pequeo y los valores de AIC, mejor es el modelo. Finalmente, cuando se busca un modelo correcto el anlisis de los residuales es tambin til [29]. En particular, una tendencia de tiempo insignificante exhibida por los residuos es un buen indicador de la exactitud y / o integridad del modelo y de la ausencia de autocolineado.
EXPERIMENTAL
Conjuntos de datos sintticos Conjuntos sintticos de datos cinticos (es decir, las concentraciones en funcin del tiempo) para los modelos tanto elementales y complejos (paralelo y consecutivo), las reacciones se han generado sobre la base de las leyes de velocidad integradas apropiadas. Tres casos diferentes han sido considerados: Caso 1. Simples modelos cinticos: Cero, la primera, y reacciones de segundo orden. Los perfiles cinticos de la reaccin modelo simple.
Se ha obtenido lo siguiente sobre la base de las leyes de velocidad integrados, que se refieren al cero, de primer y reacciones de segundo orden, respectivamente:
Para la concentracin de reactante inicial, [A] 0, se utiliz el valor de 1,0 mol dm-3, mientras que el valor constante de velocidad se fij en 0,025 mol dm -3 s-1 para el de orden cero, 0,15 s-1 para el de primer orden, y 0,45 dm3 mol-1 s-1 para la cintica de segundo orden. Caso 2. Reacciones consecutivas. El esquema cintico de dos perodos consecutivos de reacciones de primer orden puede ser representada como sigue:
Los perfiles cinticos, para el producto C, se puede obtener sobre la base de la ley de velocidad integrada:
Para este caso, la concentracin inicial de la sustancia reaccionante se ajust a 1,0 mol dm-3 y las constantes de velocidad de 0,15 y 0,05 s -1 para K1 y K2, respectivamente. Caso 3. Reacciones paralelas. Por ltimo, el caso de dos reacciones paralelas de primer orden ha sido examinado:
El perfil cintico sinttico ha sido generado sobre la base de las leyes de velocidad integrados:
Los valores de [C] inf = 1,0 mol dm-3, [A]0 = 0,7 mol dm-3, [B]0 = 0,3 mol dm-3, k1 = 0,05 s-1 y k2= 0,01s-1 se han utilizado. En un primer paso, los errores aleatorios tomados de una poblacin normal con media y desviacin estndar comparables a los obtenidos a partir de mediciones experimentales realizadas en nuestro laboratorio han sido aadidos a los puntos de datos calculados. En particular, se utiliz una distribucin gaussiana con media 0 y 310-3 desviacin estndar para el conjunto de datos y con 0,04 y 0,05 media desviacin estndar de los puntos de datos primero de todos los perfiles cinticos simulados (correspondiente a la primera 5 s de la reaccin). El error adicional para los puntos de tiempo temprano de datos tiene en cuenta para los efectos debidos a la mezcla no instantnea o termorregulacin de las especies reactivas, como suele observarse en las medidas cinticas. Vale la pena mencionar que el uso de un medio distinto de cero es indicativo de un error sistemtico. En un segundo paso, para comprobar la aplicabilidad de la propuesta de protocolo de datos mucho ms ruido, los errores aplicados se han incrementado. Para las reacciones elementales, hemos aadido errores origin a partir de una distribucin normal con media y desviacin estndar de 10 veces mayores que los previamente aplicado tanto al conjunto de datos y los puntos de datos en tiempo temprano. Para las reacciones de complejos, estos errores resultaron ser demasiado altos, dando a errores excesivamente altos en la evaluacin de la constante de velocidad de la reaccin ms rpida. Por lo tanto, para los primeros puntos de datos se utiliz el valor de 0,15 para la media y 0,1 para la desviacin estndar. Todos los conjuntos de datos sintticos se presentan en la informacin de apoyo.
CONJUNTO DE DATOS EXPERIMENTALES.

La oxidacin del cido malnico (MA) por cerio (IV) de iones en solucin acuosa han sido estudiado:
La cintica de la reaccin (R6), en presencia de cido perclrico o cido sulfrico, se ha seguido mediante el mtodo espectrofotomtrico, mediante el uso de dos diferentes concentraciones de Ce (IV) y un gran exceso de cido malnico. Productos Qumicos. MA, cido perclrico y cido sulfrico fueron de calidad analtica comercial (Fluka, St. Louis, MO) y se
usaron sin purificacin adicional. Las soluciones madre de todos los productos qumicos utilizados fueron preparados por peso antes de su uso. Agua desionizada de smosis inversa (Elga LabWater, Lowell, MA; Opcin modelo 3), Que tiene un mayor que 1M cm de resistividad, se utiliz para preparar todas las soluciones. Las siguientes concentraciones de reactivos en las soluciones finales fueron utilizados: [Ce (IV)] = 4,0 10-4 mol dm-3 y 4,0 10-3 mol dm-3, [MA] = 0,10 mol dm-3, [H2 SO4] = 1,0 mol dm-3, y [HClO4]= 1,0 mol dm-3. Mediciones Cinticas. Los cambios en el Ce (IV) la absorbancia a la longitud de onda apropiada ( = 350 y 430 nm), dependiendo de la Ce (IV) concentracin, se han registrado con un ordenador controlado Beckman modelo DU-640 espectrofotmetro, equipada con compartimentos termostatizado para cubetas de 1,00 cm y un adecuado aparato de agitacin magntica. La temperatura de todos los experimentos se mantuvo a 25,0 0,1 C.
RESULTADOS Y DISCUSIN. Modelos cinticos simples. De Cero, Primer y Segundo orden.

El OLS y las regresiones IRLS, realizados en los conjuntos de datos enteros, calculado sobre la base de las ecuaciones. (1) - (3), cedido a los resultados reportados en la Tabla I. Se puede observar que la Levene y las Pruebas Breush-Pagan para homocedasticidad no para todos los modelos, lo que sugiere el uso de un ponderada (slida) mtodo de mnimos cuadrados, que en realidad cedido a un estimaciones de los parmetros ms exactos. Posteriormente, el clculo de la influencia y las medidas de diagnstico, que se enumeran en la seccin anterior se ha realizado. Para la cintica de orden cero (ver fig. 1), grficos Williams no revelan valores extremos peligrosos, ya que el umbral es superado nicamente los SDR ms que sus correspondientes valores de influencia no pasa el umbral prefijado. Los resultados IRLS son, sin embargo, una mejor concordancia con el modelo terico.
Para la cintica de primer orden, debemos hacer una distincin entre los conjuntos de datos afectados de la menor y los errores ms altos. Para el primer caso, algunos puntos de influencia (valores altos de apalancamiento) con SDR y valores COVRATIO superen los umbrales de corte no han sido
obtenidos a partir del procedimiento de OLS (Figs. 2A y 2B). Sin embargo, la regresin robusta fuertemente* downweighs* los datos aberrantes y no peligrosas se encuentran valores atpicos (Figs. 2A y 2B). Por lo tanto, la eliminacin de cualquier punto de datos no es necesario si el procedimiento se emplea robusto. Vale la pena mencionar que el valor constante de velocidad obtenida a partir de este procedimiento est en buen acuerdo con el valor real (ver Tabla I). Por el contrario, para los datos afectados por los errores mayores, algunos valores atpicos peligrosas se han obtenido a partir de ambos OLS y mtodos IRLS (Figs. 2C, 2C, 2D y 2D). La eliminacin progresiva de los puntos reconocidos como valores atpicos, siguiendo los criterios descritos anteriormente, se ha realizado. Despus de eliminar los valores atpicos en las primeras vueltas, aparecieron otros nuevos. El procedimiento de eliminacin se ha detenido cuando los diagnsticos de regresin no mostraron ningn valor extremo peligroso an. Se ha encontrado que la eliminacin de uno en uno de los valores atpicos es un procedimiento ms seguro que la eliminacin simultnea de todos los valores atpicos detectados en cada ciclo. El ltimo procedimiento implicara la evaluacin de los efectos de multicolinealidad que afectan a la regresin [1], lo que podra ser una tarea trivial. **TAMPOCO ENTEND ESTO YUJUUU**
Adems, el nmero de valores atpicos peligrosos reconocidos y eliminados en el caso OLS es mucho mayor que en el caso IRLS (ocho para OLS y cinco para IRLS), como se esperaba. Los resultados del procedimiento de eliminacin se resumen en la Tabla II. Como puede verse fcilmente, para todos los conjuntos de datos analizados, la eliminacin de los valores anmalos condujo a una mejora significativa en las estimaciones. Se puede observar que el parmetro obtenido despus del
procedimiento de eliminacin de IRLS difiere del valor verdadero de un error de aproximadamente el 3% para el primer conjunto de datos (errores de menos) y aproximadamente el 7% para el segundo conjunto de datos (mayores errores), mientras que el los errores asociados con los resultados obtenidos de los OLS en la primera ejecucin son 4% y 20% para los dos conjuntos de datos diferentes, respectivamente. Resultados similares se han obtenido para la cintica de segundo orden. Incluso en este caso, los valores atpicos bymeans 'Eliminacin de theWilliams grfico (combinado con el COVRATIO vs diagramas de influencia) representados en la figura. 3 generen mejores resultados para ambas MCO y IRLS procedimientos (Tabla II). Para estudiar el efecto de los sistemas de ponderacin diferentes en las estimaciones de los parmetros, tambin se han aplicado los IRLS con la funcin de ponderacin de Tukey y con el LMS y el esquema de LTS al caso cintica de primer orden. (DE UN MOMENTO HASTA AHORA NO ENTIENDO NADA ;D) Hemos encontrado prcticamente ninguna diferencia entre Huber y la ponderacin de Tukey, en trminos de estimaciones de los parmetros ambos y figuras de mrito. Por el contrario, algunas diferencias importantes se han observado en el LMS y regresiones LTS. Aunque las estimaciones de los parmetros son un poco mejor que el caso IRLS, la eliminacin progresiva valor atpico dado a una delecin de un nmero de datos aberrantes ms alto que los puntos ms fuertes modificado artificialmente. Anlogos resultados se han obtenido para las cero-y segundo orden casos. Este hecho sugiere que, en este tipo de sistemas-LMS y LTS mtodos pueden potencialmente influir en los diagnsticos que apuntan a descubrir los valores extremos peligrosos de la regresin. A la luz de estos resultados, podemos sacar la conclusin de que, entre los procedimientos slidos a prueba-los mtodos ms seguros son los de Huber y la de Tukey.
Un modelo cintico complejo: Reacciones consecutivas.

Una de las principales dificultades relativa al anlisis de los datos cinticos se origin a partir de un complejo mecanismo que es la identificacin del modelo correcto. De hecho, es muy comn que la contribucin de las reacciones ms rpidas est oculto, por lo que un modelo simplista que se adopte. En este estudio de caso, por lo menos dos posibles modelos podran ser razonablemente propuestos. El primero (Modelo I) consta de un nico paso de primer orden (modelo incompleto), que puede ser analizado con Eq. (2) reorganizadas en la forma siguiente: El otro (Modelo II) consiste en dos reacciones consecutivas (es decir, el modelo correcto), que tiene que ser modelado por medio de la ecuacin. (4). El presente caso se representa la situacin tpica en la que el riesgo de confundir mediante el anlisis tradicional es muy realista. En particular, como para el perfil cintico afectado por los errores inferiores, un ajuste lineal de ln ([C] inf [C]) frente a los rendimientos de tiempo a resultados satisfactorios (R =
0,9884), incluso si una salida notable de la linealidad en la primeras etapas de la reaccin que se observa.
En cuanto al segundo conjunto de datos, el valor del coeficiente de correlacin obtenido es bastante bajo (R = 0,8913), pero en la prctica comn esto a menudo se atribuye a la cantidad muy elevada de ruido. Por lo tanto, tanto para las situaciones, a la luz de esta informacin, no sera posible rechazar el modelo de primer orden. Por otra parte, tiene que ser notado que los valores de las pendientes obtenidas por el modelo lineal son 0,038 y 0,027, respectivamente, para los dos conjuntos de datos, que difiere del verdadero valor de la constante de velocidad asociado con el paso ms lento en el modelo correcto (k2 = 0,05 s -1) por un error de aproximadamente el 30% y el 50%. A la luz de estas consideraciones, parece claro que una evaluacin ms rigurosa del modelo es necesaria. Para identificar el modelo correcto, tanto la ecuacin. (6) (Modelo I) y la ecuacin. (4) (modelo II) se han utilizado en el accesorio y los efectos sobre las estimaciones de los parmetros han sido investigados. Incluso en este caso, el OLS y los mtodos IRLS se han utilizado. Themodel parmetros y las pruebas estadsticas obtenidas antes de la
eliminacin valor atpico se muestran en la Tabla III. La prueba F de ANOVA para la regresin significado sugiere que tanto los modelos pueden ser aceptadas. Sin embargo, se puede observar que los valores de prensa y AIC son bastante mejor en el caso del modelo II, y el valor FRSS confirma tambin que el modelo ms simple que deben ser desechados. El anlisis de la grfica de los residuos y los histogramas correspondientes de los dos modelos (Fig. 4) como propuestos por el procedimiento de IRLS (nota que, en aras de la brevedad, aqu y en la raz de los residuos obtenidos a partir de las regresiones no son reportados) muestra que para el modelo que las discrepancias son mayores y una tendencia de cierto tiempo se puede reconocer, que est ausente cuando el modelo II se aplica. Esto es un indicio ms de la exactitud de este modelo. Vale la pena sealar que, como era de esperar, las diferencias entre los dos modelos son menos evidentes para el segundo conjunto de datos, lo que hace ms difcil la eleccin del modelo correcto. El clculo de la palanca y de diagnstico para el Modelo II ha mostrado (Fig. 5) en el OLS primero la presencia de siete y seis valores atpicos influente para los conjuntos de datos primero y segundo, respectivamente, mientras que la regresin robusta implicaba la presencia de cuatro y tres puntos de datos aberrantes. Este es un caso tpico en el que los mtodos robustos en realidad **downweigh** los puntos de datos aberrantes. La eliminacin progresiva de los valores extremos encontrados en cada iteracin cedida a resultados satisfactorios para todas las situaciones investigadas (Tabla IV).

Diagnósticos de Regresión

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Diagnósticos de Regresión

Uploaded by

Copyright:

Available Formats

Diagnsticos de regresin aplicados en el proceso de datos cinticos: el reconocimiento de valores atpicos y procedimientos slidos de ponderacin.

FORMACIN MATEMTICA Base terica.

DIAGNSTICOS DE REGRESIN BASADOS EN EL APALANCAMIENTO.

CONJUNTO DE DATOS EXPERIMENTALES.

RESULTADOS Y DISCUSIN. Modelos cinticos simples. De Cero, Primer y Segundo orden.

Un modelo cintico complejo: Reacciones consecutivas.

You might also like