Professional Documents
Culture Documents
IC y contrastes para 0
.M
em
at
ic a
MAPA CONCEPTUAL_________________________________________________
1.
co
at
Anlisis paramtrico con Statistica
INTRODUCCIN_____________________________________________________
En el math-block Fiabilidad (II) se describi un mtodo grfico que serva para tratar de ajustar la distribucin de los tiempos de fallo por alguna conocida (Weibull, exponencial, normal, y lognormal). Si no ha sido posible realizar dicho ajuste, se deber recurrir a mtodos no paramtricos (que se explican en el math-block Fiabilidad IV) para tratar de describir el comportamiento de los tiempos de fallo. Si, por el contrario, se ha logrado ajustar algn modelo terico a las observaciones, los objetivos siguientes sern: 1) Estimar el valor de los parmetros que caracterizan la distribucin (para ello se suele usar el mtodo de mxima verosimilitud o bien el de mnimos cuadrados). 2) Realizar un anlisis descriptivo de los tiempos de fallo (media, mediana, percentiles, etc.), usando para ello la distribucin terica ajustada (anlisis paramtrico).
En la primera parte de este documento (de carcter ms terico), se presentar el mtodo que permite hallar el estimador de mxima verosimilitud (EMV). A fin de ejemplificar dicho mtodo y sus posibilidades, se usar la distribucin exponencial de un parmetro, .
2) Cmo realizar contrastes de hiptesis sobre el valor de dicho . Los conceptos y tcnicas que aqu se muestran para la distribucin exponencial uniparamtrica son fcilmente generalizables a otras distribuciones como la Weibull o la lognormal, ambas pertenecientes a la familia de las log-localizacin-escala. Si se desea profundizar en los detalles de este mtodo se recomienda consultar Kececioglu (1994) [3], y Nelson (1982) [4].
En las partes segunda y tercera del math-block , se llevarn a cabo sendos anlisis paramtricos completos con la ayuda respectiva de los programas MINITAB y STATISTICA.
.M
at
em
at
ic
a1
.c
om
La idea general del mtodo de mxima verosimilitud es la siguiente: dado un conjunto de observaciones que siguen una determinada distribucin terica de parmetros desconocidos, se tratar de hallar (estimar) el valor de dichos parmetros. Lo que se pretende, en definitiva, es encontrar aquellos valores de los parmetros caractersticos de la distribucin que maximizan la probabilidad de que las observaciones provengan de dicho modelo (de ah el nombre del mtodo). El de mxima verosimilitud es uno de los mtodos ms verstiles, en el sentido de que es aplicable a una gran variedad de modelos, tanto paramtricos como no paramtricos, y tanto con observaciones completas como con observaciones censuradas. Este mtodo se puede incluso usar a la hora de buscar variables explicativas (anlisis de regresin). Cuando el tamao muestral, n, es suficientemente grande, el estimador de mxima verosimilitud (EMV) presenta bastantes propiedades destacables: Es asintticamente consistente, i.e.: conforme n aumenta, el EMV converge al valor real del parmetro. Es asintticamente eficiente, i.e.: para valores grandes de n, es el que proporciona una estimacin ms precisa. Es asintticamente insesgado, i.e.: conforme n aumenta, el valor esperado del EMV converge al valor real. Para valores grandes de n, los EMV se distribuyen de forma normal.
El tamao muestral, n, necesario para que se cumplan las propiedades anteriores puede llegar a ser bastante grande: desde 30-50 observaciones completas (no censuradas) hasta ms de 100, segn sea el caso de estudio. Con menos observaciones, el EMV puede presentar problemas de sesgo. Se sabe, por ejemplo, que el EMV del parmetro forma () en una Weibull es bastante sesgado cuando la muestra es de tamao reducido, y que dicho efecto puede verse agravado conforme aumenta la proporcin de observaciones censuradas en la muestra. Este sesgo podra afectar seriamente a la calidad del anlisis. Sin embargo, incluso cuando se trate de muestras de reducido tamao, el mtodo de mxima verosimilitud suele proporcionar estimadores de, al menos, tanta calidad como el resto de mtodos de estimacin (mnimos cuadrados, rangos medianos, etc.). Por simplicidad en la exposicin, en este apartado se trabajar siempre sobre la distribucin exponencial de un solo parmetro (escala), cuya f.d.p. es expresable como: f(t; ) = 1 t exp
.M
at
em
at
ic
a1
.c
om
f(ti; )
i =1
La funcin de verosimilitud L() se puede interpretar como una medida de lo probable que son las observaciones registradas. As, los valores de para los cuales L() es relativamente grande sern ms probables que los valores de para los cuales la probabilidad de las observaciones es relativamente pequea. Se tratar pues de hallar (si existe) un estimador de mxima verosimilitud, i.e., un valor del parmetro que maximice la funcin L(). Cuando existe un nico mximo global de L(), ste se suele denotar por . En muchas ocasiones, en lugar de intentar maximizar la funcin L(), resulta ms sencillo maximizar la funcin logartmica de verosimilitud () (el mximo de ambas funciones, si existe, ocurrir para el mismo valor de ): () = ln(L()) =
En las condiciones del supuesto 2, parece lgico pensar que la funcin de verosimilitud deba contener varios factores, uno por cada observacin, a los que denotaremos por Li(). Cada uno de estos factores tratar de representar la probabilidad de que se obtenga el valor registrado en la observacin i-sima, es decir: Si la observacin i-sima ha fallado justo en el instante ti (observacin no censurada), Li () = f( ti ; ) Si la observacin i-sima ha fallado el intervalo ti-1 - ti (censura arbitraria o a izquierda), Li() = P(ti 1 < t < ti) =
ti
.M
Supuesto 2: se considerar ahora el caso de observaciones censuradas. Se supondr que una observacin censurada a la izquierda de un instante t0 equivale a una observacin censurada en el intervalo ( 0 , t0 ) .
at
em
at
ic
L i () = P(t > t i ) =
Una vez definida la nueva funcin de verosimilitud L() se deber buscar un valor del parmetro que la maximice. Dicho valor (si existe) ser el EMV.
a1
i =1
ln(f(ti; ))
.c
om
2 donde R() = L() L() es la llamada verosimilitud relativa, es el EMV, y (;1) es aquel valor que en una 2 con 1 grado de libertad deja a su derecha un rea de .
Debido a la estrecha relacin que existe entre los conceptos intervalo de confianza y contraste de hiptesis (ver Apndice 1), es posible usar el intervalo de confianza anterior para realizar contrastes de hiptesis bilaterales sobre el valor del parmetro : Dado un valor fijo 1, se puede considerar el contraste: H0 : = 1 . H1 : 1 Pues bien, para un nivel de significacin , se rechazar la hiptesis nula si y slo si:
2 2 ln(R(1 )) > (;1)
donde es el EMV, z/2 es aquel valor que en una N(0,1) deja a su derecha un rea de /2, = s d2 d2
()
es un estimador del error estndar de , y () es la funcin logartmica de verosimilitud. Este intervalo de confianza est basado en la hiptesis de que la v.a. Z = sigue una distribucin N(0,1), por lo que se cumplir 0 s
P( z / 2 < 0 < + z / 2 ) 1 . s s
.M
As, un intervalo de confianza para 0 basado en la distribucin normal, vendr dado por: ~ ~ ~ , = z / 2 s
at
em
Para muestras de gran tamao (usualmente n > 30 o n > 50), tambin es frecuente usar otros intervalos de confianza basados en la distribucin normal, los cuales presentan la ventaja de ser ms fcilmente calculables (si bien no son tan precisos como los anteriores).
at
ic
a1
.c
Es decir, la hiptesis nula ser rechazada slo cuando 1 no est contenido en el intervalo de confianza para 0 a nivel de confianza 1-.
om
En el caso de distribuciones uniparamtricas, como la exponencial, los intervalos de confianza para 0 pueden transformarse fcilmente en intervalos de confianza para funciones montonas de 0.
Ejemplo (IC para la tasa de ocurrencia): La tasa de ocurrencia (o tasa de fallo) de una exponencial, = 1/, es una funcin montona decreciente de . Por ello, si ~ ~ ~ , es un intervalo de confianza de 0 a nivel 1-, entonces: ~ ~ ~ P < 0 < 1 de donde se deduce que: 1 1 1 P ~ > > ~ 1 0 ~
Ejemplo (IC para la f.d.): Anlogamente, en el caso de la exponencial, la funcin de distribucin F(t;) es una funcin montona decreciente de . Por tanto, dado t0, si ~ ~ ~ , es un intervalo de confianza de 0, un intervalo de confianza para F(t0;0) vendr dado por: ~ ~ ~ ~ ~ ~ F(t0, 0 ), F(t0, 0 ) = F(t0 , ), F(t0, )
.M
~ ~ 1 1 ~ , = ~ , ~ ~
at
em
at
ic
es decir:
a1
.c
om
El programa MINITAB permite hacer un anlisis paramtrico bastante completo de la distribucin de los tiempos de fallo. A tal fin, se supondr que la distribucin de T sigue, aproximadamente, alguna de las siguientes 8 distribuciones tericas: Weibull lognormal base 10 exponencial logstica normal log-logstica lognormal (base e) valores extremos
En esta parte, a fin de ilustrar cmo llevar a cabo el anlisis paramtrico de las observaciones, se usarn sendos ejemplos segn se disponga de datos con observaciones censuradas a derecha, o de datos con observaciones arbitrariamente censuradas (con censura a izquierda, a derecha, o por intervalos).
Observar que se ha optado por la distribucin lognormal (base e) para el ajuste, pues se comprob en el Captulo 2 que era la que mejor se ajustaba a estas observaciones. Dentro de la opcin Estimate , se indicarn los percentiles y los tiempos de supervivencia a estudiar (en este caso, 63,2 y 70 respectivamente):
.M
at
em
at
ic
a1
.c
om
Tambin es conveniente seleccionar (mediante la opcin Graphs) dos grficos para los datos: uno de probabilidad, y otro que muestre la funcin de supervivencia:
Salida de datos (output): en las pginas siguientes se muestran los outputs asociados a cada variable. En cada uno de ellos cabe distinguir las siguientes secciones: Parameter Estimates: donde se estima (por el mtodo de mxima verosimilitud) el valor ptimo de los parmetros caractersticos de la distribucin elegida. Tambin proporciona una medida de la bondad del ajuste. Characteristics of Distribution: donde aparecen varios estadsticos de centralizacin y dispersin. Table of Percentiles: donde se estiman, a partir de la distribucin elegida, los tiempos en los cuales habrn fallado los respectivos porcentajes de unidades (percentiles de T). Table of Survival Probabilities: donde se estiman las probabilidades de supervivencia para los tiempos indicados.
.M
at
em
at
ic
a1
.c
om
Distribution Analysis: Tiemp80 Variable: Tiemp80 Censoring Information Uncensored value Right censored value Censoring value: Comp80 = 0 Count 37 13
EMV para los parmetros de la Log-Normal en base e
Estimation Method: Maximum Likelihood Distribution: Lognormal base e Parameter Estimates Parameter Location Scale Estimate 4,09267 0,48622 Standard Error 0,07197 0,06062
Log-Likelihood = -181,625 Goodness-of-Fit Anderson-Darling (adjusted) = 67,2208 Characteristics of Distribution Mean(MTTF) Standard Deviation Median First Quartile(Q1) Third Quartile(Q3) Interquartile Range(IQR) Table of Percentiles Percent 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 20,0 30,0 40,0 50,0 60,0 63,2 70,0 80,0 90,0 91,0 92,0 93,0 94,0 95,0 96,0 97,0 98,0 99,0 Percentile 19,3281 22,0674 24,0034 25,5709 26,9212 28,1265 29,2276 30,2501 31,2110 32,1225 39,7837 46,4184 52,9573 59,8995 67,7517 70,5695 77,2958 90,1863 111,6958 114,9578 118,6095 122,7588 127,5648 133,2761 140,3136 149,4767 162,5904 185,6339 Standard Error 2,8375 2,9256 2,9726 3,0036 3,0262 3,0440 3,0588 3,0717 3,0833 3,0941 3,2100 3,4101 3,7567 4,3109 5,1591 5,5148 6,4592 8,5821 12,8103 13,5112 14,3120 15,2417 16,3437 17,6863 19,3873 21,6739 25,0764 31,3868 Estimate 67,4153 34,8145 59,8995 43,1516 83,1475 39,9959 Standard Error 5,5525 6,7983 4,3109 3,2953 7,3769 6,3332
95,0% Normal CI Lower Upper 57,3656 79,2255 23,7435 51,0476 52,0192 68,9735 37,1531 50,1186 69,8763 98,9392 29,3245 54,5505
95,0% Normal CI Lower Upper 14,4953 25,7722 17,0178 28,6154 18,8304 30,5975 20,3126 32,1906 21,5978 33,5566 22,7506 34,7727 23,8074 35,8819 24,7910 36,9113 25,7170 37,8788 26,5962 38,7970 33,9646 46,5999 40,1936 53,6073 46,0833 60,8568 52,0192 68,9735 58,3584 78,6569 60,5478 82,2501 65,6184 91,0514 74,8412 108,6778 89,2100 139,8493 91,3052 144,7376 93,6288 150,2553 96,2426 156,5806 99,2372 163,9786 102,7529 172,8663 107,0258 183,9549 112,4995 198,6078 120,1748 219,9765 133,2714 258,5697
at
em
at
ic
a1
.c
om
.M
Se espera que un 63,2% de las cubiertas habrn fallado tras 70,57 meses
Table of Survival Probabilities Time 70,0000 Probability 0,3743 95,0% Normal CI Lower Upper 0,2631 0,4971
Censoring Information Uncensored value Right censored value Censoring value: Comp100 = 0
Estimation Method: Maximum Likelihood Distribution: Lognormal base e Parameter Estimates Parameter Location Scale Estimate 3,6287 0,73094 Standard Error 0,1178 0,09198 95,0% Normal CI Lower Upper 3,3978 3,8595 0,57117 0,93540
Medidas de centralizacin y de dispersin asociadas a la variable Tiemp100
Log-Likelihood = -160,688 Goodness-of-Fit Anderson-Darling (adjusted) = 16,4987 Characteristics of Distribution Mean(MTTF) Standard Deviation Median First Quartile(Q1) Third Quartile(Q3) Interquartile Range(IQR) Table of Percentiles Percent 1,0 2,0 5,0 ...... Percentile 6,8776 8,3941 11,3181 Standard Error 1,6170 1,7942 2,0766 Estimate 49,1969 41,3431 37,6636 23,0044 61,6643 38,6600 Standard Error 6,9176 11,0416 4,4362 2,9505 8,4984 7,2450
95,0% Normal CI Lower Upper 37,3465 64,8076 24,4947 69,7806 29,8995 47,4439 17,8910 29,5791 47,0677 80,7876 26,7759 55,8185
63,2 48,1892 5,9938 37,7639 70,0 55,2572 7,2445 42,7359 80,0 69,6769 10,2054 52,2896 90,0 96,1040 16,6968 68,3686 91,0 100,3541 17,8420 70,8271 92,0 105,1845 19,1727 73,5864 93,0 110,7647 20,7464 76,7308 94,0 117,3475 22,6502 80,3853 95,0 125,3340 25,0242 84,7457 96,0 135,4144 28,1141 90,1451 97,0 148,9246 32,4050 97,2189 98,0 168,9934 39,0628 107,4274 99,0 206,2550 52,1976 125,5996 Table of Survival Probabilities 95,0% Normal CI Time Probability Lower Upper 70,0000 0,1982 0,1072 0,3248
at
em
at
95,0% Normal CI Lower Upper 4,3383 10,9034 5,5212 12,7619 7,8995 16,2162
a1
.c
om
A 100C, se espera que un 63,2% de las cubiertas habrn fallado tras 48,19 meses
ic
61,4925 71,4473 92,8456 135,0909 142,1905 150,3510 159,8942 171,3053 185,3617 203,4169 228,1298 265,8427 338,7041
.M
Si se desea estimar el tiempo que tardar en fallar un determinado porcentaje de cubiertas, bastar con mirar la tabla de percentiles. A 80 C, por ejemplo, un 1% de las cubiertas habrn fallado tras 19,33 meses.
En el output anterior, aparece el percentil 63,2 solicitado. A 80 C, el 63,2% de las cubiertas fallarn a los 70,5695 meses; a 100 C, el 63,2% de las cubiertas fallarn a los 48,1892 meses. Por tanto, el incremento de temperatura ha provocado un descenso de unos 22 meses en el percentil. Para determinar la proporcin de cubiertas que sobreviviran tras 70 meses, se deber consultar la tabla de probabilidades de supervivencia: a 80 C, el 37,43% sobrevivirn al menos 70 meses, a 100 C, slo un 19,82% ser capaz de ello. El programa tambin proporcionar los grficos que se indicaron:
Percent
60 50 40 30 20 10 5
Probability
.M
Time to Failure
Time to Failure
at
10
em
at
100
ic
a1
.c
om
8 obs. censuradas a izquda., i.e.: 8 neumticos habrn fallado antes del km. 10.000
25 obs. censuradas en el intervalo 30.000, 40.000, i.e.: 25 neumticos habrn fallado entre ambos puntos kilomtricos
71 obs. censuradas a decha., i.e.: neumticos fallarn despus del km. 90.000
71
Adems, se pretende calcular la probabilidad de que un neumtico dure ms de 45.000 km., por lo que se deber indicar mediante la opcin Estimate:
.M
at
em
Entrada de datos (input): usando la opcin Parametric Distribution Analysis-Arbitrary Censoring , se debern introducir las columnas Inicio, Fin, y Frec, as como la distribucin que se pretenda usar (en este caso la de valores extremos). Es conveniente, adems, seleccionar un grfico de probabilidad y otro de supervivencia, ambos con intervalos de confianza incluidos (use usar para ello la opcin Graphs):
at
ic
a1
.c
om
Distribution Analysis, Start = Inicio and End = Fin Variable Start: Inicio Frequency: Frec
End:
Censoring Information Right censored value Interval censored value Left censored value
Estimation Method: Maximum Likelihood Distribution: Extreme value Parameter Estimates Parameter Location Scale Estimate 77538,0 13972,0 Standard Error 547,0 445,0
Log-Likelihood = -1465,913 Goodness-of-Fit Anderson-Darling (adjusted) = 2,4259 Characteristics of Distribution Mean(MTTF) Standard Deviation Median First Quartile(Q1) Third Quartile(Q3) Interquartile Range(IQR) Table of Percentiles Percent 1 2 3 4 20 30 40 50 60 70 80 90 91 92 93 94 95 96 97 98 99 Percentile 13264,55 23019,97 28756,49 32847,96 56580,77 63133,78 68152,58 72417,04 76316,52 80131,56 84187,05 89191,10 89816,23 90483,47 91203,29 91990,61 92867,93 93871,73 95067,77 96596,59 98875,78 Standard Error 2216,243 1916,275 1741,644 1618,183 939,3041 777,3208 670,9556 599,5413 555,6791 537,6457 548,1648 600,4733 609,6261 619,9522 631,7046 645,2472 661,1321 680,2606 704,2704 736,6912 788,1406 Estimate 69473,32 17919,83 72417,04 60130,23 82101,72 21971,49 Standard Error 646,6352 570,7594 599,5413 849,0361 538,9283 699,8078 95,0% Normal CI Lower Upper 68205,94 70740,70 16835,36 19074,15 71241,97 73592,12 58466,15 61794,31 81045,44 83158,00 20641,82 23386,80
em
95,0% Normal CI Lower Upper 8920,791 17608,30 19264,14 26775,80 25342,93 32170,05 29676,38 36019,54 54739,76 61610,26 66837,54 71241,97 75227,41 79077,79 83112,67 88014,20 88621,39 89268,39 89965,17 90725,95 91572,13 92538,44 93687,43 95152,70 97331,05 58421,77 64657,30 69467,63 73592,12 77405,63 81185,32 85261,44 90368,01 91011,08 91698,56 92441,41 93255,27 94163,72 95205,01 96448,12 98040,48 100420,5
at
ic
a1
.c
om
.M
at
Table of Survival Probabilities Time 45000,00 Probability 0,9072 95,0% Normal CI Lower Upper 0,8903 0,9216
Como se refleja en la tabla de caractersticas de la distribucin, la media y la mediana de kilmetros recorridos hasta que los neumticos se estropean son de 69.473 y 72.417 km., respectivamente. La Tabla de percentiles muestra los Km. a los cuales se habr estropeado una determinada proporcin de neumticos. As, por ejemplo, se espera que el 5% de los neumticos falle (deje de estar en condiciones) tras 36.038 Km.; y que el 50% falle a los 72.417 Km. Por su parte, la tabla de probabilidades de supervivencia informa de que el 90,72% de los neumticos lograrn llegar en buen estado a los 45.000 Km. Finalmente, los grficos solicitados (con sus respectivos intervalos de confianza) son:
99 95 90 80 70 60 50 40 30 20 10 5 3 2 1
Percent
Probability
0,6 0,5 0,4 0,3 0,2 0,1 0,0 20000 40000 60000 80000 100000
.M
at
em
50000
at
Estas observaciones se sitan fuera de los IC, lo cual dice muy poco en favor de la bondad del ajuste
ic
a1
.c
om
100000
Time to Failure
Time to Failure
Entrada de datos (input): dentro del mdulo Survival Analysis, se optar por la opcin Life Tables & Distributions.
.M
at
em
at
ic
a1
.c
om
Ahora se acceder a la opcin Variables y se escogern las primeras 6 variables en la lista de la izquierda. Despus se escoger, en la lista de la derecha, la variable Censur? como el indicador de censura:
Si el test Chi-cuadrado resulta ser estadsticamente significativo (p-valor 0,05), entonces se rechazar la hiptesis nula de que la distribucin correspondiente se ajusta a los datos. En la imagen superior se aprecia que las observaciones no corresponden a una exponencial, pues el test es significativo para los tres valores del parmetro Lambda. Si se repitiese la estimacin paramtrica con cada una de las tres posibles distribuciones, se observara que el nico test no significativo es el correspondiente a la Weibull (en especial para el tercero de los pesos). Por tanto, la distribucin que mejor se ajusta a las observaciones es una Weibull de parmetros Lambda = 0,0511 y Gamma = 0,4277:
.M
Salida de datos (output): pulsando sobre el botn Parameter estimates se obtendrn los estimadores para los tres diferentes pesos:
at
em
at
ic
a1
.c
om
En este caso, se optar por la distribucin exponencial, lo cual se deber indicar en el men desplegable Results for model :
Observed Weight 1 0,0000 322,73 645,45 968,18 1290,9 1613,6 1936,4 161,36 484,09 806,82 1129,5 1452,3 1775,0 2097,7 Interval Start Weight 2 Weight 3
0,004
0,003 Hazard
0,002
0,001
.M
Resulta adems conveniente representar la funcin tasa de fallo, la cual representa la probabilidad condicional de que el ordenador deje de funcionar correctamente en un determinado intervalo infinitesimal, sabiendo que no ha fallado hasta la fecha (desde que fue reparado). Como se coment en el Captulo 1, la tasa de fallo es una funcin creciente para valores grandes de la variable tiempo, lo cual se debe al efecto envejecimiento.
at
em
at
ic
a1
.c
A partir del grfico de las funciones de supervivencia, tambin se aprecia que el tercer par de parmetros (Weight 3) es el que proporciona el mejor ajuste posible a las observaciones.
om
0,000 0,0000 322,73 645,45 968,18 1290,9 1613,6 1936,4 161,36 484,09 806,82 1129,5 1452,3 1775,0 2097,7 Interval Start
Finalmente, tambin es posible visualizar la grfica de la f.d.p., la cual suele ser decreciente debido al efecto mortalidad infantil (tras una reestructuracin importante del sistema, es muy probable que los nuevos componentes no se adapten correctamente a lo que quede de la estructura anterior y, por tanto, se produzca un alto ndice de fallos en las primeras etapas de la nueva situacin). Esta grfica se obtiene mediante la opcin Graph of probability density function :
LS Estimates of Probability Density Model: Weibull Note: Weights: 1=1., 2=1./V, 3=N(I)*H(I) 0,003
0,002
Probability Density
0,002
0,001
0,001
0,000
0,0000 322,73 645,45 968,18 1290,9 1613,6 1936,4 161,36 484,09 806,82 1129,5 1452,3 1775,0 2097,7 Interval Start
.M
at
em
at
ic
a1
.c
om