Steel Robert G - Bioestadistica Principios Y Procedimientos 2ed PDF

BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS segunda edicion (primera en espafiol) Robert G. D. Steel Profesor de Estadistica North Carolina State University James H. Torrie Profesor Emérito de Agronomia University of Wisconsin Traducci6n Ricardo Martinez B. Profesor Asociado Universidad Nacional de Colombia Revision desis Maria Castafio Profesor de Matematicas http://arveja.awardspace.com McGRAW-HILL Bogota, Buenos Aires, Guatemala, Lisboa, Madrid, México, Nueva York, Panama, San Juan, Santiago, Sao Paulo Auckland, Hamburgo, Johanesburgo, Londres, Montreal, Nueva elhi, Parts, San Francisco, San Luis, Sidnev, Singapur, Tokio, TororttoRESERVADOS TODOS LOS DERECHOS (D.R.) Copyright © 1985, por EDITORIAL McGRAW-HILL LATINOAMERICANA, S. A. Apartado 81078 Bogota - Colombia Ni este libro ni parte de él pueden ser reproducidos o transmitidos de alguna forma o por algiin medio electronico o mecénico, incluyendo fotocopia 0 gtabacién o por cualquier otro sistema de memoria oe archivo, sin el permiso escrito del editor. Traducido de la segunda edicion de PRINCIPLES AND PROCEDURES OF STATISTICS A Biometrial Approach Copyright © 1980 por McGraw-Hill Inc. ISBN 0-07-060926-8 0987654321 8976432105 ISBN 968-451-495-6 Impreso en Colombia Printed in Colombia Esta obra se termina en septiembre de 1985 en Editorial Presencia Ltda - Calle 23 No. 24-20‘osonqunseid epeu efinbues) euosied eun A aquatoed A osoystuse Josayoid un any ‘eyagJeo eARaNpold A eBI8] Eun.Oany Wp "UOSIPE Us UISUODSI AA OP PEPISISAlUs) Ef 3p BIUouOIsY ap oILeUrY JOszjorg s2oualUS BIg ‘pnyes eLeosid ap je Bled uolany ‘97.61 ap odew ep O¢ [2 ‘aWeTW Ns E sazorJaque saye sop SOT ‘ugtaips Epundges jse ap UO ooEpal e| ua Jedioiped opnd ou uamb ‘enso] “p] selueyr ep eOWeW zy] ¥ tCONTENIDO Capituto 1 12 13 La Capitulo 2 21 2.2 23 24 25 26 27 28 29 2.10 241 212 2.13 2.14 21S 2.16 Prefacio Simbolos escogidos Introduccion Definicion de la estadistica Breve historia de la estadistica La estadistica y el método cientifico El estudio de la estad{stica Observaciones Introduccion Variables Distribuciones Poblaciones y muestras Muestras aleatorias: Recoleccién de datos Presentacin, resumen y caracterizacién de la informacion Medidas de tendencia central Medidas de dispersion Desviacién estandar de las medias Coeficiente de variabilidad o de variacian Ejemplo Modelo lineal aditivo Ejemplo Eluso de codificacién en el célculo de estadtgrafos La tabla de frecuencia Ejemplo waneviii CONTENIDO Capitulo 3 3 3.2 33 34 3.5 3.6 3.7 3.8 3.9 3.40 3.1 342 Capitulo 4 4a 42 43 44 45 46 AT 48 49 4.10 an Capitulo § SL 5.2 53 54 5.5 5.6 3.7 5.8 5.9 5.10 Calculo de la media y la desviacién estandar con una tabla de frecuencia PresentaciGn grafica de la tabla de frecuencia Digitos significativos Probahilidad Introduccion Algunos elementos de probabilidad La distribucion binomial Funciones de probabilidad para variables continuas La distribucion normal . Probabilidades de una distribucion normal. Uso de una tabla de probabilidades La distribucibn normal con media yy varianza o? Distribucibn de medias Distribucion 2° Distribucion ¢ de Student Estimacién e inferencia Predicci6n de resultados de muestras Muestreo de una poblacion normal Introduecién Una poblacién con distribucién normal Muestras aleatorias de una distribucion normal Distribucion de medias muestrales Distribucion de varianzas y mucstrales y desviaciones estandar Insesgamiento de 5? Desviacion estandar de la media o etror estindar La distribuci6n f de Student ) enunciado de confianza Muestreo de diferencias Resumen sobre muestreo ‘Comparaciones entre dos medias muestrales Introduccién Pruebas de significancia Prueba de hipétesis de que una media poblacional es un valor dado Pmebas de dos o més medias Comparacibn de dos medias muestrales, muestras independientes ¥ Varianzas iguales Modelo lineal aditivo Compasacibn de medias muestrales; obsesvaciones pareadas de importancia . El modelo lineal aditivo para comparaciones pareadas Muestras independientes y varianzas desiguales La media y 1a varianza de una funcién lineal 34 35 35 37 37 a7 40 46 48 33 35 56 58 59 63 65 65 65 68 68 a 72 72 B Bs 76 80 83 83 88 91 93 97 98 101 102 103SL 5.42, 313 Capitulo 6 6.1 6.2 63 6.4 6.5 6.6 6.7 6.8 69 6.10 6AL 6.12 6.13 Capitulo 7 a1 7.2 13 14 1S 16 Wd 78 79 7.10 Capitulo .8 81 8,2 33 8.4 8.5 8.6 CONTENIDO ix Prueba de hipdtesis de igualdad de varianzas Poder, tamajio de la muestra y determinaci6n de diferencias Muestras bietapicas de Stein Principios de disefo experimental Introduccion Qué es un experimento? Objetivos de un experimento Unidad experimental y tratamiento Error experimental Repeticiones y sus funciones Factores que afectan el ntimero de repeticiones Precision relativa de disefios con pocos tratamientos Control del error Eleccidn de los tratamientos Refinamiento de la técnica Aleatorizacion . Inferencia estadistica - Anilisis de la varianza I: Clasificacion de una via Introduccion E] disefio completamente aleatorio Datos con un solo criterio de clasificacion: El andlisis de la varianza para cualquier nimero de grupos con igual nimero de repeticiones Datos con un solo criterio de clasificacién: El anilisis de la varianza para cualquier némero de grupos con nétmero desigual de repeticiones El modelo lineal aditivo Anilisis de la varianza con submuestras: Numero igual de submuestras Modelo lineal para submuestreo Analisis de la varianza con submuestras: Desigual namero de submuestras Componentes de la varianza en experimentos planeados con submuestras Supuestos en que se fundamenta el andlisis de ta varianza ” Comparaciones miltiples Introduccion La diferencia minima significante Comparaciones Prueba de efectos sugeridos por los datos Prueba de Scheffé Procedimiento w de Tukey 108 109 116 ns Irs 8 ne 120 12 122 123 125 25 128 128 129 130. 132 132 132 134 140 144 148 154 156 139 162 166 166 167 173 175. 177 madx CONTENIDO 8.7 88. 89 8.10 8.1L Capitulo 9 oA 92 93 94 9.5 9.6 9.7 28 ~~ 99 9.10 9.11 9.12 9.13 944 918 9.16 * Capitulo 19 . 10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 10,10 10,11 10.12 10.13 Capitulo 11 Vl 1b.2 13 Prucba de Student-Newman-Keuls o S-N-K Nueva prueba de amplitud miltiple de Duncan, Comparacién de todas las medias con un contro] Prueba de r de raz6n & bayesiana de Waller-Duncan Pruebas de medias con namero desigual de repeticiones Andlisis de la varianza I: clasificaciones multiples Introduccion El diseito de bioque completo al azar Andlisis de la varianza para cualquier numero de tratamientos; diselio de bloque completo al azar La naturaleza del término de error Particion det error experimental Datos faltantes Estimacion de la ganancia en eficiencia El disefio de bloques completos al azar: mas de una observacion por tratamiento por bloque Modelos lineales y el andlisis de 1a varianza Agrupamiento doble: cuadrados latinos Anilisis de la varianza del cuadrado latino Parcelas faltantes en el cuadrado latino EstimaciOn de la ganancia en eficiencia #1 modelo lineal para el cuadrado latino El tamaito de un experimento ‘Transformaciones Regresién lineal Introduccién La regresin lineal de Y con respecto a El modelo y 1a ecuacin de regresion lineal Fuentes de variacion en Ja linea de regresion lineal Valores de regresion y valores ajustados Desviaciones estandar, intervalos de confianza y pruebas de hipdtesis Control de ia variacion por observaciones concomitantes . Diferencia entre dos regresiones independiente Una prediccién y su varianza Prediccion de X, modelo I Distribuciones bivariantes, modelo II Regresién a través del origen Anilisis de regresibn ponderada Correlacién lineal Introduccién La correlacion y el coeficiente de correlacion Correlacién y regresién 180 181 4182 134 185 188, 188 188 190 19S 198 202 207 208 2u1 213 215 219 221 223 224 226 232 231 21 236 240 242 244 248 250 253 256 256 258 261 263 263 263 268114 15 11.6 Capitulo 12 121 12.2 12.3 124 \ Capitulo 13 13.1 13.2 13.3 13.4 13.5 13.6 \, Capitulo 14 14,1 14.2 14.3 144 14.5 14.6 14.7 14.8 14.9 Capitulo 15 15.4 1s. 15. 15.4 15.5 15.6 15.7 15.8 CONTENIDO xi Distribuciones muestrales, intervalos de confianza y pruebas de hipétesis Homogeneidad de los coeficientes de correlacién Correlacién intraclases Notaci6n matricial Introduccion Matrices Operaciones con matrices Inversas, dependencia lineal, y rango Regresidn lineal en notacién matricial Introduccion E] modelo y la estimacion de minimos cuadrados El andlisis de la varianza Desviaciones estandar, intervalos de confianza y pruebas, de hipotesis Estimacion y prediccion Variables indicadoras o binarias Regresion y correlaci6n miltiple y parcial Introduceién La ecuaci6n lineal y su interpretacién en mas de dos dimensiones Regresi6n tineal parcial, total y mdltiple La ecuacin muestral de regresi6n lineal multiple Regresion fineal multiple; dos variables independientes Correlacin parcial y miltiple Regresién lineal miltiple; resultados impresos para k variables independientes Miscelénea Coeficientes de regresion parcial estindar Andlisis de la varianza If: experimentos factoriales Introduccion Experimentos factoriales ” El experimento factorial 2 x 2: un ejemplo Factorial 3 x 3 x 2 6 3? x 2: unejemplo Modelos lineales para experimentos factoriales Clasificaciones de n vias y experimentos factoriales; superficies * de respuesta Grados de libertad individuales; tratamientos igualmente espaciados Un solo grado de libertad para no aditividad 269 21 273 276 276 277 278 283 288 288 292 294 296 298 303 303 304 306 308 309 316 320 324 325 328 328 328 334 340 346 352 354 363xii CONTENIDO. Capitulo 16 —_Anilisis de la varianza IV: disefio y anfilisis de parcelas divididas “ 368 16.1 Introduccion 368 16.2 Diseiios de parcelas divididas 368 16.3. Un ejemplo de parcelas divididas 374 16.4 Datos faltantes en disefios de parcelas divididas 379 16.5 DiseAo de bloques divididos 381 16.6 Modelos de parcelas y de bloques divididos 384 16.7 Parcelas divididas en espacio y tiempo 384 16.8 Series de experimentos semejantes 386 Capitulo 17 Andlisis de la covarianza_ 392 17.1 Introduccion 392 17.2 Usos del anilisis de la covarianza 392 17.3 El modelo y lus supuestos para la covarianza 396 17.4 Prueba de medias de tratamientos ajustadas 398 17.5 Lacovarianza en el disefio de bloques completos al azar 401 17.6 Ajuste de las medias de tratamiento 406 17.7 Aumento de precision debido a la covarianza 408 17.8 Particion'de la covarianza 409 17.9 Homogeneidad de coeficientes de zegresion 412 17.40 Lavarianza cuando se particiona la suma de cuadrados de tratamiento 413 17.11 Estimacién de observaciones faitantes mediante la covarianza 417 17.12 Covarianza con dos variables independientes 418 17,13 Ciloulas de alta velocidad y salidas de computador 424 Capitulo 18 Anilisis de la varianza V: ndimero desigual de subclases 428 {8.1 Introducciéa 428 18.2 Observaciones multiples dentro de subciases 428 18.3 Andlisis de un n&imero proporcionado de subclases 429 18.4 Andlisis de un némero no proporcionado de subclases 432 18.5 Otras técnicas analiticas 440 Capitulo 19 Ajuste de curvas 442 19.1 Introduccién 442 19.2 Regresibn no lineal 442 19.3 Curvas logaritmicas 9 exponenciales 444 19.4 El polinomio de seguado grado 450 19.5 Polinomios ortogonales 451 Capitulo 20 Algunos usos del Ji-cuadrado . 458 20.1 Introduccion 458 20.2 Intervalos de confianza para 0? 45820.3 204 20.5 Capitulo 21 2a 21.2 213 214 aus 216 27 Capitulo 22 224 22.2 22.3 22.4 22.5 22.6 22.7 22.8 22.9 22.10 22.11 22.32 Capitulo 23 23.1 23.2 23.3 23.4 23.5 23.6 23.7 Capitulo 24 24.1 24.2 24.3 24.4 24.5 24.6 CONTENIDO xiii Homogeneidad de la varianza . Bondad de ajuste para distribuciones continuas Combinaciones de probabilidades de pruebas de significancia Datos enumerativos [: clasificaciones de una via Introduccion 1 El criterio de prueba X Tablas de dos celdas, limites de confianza para una proporcion © porcentaje Tablas de dos celdas, pruebas de hipétesis Pruebas de hipétesis para un conjunto limitado de alternativas Tamaiio de la muestra Tablas de una via con n celdas Datos enumerativos II: tablas de contingencia Introduccién: El modelo de muestreo aleatorio El modelo de muestreo aleatorio estratificado Tabla cuddruple o de 2 x 2 “Prueba exacta’’de Fisher Muestras no independientes en tablas 2 « 2 Homogencidad de muestras de dos celdas Aditividad de x* > Mas sobre la aditividad de x Regresi6n lineal, tablas r x 2 Tamafio de la muestra en tablas 2 x 2 Clasificacion de n vias Algunas distribuciones discretas Introduccion La distribucién hipergeométrica ‘La distribucién binomial Ajuste de una distribucién binomial Transformacién para la distribucion binomial La distribucién de Poisson Otras pruebas con distribuciones de Poisson Estadistica no paramétrica Introduccion Prucba x? de bondad de ajuste Prueba de Kolmogoroy-Smimov con una muestra Laprueba de signos Prueba de rangos signados de Wilcoxon Prueba de Kolmogotov-Smimoy de dos muestras 460 461 464° 466 466 466 467 47h 474 478 480 482 482 482 486 489 491 493 495, 497 498 sol $03 504 508 508 508 $10 510 514 515 517 520 $20 521 522 $24 526 527erg 6S5 6SS ess ass Lbs ors evs irs Tes Irs oes Les oes ves ves zEes zEes ogs oes ats aarpuy seqey aolpupdy SOpesawopaucd Jod o osdejannur oamsanyy eunjdg ugyoeusisy OpesyNENss oasany {Tus OLIOJEITE cansan oousipngeqoid oaysanyy OTpNysa [ap UOTAEZTURSIC ugmonpongy S¥}IUY SaUOISE]God ap oasony, Uglsergay ered UgIseZO}aTe ep EQontg AayN]-peISWO op ajuBIpPENds jap ugIoeIOOSE ap Bqantg uewvedg ap soBues ap UO!sEpeLI0D Sp ayUaTotya0y Aayshaay ep PEprendiseg SEJA SOP ap UCIOBoIy se] ve] ved wueIpaUl e] ap Eqanid eu, SETA SOP ap UOTOROIISeyD e] ETed URUIpelZy ap EgonIg SEI:SONW ¥ bred EUeIpow eB] op eqenig sexySonus y WOO SITE M-[PYSTIY ap eqonig euelpour ef op eqanig SeiysaTiUs SOp UoDd APUITYM-CURPY-UOXOITT ap Egon L'S% ost Sst rst est ust st St omnasdey OL bt SV ee Plz Eee EV ot IN'e2 OVez Sve Bye “re OOINDLNOD aXPREFACIO Esta segunda edicién de Bicestadistica (Principles and Procedures of Statistics: A Biome- trical Approach) reconoce el hecho de que la estadistica es necesaria, y ya ¢s usada por un creciente numero de disciplinas. Los principios estadisticos son independientes de la materia en la cual se aplican, y los procedimientos aplicados en la agricultura y las ciencias biolégicas pueden llevarse 2 otras éreas como la industria, el gobierno, la ingenieria, la me- dicina, y dar alli tan buenos resultados como en aquellas; podréa decirse, a cualquier area donde se adelante la investigacion. Las universidades y colegios superiores aceptan generalmente este hecho y exigen uno o varios cursos de estadistica como requisito para otor- gar titulos superiores. E] rapido crecimiento de la enseflanza de estadistica en los cursos de pregrado también estd asociado con los requisitos exigidos en este nivel. Este extraordi- nario crecimiento en el uso de la estadistica es paralelo en cierta medida con un rapido desarrollo de los procedimientos estadisticos, algunos de los cuales se cubren en este libro. Otros escapan a su nivel docente. Tendencias como la expansion en el uso de la estadistica y el crecimiento de los métodos explican por qué después de una vida vigorosa y de éxito en estos 20 afios, la edicion original Bioestadrstica (Principles and Procedures of Statistics: A Biometrical Approach) ha debido ceder el paso a esta nueva edicién actualizada, reor- ganizada y ampliada, Los supuestos basicos de ambas ediciones siguen siendo iguales: un enfoque esencialmente no matemético porque los desarrollos algebraicos parecen crear temores en algunos estudiantes; presentacion y andlisis tempranos del disefio experimental de modo que los estudiantes y los profesionales en centros de investigacién puedan aplicar los métodos estadisticos aunque todavia se hallen en el proceso de aprenderlos, ¢ incorporacién de sufi- cientes técnicas que satisfagan las necesidades de la mayoria de investigadores. Esta edicién tiene unas 200 paginas mds que la primera. Obviamente se cubre més material. Entre otras cosas, tiene en cuenta los comentarios y las sugerencias que durante estos afios se han hecho a la primera edicién. Una de ellas y muy frecuente se referia al nivel de la lengua, argumentando que era muy dificil debido a su concisi6n. El autor ha wxvi PREFACIO x revisado el libro palabra por palabra y parrafo por pérrafo en un esfuerzo por ampliar las explicaciones y, por consiguiente, simpliticar el contenido. Se han incivido muchas técnicas auevas, algunas de las cuales se estudian brevemente y otras, con mayor detenimiento, Entre los miltiples y nuevos procedimientos de compa- racién se incluyen la dms protegida de Fisher, le prueba de Scheffé y la prueba f para la razon k bayesiana de Waller-Duncan, las itiles variables de indicadores se tratan breve, pero apropiadamente; el procedimiento de Satterthwaite para calcular pruebas cuasi razones F se explica cuidadosamente en una parte y se demuestra en otras; fos polinomios ortogo- pales se usan para producit ecuaciones de superticies de respuesta en experimentos factoriales, y el capitulo 24, sobre estadistica no paramétrica, incluye ahora las pruebas de una y dos muestras para fa bondad de ajuste de Kolmogorov-Smimoy. No se ha deseuidado la modernizaci6n de las téonicas estindar. Los disefios de parcelas divididas en el tiempo se consideran como ejemplos de disefio de bloques divididos. El capitulo 14, sobre regresién mUltiple, se presenta en notacién matricial, el enfoque mo- derno que necesita de Ia interpretacion de resultados impresos que resultan de la tecnoto- gia de la computacién. La notacién matricial se ha presentado en los dos capitulos anteriores: el capitulo 12, sobre definiciones y procedimientos de operacién, pretende estimular al usuario de los paquetes de cilculos estadisticos a que adquiera un mayor dominio de los resultados impresos del computador, que los acomparian; el capitulo 13, sobre regresién lineal en presentacién de matricial, presenta en un desarrollo paralelo ef enfoque usual, tal como se desarroilé en el capitulo anterior. Este capitulo ayuda al lector a hacer la transicién a fa notacién matricial; y el anélisis de datos numérico de subclases desproporcionadas se relaciona con la regresién multiple y con los resultados impresos det computador. Hay una mejora en la organizacion del material respecto de la primera edicion. Por ejemplo, el andlisis de Ja distribucién binomial aparece ya desde el capitulo 2, en donde es muy itil para la presentacién de la distribucién normal; la discusin de una funcién lineal, su media y su varianza se han adelantado, de suerte que pueda relacionarse con la comparacién de dos medias, sea de muestras dependientes o independientes; los temas sobre contrastes y comparaciones miiltiples se han reunido en un nuevo capitulo 8, en donde las tasas de error se han definido cuidadosamente y se presentan guias y adverten- cias sobre la confusién que puede generar un exceso de pruebas; el capitulo 9 se beneficia de una discusién mejorada dei método para determinar el tamafio de un experimento; y el capitulo 24 ofrece una presentacién mas ordenada de la estadistica no paramétrica. Se ha prestado atencién a presentaciones alternativas, por ejemplo, un tratamiento més adecuado del uso de los componentes de la varianza en el planeamiento de experimentos con atenci6n a los costos involucrados; un manejo mas apropiado de correlaciones entre clases; un mejor enfoque —olvidado en la primera edicién— de las tablas de contingencia, usando modelos. Por ltimo, en atencibn a muchas solicitudes y sugerencias, la seleccién de ejercicios se ha aumentado considerablemente para incluir datos tomados de una gama mas amplia dentro de las ciencias biolégicas. Ademés, se han incluido datos obtenidos de las ciencias sociales, Para un conjunto de datos de pre-prueba y post-prueba, los andlisis propuestos incluyen tratamientos de dos conjuntos de datos, come problema de regresion y como disefio de bloques divididos.PREFACIO xvii Los autores quedan muy reconocidos con el profesor Sir Ronald A. Fisher, Cambrid- ge, con el doctor Frank Yates, Rothamsted, y con Oliver and Boyd, Ltd., Edimburgo, por haber autorizado 1a reproduccién de la tabla If de su libro Svaristical Tables for Bio- logical, Agricultural and Medical Research. Los autores tambiém expresan sus agradecimientos a Fred Gruenberger y al Numerical Analysis Laboratory de la Universidad de Wisconsin por su preparacion de la tabla A.Isa E. S, Pearson y H. O. Hartley, editores de Biometrika Tables for Statisticians, Vol\,y a Biometrika por su permiso para reproducir las tablas A.2, A.6, AS y A.1S:a CM. Thompson y a Biometrika por su permiso para reproducir la tabla A.S;a D. B. Duncan y al editor de Biometrika por su permiso para reproducir la tabla A.7; aC. W. Dunnett y al editor del Journal of the American Statistical Association por su permiso para reproducir la tabla A.9; aC. I. Bliss por su permiso para reproducir la tabla A. 10 y a E. N. David y Biometrika por su permiso para reproducir la tabla A.11; a L. M. Milne-Thomson y L. J. Comrie, autores de Standard Four-figure Mathematical Tables y a MacMillan Co. Ltd., Londres, por su permiso para reproducir la tabla A.12: a G. W. Snedecor, autor de Statistical Methods, 4a. ed. y ala lowa State College Press por su permiso para reproducir la tabla A.13,a D. Mainland, L. Herrera y M, [. Sutcliffe por su permiso para reproducjr ja tabla A.14; a F, Mosteller y J, W. Tukey, editor del Journal of the American Statistical Association, y a Codex Book Company Inc., por su permiso para reproducir la tabla A.16; a Prasert Na Nagara, por su permiso para reproducir la tabla A.17; a Frank Wilcoxon y a la American Cyanamid Company por su permiso para reproducir Ja tabla A.18; a Colin White y al editor de Biometrics por su permiso para reproducir la tabla A.19; a P. S. Olmstead, J. W. Tukey, Bell Telephone Laboratories y al editor de Annals of Mathemati- cal Statistics por su permiso para reproducir la tabla A.20;a D. B. Duncan por su permiso para reproducir fa tabla A.21;a L. H. Miller y al editor de Journal of the American Statis- tical Association por su permiso para reproducir la tabla A.22; a Z. W. Birnbaum, R. A. Hall y al editor de Annals of Mathematical Statistics por su permiso para reproducir la tabla A.23; En particular, deseo agradecer a Wyman Nyquist por su valiosa critica de la primera edicién y del manuscrito de la revision. Ademds, tengo deuda de gratitud con muchos de mis colegas por sus sugerencias acerca de varios temas, con otros por sus generosos permisos para usar datos, y con aquellas personas que me ayudaron en la preparacién de] manuscrito. Me hubiera extraviado sin las destrezas de Dorothy Green, quien mecanografié, corté y pegé el manuscrito final. Por ultimo deseo agradecer a mi esposa, Jennie, por su lectura cuidadosa de las pruebas y ayuda editorial. Robert G. D. SteelSIMBOLOS ESCOGIDOS MUWAW VE = no es igual a; por ejemplo, 3 # 4 mayor que; por ejemplo, 5 > 2 mayor que 0 igual a menor que; por ejemplo, 3 <7 menor que 0 igual a valor absoluto; por ejemplo] —7| = 7 suma de indica un conjunto de cantidades faltantes; por ejemplo 1, 2,..., 10 n(n — 1)... 1 llamado 7 factorial; por ejemplo, 3! = 3(2)1 = 6 se usa para indicar el promedio aritmético de una media sombrero; se usa para indicar una estimacién, no tanto un valor verdadero; por lo general aparece sobre letras griegas. con pocas excepciones se refieren a pardmetros de una poblacién media poblacional varianza poblacional y desviacion estandar componentes de las medias poblacionales; se usan comdnmente junto con modelos lineales error experimental verdadero error verdadero en la muestra; diferencia real coeficiente de regresién de la poblacién, efecto de bloque + coeficiente de correlacién de la poblaciénXxx SIMBOLOS ESCOGIDOS NY, S? estas letras latinas se usan como simbolos que indican poblaciones finitas, en especial en el cap. 25. Las anteriores letras griegas se wsan también con subindices para mayor claridad, Por ejemplo: uy media poblacional de las ¥ Brxz — regresion de ¥ sobre X con Z fijo 1 contribucién de la media poblacional que recibe el i-ésimo tratamiento Algunas excepeiones en el uso de letras griegas para indicar pardmetros son: x probabilidad de un error de Tipo I ira coeficiente de confianza B —_probabilidad de un error de Tipo I 1-8 poder de una pmeba estadistica x? ctiterio comin de prueba Letras latinas se usan como simbolos generales, incluyendo los de estadistica muestra) variable observaciones individuales totales de observaciones diferencia entre observaciones pareadas, ¥,; — Ya, total de tamafio de la muestra nimero de observaciones en i, j-ésima celda medias muestrales, total o parte de una muestra media de las medias muestrales varianzas muestrales, estimaciones no sesgadas de 0%, a#, y 0}, 559,59 desviaciones esténdar de la muestra Shx.5P1-- varianzas muestrales ajustadas por regresion CL, CI limites de confianza, o intervalos hls puntos extremos de los limites de confianza b —_coeficiente de regresion de la muestra byiae Coeficiente de regresion parcial de la muestra b’ —_coeficiente de regresion estandar r total de la muestra o coeficiente de correlacién simple Tiasax coeficiente de correlacién parcial de la muestra en X, y X Riz. Coeficiente de correlaci6n miltiple entre X, y otras variables§xx SOGID00Sa SOTOEWIS oyuyur SEAIEUIA}2 Sp OUN{UOS ayuatuyensn ‘eAlEWayE sisajodny Bnu sisazodny JeIwourg uIoNd}sIp eun ua sepepipiqeqosd Peprqeqoid SOTPUIGNS OWIOD ESN as ‘OpediyiyEs7s9 oarsonw ap eizeund peplun BUULy UO!DEIGOd Jod woD9aI109 O = 9 CA R10) oyuaruREN un opnuawese 'y ‘ajueysuoa so '9 yend eB] ua UgIRIEdWOD @]URISUOD sa '9 ‘SaUOIOBAIASgO Ep [BAU] UQIaUN Bun 001( /S) PEpMaEueA ap aquatsy209 BATIE[AI BIUATONS SyUBOITUBISs EUMUTU BIUaZayIp ayURoLTuats ou axl] ‘o[dwafe 1od ‘ajueoyusis ayuaureye af 7 ‘ojdwale 10d ‘ayreoyiugis (ug}eLea ap saruenj $2390 Jeorpur ered SBJ]9[ SE1}O UBSN as) EZUBTEADD B] Ud SOJINpOId so] ap 10a Jap seus SEPIPIATp sejaosed ap Ouastp un Ua JouJa [ap SeIpaus st] ap soptupend opaw opespeno soptipeno ap ewins* (4 — 4) % Ug}odBLIOS ap OUND) ‘UOToda1I09 ap .JO[EA ‘UOIIDALIOD ap 1O}EJ pewaqy ap sopesdCAPITULO. UNO INTRODUCCION 11 Definicion de la estadistica La estad stica moderna proporciona conocimientos a los investigadores. Es un tema nuevo y estimulante, producto del siglo XX, Para el cientifico, particularmente para el cientifico en Biologia, la estadistica comenz6 aproximadamente en 1925 cuando aparecié el libro de Fisher, Statistical Methods for Research Workers. La estadistica es un tema de répide crecimiento con mucho material original que todavia no se encuentra en textos; crece a medida que los estadisticos encuentran respuestas a mas y mas problemas propuestos por los investigadores. Algunos de los primeros investigadores que contribuyeron al desarrollo inicial de la estadistica todavia laboran acti- vamente, y los nuevos encuentran diversas oportunidades para sus talentos investigativos. En la aplicacién de Ja estadistica, los principios son generales aun cuando las técnicas puedan diferir, y la necesidad de formacidn estadistica crece a medida que se incrementa la aplicacién a las ciencias biotogicas y sociales, la ingenieria y la industria, Este tema nuevo y vigoroso afecta a todos los aspectos de la vida modema. Por ejemplo, el planeamiento estadistico y la evatuacién de la investigacién contribuyen a los avan- ces tecnoldgices en el cultivo y procesamiento de alimentos; el control estadistico de calidad de los productos manufacturados hace confiables los equipos automotores y eléc- tricos. La estadistica ayuda a los encuestadores a recolectar datos para determinar las pre- ferencias de esparcimiento del piblico; proporciona informacién pata los estudios de impacto ambiental y ayuda en la evaluacion de las exigencias gubernamentales para que la industria farmacéutica demuestre que un producto es benéfico y no s6lo inofensivo. Cada vez son mas los grupos de investigacién en los cuales se encuentra un estadistico. La extensién de la estadistica hace dificil su definicin, Su desarrollo obedecié a la necesidad de tratar problemas en tos cuales, para observaciones individuales, las leyes de causa y efecto no aparecen claramente al observador y donde es necesario un enfoque objetivo. En tales problemas siempre existe un cierto grado de incertidumbre en toda inferencia basada en un niimero limitado de observaciones. Por lo tanto, para nuestro props-2 BIOFSTADISTICA: PRINCIPIOS ¥ PROCEDIMUENTOS, sito, una definicién razonable y satisfactoria seria: La estadistica es la ciencia, pura y aplicada, que crea, desarrolia y aplica téenicas de modo que pueda evaluarse la incertidumbre de inferenctas inductivas. Para la mayoria de ics cientificos, a estadistica es [6gica o sentido comin con un fuerte ingrediente de procedimientos aritméticos. La légica proporciona el metodo mediante el cual se deben recolectar los datos y determinar cudnto deben abarcar; la aritmé- tiea, junto con ciertas tablas auméricas, produce el material sobre el cual se basa ia inferencia y se mide la incertidumbze. La parte aritmética es 2 menudo rutinaria, y el estudiante necesita de formacién matemética especial, No vamos a ocuparnos directamente con las matemiticas, ya que es dificil encontrar ur campo de esta materia que no haya dado al estad istico alguna teoria util. : 1.2 Breve historia de la estadistica La historia de la estad fstica aclara en gran medida la naturaleza de la misma en el siglo XX. La perspectiva historica también es importante para ver las necesidades y las presiones que la crearon. Ei término estadistica no es nuevo, La estadistica debié comenzar como una aritmé- tica estatal para asistir al gobernante que necesitaba conocer la riqueza y el ntimero de sus stibditos con el objeto de recaudar impuestos o presupvestar la guerra, Es de presumir que todas las culturas que intencionalmente registraron su historia también registraron sus estadisticas. Sabemos que César Augusto decretd que todos los sibditos tenfan que tribu- tar y por lo tanto exigio a todas las personas que se presentaran al estadistico més cercano, que entonces era el cecaudador de impuestos. Debido a lo anterior, Jesis nacié en Belén, no en Nazareth, Guillermo el Conquistador ordené un censo de las tierras de Inglaterra para fines de tribut: ny de servi militar. Este se llamé “Domesday Book”, Tales estad isticas son historia. Varios siglos después del “Domesday Book”, encontramos una aplicacion de la probabilidad empirica ai seguro de embarque, del cual parece haber dispuesto la navegaci6n flamenca de! siglo XIV. Esto pudo haber sido poco ms que pura especulacién o juego de azar, pero legé a set la forma muy tespetable de la estadistica llamada seguros. El juego, en forma de juegos al azar, originé Ia teoria de las probabilidades, desarro- Hada por Pascal y Fermat, a mediados del siglo XVII, debido a su interés en las experien- cias de juego del Caballero de Meré. Para el estadistico y el cientifico experimental, tal teoria tiene mucho uso practico en la informatica. ‘La curva normal o la curva normal de errores ha sido muy importante en el desarrollo de Ja estadistica. La ecuacisn de esta curva fue originalmente publicada en 1733 por de Moivre, quien no supo cémo aplicar sus resultados a observaciones experimentales y Su escrito permanecié desconocido hasta que Karl Pearson lo encontré en una biblioteca en 1924, Sin embargo, al mismo resultado legaron Iuego dos astronomos mateméticos, Laplace, 1749-1827, y Gauss, 1777-1855, independientemente el uno del otro. Un razonamiento esencialmente estadistico fue aplicado en el siglo XIX por Charles Lyell a un problema geolégico. En ¢l periodo comprendido entre 1830 y 1833 aparecie- ton tres volimenes de Principles of Geology de Lyell, quien establecié el orden de tas rocas terciarias y les asigné nombres. Con M. Deshayes, un conquilidlogo francés, identifi- 66 y enumeré especies fosiles que se presentaban en uno o mas estratos, y también logra-INTRODUCCION 3 ton dar las proporciones de las que atin vivian en ciertas partes de los mares. Basados en estas proporciones asignaron los nombres de: Pleistoceno (novisimo), Pliocene (mas reciente), Mioceno (menos reciente) y Eoceno (reciente), El razonamiento de Lyell fue esencialmente estadistico. Una vez establecidos y aceptados los nombres, el métado fue casi inmediatamente olvidado. No habéa gedlogos evolucionistas que se preguntaran si se trataba de etapas discretas, como lo implican los nombres, 0 bien si era un proceso con- tinuo y se podia utilizar para hacer predicciones. Otros descubrimientos cientificos del siglo XX también se hicieron sobre una base estadistica sin que se advirtiera apenas la naturaleza estadistica de la técnica, y desafortunadamente el método cayé pronto en el olvido. Esta afirmacién es valida para las ciencias biol6gicas y las fisicas Charles Darwin, 1809-1882, bidlogo, recibié en el Beagle el segundo volumen del libro de Lyell, Posteriormente Darwin formuld sus teorias y bien pudo haber influido en él la lectura de ese libro. La obra de Darwin fue, en gran parte, la naturaleza biométrica estadistica, y ciertamente renové el entusiasmo pot la Biologia. Mendel, con sus estudios sobre hrbridos vegetales publicados en 1866, también tuvo un problema biométrico 0 estadistico. “ En el siglo XIX, la necesidad de una base més sdlida para la estadistica se hizo mani- fiesta. Karl Pearson, 1857-1936, inicialmente fisico matematico aplicé sus matematicas a la evolucién, como resultado del entusiasmo que generé Darwin en 1a Biologia. Pearson dedicé casi medio siglo a la investigacién estadistica rigurosa, Ademds, fund6 Ia revista Biometrika y una escuela de estad istica; con ello tomé impulso el estudio de la estadistica. Si bien Pearson se ocupaba de muestras grandes, la teoria correspondiente resultaba inadecuada para los experimentadores que trabajan con muestras necesariamente peque- las, Entre estos estaba W,S.Gosset, 1876-1937, quien estudiaba con Karl Pearson y era técnico de la firma de cerveceros Guinness. Parece que !a matemdtica de Gosset era insufi- ciente para encontrar distribuciones exactas de Ia desviaciGn estindar de la muestra, la elacién entre la media de la muestra y la desviacidn estindar de la muestra, del coeficiente de correlacién, estadigrafo al que dedicé especial interés. Por lo tanto, recurrié a sacar cartas calculando y compilando distribuciones de frecuencia empirica. Sus escritos sobre os resultados aparecieron en Biometrika en 1908 bajo el nombre de Student, seudénimo de Gosset mientras trabajaba con Guinness. Hoy, la t de Student es instrumento funda- - mental para estadisticos y experimentadores, y “estudentizar” es expresin corriente en estadistica. Ahora que el uso de fa distribucién ¢ de Student estd tan generalizado, es interesante anotar que el astrénomo alemédn, Helmert, ya la habia obtenido mateméticamente en 18752 R. A, Fisher, 1890-1962, recibié influencias de Karl Pearson y de Student, ¢ hizo numerosas ¢ importantes contribuciones a la estadistica. El y sus estudiantes dieron considerable impulso al uso de los procedimientos estadisticos en muchos campos, particularmente en agricultura, biologia y genética. J, Neyman, 1894, y E. S, Pearson, 1895, presentaron una teoria sobre la verificaci6n @ prueba de hipotesis estadisticas en 1936 y 1938. La teoria fomenté en forma considerable la investigacion y muchos de los resultados son de uso practico. En esta breve historia, mencionaremos sélo otro estadistico. Abraham Wald, 1902- 1950. Sus dos libros, Sequential Analysis y Statistical Decision Functions, se ocupan de4 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS grandes conquistas estadisticas no tratadas en este texto, no obstante, una aplicacida, la solucion minima de un problema de genética, se ilustra en el capitulo 21. En este siglo entonces se han desarzollado la mayoria de los métodos que actualmente se utilizan. La estadistica de este texto es parte de esos métodos, 13 La estadistica y el métedo cientifico Se dice que los cientificos usan el método cientifico. Seria dificil definir la expresion metodo cientifico, dado que los cientificos usan cuantos métodos o medios puedan con- cebir. Sin embargo, la mayoria de estos métodos tienen puntos esenciales en comin. Sin intentar promover una controversia, consideramos que éstos son: 1, Una revisién de hechos, teorias y propuestas. Formulaci6n de una hipétesis légica sujeta a prueba mediante métodos experimentales. 3, Evaluacién objetiva de las hipdtesis con base en los resultados experimentales. Mucho podria escribirse respecto a estos puntos esenciales: ;Como se lega a una hipstesis? ;Cémo se disefla un experimento? ¢Cémo se evalia objetivamente una hipé- tesis? La ciencia es un estudio que se ocupa dé la observacién y clasificacién de los hechos. Los cientificos deben, entonces, ser capaces de observar un suceso 0 conjunto de eventos => como resultado de un plan o disefla, Esto es el experimento, la sustancia de! método cientifico. El disefio experimental es un campo de la estadistica, La evaluacion objetiva de una hipstesis presenta problemas, puesto que no es posible observar todos los eventos concebibles, y como las leyes exactas de causafecto generalmente se desconocen, existird variacion entre los que son observados. El cientifico debe entonces razonar partiendo de casos particulares a casos més generales, Este proceso es de infe- >, tencia incierta, Es un proceso que fos capacita para desaprobar hipétesis incorrectas, pero no nos permite aprobar hipdtesis correctas, Lo nico que podemos dar como demostracién es una comprobacién fuera de duda razonable. Los procedimientos estadisticos son méto- dos que nos conducen a esta suerte de pruebas. Una parte de Ja informacién posible, necesariamente conduce sélo a inferencia in- Gierta. El azar entra en juego en la obtencién de informacién:y es la causa de la incertidumbre, Al aplicar las leyes del azar, el estadstico de hoy puede realizar una medicién objetiva y precisa de la incertidumbre de las inferencias. Ciertamente, esto se hace para la totalidad de tas inferencias y no para cada inferencia individual. O sea que se sigue un procedimiento que asegure que 9 de 10 inferencias seran correctas, 0 99 de 100, 0 algo por el estilo. ;Por qué no estar siempre en Jo correcto o muy cerca a lo correcto? El inconve- niente es el costo. El costo puede subir debido al incremento del tamafio de la muestra, a consecuencia de una decision incorrecta, o a la vaguedad de Ja inferencia necesaria para incluir la respuesta correcta. El método cientifico no es una sucesién dispersa de secuencias de hipstesis experimento-inferencia que se ajusten perfectamente en compartimientos. Mas bien, si un cientifico no logra demostrar la falsedad de una hipétesis, quizé 'a teoria abarque hechos fueradel alcance de la inferencia del experimento 0 acaso modificdndola, pueda abarcar tales hechos. E| ciclo se repite entonces. Por otra parte todos los supuestos que entran en la hipéte:INTRODUCCION § pueden no ser necesarios; entonces se formula una nueva hipdtesis con nuevos supuestos y se repite el ciclo. . En resumen, la estadistica es un instrumento aplicable en el métoda cientifico, para el cual fue desarrollada. Su aplicacién particular esta en los muchos aspectos del disefio de un experimento, desde el plan inicial para la recoleccién de los datos, y en el andlisis de los resultados a partir de los datos resumidos, hasta la evaluaciOn de fa incertidumbre de toda la inferencia extraida de ellos. 1.4 El estudio de la estadistica No se intenta convertir en estadisticos profesionales a aquellos que lean y estudien este libro. Nuestro prapésito es promover una forma de pensar clara y disciplinada, especialmente cuando se trata de recolectar e interpretar informacién numérica, y presentar un considerable mimero de técnicas estadisticas de aplicabilidad y utilidad generales en la investigaciGn. Se requiere hacer cdlculos en estadistica, pero es cosa de aritmética, no de matemitica ni estadistica, La estadistica implica, para la mayoria de los estudiantes, una forma nueva de pensar en términos de incertidumbre o de improbabilidades, Acd como en otros casos, los estudiantes difieren en habilidad, y cuando se enfrentan a la estadistica por primera vez, para algunos puede parecer una tortura mental que puede ser emocionaimente perturba- dora, Creemos haber hecho todo el esfuerzo compatible con nuestros objetivos para mini- mizar los problemas del aprendizaje de la estadistica. Muchos estudiantes encontrarin que se aprende mejor la estadistica mediante la aplicaci6n directa a sus propios problemas; pocos encontraran, en el transcurso de uno 0 dos periodos, ta utilidad del material presentado, Por consiguiente, muchos estudiantes necesitarin considerable reflexién y discusién para obtener el maximo provecho de un curso basado en este texto. Se dan preguntas y ¢jercicios para estimular la reflexion y ofrecer alguna oportunidad de aplicar las técnicas y familiarizarse con ellas. Finalmente, es necesario tener en cuenta que la estadistica se ha propuesto como instrumento de investigacion. La investigacion puede ser en genética, mercadeo, nutri- cién, agronomia, etc. Es el campo de investigacién, no el instrumento, ef que debe proporcionar los “por qué” del problema de investigacion. A veces, este hecho se pasa por alto y los usuarios olvidan que tienen que pensar, que la estadistica no puede pensar por ellos. La estadistica, sin embargo, ayuda a los investigadores a disefiar experimentos y a evaluar abjetivamente los datos numéricos resultantes, Es nuestra intencién proporcionar a los investigadores instrumentos estad isticos litiles para este fin. Referencias LL. Box, Joan Fisher: 8. A. Fisher, The life of a scientist, Wiley, Nueva York, 1978. 1.2. Committee of Presidents of Statistical Societies: Careers in statistics, current 0: Statistical Association, Washington, D.C. 1.3, Eisenhart, Churchill: “Anniversaries in 1965 of interest to statisticians,” Amer. Statist., 19: 21-29 (1965) 14, Eisenhart, Churchill, y Allan Birnbaum: “Anniversaries in 1966-67 of interest to statisticians”, Amer. Statist., 21:22-29 (1967). 1.5. Fisher, R, A: “Biometry.” Biom., 4:217-259 (1948). fon, AmericanLid. LIS. way, LAS. Lg. 1.20, 12h. 1.22. 1,23. 1.24, 1.25. 1.26. 1.27. - Hotelling, Harold: “Abraham Wald.” Ammer. Starisi BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS J. Roy, Statist, Soc., Ser. A., 116:1-6 (1953). “The expansion of statistics,”” Amer, Sci, 42:275-282 y 293 (1984) §, Freeman, Linton C., y Douglas M, More; “Teaching introductory statistics in the libetal arts cu- iculum, Amer. Statist., 10:20-21 (1956). Hotelling, Harold: “The teaching of statistics,” Ann. Math, Statist.. (1:1-14 (1940). Hotelling, Harold: “The impact of R. A. Fisher on statistics.” J. Amer. Statist, Ass, 46:35-46 (1951). 5218-19 (1951). Hotelling, Harald: “The statistical method and the philosophy of science,” Amer. Statist., 12: 9-14 (1958). . MeMullen, Launce: Foreword, en E. S. Pearson y John Wishart (eds.), “Studenr’s"’ collected papers, Biometrika Office, University College, London, 1947, Mahalanobis, P. C.: “Professor Ronald Ayitmer Fisher,” Senkhya, 4:265-272 (1938) Mainland, Donaid: “Statistics in clinicat research; some general principles,” Ann, N.Y, Acad. Sci,, $2:922-930 (1950). . Mather, Kenneth: “R. A, Fisher's Seatistical Methods for Research Workers, an appreciation,” J, Amer. Statist,,Ass., 46:51-54 (1951), Menger, Karl: “The formative years of Abraham Wald and his work in gcometr Statist., 23:13-20 (19523, Pearson, E, 8: “Karl Pearson, an appreciation of some aspects of his life and work, part (: 1857-1906," Biometrika, 28:193-257 (1936). Pearson, E. §.: “Karl Pearsoa, an appreciation of some aspects of his life and work, part Il: 1906-1936," Biometrika, 29:161-248 (1938). Reid, R. D.: “Statistics in clinicat research," Aan, N.Y, Acad, Sci., $2:931-934 (1950). Tintner, G.: “Abraham Wald’s contributions to econometrics,” Ann. Math. Statist., 23:21:28 1952). Walker, Helon M.: “Bicentenary of the normal curve,” J. Amer, Statist. Ass., 29:72-75 (1934), Walker, Helen M.: “Statistical Literacy, in the social sciences,” Amer, Seatist., $:6-12 (1951) Walker, Helen M.: “The contributions of Karl Pearson,” J. Amer, Statist. Ass., $3:11-27 (1958). Wolfowitz, J.: “Abraham Wald, 1902-1950,” Aan. Math. Statise., 23:1-13 (1952). Yates, F.: “The influence of Statistical Methods for Research Workers on the development of the science of statistics,”"J. Amer Statist, Ass, 46:19-34 (1951). Youden, W, J.: The Fisherian revolution in methods of experimentation,” /. Amer Statist. ss., 46:47-50 (1951). Ann, Math,CAPITULO Dos OBSERVACIONES 2.1 Introduccion 7 Las observaciones constituyen la materia prima con Ja cual trabajan los investigadores. Para que se pueda aplicar la estadistica a esas observaciones éstas deben estat en forma nu- mérica. En el mejoramiento de cultivos, los némeros bien pueden ser rendimientos por parcela; en la investigacién médica, pueden ser tiempos de recuperacién bajo varios tratae mientos; en la industria, pueden ser cantidad de defectos en varios lotes de un articulo producido en una linea de montaje. Taleymameros constituyen datos y su caracteristica comin es la variabilidad o variacién. Este capitulo se refiere a la recoleccién, presentacién, resumen y caracterizacion de la informacién. Se discutirén tos conceptos de poblaciones, muestras, modelo lineal inferencia estadistica. 2.2 Variables Proposiciones tales como “Maria es rubia”, o “El pesa mds de 20 libras”” son comunes e informativas. Se refieren a caracterfsticas que no son constantes, sino que varian de una persona a otra y que sirven para distinguir o describir. x Las caracteristicas que presentan variabilidad 0 variacién se denominan variables, ¢ variables aleatorias o variables de azar. Como gran parte de nuestro estudio debe ser general, empleamos algunos simbolos. En vez de escribir variable a cada oportunidad, sean ¥ ta variable ¥ e ¥; (léase Y sub-f) la observacién i-sima. Aqui no tenemos en mente ninguna observacién en particular, Cuan- do tengamos que referimos a una observaci6n especifica, remplazaremos / por un ndme- 10. Por ejemplo, si en una familia tres nifios pesan 52, 29 y 28 libras, y Y denota peso, Y, = 52 libsas, Y, = 29 libras y Y, = 28 libras, En términos més generales y abstractos, denotamos un conjunto de observaciones mediante V,, Y¥,,..., %. Aqui Y, s¢ refiere al Ultimo términd, el subindice nos dice el mimero total, y los tres puntosentre Y; ¢ ¥% se 78 — BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS refieren al resto de observaciones, si las hay. En nuestro ejemplo, n= 3. Los simbolos se consideran una taquigrafia. Las variables pueden ser cugntitativas 0 cualitativas. Una Variable cuantitativa es aquella para la cual las observaciones resultantes pueden medirse porque poseen un orden o rango natural; por ejemplo, estaturas, pesos y niimero de caras que se presentan cuando se lanzan 10 monedas. Las observaciones sobre variables cuantitativas pueden clasificarse ademas en conti- muas 0 discretas, Ung variable continua es aquella que puede presentar cualquier valor dentro de cier- to intervalo, Estatura y peso son ejemplos obvios. La estatura puede medirse con una aproximacién de 1/4 de pulgada, pero esto no quiere decir que las estaturas existen solamente. para valores de 1/4 de pulgada. Nuestra limitacion depende del tipo de aparato de s>medida usado para obtener fos valores de una variable continua. Una variable disereta o discontinua es aquella para la cual los valores posibles no se pueden observar en una escala continua debido a la existencia de espacios entre estos posibles valores. A menudo las observaciones discretas son enteros porque provienen de con- teos, Son ejemplos, el nimero de pétalos de una flor, el némero de familias residentes en una manzana o el numero de insectos atrapados en una red. Pero el espacio entre posibilidades sucesivas puede ser diferente de la unidad. El promedio de puntos que se presentan al lanzar dos dados también es una variable discreta, y sus valores van de uno a seis por incrementos de un medio. Una variable cualitativa es aquella para la cual no es posible hacer mediciones numé- ricas. Se hace una observacion cuando se asigna un individuo a una o varias categorias mi- tuamente excluyentes (no se puede asignar a més de una). Las observaciones no se pueden ordenar o medir en forma significativa, s6lo se pueden clasificar y enumerar. Ejercicio 2.2.1 Clasificar las siguientes variabies como cuantitativas, cualitativas, continuas 0 discrotas segtin el caso: color de los ojos, récuente de insectos, numero de exrores por estudiante en un examen de deletreo, kilémetros recorridos por Manta hasta el primer pinchazo, tiempo para recargar de tinta un estilografo que se usa normalmente, posibles rendimientos de maiz ‘en un campo determinado, numero de niios nacidos en ¢! hospital mas cercano en el dia de afto nuevo, posibles resultados al lanzar $0 monedas, nlimero de peces en un estangue. Ejercicio 2.2.2 Al lanzar 10 veces 7 monedas, el niimero de caras fue de 2, 6, 2,2,5,3,5, 3,3. 4, Si se denotan las observaciones Yi, Yq... Yyo oudl es el valor de ? ,Cual es et valor de ¥,% de ¥5? Para qué valores de ies ¥ iguata 2, 3y 47 Distinguirentre ¥,_,¢ ¥j— 1.Cuando im 2, jqué valores toman Hoye 12 23 Distribuciones Los valores de una variable sirven para describir o clasificar individuos o distinguir entre ellos. La mayoria de nosotros hacemos algo mds que simplemente describir, clasificar 0 distinguir, porque tenemos ideas respecto a las frecuencias relativas de los valores de una variable, Asi, en Minnesota, él ser rubio no es valor raro del cutis de una persona; la mayo- tia de la gente no creeria mucho en historias sobre un gato doméstico de 65 libras; un bebé de peso de 7 1/2 libras al nacer se considera comuin y corriente con excepcién de la familia. La mente asocia una medida con el valor de una variable, una medida de lo corriente que es ono, ala probabilidad de ocurrencia de un valor semejante. En estadistica decimos que Ia variable tiene una funcién de probabilidad, una funcion de densidad de <OBSERVACIONES 9 probabilided o simplemente una funcidn de densidad. Asi, para una moneda equilibrada o justa, lo probabilidad de que caigs cara es la misma de que caiga sello, es decir, 1/2; ésta es una afirmacién can respecto a la funcién de densidad de una variable discreta. La afir- macién de que cierto porcentaje del peso de adultos es menor que un valor dado, corresponde a una distribucién de probabilidad acumulada a, simplemente, a una fiuncién de distribucion de una variable continua cuando tenemos los porcentajes de todas y cada uno de los pesos. Las expresiones “al azar” y “variable aleatoria" se usan més particularmente para variables que poseen funciones de densidad de probabilidad. Tan pronto los términos muy relacionados dé funcidn de densidad y funcion de distribucion estén bien definidos, comenzaremos a usar simplemente el término distribucion para significar uno y otro, segin convenga. La nocién de azar 0 aleatoriedad no ha sido definida. Slo hemos dado a entender que las leyes del azar son aplicables, La aleatoriedad se estudia més extensamente en tag siguiente seccién Ejercicio 2.3.1 Con base en su experiencia, clasifique la ocurrencia de los siguientes sucesos con Srecuencias relativas, alta, media 0 baja, segin el caso: Un bebé de 2 libras; un jugador de baloncesto de 6 pies y 8 pulgadas; una temperatura nocturna baja de 0°C por lo menos una vez en octubre en su focalidad; una estudiante de primer ato de universitiad de 112 libras; una serie de 5 caras al lanzar 5 veces une moneda: un caballo de 3400 libeas; 27 caras a} lanzar una moneda 5D veces, Ejercicio 2.3.2 Si se lanza un clavo, ;caerd de cabeza tantas veces como de punta? De acuerdo con su experiencia, ,e8 probable que la seftal de ocupado en un teléfono ocurta tan frecuentemente como | vez en 10 Hamadas a 10 personas diferentes? ,Qué porcentaje de estudiantes de primer afio de universidad espera usted que pasen al curso siguiente el proximo afto? ,Qué porcentaje completard todo un programa en la misma universidad? (Luego de reflexionar con respecto al material de los ejercicios 23.1 y 2.3.2, se caerd en cuenta de que la idea de las distribuciones, de sus promedios y su variabilidad, no es enteramente nueva). 24 Poblaciones y muestras La primera preocupacién respecto a un conjunto de datos es si se puede considerar como todos los datos posibles 0 s6lo una parte de un conjunto més grande. Esto es de gran importancia, y él no hacer una distincién clara ha producido ertores en Ia forma de pensar y una explicacién ambigua en algunos escritos. Una pobiacién o universo consiste en todos los posibles valores de una variable. Estos valores no tienen que ser todos diferentes ni en niimero finito. Son ejemplos los pesos de una camada de cerditos al nacer, el mimero de caras al lanzar 500 veces 10 monedas, todos los posibles valores de rendimiento de mafz por acre en el estado de Iowa. La variable puede ser continua o discreta, observable 0 no observable. Cuando se conocen todos los valores de una poblacién, es posible describirla sin ambigtedad. Una muestra es una parte de una poblacién, (En algunos casos, una muestra puede incluir la poblacién entera). Por Jo general, se trata de usar la informaci6n de muestra para hacer inferenciat acerca de una poblaciOn, Por esta raz6n es particularmente importante definir la poblacién que se estudia y obtener una muestra representativa de la poblacién definida, fo cual no es cosa trivial, :10 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS, Los pesos de los cerditos de una camada al nacer y el ntimero de caras en cada uno de los lanzamientos de 10 monedas, bien pueden ser muestras de poblaciones indefinidamente numerosas y usualmente tiene mds valor considerarlas como muestras que como poblaciones. Una muestra debe ser tepresentativa de la poblacién si tiene como fin obtener inferencias validas. Para obtener una muestra representativa, ei principio de aleatoriedad se incorpora a las reglas para obtener la muestra. La aleatoriedad es el resultado de un prove- so mecdnico para asegurar que los sesgos individvales, conocidos o desconocides en su naturaleza, no influyan en la seleccién de las observaciones de la muestra, En consecuen- ia, se aplican las leyes de la probabilidad y se usan para extraer inferencias. Al efectuar una encuesta de opinién piblica, las conclusiones que se intenta aplicar a la poblaciéa adulta de los Estados Unidos, rara vez serian vilidas sila muestra fuera de tal modo no aleatoria que s6to incluyesen mujeres o solamente ciudadanos de Nueva Inglaterra. En este texto, la palabra muestra implicard muestra aleatoria, A medida que avancemos se daran ilustraciones del procedimiento de aleatorizacion. Ejercicio 2.4.1 Seria objetable consideras {as siguientes muestras como provenientes de poblaciones posiblemente infinitag. una muestra de fos pesos de 100 arenques de los Grandes Bancos? Una muestra de 200 familias de Madison, Wisconsin? Una muestra de las longitudes de fos cuer- pos de 20 orcas? Una muestrade 10 ccde sangre de una persona adulta? Explique sus respuestas, Ejercicios 2.4.2. {Serfan muestras aleatorias las siguientes: las truchas pescadas em un dia za un ago de tamafio moderado? Las ardillas capturadas en un dia en una trampa? Las respuestas es- ctitas a un pronunciamiento politico solicitadas en un anuncio de television? Una muestra autorizada de un bordnico de ta vegetacién de un campo? Explique sus respuestas. 2.5 Muestras aleatorias: Recoleccién de datos . Ha sido ampiiamente demostrado que no se puede tomar una muestra aleatoria sin emplear un proceso mecdnico. En el proceso usado para obtener una muestra aleatoria 0 para in- troducir la aleatoriedad en un experimento o encuesta, por lo general intervene una tabla de ntimeros aleatorios, como la tabla A.1. Esta tabla esta formada por los digitos 0, 1,2, 3,4, 5,6,7,8y 9 distribuidos en una tabla de 100 por 100, dando lugar a $0,000 digitos aleatorios. Estos niimeros se obtuvieron en wna maquina y no hay razén para pensar que algan numero apareciera con més frecuencia que otro, ni que alguna sucesin de nuimeros fuese mis frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013 doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves; 5,094 son pares y 4,906 son impares. Ilustremos el uso de la tabla tomando una muestra aleatoria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de acuerdo con la magnitud asigndndoles miimeros de orden, La organizacién por orden 0 es _ mecesatia para extraer muestras al azar: el orden de los nUmeros aleatorios pudo haberse asignado en forma arbitraria. Para obtener una muestra aleatoria de 10 pesos, tomense 20 digitos consecutivos de la tabla A.1 y registrense como 10 pares. Estos serin los nimeros de orden de los pesos ‘correspondientes, Se puede comenzar en cualquier parte de la tabla, pero una forma més satisfactoria es seflalar con el dedo en una de las paginas, leer los cuatro némeros opuestos mis cercanos a la punta del dedo y utilizar éstos para localizar el punto de partida, Asi:OBSERVACIONES 11 1. En Ia primera pagina de la tabla A.1 , el dedo encuentra el numero 1188 (irente a 10 y son los primeros cuatro digitos en la columna 20-24). . 2. Se vaa ls fila 11, coluaina 88, como punto de partida. 3. Se registran en pares los 20 digitos que se encuentran yendo hacia la derecha, y que son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una linea y se procede al reves para obtener los otros nimezos, 0 sea, 09, 15,30 y 59. 4. Se toman los nimeros de los elementos y se evan a la tabla 4.1 para obtener las correspondientes observaciones: 20, 30, 32, 51,39, 41,25, 29,35 y 42 librus, Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 frijoles marcados con 100 contenidos de grasa de leche, volviendo cada frijol a la bolsa y . mezelando bien los frijoles antes de cada extraccién. Por esta razén, se dice que el muestreo es con reemplazo. Notese que cada elemento puede sacarse cualquier niimero de veces ‘desde 0 hasta 10. El muestreo siempre se hace de la misma poblacidn y la probabilidad de sacar cada ntimero de orden es practicamente la misma. Cualquiera de los dos procedimientos da los mismos resultados que si las extracciones se hicieran de una poblacién infinitamente grande. Una muestra extraida de esta manera es una muestra completamente aleatoria. En trabajos experimentales y encuestas por muestras a menudo se tiene razones validas para restringit en algan grado la aleatoriedad, El uso de las restricciones se discutird en capitulos posteriores, Ejercicio 2.5.1 Supdngase que una poblacién tiene solamente $0 elementos. ,Como se podria usar la tabla de niimerosaleatorios para obtener una muestrade 10 observaciones con reemplazo? {Puede sugerirse otro plan? Ejercicio 2.5.2 Supdngase que una poblacién tiene 40 elementos. ;COmo se podria extraer una muestra de 5 observaciones? Recuérdese que cada elemento debe tener igual oportunidad de ser ‘escogido para la muestra. Ejercicio 2.5.3 Supdngase que una poblacion tiene 75 elementos. ,Cémo se sacaria una muestrade 10 observaciones? Ejercicio 2.5.4 Supéngase que una poblacién tiene 40 elementos y que se desea extraer una muestra de 5 observaciones sin reemplazo, ,Como se hat Kjercicio 2.5.5 Si se tiene un terreno plantado con maiz en suzcos y st desea tomar una muestra de plantas individuales, ,cémo se har(a ia seleccién? ;Se puede peasar en otro plan? Ejercicio 2.5.6 Si se desea muestrear la flora de una ciénaga mediante observacidn de areas de una yarda cuadrada, ;cémo se seleccionaria su muestra? Ejersicio 25.7 ;COmo se extracria, por ejemplo, una muestra completamente aleatoria de 100 tiimeros telefonicos de undirectorio tetefénico? ,Podria usarse un plan de dos etapas que impl- cara menor esfuerzo? Ejercicio 2.5.8 Al cxtraer una muestra dz 100 de una podlacién grande con igual aimero de, hombres que de mujeres, seria recomendable una muestra completamente aleatoria 9 tomar una de $0 hombres y 30 mujeres? (; Cudles son los objetives del muestre0?). Ejercicio 2.5.9 Al describir el proceso de extraccién de una muestra aleatoria utilizendo la tabla A.1, se dijo que la Zprobabilidad de extraer un elemento cualquiera es practicamente la misma”. jPor qué se usa la palabra “pricticamente™?12 BIOFSTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Transporte por automévil aS 85% Trangporte porous Figura 2.1, Automévil y bus. Pueblonuevo 17,000 habitantes 2.6 Presentacién, resumen y caracterizacion de la informacion Existen muchas formas de presentar datos, entre ellas el uso de tablas, diagramas y graficas. Para datos cualitativos, la enumeracién es una forma comuin de resumir y presentar los resultados. Si un pueblo pequefio realiza una encuesta sobre las formas de transporte, los resultados pueden resumirse y presentarse como porcentajes. Para visualizar la situa- cidn, es util el siguiente diagrama de sectores (Fig. 2.1). Representaciones tales como los diagramas de sectores y de barras presentan la in- formacidn respecto a la forma como se gasta el tiempo y el dinero, y adénde van los impuestos, Son concisos, informativos, fAciles de leer y comprender, y a menudo transmi ten la informacién en forma precisa. Ciertamente son més atractivas que las tablas de frecuencia para presentar el nimero de personas, de insectos, que poseen ciertas caracteristicas. Desafortunadamente, pueden no ser confiables. Por ejemplo, la fig. 2.1 puede estar basada en una muestra o en un censo con respecto a millas recorridas 0 a nuimero de viajes, Son evidentes las posibilidades de engaflarse. Los diagramas pueden ser nlimeros o porcentajes efectivos. La fig, 2.2 ilustra el uso de barras o rectas verticales. Si no se indica la escala, el lector ve frecuencias relativas y no ° Julio 8, 1954 40 Junio 17, 1954 20 +0 7 20 » 10 . ° Moscas domésticas Abejas Otros Rojas Rosades Blancas Numero de insectos atrapadios Numero observado de flores en botdn Figura 2.2 Presentacién de datos discretosOBSERVACIONES 13 86. 40 35 30 25 20) Frecuencia 15 10 ‘to ‘| 3 8 13 18 23 28 33 38 43 48 83 58 63 6B Rendimiento en gramos por planta Figura 2.3 Histograma y poligono de datos para los datos de la tabla 2.1 se dard cuenta del tamafio de la muestra a menos que se le especifique. Cuando se dan los totales, se puede disponer tanto de las frecuencias como de las frecuencias relativas y pueden presentarse mediante el uso de dos escalas. Las frecuencias relativas 0 proporciones son probabilidades esencialmente, como puede notarse considerando las barras 0 las coiummas como alturas o dreas. El histograma y el poligono de frecuencia de la fig. 2.3 son métodos usuales para presentar una cantidad considerable de informacién, recolectada como datos cuantitativos. El Aistograma cepresenta graficamente los datos con valores de clase, los puntos medios de los intervatos de clase, a lo largo del eje de las X y con rectingulos sobre los intervalos de clase para representar la frecuencia, El histograma presenta los datos en una forma facil de entender de tal-manera que de una ojeada se ve la naturaleza general de la distribuci6n. Si se desea comparar una distribucién observada con una distribucion teérica, se puede superponer la distribucién tedrica sobre el histograma y apreciar las discrepancias. El poligono de frecuencia se construye localizando el punto medio de cada interva- Jo de clase y marcando un punto a la altura de la frecuencia correspondiente al intervalo. Estos puntos se unen luego con lineas rectas. El poligono de frecuencias tiende a sugerir a Ja curva suave de la poblacién de donde se extrajo la muestra. El histograma y el poligono de frecuencia de los datos de la tabla 2.1 se presentanen la fig. 23. Tabla 2.1 Tabla de frecuencia de los rendimientos de 229 plantas de soya espaciadas de Richland Rendimiento en gr 3 8 13 18 23 28 33 38 43 48 53 58 63 68 Frecuencia 7 $ 7 8 2 41:37 25219 6 6 3 114 BIGESTADISTICA: PRINCIPIOS Y PROCUDIMIENTOS, Tabla 2.2 Némero de caras Valor de clase Erscuencia 5 4 4 1s 3 »@ 2 40 5 a 9 3 Total 100 Es importante, tanto en la elaboracién del histograma come del poligono de fie- cuencia, que el ntimero de clases sea suficientemente grande para que fa forma general d la distribucion se pueda apreciar facilmente, pero no tan pequefic que se den demasiados detalles, Finalmente, tos datos se presentan en ¢ablus de frecuencia, en las que generalmente hay mayor informacion para el lector mas serio, pero a costa de tener menos numero de lectores. Las tablas 2.1 y 2.2 son modelos para datos continuos y discretos. Las tablas de frecuencia se veran mas en detalle al comenzar la sec. 2.15. Los diagramas y graficas a menudo resumen y caracterizan los datos, pero esto tam- ‘bién puede hacerse mediante la presentacién de varios ntimeros que resuman y caracteri- cen los datos. En particular, nos referimos a un niimero que sitée el centro y otro que mida la dispersidn de las observaciones. Con frecuencia, se necesita alguna medida de posicin o de tendencia central, esto es, un mimero que localice un valor central u otdinario. Ademds, es preciso tener una medida del espaciamiento o de dispersion para saber cudn alejados se encuentran los valores més o menos extremos respecto del valor central. Ejercicio 2.6.1 En la “La Encuesta Nacional de Cava, Pesca y Vida Silvestre en 1975" reatizada par ef Servicio de Pesea y Vida Silvestre de los Estados Unidos, se encuestaron mas de 2.000 familias por teléfono y se enviaron cuestionarios por fo menos a 1,000 cazadores y pescadores en cada estado. Toda persona de 9 0 més aflos que ca26 o pesed al menos un dia en 1975 era acep- ‘table para purticipat en la enesesta postal. De esas petsonas de 9 aiios o mas, 98.9 millones pas- ticiparon en alguna actividad relacionada con la vida silvestre. Entre los datos reportados estu~ Vicron los siguientes (a menuda aproximados a partir de una grafica): 1, $3 millones participaron en pesca; 50 millones en observacién de fa vida tlvestre; 26 millo- nos en recoleccisn de calamares, cangrejos y otros; 21 millones en caza, 17 millones en tito reercacional; 1$ millones en fotografia de vida salvaje y 5 millones en disparo con arco. 2. Ex miles de millones de dias, los estadounidenses del grupo | gastaron el siguiente tiempo con les mismas categotias sespectivamente asi: 1.32, 1.54, 0.24, 049, 0.30, 019 y 0.22. 3. La participacién de Hombres y mujeres, en las mismas categorias, fue respectivamente: ~ $7 %y 43%, 48% y 52%, B2% y 18%, 58% y 42% ¥ BIG y 19%, 4. El promedia del ingreso en détares por familia del pescador con cafia era: menos de 5,000, 17%; entre 5,000-9,999, 17%; entre 10,000-14,999, 238; entre 15,000-24,999, 29% yOBSERVACIONES tS. 5, El mimero, en millones, de pescadotes #0 gas templadas por tipa de agua. fue: 18 en he gos y ombalses, 17 em Lagos y lagunas distintos de los Grandes Lagos, 14 enacts os y 10s, 9 en estanques de granjas, 3 en desempocudueas ¥ 2 en los Grandes Lagos, 6. EL niimero de dias, en miles, de participacioa en pesca en aguas templadus por tipo de agua tal como se espetitied en vl numeral § Tue: 279,287, 254,477, 161.427, 93372. 24.973 19.011. 7. El nimero, en millones, de pescadores en rjos por tipo de agua Tue: 2.6 en 2.5 en cortientes y rfos, 2.0 vn estuarios y 1.Len los Grandes Lagos 8, El ntimers en miles de dias de participacion en pesca en ries por tipo de agua especitieada engl numeral ? fue, cespectivamente: 19,478, 18,606, 16.039 ¥ 6.739. 9. De tos cazadores de unimates erandes, que se eazan en el estado, 38.1% cxzaron en propies dad privada, 15.9% en tierrus federaies, 12.5% en ottas zonas silvestres administzudas por cl estado, 2% et otras zonas de los estados, 8% en terms pliblicas no especiticadus y 3.5% en tierras de propietario desconocide, 10. De Ios cazadores de ¢aza mayor que cazan fuera del estado en los Ustados Unidos, las cate gorias del numecal 9 dieron los siguientes porcentajes, respectivamente: 37.1%, 38.6%, 16.6%. 1.7%, 3.8% y 2.2% - Presentar cada uno de estos 10 conjuntos de datos en forma tabular o grifica, Trate de variac la presentaciga, ss saladas, Fjercicio 2.6.2 Busear en una revista técnica o cientifiea nuevas ideas sobre presentacisn de std claco, sin hacer referencia al texto, si se trata de uni poblacidn o de una mucstea’ En fa presentacion entran frecuencias relativas? (Es completamente comprensible sin hacer referencia al texto? jercicio 2.6.3 Comparar un cjemplar del informe anual de una compaiia con el de una revista técnica, ;En cual encuentsa mis graticos celativamente? ;Més tablas? Siempre tienen los grate cos una escala en el eje vertical? Ejercicio 2.6.4 Flaborar una tabla de trecuencias, otra de frecuencias relativas y un diagrama de bareas para !os niimeros enteros en la tabla AL, vee see, 2.5 Ejercicio 2.6.5 Habotar una tabla de frecuencias, un poligono de trecuencias y un histograma con los datos de la tabla 4.1 2.7 Medidas de tendencia central Expresiones tales como “estatura media” son vagas pero informativas. Relacionan un individuo con un valor central. Cuando los experimentadores recolectan datos, gastando tiempo, energia y dinero, no pueden darse ei Jujo de presentar informacin vaga, necesitan una medida definida de tendencia central. La medida de tendencia central mas comin, que a fa vez es la mejor en muchos casos, es la media aritmética 0 promedio aritmérico. Como hay otros tipos de medias, debe quedar-claro de qué tipo de media se trata. La media aritmética se representard mediante los simbolos p (Ia letra griega mu) para la de una poblacion y Y (Kéase Y barra) para la de una muestra, Es importante hacer la anterior distincion, ya que la media de la poblaci6n es una cantidad fija, mientras que la media de la muestra es variable, puesto que diferentes muestras extraidas de la misma poblaci6n tienden a tener diferentes medias. En los escritos estadisticos es posible encontrar otros simbolos. La media se da en las mismas unidades que los datos originales, por ejemplo, centimettos o libras.16 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. Cantidades tales como la media se Naman pardmetros cuando caracterizan poblaciones. y estadigrafos, ene] caso de muestras. Considérese un dado. Sus seis caras tienen uno, dos, tres, cuatro, cinco y seis puntos. Todo el nimero posible de puntos que aparecen al lanzar el dado constituyen una pobla- ci6n finita. Por definicion, el parametro T+ 243444546 pe 6 = 34 puntos Si una muestea de esta poblacién tiene cuatro observaciones, digames 3, 5,2 y 2, por definieion, el estadigrafo 3454242 2 PEP TETAS 23 puntos 4 4 Estos cdtculos pueden simbolizarse mediante o NW+he Khe hs y 4 donde VY; es el valor de la primera observaci6n, esto es, 3; ¥ es el valor de la segunda ob- servacién, y asi sugesivamente, En la situaci6n general con n observaciones, ¥/ se usa para representar la observacion éésima y ¥ esté dada por . pg htht Yt tht +h a ¥ La notaci6n Y, puede abreviarse mas o : Q1) Esta es una frase con un sujeto ¥, un verbo =, y un objeto ) (Ia letra griega sigma, maytis- cuta). La frase se lee “Y barra es igual a la suma de las ¥ dividida por n”. Esta es nuestra definicién de la media de la muestra, La letra i, usada para indicar el individuo é¢simo, es, llamada indice de la sumatoria, y va desde i =1, escrito bajo el signo de sumatoria 5, hasta n, escrito en la parte superior. El intervalo de la sumatoria va de 1 hasta m. Cuando se vari a. sumar todos los valores, 1 y 1 se omiten por lo general. Se definen como desviaciones de la muestra las diferencias entre las observaciones y la media con sus respectivos signos, Y; - ¥. Para nuestro ejemplo, ¥) — ¥=3-3=0, %-¥=i¥,-f=~1=¥%-¥%. Una propiedad interesante de 1a media aritmética es que la'suma de las desviaciones es cero, 0 sea,OBSERVACIONES 17 Lh ¥)=0 . (22) Por ejemplo, 7 303 0 S30 42 203-1 203-1 Esta es una ilustracién, no una demostracién. Algunas veces es apropiado ponderar las observaciones que entran en una media. Por ejemplo, si se deben promediar diferentes medias que provienen de muestras con diferente ntimero de observaciones, entonces es conveniente usar ponderaciones que dependen de! ntimero de observaciones de cada promedio. Una media ponderada se define por 7, - ut . cn @3) Otra medida de tendencia central es la mediana, También puede usarse para comple- . mentar 12 media. La mediana es el valor en toro al cual quedan de cada lado ef 50% de las observaciones, cuando se disponen en orden de magnitud, Si el nimero de observaciones es par, 1a mediana es el promedio de dos valores centrales. Por ejemplo, para la muestra 3,6, 8 y 11, la mediana es (6 + 8)/2 =7. Los nimeros 3, 6, 8 y 30 tienen la misma mediana 7, Para datos distribuidos en forma mas o menos simétrica, la media y la mediana difieren muy levemente, Sin embargo, cuando se necesita encontrar el promedio del ingreso de un grupo en el que la mayorfa tiene ingresos bajos, el ingreso medio puede ser considerablemente mayor que la mediana, e inducir{a a confusion. Ciertos tipos de datos muestran una tendencia a concentrarse o formar una cola en los extremos derecho 0 izquierdo. Tales distribuciones se dice que son asimétricas en la direc- cién de la cola larga, y la media aritmética puede no servel valor central més informativo. Otra media de tendencia central es la moda, e] valor de més frecuente ocurrencia. Otras medidas de tendencia central son promedios de ciertos cuarriles, deciles y percentiles, puntos que dividen distribuciones de valores ordenados en rangos, en cuartos, en décimos y centésimos respectivamente. Por ejemplo, 10% de las observaciones son menores que el primer decil. La mediana es el segundo cuartil, quinto decil y percentil 50. Para mimeros positivos, ia media geométrica y la media arménica pueden ser titiles. Sus usos principales son, respectivamente, el cdlculo de valores lativos tales como némeros indices, y en el cdlculo de promedios de razones y tasas. Se obtienen mediante las siguientes ecuaciones: Media geométrica, = VM =H ea)18 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS y Media arménica, k ty (3) (2.5) Ejercicio 2.7.1 Un maestro le dijo a las nifias de su clase que estimaren su peso (ef del instruc- tor). Sus respuestas fueron: 190. 230, 105, 180, 130, 160 y 170 libras, Calcular la media de ta muestra, ,Cuil es la mediana de Ia muestra? Ejercicio 2.7.2 Los muchachos de la clase del ejercicio 2.7.1 estimaron que el peso del instruc- tor era: 180, 195, 175, 147, 175, 170, 193, 170 y 190 libras. Calcular la media de la muestsa, {Cudl es la mediana de la muestra? Ejercicio 2.7.3 (La media aritmética puede considerarse como una media ponderada con pesos iguales? ,Cudles son estos pesos? Ejercicio 2.7.4 Supdngase que tenemos las siguientes medias, 7, = 37, 7, =41y %, = 28, basadas en 50, 20y 10 observaciones respectivamente. Si hay que escoger una sola media, ,cuai seria su eleccién? ;Porqué? ;Cusles son los totales de las muestras originales? Como se usariun estos totales para hallar la media aritmética de las 90 observaciones? {Es ¢l mismo proceso usado para caicular la media ponderada con pesos iguales a los tamavios de las muestras? Ejercicio 2.7.5 Un método de muestrear peces en un Lago consiste en matarlos todos con rote- nona, recogerlos en baldes y entonces tomar una muestra al azar de los baldes, En un experimento de éstos, se tomé una muestra de Z baldes de un total de 20 y se midié la longitud de los peces en pulgadas. Los datos fueron: + Muestra A: $ peces de 5 pulgadas, 19 de 6, 19 de 7, 8 de By 3 de 9; n= 54 Muestra B: 10 peces de 5 pulgadas, 27 de 6, 1S de 7,6de8y 3de 9:7 =61 Para cada muestra, calcular la media, ;Cudl es la clase modal para cada muestra? ;Se cal- culd Ia media usando 54 (61) observaciones individuales, o como media ponderada? ,Cuantas valores diferentes de la variable se usan cuando se calcula 1a media ponderada? ;Se utilizan las, dos medias muestrales para calcular la media ponderada? {Por qué se tomaroa los pesos utiliza: dos? ;La media ponderada es la misma que la media aritmética de todas las 115 observaciones? Ejercicio 2.7.6 Para la muestra del ejercicio 2.2.2, calcular Py todas las ¥, — M's.gLay(¥ — ¥) es igual a ceo? Ejercicio 2,7,7 {Cual es la mediana de las observaciones de ja tabla 2.1? ;De la tabla 2.2? ;De Ja tabla 2.42 Bjercicio 2.7.8 Comentar Ja afirmacién: “50% de los estadounidenses tienen una intetigencia por debajo del promedio", Ejetcicio 2.7.9 Las medias geométricas son tiles al tratar de tasas y razones, Si invierto $100 y obtengo $120 al final det aio, y reinvierto y obtengo $144 al final del segundo afio, entonces he obtenido el 20% de mi inversién, Claramente la tasa de crecimiento es 1.2. La media geomé- + Datos cortesia de Don W. Hayne, Universidad del Estado de Carolina def Norte.OBSERVACIONES 19 ttica es apropiada yes /T3(12)= 12. jas tasas de crecimiento de la poblaciGn, para tasas estables de nacimiento y mortalidad, sin migracion, dan una situacién biolGgica en ia cual la media geométrica es la apropiada? ;,Son los valores constantes o variables? Catcular la media geometrica, Bercicio 2.7.10 La produccién de crudo en una compailia presentd un incremento anual de 1945 2 1955. En 1945 ta produccién fue de 3,210 barriles/dia y en 1955, 4,780 bartiles/dia, iCudl es la media geométriea? ;Para qué afio se consideraria esto como una estimacién de Ia produccién’? 2.8 Medidas de dispersion Una medida de tendencia central sélo proporciona un resumen parcial de la informacion de un conjunto de datos; es evidente la necesidad de una medida de variacién, Se dan a continuacién tres conjuntos de datos con una media aritmética comiin; nétese la diferencia en su variacion: 8, 8,9, 10, 11,12, 12- > 5, 6,8, 10, 12, 14,15 1, 2, 5, 10, 15, 18, 19°” La media, como otras medidas de tendencia central, no nos dice nada respecto a la varia- cién. El concepto de medida de dispersién no es facil, ;Cudnta informacién se tiene al decir que los tres conjuntos de datos tienen dispersiones de 4, 10 y 18,08ea, ¥7— Y,7 El segundo grupo de tres conjuntos 8,9, 10, 10, 10, 11, 12 5,7, 9, 10, 11, 13, 15 1,5, 8, 10, 12, 15, 19 tiene también las dispersiones 4, 10 y 18 y la media también es 10, pero fos primeros conjuntos presentan més dispersion en los extremos mientras que en el segundo grupo hay mayor concentracién hacia la media. Parece deseable tener una definicién que utilice todas las observaciones y de un valor pequefio cuando éstas se encuentran alrededor de la media y un valor grande cuando estén muy dispersas, Sean los niimeros: 5, 6, 8, 10, 12, 14, 15 De acuerdo con auestra definicién, estos ndmeros no son mds variables que los nimeros: 105, 106, 108, 110, 112, 114, 15 Asi, nuestra definicién no depende del tamaiio de los mimeros en el sentido de relacionar la medida de la dispersion con Ja media; dard el mismo valor para los dos conjuntos de datos.20 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS La medida numérica de dispersin resultante debe admitir interpretacién en términos de Jas observaciones, Asi, la unidad de medida debe ser la misma. Su funcién deberd servir como una unidad para decidir si una observacién es comtin y corriente o si es un valor no usual para una poblacién dada,’ La media o un valor hipotético deberdn ser el punto de partida para la medicién: Por ejemplo, si un hombre esta a muchas unidades de dispersion respec- to de la media de una poblacién su efigie se puede perpetuar en bronce o bien se le puede recluir, de lo contrario, se trata dei hombre de la calle; si un estudiante varon tiene 5 pies y 4 pulgadas de alto, es improbable que pueda pertenecer a una poblacién masculina de jugadores de baloncesto porque en estatura esta demasiado distanciado de la media de esa poblacién, Finalmente, la medida debe poseer propiedades matematicas, de las cuales no nos ocuparemos por el momento. La mejor medida de dispersion y la mas generalizada es la varianza o su raiz cuadrada, la desviacién esténdar, La varianza se representara con dos simbolos: 6? (la letca griega sigma) para la poblaciGn y s* para la muestra, Estas se leen asi: Sigma al cuadrado y s al cuadrado.-Las desviaciones esténdar de poblaciones y muestras se denotan ay s respectivamente. 0? y ¢ son parametros, constantes para una poblacién particular: s? y s son estadigrafos, valores que cambian de muestra a muestra en una misma poblacién, La varianza 0 cuadrado medio se mide en términos de desviaciones al cuadrado: Supongamos que tenemos una poblacién finita de W valores, cada uno con la misma probabilidad, 1/N, de ser extraido mediante un proceso aleatorio. Se intenta muestrear esta poblacién con reemplazo, tal como se expuso en la sec, 2.5. En este caso, la varianza poblacional se define como la suma de las desviaciones al cuadrado dividida por el numero total. La varianza se mide en las mismas unidades originales pero al cuadrado, por ejemplo, centimetros al cuadrado, Simbéticamente, la varianza se define mediante (2.6) (Cuando los valores de la muestra tienen diferente probabilidad de ser tomados, cada desviacién al cuadrado se pondera con su probabilidad y entonces no se requiere el divisor V, Esta idea de ponderar puede extenderse facilmente a poblaciones infinitas con una variable discreta), (El simboio s? y Ja definicién con el divisor Y — 1 se usa para la varianza muestrat cuando el muestreo es sin reemplazo). Para el ejemplo del dado con una poblacién = Hl - 3 +2 - ay + 6 - 3h + (4-3 + (5 - AP +.(6 — 3h] 35 2QBSERVACIONES 21 Notese que es posible lanzar un dado mds de seis veces. En este caso n 2s mayor que N, Para variables continuas, la varianza de la poblacién exige matemdticas mAs refina- das que las que se usan en este texto, La varianza de la muestra se define en forma similar pero el divisor es n — 1. eh PH) - Pet KF Xi - FP = 2.7) Notese (n= Is? = 3% - FP El numerador de s* se conoce como la sume de cuadrados y a menudo se denota SC, Para los ntimeros 3,6, 8 y 11 la suma de cuadrados es G-72 + (6-77 +(@-7 + (11-77 = (—4P + (-bF + (41)? + (447 = 34, y la varianza es 34/3 = 11.33. La rafz cuadrada de la varianza de la muestra se ‘lama desviaci6n estdndar, y se denota s. Desviacidn media cuadrdtica se usa menos, pero ¢s término descriptive de s, Para nuestro ejemplo, s = ,/34/3 = 3.4 unidades de las observaciones originales, Lacantidad sc=E(%- FP puede Ilamarse formula de definicion de la suma de cuadrados, pues nos dice que la suma de cuadrados es la suma de los cuadrados de las desviaciones respecto del promedio arit- mético, La formula de definicién de la suma de cuadradps se reduce a una formula de trabajo para los céleulos, es decir: 2 (4) 2_ Mt Diy reey yA 2a) 722 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS En el primer término los valores se elevan al cuadrado y luego se suman, en el segundo término se suman todos los valores y luego se eleva al cuadrado. En muchos computado- res, yoy Es puede obtenerse simultaneamente, La cantidad (2) a se llama término de correcién o factor de correccién 0 ajuste de ta media y se representa por C. El término “correcci6n de la media” indica que como Ia SC es una medida de varia- cin con respecto a ¥, el término de correccion debe restarse de Ly 7 el cual s¢ denomina a menudo sumas de cuadrados sin ajustar. Como correccién, tal cantidad no tiene nada que ver con equivocaciones. La forma n¥2, que aparece en la ec. (2.9), es menos conveniente para el céiculo ya que introduce la necesidad de redondear en una etapa anterior. 2 & ‘) nf? 9) a La validez de la ec. (2.8) puede demostrarse mediante un ejemplo numérico. Para nuestra muestra iustrativa OY KP 4 9F -4 16 -1 1 ‘ : sc=E(¥- =OBSERVACIONES 23 por la férmula de definicién, y por la formula prictica. Cuando es necesario redondear valores, tales como Ja media o los desvios, (¥;— FY se presentan pequeflas discrepancias. Es preferible usar la formula de trabajo dado que probablemente se vea menos afectada por los errores de sedondeo. La ec. (2.9) también puede comprobarse con un ejemplo. Una propiedad importante de la suma de cuadrados es la de que es un minimo, es decir, que si se remplaza ¥ por cualquier otro valor, la suma de los cuadrados de las nuevas desviaciones seré un valor mayor. No es factible demostrar esto para todos los valores posibles. La cantidad (n — 1) se conoce como grados de libertad, denotado por glo 1 Otra medida.de dispersién es la amplitud o sea ja diferencia entre el valor mds alto y el mas bajo. Ordinariamente, esta medida no es un estadigrafo satisfactorio para una eva- luaci6a orftica de los datos, ya que se ve afectada por valores extremos o no usuales. Sin embargo, para muestras de tamafio 2, es un miltiplo de 1a desviacion estdndar; y para muestras menores de 10 es a menudo satisfactoria. En ciertas condiciones, algunas técni- cas en las que interviene la amplitud son especialmente deseabies, Una medida de variacién de cardcter intuitivo, porque tiene en cuenta todas las observaciones, es la media de los valores absolutos, 0 como frecuentemente se denomina desviacion media, Se calcula ast (2.10) Las barras verticales nos dicen que tomemos todas las desviaciones como positivas. Para los valores 3, 6, 8 11 la desviacin media es 2.5. Otras medidas de dispersi6n utilizan percentiles. Asi la diferencia entre los puntos que se separan el 85,y el 15 por ciento de las observaciones ordenadas tiene su interés; no depende de los valores extremos como pasa con la amplitud. Ejercicio 2.8.1 Al considerar una moneda, podemos asignar el valor de 1 a Ja cara y 0 al sello. Para una moneda equilibrada, estos valores acurren con igual probabilidad cvando se Ja lanza, Asi, tenemos una poblacidn finita con V = 2 valores, Se lanza la moneda en forma repetida de xal manera que podemos tener una muestra tan grande como queremos, Este muestreo ¢3 con remplazo. ,Cual es la varianza de esta poblaci6n? Ejercicio 2.8.2 Cuando se lanza una moneda dos veces, los eventos son (C,C), (C,S), (S.C)Y (S,S). Ocurten con igual frecuencia, con una moneda de verdad: Supéngase que sumamos el niimero de caras para obtener 2, 1, 1 y Oy considérense estos valores como una poblacién. ,Cudl es la varianza de esta poblacion? Si decims que tenemos una variable aleatoria con los valores 2,1 y 0 pero con probabilidades 1/4, 1/2 y 1/4, respectivamente, ,con slo esta informacién se puede caleular la varianca poblacional?24 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Ejercicio 2.8.3 Con tos datos de! ejercicio 2.7.1, catcular s* y s Hallar la amplitud, Cuando se multiplica la amplitud por 0.370 (n = 7} ¢l resultado es un estimativo no sesgado de O, Hagase esto y comparese con s. Fjercicio 2.8.4 Para los datos de! ejercicio 2.7.2, calcule sy s. Encuentre la amplitud, Multi- plique !a amplitud por 0,337 (para n ~ 9) para obtener un cstimativo de 7. Compareto con 5. Bjercicio 2.8.5 Con los datos de la muestra A del gercicio 2.7.5 calcular s® ys. Repita esto para la muestra 8. Ejercicio 2.8.6 Témense dos niimeros cualesquiera, Considérelos como una muestra y calcule 5°. Tamese los mismos des niimezos, elévese al cuadrado su diferencia y dividase por dos. Los das valores que acaban de calculazse deberan ser idénticos; este resultado estd basado en una identidad algebraica, Leer ahora, cuanto se ha dicho en esta seccién respecto a la amplitud como una medida de dispersion cuando n= 2, Ejercicio 2.8.7 Obtenga un pequetio conjunto de datos en el campo que le sea mas familiar, ‘© use un conjunto de datos de uno de los cjercicios precedentes y encuentre ¥ y s7, Comprucbe las ecs. (2.8) y (2.9) con esos datos. Calcule la desviacion promedio mediante la ec. (2.10), 29 Desviacién estandar de las medias Se ha estado estudiando el muestreo de poblaciones y la caracterizaci6n de las muestras. El lector puede haber estado pensando en caracteristicas tales como estatura, peso, con plantas y animales que dan lugar a poblaciones de interés. También debe recordarse que las medias y las desviaciones estndar de las muestras estan sujetas en si mismas a variacién y forman poblaciones de medias de muestras y de desviaciones estandar de muestras. En el ejercicio 2.7.4, se pidi6 escoger la mejor media de tres con base en 50, 20 y 10 observaciones. Presumiblemente se escogié la media basada en n = 50, pero necesitamos algun criterio para hacer la eleccién. La variabifidad es una eleccién obvia. A propésito de abservaciones o intuicién, se espera que las medias de las muestras sean menos Variables que las simples observaciones. En otras palabras, las medias tienden a acumularse mas cerca de un valor central que las observaciones simples. Si tomamos dos series de medias, cada una basada en diferente niimero de observaciones, 10 y 20, por ejemplo, esperamos que la variacién entre medias de muestras pequeflas sea mayor que la variacién entre muestras grandes, Afortunadamente, existe una relacién conocida entre la vatianza entre individuos y.la vartanza entre medias de individuos. Esta relacién y 1a correspondiente para las desviaciones estindar son ot n os Qn) donde of es la varianza de la poblacién de las P*obtenidas mediante muestreo de una po- blacién original de individuos con varianza 0? . Para valores de muestras se usa la misma relacidn, o sea : 8 =i aa [eas (2.12) Ss hn ¥ iY Wa va "OBSERVACIONES 25 Estas relaciones se ilustran mediante muestreo en el capitulo 4; son vilidas para todas las poblaciones. . La necesidad del subindice ¥ es clara. El subindice Y también se usa a veces. wy es la media de la poblaci6n de individuos y sf es una varianza calculada a partir de una muestra de individuos, La utilided de estas relaciones es obvia, Dada o*, podemos calcular directamente la varianza de una poblacién de medias de muestras para cualquier tamafio de muestra. Asi mismo, de una sola muestra que da una sola ¥, podemos encontrar una varianza muestral que estime la varianza de la poblacion de las ¥- La desviacion estdndar de una media se suele llamar error estandar y, menos frecuentemente, error estdndar de una media, O sea que el término desviacion estindar se aplica a observaciones y error estandar se aplica a medias, a menos que se especifique otra cosa El error estandar es, pues, inversamente proporcional a la raiz cuadrada del mimero de observaciones en la media, Puede calcularse si se conoce s 0 s?; no se requiere mas de una ¥ Para las observaciones 3,6, 8y 11, sp = s/./n = 3.4/,/4 = 1,7 . Por comodidad en los caleulos, sp se calcula usualmente asi? ie (ALS aea17 Este es un estimativo deo”/n,la varianza de la poblacién formada por las medias de muestras tomadas de la poblacién de individuas. Si hubiéramos obtenido varias medias muestrales de cuatro observaciones y si las hubiésemos usado para calcular ta varianza de las medias, habriamos obtenido un estimativo de la misma cantidad. Nosotros tenemos una media simple, Ejercicio 2.9.1 Con los datos de los ejercicios 2.7.1 y 2.7.2, también utilizados en los ejercicios 2.8.3 y 2.8.4, calcular sy sy Bjercicio 2,9.2 Con las muestras A y B del ejercicio 2.7.5 y usadas nuevamente en el jercicio 2.85, caloular 3 ¥ Sy. [10 coctciente de variabilidad o de variacion Es una cantidad usada por los experimentadores para evaluar los resultados de diferentes experimentos en que interviene la misma caracteristica y posiblemente levados a cabo por diferentes personas. Se define por la desviacién esténdar de ta muestra, expresada como porcentaje de la media muestral segiin la siguiente ecuactén: cv = por ciento (2.13) Para saber si un determinado coeficiente de variacién es insélitamente grande o pequefio, es preciso tener experiencia con datos similares. EI CV es una medida relativa de variacion, en contraste con ta desviaci6n estdndar, la cual se expresa en las mismas unidades que las26 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS observaciones originales. Como es la razén de dos promedios, el CV es independiente de las unidades de medida usadas, por ejemplo, da igual que se usen libras o gramos para medir el peso. . Bjercicio 2.10.1. Para los datos dados por primera vez en los cjercicios 2.7.1 y 2.7.2 catcular el wv. Bjercicio 2.10.2 Para las observaciones dadas por primera vez en ef ejercicio 2,7 5, calcular ob cy. 2.11 Ejemplo Para desarrollar una nueva técnica en Ingenieria Sanitaria, Eliassen (2.2) recolecté y presen- 16 cantidades de sulfuro de hidrageno provenientes de aguas negras almacenadas durante 42 ‘horas a 37°C en 9 series, como se dan en la tabla 2.3, La técnica se desarrollé para elirainar el Tabla 2.3. Sulfuro de hidrégeno producido en la fermentacién anaerdbica de aguas negras al cabo de 42 horas a 37°C. Y= HS. fm serie ppm ¥ 4-7 1 210, —8 2 mt +3 3 28 o 4 228 +10 $ no +2 6 27 a 7 mn +5 8 24 +6 9 192 . Totales 1983 +35 34 < +1 (debide at redondeo) 1963 =F 728 ppm (luego del redondeo) , 3 gre lf: %) hb _ A147 = (96399 9 $= /T2436 = 11 ppm ok OS ee 9 sp = 1382 = 3.7 ppm . 11,1(190) = 124.36 Wve = 5% (aproximadamente) 218)OBSERVACIONES 27 sulfuro de hidrogeno de un medio de cultivo anaerébico, mediante un gas inerte y captan- do el sulfuro de hidrdgeno para su andlisis cuantitativo con una completa exclusion de aire. Estos datos constituyen una muestra de 9 de todas las posibles observaciones que se pueden obtener con esta técnica. El experimento fue realizado en el laboratorio, habiendo introducido varios controles para reducir el CV a este valor. Asi que la poblacién es bastante reducida. La variabilidad entre las observaciones es causada presumiblemente por cosas tales como las muestras de aguas negeas, las muestras del cultivo anaerébico usado, la técnica del operador y por otros muchos factores conocidos y desconocidas. Es claro que no podemos esperar obtener 4 y o* para esta poblacion abstracta, pero podemos estimarlos, Esto se hace mediante el caleulo de ¥ y s; estos y otrostvaiores se dan en Ja tabla 2.3. Una ¥ es una muestra de una observacién tomada de la poblacion de todas las posibles medias de muestras del mismo tamafio, 0 sea, nueve. La poblacién derivads tiene una media y(= yy) y o}(= quiere decir “mayor o igual 2”). 2. La suma de probabilidades de los ensayos en un conjunto mutuamente excluyente es 1. Simbélicamente, fica “menor o igual”; > significa “ma- DPE) =1 (3.2) Un naipe de poker tiene 26 cartas rojas y 26 negras, con 13 picas, 13 tréboles, todas negras y 13 corazones y 13 diamantes, todas rojas; P(pica) = P(tébol) = P(coraz6n) = P(diamante) = 1/4. E] extraer un diamante en una sola prueba exciuye la exiraccidn de una pica, un trébol y un corazén, Estos eventos son mutuamente excluyentes y P(pica) +P(trébol) +P(corazén) +P(diamante) = 1. Hasta e] momento no se ha presentado nada nuevo al lector, excepto posiblemente el simbolismo, o notacién, o definiciones nuevas, Aun las probabitidades de las cartas y !as de los dos lanzamientos de Ja moneda debieron haber sido obvias, Pero en su célculo, se ha utilizado una definicién clasica que es: Si un ensayo aleatorio se puede presentar de formas mutuamente excluyentes € igualmente posibles y si m ensayos tienen cierta propiedad A, entonces la probabilidad de A es la fraccién m/n, 0 nimero de éxitos P= 3) niimero total de ensayos (= éxitos + fracasos) Las probabilidades de ensayos asociados con variables discretas entran en muchos problemas de muestras, por ejemplo, encuestas de opinién, estudios de caracteres genéti- cos y problemas donde se observan recuentos. Ellas no son aplicables sin modificacién, a problemas con variables continuas, tales como el peso. 33 Ladistribucion binomial Muchos ensayos presentan s6lo dos resultados posibles, por ejemplo, una planta posee 0 mmo, cierta caracteristica, una persona vota o no, al lanzar una moneda, puede caer por cara © sello, A tales pruebas se les llama pruebas binomiales 0 de Bernoulli y los espacios muestrales apropiados consistirén en dos puntos, El experimento aleatorio que genera observaciones en las mismas circunstancias esencialmente, es facil de describir.PROBABILIDAD 41 Los puntos muestrales se presentan convenientemente, a menudo por £, lo que indica que cierto evento ha corrido y mediante no E, £ o E, para el complemento. La va- rable aleatoria usual asignard 1a £ y 0 ano, fEn pruebas binomiales repetidas, un resultado puede no tener efecto sobre otro, como en el lanzamiento de una moneda; se dice que tales pruebas son independientes. Ademés, la probabilidad de ocurrencia de £ puede permanecer constante de una prueba & otra, Cuando estas dos propiedades se cumpien y el ntimero de pruebas es fijo, tenemos fundamentatmente una distribucién binomial, El resultado total de un experimento semejante es una sucesi6n ordenada de F y E ode 1y 0. Lavariable aleatoria usual asigna un valor igual al wimero de £ 0, Jo que es Jo mismo, ala suma de 1 y 0. Cuando se asocia una probabilidad con cada uno de log valores de la variable, entonces se tienc una funcién de probabilidad binomial 0 distribucién binomial, A menudo es posible presentar una formula matemitica, la cual, en un solo enunciado, da la probavilidad relacionada con todas y cada uno de los eventos aleatorios. Asi, para una moneda normal, si es Y = 0 para sello y ¥ = 1 para cara, la ecuacién seri PYY=¥)=12 ¥%=0,1 (G4) (léase: la probabilidad de que la variable aleatoria ¥ tome el valor particular ¥, es un. medio para ¥, = Oy para ¥; = 1), constituye una distribucién de probabilidad. Al tirar un dado equilibrado, la distribucién de probabilidad seria PY =¥)=V6 Y=1,2...,6 @5) La tabla A.I es una muestra muy grande de una poblacién con distribucién de probabilidad P(Y=¥}=1/l0 = 0,1,2.. (36) Si pensamos sélo en nimeros impares y pares, podemos relacionar la tabla A.1 con la ec. (3.4). Las ecs. (3.5) y (3.6), n0 son, naturalmente, binomiales sino multinomiales. Consideremos el problema de obtener una ecuacién que dé en un solo enunciado todas las probabilidades necesarias de una distribucin binomial. Supéngase que un experimento aleatorio consiste en n pruebas independientes, Sea P(E) = P(1)= p, entonces P(E) = P(0)= 1 — p, la ec. (3.2). Un resultado del experimento se representard como una sucesién ordenada de 1 y 0. Asi, 5 lanzamientos de una moneda pueden resultar en (0,0, 1, 1,0), esto es, dos cruces seguidas por dos caras y al final cruz, La probabilidad de este resultado puede encontrarse, debido a fa independencia de las pruebas, multiplicando las probabilidades que entran en cada etapa. Por lo tanto, la probabilidad de que el ensayo descrito ocurra es(1 — p)(1 ~ p)pp(1 — p) = p*(1 — p)°. Naturalmente, el ensayo ha ocurrido, asi que esta probabilidad se aplica antes de realizar el experimento. La probabilidad asociada con cada punto muestral se obtiene de manera parecida. Naturalménte, cuando p = 0.5, tal como ocurre al lanzar una moneda normal, todos los puntos tienen la misma probabilidad, o sea (0.5)* = 0.03125, aproximadamente42 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. 3 posibilidades en 100. Nétese que se ha exigido que las caras ocurran en el tercer y cuar- to lanzamientos. La variable aleatoria que asocia un valor real Unico con cada punto muestral afiadird Jas entradas en la secuencia y asi asocia el 2 y el nimero de 1s con el punto muestral de Ja ilustracién. Este no es el unico punto muestral que tiene el valor muestral 2; los dos 1s pueden ocurrir en alguna de las dos posiciones (1,2), (1,3), (1,4), (1,5), (2.3), (2.4), (2, 5), 3, 4), (3, 5 y (4, 5), 10-en total. Aqui tenemos especificadas y contadas todas las posibilidades; pero la ec. (3.7) nos permite calcular este valor en forma directa. () =a ¥i (3.7) nse lee n factorial; que se define asf: n! = n(n ~ 1)(n - 2)X ...X 2X 1, Por tanto, para ¥ = 2,0 sea, dos unos en m= 5 pruebas, es S)_5+4-3-2-1 () 1 a7 Naturalmente, cero es un posible valor de ¥; si definimos 0! = 1, no tenemos problemas en la ec, (3.7). Con una férmula para contar los puntos muestrales con el mismo valor de ¥ y otra que asigne una probabilidad a cada punto muestral, podemos escribir la distribucién de probabilidad binomial asi P(Y = ¥ilm) = (i) — pl” (38) La ecuacién (3.8) se lee: “la probabilidad de que una variable aleatoria Y tome el valor particular ¥; en un experimento aleatorio con m pruebas es igual a ...”, Recuerdese que 0 peal. Para ja ilustracién de la moneda, tenemos P(Y = 2{5)= GGPGY = 0.3125 Ahora resulta que el ensayo dos caras al lanzar uta moneda 5 veces no es tan insélito pues, ocurre tres veces de 10, en promedio. La tabla 3.1 nos da Ia distribucién binomial para n = 5 y varios valores de p. Notese que la columna de Ia izquierda se lee con valores de p a lo largo de ia linea superior, mientras que la columna de la derecha se lee con valores de p alo largo de la linea inferior. En cada columna, las probabilidades suman 1. Para p = 0.5, la distribucién es simetrica; a medida que p se aleja de ese valor, la distribucién se hace més asimétrica,PROBABILIDAD 43 Tabla 3.1 La distribucién binomial, n Y Probabilidad = p=5S pod pals pel © Gp%L—-)> 9325 07776-23780 59049 1 G@yp'{l—p)* 15625 259203951 32805 2 GU pP 3125034560 26367 07290 3 Ge’ = py 3125023080 0878900810 4 (pt(t— 2) 1562507680 01465-00055 5 p—pP 03125 cr he ee peS p=& paIS pad ¥ La media y la varianza de una variable -aleatoria con distribucién binomial son Media : Hamp G9) Varianza: a? = np -p)- (3.10) Notese que la varianza se determina con base en p, asi que slo se necesita un pardmetro para caracterizar la distribucién binomial; n es un pardmetzo observable, de modo que es de una categoria diferente. La ecuacién para la media da valores razonables; si p = 1/2, esperamos que aproximadamente la mitad de los lanzamientos den caras; si p = 0.1 para algin otro resultado, entonces esperamos que aproximadamente un décimo de las pruebas dé este resultado. Para la distribucién binomial de la tabla 3.1 con m = 5 y p = 0,5, tenemos que w=25, o=125, y om 112; para p= 4, w=2 oF =12, y c= 110;para p= 25, p= 125, c= 94, y o = 97; para p= 1, w= Sic? = AS, yo = 67. Nétese que la varianza de la variable aleatoria cambia lentamente a medida que p comienza a ale- Jarse de 0.5, pero luego cambia répidamente a medida que se acerca aoa J. Las tablas de la A.14A a la A.17G se basan en [a distribucién binomial y su aplica- cin; en los caps. 21 a 23 se tratan problemas donde una distribucién binomial es, en muchos casos, un supuesto fundamental. La distribucién binomial tambign se usa como una aproximacién de otras distribuciones de variables discretas. Por ejemplo, el muestreo se hace a menudo de poblaciones finitas, Si se representa el tamafio de la poblacién por N, entances tenemos una probabilidad de 1/N de extraer un individuo dado en la primera prueba. La probabilidad de extraer ese individuo dada Ja segunda prueba es dependiente de to que ocurrié en Ja primera, ya que estamos muestreando sin remplazo, serd 0 si el individuo ya ha sido extraido, pero seré 1/(V — 1) si no fo ha sido. Las probabilidades no son constantes de una prueba a otra. Sin embargo, si el tamajio de Ja muestra no es muy grande en telacién con ef tamaiio de la poblaci6n, la distribucién binomial bien puede ser una aproximacion muy satisfactoria para calcular las-probabilidades necesarias. Hay aun otras distribuciones de variables discretas para las cuales la distribucién binomial suele ser una aproximacién razonable.44 BIOLSTADISTICA; PRINCIPIOS ¥ PROCEDIMIENTOS Kjercicio 3.3.1 Un dado cquilibrado se lanza dos veces. {Cudntos puntos tiene el espacio mucs- tral? ;Cuiles son las probabilidades asociadas con cada punto musstral? Representar el espacio ruuestral y obtener a partir del mismo Ia distribucién de probabilidad de la suma de los nime- fos en Los dos lanzamientos. Use la detiniciéa de y ode! capitulo 2 para calcular la media y la varianza de esa summa Ejercicio 3.3.2 Repetic el ejercicio 3.3.1 utitizando la media en lugar de 1a suma, ;Se hubiera podiclo aplicar la sec. 2.9 para reducir esfuerzos? Lxptique su respuesta, Ejercicio 3.3.3 Una prueba tiene 10 preguntas de eleccién maitiple, cada una de tas cuales tiene cuatro opciones, Lin estudiante se propore adivinar en el examen y se pregunta cust seri la probabilidad de éxito en la prueba, {Cut seria la prueba basica de Bernoulli? ;Qué probabilidades se han de asociar con el espacio muestral para una prueba simple? ,Cudntas pruebas deben ha- corse? ;Cual ¢F Ia distribucién del admero de preguntas contestadas correctamente? ,Cual ev la probabilidad de responder correctamente cinco 0 mas preguntas? Ejercicio 3.3.4 Con trecuencia los investigadores calculan intervalos pata incluir medias de 90 blaciones, Como usan datos muestzales, no pucden tener certeza de qué los intervalos contengan, las medias. Sin embargo, sus téenicas son tales, que pueden decir con qué probabilidad una apli- mn particular tendr4 éxito en producit un intervalo que contenga Ia media, La probabiliciad se tija a menudo en 0.95. SupSayase que un investigador lleva a cabo 20 investigaciones independientes. cada una de las cuales results en un solo intervalo, ; Cudl es la probabilidad de que no mds de dos intervalos incluy an la media de la pobiacién que buscaba” 34 Funciones de probabilidad para variables continuas No todas las probabilidades tienen que ver con Variables aleatorias discretas. Para vatia- bles continuas, las tablas de frecuencia y los histogramas pueden dar probabilidades ap:o- ximadas, Una probabilidad encontrada en esta forma (calculando una frecuencia relativa para cada intervalo, por ejemplo) seria una aproximacién de la probabilidad verdadera de una variable aleateria que toma un valor en un intervalo, Hay que buscar un enfoque diferente para describir una funcién de probabilidad. Considérese 1a ruleta de la fig. 3.2. El punto de parada se define como el punto que queda frente a la flecha fija. ,Cudntos puntos de parada hay alli? La rueda se podria dividir en 10 sectores y se define el punto de parada como el niimero més cercano a la flecha. Pero cada sector se podria dividir en mas de 10 subsectores para obtener 100 puntos de parada, y asi sucesivamente. Es claro que no hay un nimero finito de punto de parada, y, como resultado, auestra definicién clisica de probabilidad, ec. (3.3), no opera porque no tenemos un némero para et denominador. Para una variable continua con un ntimero indefinidamente grande de ensayos, no se puede asignar una probabilidad para cada valor, Para la ruleta dividida en 10 sectores con los numeros 0, I, 2, ..., 9 marcados en Iineas de division sucesivas, no podemos hablar de probabilidades asociadas con puntos sino de probabilidades asociadas con sectores 0 intervalos. El puntero debe, naturalmente, parar en uno de los infinitos puntos. Para probabilidades asociadas con tales intervalos, utilizamos una expresién apropiada en Y 0 una funcién de ¥, que se escribe f(Y) y s¢ llama funcidn de densidad de probabilidad, E) simbolo /(Y) es un término genérico, tal como “manzana”; ademas se requiere de algo adicio-PROBABILIDAD 45 wy AYY= 110,05 ¥<10 1 +9, de otra manera lo y. L ——o Fo 1 45 6 7 8 9 10 PY) AY S YQ = 110,05 610 PIZS ¥<3)= 1/10; PLY S2) = 2/10; LY > 7) = 3/10 Figura 3,2. Una rueda de la fortuna y su correspondiente distribucion de probabilidad. nal para informarnos plenamente, Para {¥), necesitamos una ecuacién, por ejemplo, ec. (3.11); para manzana necesitas‘amos un nombre, MacIntosh, por ejemplo. Una funcién de densidad de probabilidad se interpreta facilmente en forma grafica. Refiriéndonos a las fig. 3.2, vemos que F(Y=1N0 Os Y<10 (3.11) es una funcién que describe una densidad de probabilidad. Esta es la distribucion wnifor- me, Aqui, todo valor de Y entre 0 y 10 es posible. Las areas bajo esta curva (el término46 BIOESTADISTICA: PRINCITIOS Y PROCEDIMIFNTOS. puede incluir lineas rectas) estén asaciadas con probabilidades. Por ejemplo, el area total es (1/10)10, © 1; el drea sombreada entre 2 y 3 es 1/10; no existe drea bajo la curva para valores menores que 0 o mayores a 1. (Los néimeros 0 y 10 son Lo mismo para este ejemplo). La funcion de distribucién acumulada P(Y) o su grifica se usan para encontrar probabitidades, Por ejemplo, para hallat la probabilidad de que el puntero se detenga entre los valores 2 y 3, esto es, P(2 < ¥ < 3), léase de Y= 3 hacia arriba hasta encontrar la recta inclinada, luego hasta contar con el eje de P(Y) para obtener el valor tres décimody Repetir para ¥ © 2 para obtener 2/10. Ahora restar la probabilidad de obtener un valor menor que 2 de (a probabilidad de cbtener un valor menor que 3 para obtener asi la probabilidad de encontrar un valor entre 2 y 3, 0 sea, PQ 1.17), Procedimiento Encontrar 1,1 en la columna de Z y 0.07 en la filade Z, 1.17 = 1.1 40.07. La probabilidad se encuentra en la interseccién de fila y columna, asi P(Z > 1.17) = 0.1210, O sea que aproximadamente 12 por ciento de las veces, en promedio, es de esperar extraer un valor de Z mayor que 1.17 (Ver la fig, 3.5¢). Caso La Encontrar fa probabilidad de que un valor aleatorio de Z sea menor que un valor positivo Z,, esto es, P(Z < Z,), Encontremos P(Z < 1.17) Procedimiento Dado que el dtea bajo la curva es 1, P(Z < 1.17) = | — 1210 = 8790 (Ver fig. 3.5 a). Caso Ib Encontrar la probabilidad de que un valor aleatorio de Z sea menor que un valor negativo Z,, esto es, P(Z < Z,) donde Z, < 0. Encontramos P(Z < - 1.17) Procedimiento La curva normai es simétrica. Como estamos viendo una distribucidn normal con media cero, P(Z < -L.17) = P(Z = LAT) = 1210 Ver fig. 3.5d paraZ = —1.05 y + 1.05. Caso 2 Encontrar la probabilidad de que un valor aleatorio de Z caiga en un intervalo (Z;,Z3), ala derecha del origen, esto es, P(Z, < Z< Zz) dondeZ, 20 y Z,>0. Busquemos P(.42 < Z < 1.61), Procedimiento Encontrar P(Z 2 42) y P(Z = 1.61). Ahora P(42 < Z < 1.61) = P(Z = 42) — P(Z 2 1.61) = 3372 — 0537 = 2835 (Ver fig. 3.56). Caso 2a Encontrar la probabilidad de que un valor aleatorio de Z caiga en un intervalo a la izquierda del origen, esto es, P(Z; SZ 0. Encuentre P(~ 161 1.05). Procedimiento Debido a la simetria, P(|Z| > 1.08) = 2P(Z > 1.05) = 2(.1469) = 2938 (Wer fig, 35d). Este método es mas corto que el usado en el caso 25. Caso 3a Para encontrar la probabilidad de que un valor aleatorio de Z sea numéricamente inferior a Z,, es decir, que caiga dentro del intervalo (—Z,. Z,), es necesario que P(|Z| 1.05) = 1 ~ 2(.1469) = .7062 (Ver fig. 3.54). También se puede usar el procedimiento del caso 2b. En estadistica, a menudo es necesario encontrar valores de un estadigrafo tales como valores aleatorios que lo sobrepasen en una proporcin dada de casos, esto es, con una probabilidad dada,"Esto equivale a la construccin de una tabla propia con los valores deseados de P, digamos en los margenes, y valores de la variable en el cuerpo de Ia tabla.52 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Por ejemplo, al operar con la distribucién normal(o cualquier distribucién simétrica), el 50 por ciento de los valores aleatorios de Z seran mayares qué la media. Caso 4 Para ilustrar, encontremos el valor de Z que sea excedido con una probabilidad dada (es decir, un valor aleatorio debe caerala derecha del valor requerido con una probabilidad dada); por ejemplo, encontremos Z tal que P(Z > Z,) = 25. Procedimiento Buscar en el cuerpo de tabla la probabilidad 0.2500. Esta en la linea Z = 0.6, aproximadamente en {a mitad entre as columnas 0,07 y 0,08. El valor de Z esta entre 0,67 y 0.68. Asi P(Z > .67) =0.25 (aproximadamente). También se requiere a menudo un valor de Z que sta excedido numéricamente 0 9, por una probabilidad dada, Caso 5 Encontrarel vatorde Z, digamos Z,.talque P(|Z| 2 Z,) seaigual aun valor dado [esto es, que ef valor aleatorio caiga fuera del intervalo(~Z,, Z,)]. Encontremos Z, tal que P(JZ{ = Z,) = 05. Procedimiento Dado que la curva es simétrica, hallese Z, tal que P(Z = Z,)=0.05/2= 0.025. El mismo procedimiento que para el caso 4 dado | 3 + 0.06 = 1.96. Por Jo tanto, P({Z| = 196) = 0.05. Caso Sa Encontrar el valor de Z, digamos Z,, tal queP(—Z, < Z < Z,)sea igual aun valor dado {esto es, que el valor aleatorio caiga dentro del intervalo( -Z,, Z,)]. Encontre- mos Z, tal que P(-Z, $< Z S$ Z,) = 99. Procedimiento Dado que el érea bajo 12 curva es 1, nos referimos al caso 5 y observamos que P(-Z, Z,). Asi, 1-P(-Z, Z,) =1~99=01 Como en el caso 5, encuentre Zy, tal queP(Z > Z,) = 005; Z, cae entre 2.57 y 2.58. (Para tres digitos decimales Z, = 2.576.) Por lo tanto, P(—2576 < Z 52.576) = 99 Ejercicio 3.6.1 Dada una distribuciéa normal con media coro y varianza uno, encontrar P(Z > 1.70); P(Z = 96); P[Z< 144); P(Z < 144); P(-101 $2 $33), P(-1S ZS 1h P(JZ} <1}: P(]Z| = 1.65); P45 < Z < 2.08), Ejetcicio 3.6.2 Encontrar Zo tal que P(Z = Zo) = 3333; P(Z < Zo) = 6050; P(I.0O < Z 13.15). La distribucién es la misma de la seccién anterior, salvo que se ha desplazado de modo quep = 12en vez de 0. Por tanto P(Y > 13.15) = P(Y ~ p> 13.15 — 12) = P(Z > 115) = 1251 En general, deseamos encontrar P(Y; = ¥ < ¥;). Por ejemplo, P(11.20 < Y < 13.44) — P(¥ esta fuera del intervalo) [P(Y s 11.20) + P(Y > 13.44)j =1-[P(Z < —.80) + P(Z > 1.44)] = 1-[P(Z > 80) + P(Z > 1.44)] = 1 (2119 + 0749) = .7132 (Ver fig. 3.6). El método, como se ve, consiste en pasar de una variable ¥ con media diferente de 0 a una variable Z con media cero restando p. Para el caso més general, 0 sea, cuando x #0 y o? # I (el simbolo 4 quiere decir “diferente de”), se usa Ja tabla A calculando (3.12) una desviaciOn con respecto a la media expresada en unidades de desviacién estndar (ver fig. 3.7). Asi, transformamos una variable normal en otra con media cero y varianza uno, yaquec es la nucva unidad de medida, Fjemplo Si se hace el muestreo de una distribucién normal conp = 5 y ¢? = 40g = 2, encontrar la probabilidad de un valor muestral mayor que 7.78. Buscar en la tabla A.454 BIORSTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. ays 12 ¥ 1120 ZeYuuye¥~12 080 mao 124 13.44) Figura 3.6 Probabilidades para una distribucién normal con = 12, 07 = 1 Entonces PLY » 1.78) = (=e 1B 4) 2 = P(Z > 139) = 0823 En este caso, es la unidad de medida. La variable Z es una desviacion respecto de la media, o sea, ¥ ~ y, medida en unidades de desviaciones estandar, o sea,(Y — y/o. La anterior expresién probabilistica da la probabilidad de que un valor aleatorio de Z sea mayor que 1.395 ode que un valor aleatorio de Y esté masala derecha de « que 1.39¢. La variable Z se llama variable normal estandarizada. Si no se sabe que una distribucién es normal, entonces esa variable es una sariable estandarizada, Elenunciado {ars a < +1} =~ 241587) = 6826 quiere decir que la probabilidad de encontrar un vator aleatorio de{¥ — entre — 1 y + 1 es aproximadamente dos tercios; 0 que aproximadamente dos tercios de todos los valores de (Y — j:)/ase encuentran entre - Ly + 1. Figura 3.7. Relacidn entre ¥ y 2 para célculo de probabilidades de fa distribucién normal,PROBABILIDAD 55 Bjercicio 3.7.1 Dada una distribucién normal de ¥ con medis 3 y vatianzd 16, encontrar P(Y = 10), P(Y <0}; PO < ¥ < 15); P(Y = 5); PUY = 1S) Ejercicio 3.7.2 Dada una distribucién normal de Y con media 20 y varianza 2S, encontrar ¥y tal que PCY Yo) = 025: PUY < Yo) = OF: PLY S Yq) = 9S: PLY 2 Ya) = 99. 3.8 Distribucién de medias Cuando se muestrea una poblucién, es costumbre resumir los resultados mediante el caleulo de ¥ y otros estadigrafos. Un muestreo continuado genera una poblacién de ¥ con su propia media y varianza; Y es una muestra de una observacidn de esa nueva poblacion. La poblacién de la cual se hizo el muestreo se suele llamar poblacién principal o distribucion Principal; una poblacién de medias muestrales, como otras poblaciones estadisticas, se Lama distribucién derivada, ya que se cbtiene por muestreo de una poblacién principal Ya se ha dicho que la media y Ia varianza de una poblacién de medias de 1 observaciones son la media y 1 /-fsimo de la varianza de la poblaci6n principal, es decir, zy = pyo}=o7/n. La ausencia de subindice indica un parémetro de la poblacién principal. Considérese un tipo de problema que se presenta en experimentos de muestreo de poblaciones normales; a saber: jcudl es la probabilidad de que la media de una muestra sea mayor que un valor dado? Ejemplo Dada una muestra aleatoria con nt = 16 observaciones, extraiéa de una poblacién normal cong = 10y a? = 4, hallar P(Y > 11). La media muestral es una muestra de tamafio tomada de una poblavién normal con =4l6=1/4 oy = V/A = 12 Hallar en la tabla A.4 P- py -l-10 = oF 12 2 Z= Ahora P(Z = 2) = 0.0228, o sea, P(Y > 11) =0.0228, porque | corresponde a dos desviaciones estandar a la derecha de la media de la poblacién de las 7. También P(|Z| > 2) = (0.0228) = 0.0456. Por tanto P(-~2<5Z<52)=PQOs ¥ f,) = 66: PUP > fy) = 05. 39 Disteibucién 27 Ahora se expondrd la distribucién x7 (letra griega, Ji, Iéase ji cuadrada) debido a su relacidn con s* y la muy importante distribucién r de Student, que serd el tema de la seecion siguiente. La ji cuadrada se define como la suma de los cuadrados de variables independientes, normalmente distribuidas con medias 0 y varianzas 1. La sec. 3.6 se ocupa exclu- sivamente de una variable normal con media Q y varianza 1, mientras la sec. 3.7 indica c6mo transformar una variable normal en otra de media 0 y varianza I. Por lo tanto tenemos . ~ at Kam (6.13) La ecuacién (3.13) es mas general de lo que necesitamos actualmente, pues estamos viendo el muestreo de una sola poblacién con constante. Al muestrear una distribucién normal, la cantidad SC = (m — 1)s? consiste en ta suma de los cuadrados de (nm — 1) desviaciones independientes, tal como se dijo en la sec. 2.8. Se puede demostrar que tales desviaciones tienen medias cero; la division por la o comin asegura que tengan varianzas unitarias, Ast 2-25 6.44 €s.un caso particular de la ec. (3.13) y eS la ecuacién que nos interesa ahora La distribucién y? depende del mimeso de desviaciones independientes, es decir, de los grados de libertad. Para cada numero de grados de libertad hay una distribucién y?. Algunas curvas de ji cuadrada se presentan en la fig. 3.8. Obviamente x? no puede ser negativa, ya que és una suma de nimeros al cuadrado "Se ve que mientras los maximos se desfasan hacia la izquierda de los gradosde libertad, las curvas tienden a ser més simétricas, al aumentar los grados de libertad. La media y la varianza de una distribucién x? son los grados de libertad y dos veces los grados de libertad respectivamente, Se acostumbra tabular solamente unos cuantos valores de cada una de muchas curvas. Ast, tenemos la tabla A.S. Las probabilidades se dan en laparte superior de la tabla, Jos grados de libertad en la columna de la izquierda y los valores de ? en el cuerpo de la tabla para las combinaciones dadas de P y gl.PROBABILIDAD 57 Figura 3.8 Distribucién de z? para 2, 4 y 6 grados de libertad. Ejemplo Encontrar el valor aleatorio de x? con 15 grados de libertad que sea excedido con una probabilidad de 0,25, esto es, encontrar xj tal que P(g? > xi) = 25 Utilice la tabla A.5 para los 15 grados de libertad y lea bajo fa columna encabezada 0.250. AMY x? = 18.2 y P(x? = 18.2)= 0.25. Ejemplo Encontrar la probabilidad de que se exceda un valor observado x” = 13.1 con 10 grados de libertad. Hallar 10 grados de libertad en la tabla AS y buscar ef nimero 13.1. El valor cae entre 12.5 y 16.0, valores de 4? que son excedidos con probabilidades entre 0.25 y 0.10. Asi pues P(@? & 13.1) > .10. Estos ejemplos ilustran los problemas que més a menudo se presentan, En ellos solo entra el uso de la cola derecha de la distribucién, a diferencia de Ja distribucin de Z donde pueden interesar tanto ambas colas como una sola. La distribucién de x? con un grado de libertad se relaciona directamente con Ia dis- tribucién normal. Considérese 2 con un grado de libertad para P = 0.10. En nuestra forma abreviada, P(x” 2 2.71) =0.10, segtin la tabla AS. Como por definicién este x7 es el cuadrado de una simple desviacin normal con media cero y varianza uno,,/y" debe ser una desviacién normal con media cero y varianza uno. Asf si vamos a la tabla A.4 con Z = /2.71 = 1.645, hallar‘amos la probabilidad de obtener que un mayor valor absoluto sea (1/2\0.10) = 0.05. A partir de la tabla A4,P(Z > 1.64) = 0.0505 y P(Z > 1.65) = 0.0495. Asi, toda la tabla normal A.4 esta condensada en una linea de la tabla A.S, la correspondiente a un grado de libertad. Notese que los valores de Z de ambas colas de la distribucién normal yan a la cola superior de x? con un grado de libertad debido que al dlevar el cuadrado desaparece el signa menos, mientras que valores de Z cercanos a cero, sean positives o negativos, van aun x con un grado de libertad en la cola cercana a cero.$8 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Generalmente los valores cercanos a cero no son de especial interés, asi que la tabla de x? se usa ordinariamente con més énfasis en valores grandes, Ejercicio 3.9.1 Encontrar un x3 tal que: P(g? 2 x3) =0.05 para 10 erados de libertad ; P(x? > x3) = 0.01 para 12 grados de libertad; P(g? = x3) = 0.50 para 25 grados de libertad: Plz? < 72) = 0.025 para 18 grados de libertad Ejercicio 3.9.2 Encontear P tal que: P(z? 2 17.01) para 6 grados de libertad: P(y? 2 6.5) para 10 grados de libertad; P(x* 2 20} para 4 erados de libertad. Pty? < 3.8) 3.10 Distribucién ¢ de Student William Sealy Gosset, 1876-1937, cervecero © estadistico seguin se mire, escribié muchcs estudios estadisticos bajo el seudénimo de Student. Reconocié que el uso de s en vez de a en el caleulo de los valores Z para su empleo en las tablas normales no era de confiar en el caso de muestras pequeilas, y que se necesitaria otra tabla, Se interes6 por una variable muy relacionada con la variable ¢ = (¥ — 44)/sp expresién en que entran dos estadigrafos, Y y sy, envezde Z = (¥ — u)/ay .con uno. Ahora, el estadigrafo Fou a -7at G15) para muestcas de distribuciones normales, se conoce universalmente como f de Student, Como la x’, £ tiene una distribucién diferente para cada valor de los grados de libertad. De nuevo, nos contentamos con una tabla abreviada, la tabla A.3, con valores de ¢ en vez de probabilidades, en el cuerpo de fa tabla. En la parte superior fa tabla A.3 da las probabilidades para mayores valores de ¢ sin tener en cuenta el signo, Estas son las que a menudo se llama probabilidades de dos colas. Por ejemplo, para una muestra aleatoria de tamafio 16, en la linea de los gl = 16 ~ 1 = 15 y ta columns encabezada por 0.05, encontramos que P(Irl 2 2.131) = 0.05. La tabla A.3 da probabilidades de encontrar valores mayores de 1; estas se pueden lamar probabilidades de una cola. Asi, para una muestra aleatoria de tamafio 16, en a linea para 15 gl y a columna con 0.025 en la parte inferior, * encontramos que A{¢2 2.131) =0.025 = P(r S ~2.131) La curva de f es simétrica, como se puede deducir por los anteriores ejemplos. Es un poco més aplanada que la distribucién de Z = (¥ ~ y)/oy situdndose un poco por debajo de Z en el centro y por encima de ella en las colas. A medida que crecen los grados de libertad, la distribucién de ¢ se aproxima a la normal, Esto puede verse luego de un examen de las entradas de la tabla A3, ya que la ultima fila, gl = oes Ja de una distribucién normal, y los valores en toda columna se acercan evidentemente al valor correspondiente de esta distribucion. Una propiedad importante de ¢ para muestras de poblaciones normales es que sus componentes, esencialmente Y y s, no muestran indicios de una variacién conjunta, O sea que si se recolectan muchas muestras del mismo tamafio, se calculan Y y s y se representan grificamente los pares de valores resuitantes con ¥ y s en los ejes, los puntos se dispersanPROBABILIDAD 59. de tal forma que no dan muestras de relacion alguna, tal que grandes medias estén asociadas con desviaciones estandar grandes. Para una distribucién distinta de la normal, se presenta cierto tipo de celacién entre los valores muestrales de ¥ y s en un muestreo repetido. Ejercicio 3.10.1 Encontrar f» tal que P(t 2 fq) ~ 0.025 para 8 grados de libertad; P(t < tq) = 0.01 para 15 gradosde libertad; P(|¢| > to) = 0.0% para 15 grados de libertad; 0.10 para 12 grados de libertad; P(—t) < ¢ < t) = 0.80 para 22 grados de libertad, Ejercicio 3.10.2 Encontrar P(t > 2.6) para 8 grados de libertad; Pir < 1.7) para 15 grados de libertad: P(r < 1.1) para 18 grados de libertad; P(-L.1 <¢ << 2.1)paraS gradas de libertad: P(|t| = 1.8) para 6 grados de libertad, - 3.11 Estimaci6n e inferencia Lo visto hasta el momento ha tenido que ver con muestreo de poblaciones conocidas. En general, se desconocen parimetros de poblacién aunque se pueden plantear hipétesis respecto a sus valores, La estadistica se acupa en gran medida con la toma de inferencias de parametros poblacionales, inferencias que son inciertas debido a que se basan en compro- baciones obtenidas de las muestras. Considérese ei problema de la estimacién de pardmetros, Por ejemplo, se puede desear conocer la produccién media de una variedad de trigo en su madurez, o el tiempo promedio para recuperarse de un resfriado, Es bien claro que ¥ es un estimativo de py que s? es un estimativo de o”, especialmente si aceptamos fa idea, propuesta en la sec. 2.12, del modelo aditivo lineal, Naturalmente, éstos no son los Gnicos estimativos de esos, pardmetros. ;Hasta dénde son estos estadigrafos buenos estimativos en esos pardmetros? A menos que se conozcan los parémetros, no se puede saber la bondad de estimacion que alcanza un pardmetro con un estadigrafo muestral; hay que conformarse con saber lo bueno que es ese estimative en promedio, esto es, saber lo bien que se comporta en un, muestreo repetido, o saber cuantos valores muestrales se puede esperar que caigan dentro de un intervalo dado en torno a un prametro, Par ejemplo, considérense 3 estadigrafos 0 formulas estimativas de 2, (La mediana, la media, y et punto medio de la amplitud, son tres estimadores aunque no necesariamente los del ejemplo). Dendtense esos estimadores, con fly, fiz y jty donde a (llémelo “sombrero”) indica un estimativo y no el propio parametro. Estas formulas se conocen como estimadores o también estadigrafos, Todos los posibles valores de jis, jtzy iy pueden generar distribuciones tales como las de la fig. 3.9, donde jt, da valores bastante coherentes, o sea, que tienen una varianza relativamente pequefia, pero no estén centrados en y; j1 da valores consistentes centrados en 1; ji; da valores centrados en , pero més bien muy dispersos. El problema ahora consiste en selec- cionar la “mejor” formula, pero primero debemos definir el concepto “mejor”. En vez de definir “mejor”, considérense varias propiedades deseables y tratése de tener el mayor niimero de ellas asociadas con la eleccién de un estimador. Por ejemplo, insesgamiento exige que la media de todas ias posibles estimaciones que da un estimador, es decir, la media de la poblacién de estimativos, sea el parémetro que se estima, La media de una poblacion de Fes es sf el parimetro que se estima para la poblacién principal, de modo que ¥.es.un éstimadsr no 2 sesgado dey. La media de una poblacién es s?, 0 sea, p42, es 07, asi que 5? es un an samad TO sesgado de o?. Sin embargo, si el divisor de la suma60 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS 2) » a ta i a fol # By Figura 3,9 llustracion de Ia seleccién de un estimador. de cuadrados ha sido n en vez de n — 1, entonces la estimaci6n es sesgada, F] sesgo no es un problema grave si se conoce su magnitud. Este seria el caso sin fuese el divisor en la es- timaciGn de o?. El sesgo es serio cuando se desconoce, ya que no se puede hacer ningin tipo de correccién para ef mismo. Otra propiedad deseable, es la de tener una varianza pequefia. Lo ideal varianza minima, En la fig. 3.9, jt3 presenta una varianza muy grande, mientras que jy ¥ tz tienen varianzas comparativamente pequefias y se prefieren con esa base. Se dice, entonces, que los estimadores fi, y A, son mas eficientes que fy. La sencillez del cilculo constituye otra propiedad deseable. Toda estimacién que se encuentra mediante adicién y substraccién de miltiplos de abservaciones se llama funcién lineal de ellas. La media es una funcién lineal que requiere de un n-ésimo de cada observa- cin: la varianza y la desviacién estandar no son funciones lineales. Es claro que las funciones lineales son ficiles de calcular. Si para un parimetro podemos encontrar estimadores lineales insesgados y si entre todos esos estimadores hay uno con varianza minima, entonces se dice que es el mejorPROBABILIDAD 61 estimador lineal insesgado, o el me.Li. tales estimadores. A pesar de que Y y s* son estimaciones de u y 07, seria sorprendente que fueran realmente jy 4? en ver de encontrarse en ta vecindad de éstos. Esto sugiere que puede ser més apropiado dar un intervalo en torno a ¥ 0 as? y decir que estamos razonablemente confiades en que y y a, se encuentran en ese intervalo. Esto puede hacerse con la ayuda de la distribucién t de la sec. 3.10. Para # y 0? dados, es posible definir un intervalo sobte el eje ¥ y dar la probabilidad de obtener un valor aleatorio de Y en el intervalo; deseamos invertir el proceso y para Y y s? dados definir un intervalo y establecer la probabilidad de que us se encuentre en ese intervalo. Como f1 podrd estar o no en el intervalo, esto es, = 0 6 L, la probabilidad efec. tivamente ser una medida de la confianza puesta en el procedimiento que llevé a la afir- macidn anterior. Es como lanzar un anillo a un poste fijo; no cae en la misma posicién ni tampoco cae en el poste todas las veces, Sin embargo, podemos decir que es posible ensar- tarlo en el poste 9 veces de un total de 10, 0 el valor que sea la medida de la confianza en, nuestra habilidad. Para invertir el proceso, comenzamos con un enunciado probabilistico como el siguiente Ya hemos visto que no siempre insistimos en tener Pou | tors S St os) 35 (3.16) con raspecto ala variable aleatoria «= (¥ — p)/sy. Dice que la probabilidad P de que la variable aleatoria t= (Y — p)/sy se encuentre en —to25 y +Epas es 0.95. Primero ndtese que ¢ es tal cual la ec. (3.12) pero remplazando la desviacidn esténdar poblacional por su estimativo a partir de la muestra, Esto deja inicamente en la variable aleatoria, el pardmetro desconocido, o sea yz. Segundo, el subindice de £ se refiere a la probabilidad de que un valor aleatorio de t caiga a la derecha del valor tabulado £ 925; asi la probabilidad de que caiga a la derecha de f 95 0 la probabilidad de que caiga ala izquierda de tors °80.025. Algebraicamente nos permite escribir la ec. (3.16) asf PUP ~ toassp <#
os oF te a oe zr 86 si~ 9 SI i ot 18 a5 6 sz 9 6 Ro z wu oom f noi ze u 99 a 9 6 AKA pepmne 4" =! pepun ey 4-4 =o peprun spouaragig sepeaivd pp oroumy — selouazagiq sepeord oporaunN — setouarogiq] seprared = @p oleunN sauorsearasag, sauoyoeAI3eqQ souopeAresag T' 11g) vy unBas sesopeaTe souOLOPAFOSGo a1IUD SeIOUDTAJIP 9p sersoMU SOIL Sy MTEL78 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Tabla 4.9 Distribucién de frecuencia de 250 medias de diferencias D, para muestras de 10 diferencias. Mareade 12 105 9 15 -6 -45 -1 -15 0 1530 4s 6 759 BS ROT frecuencias 41 0} 8 6 OM HM ww Fe 2 ot Tabla 4.10 Distribucion de frecuencias de las varianzas 53 de 250 muestras aleatorias de 10 diferencias segin Ja tabla 4.4 Marea de 6 100 140 180 220 260 300 340 380 420 460 $00 540 S80 620 660 700 740 Frecuencias § 14.24 37 40 34-19 16 12 15 13 7 1 4 23°01 Ba 2727 Ta = 2908 207 = 288 Tabla 4,11 Distribucion de frecuencias de las desviaciones estandar 8p de 250 miuestras aleatorias de 10 diferencias segim fa tabla 4.1. 789 10 M1 12 13 18 15 16 17 18 19 2 2 2 2 2% 25 26 2 Frecuencias 1 $4 7 8 17 24 28 29 26 19 13 19 10 16 1 4 4 3 5p = 16041 fT? = 16761 /5h= 165110 Za? = 1697 Ib En consecuencia, La varianza muestral side diferencias de observaciones pareadas es una estimacién no sesgada de 2c. Notese que 20 observaciones han proporcionado 10 diferencias y que como consecuencia de hacer las diferencias quedan solo 9 grados de libertad relacionados con Ia esti- macién de s}. En la practica, cuando la varianza de la diferencia entre dos medias se necesita a menudo, no se hace el pareamiento aleatorio y las diferencias no se usan para calcular D ys}. Mediante un reordenamiento de ia parte aritmética, es claro que D = ¥, — ¥). A partir de una s”, se estima la varianza 20? por 2s? = s}. Los promedios de tas desviaciones estindar de las diferencias son 55 = 16.04 y \/si = \/2727 = 16.51 Ib. De nuevo el promedio directo de tas desviaciones estandar esmenor que laraiz cuadrada del promedio de las varianzas, pero ambos son razonablemente cercanos 8 oy = (207 = /288 = 16.97 Ib, las desviaciones estindar presentan un leve sesgo; las varian2as son sesgadas. Se ha dicho que of = a?/n y que of, = 2a?, Ambos teoremas dicen que Ia varianza de una diferencia entre dos medias denotada pora}es igual a 2¢?/n cuando cada media

Steel Robert G - Bioestadistica Principios Y Procedimientos 2ed PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Steel Robert G - Bioestadistica Principios Y Procedimientos 2ed PDF

Uploaded by

Copyright:

Available Formats

You might also like