You are on page 1of 105

INDICE Pgs. 1. La investigacin cientfica 2. Niveles de medicin 3. Errores de la informacin estadstica 4. Tablas estadsticas 5. Grficos 6. Indicadores de salud 7.

Medidas de resumen 8. La distribucin normal 9. Probabilidad 10. Distribucin binomial 11. Inferencia 12. Estimacin de la tasa del universo basada en la tasa muestral (p) 13. La prueba de significacin estadstica de diferencias entre tasas. El mtodo general seguido en la prueba 14. Prueba X2 (Ji cuadrado) 15. Introduccin a la tcnica de muestreo 16. Regresin lineal 17. Correlacin 18. Tablas Normal Distribucin de student Distribucin X2

LA INVESTIGACION CIENTIFICA
A) Necesidad del conocimiento Cientfico El hombre aspira a captar el orden que existe en el mundo de los fenmenos para hacerlos inteligibles, dar una explicacin racional de ellos y hacerlos manejables o previsibles una vez que conoce sus causas. En el campo biolgico, los hechos se nos ofrecen a menudo complejos y variables, influidos por causas mltiples y unidos por relaciones diversas, algunas de las cuales son esenciales y permanentes, en tanto que otras son fortuitas circunstanciales. Supongamos por ejemplo que entre los antecedentes de un enfermo de difteria est el hecho de haber tenido contacto con otro caso de difteria, y que la enfermedad se inici un martes 13. Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir qu elementos son constantes en ellos y determinar las leyes que los rigen, es decir, sus relaciones constantes y universales. Es el mtodo propio a la ciencia, el METODO CIENTIFICO, el que nos permite. en el ejemplo anterior, negar influencia al da que la supersticin supone malfico y afirmar en cambio, que uno de los factores que pueden determinar una difteria clnica es la exposicin al contagio. B) El Mtodo Cientfico Mtodo Cientfico es un procedimiento que se aplica al ciclo completo de una investigacin, desde el enunciado del problema hasta la evaluacin de los resultados obtenidos. En forma esquemtica, y con las limitaciones que esto supone, podemos distinguir diversas etapas en el mtodo cientfico. 1. Eleccin y Enunciado del problema La eleccin de un problema con el fin de averiguar sus causas o de encontrarle soluciones, depender de los juicios de valor del investigador y de las condiciones sociales, polticas y econmicas en las cuales se desarrolla la ciencia. Una vez elegido es necesario definir con precisin el problema que se va a investigar para tener un marco de referencia en todas las etapas posteriores. El enunciado puede hacerse a travs de la descripcin de la situacin problema o mediante el planteamiento de una pregunta. Un problema de inters podra ser por ejemplo el de la colelitiasis (clculos biliares) enfermedad que es frecuente en Chile, consume gran cantidad de recursos mdicos y expone a los que de ella sufren, a graves riesgos para su salud. E1 problema a estudiar podra ser; se desconocen los factores causales de la colelitiasis o, si se desea plantear como pregunta; Cules son los factores causales de la colelitiasis? 2. Formulacin de una Hiptesis La hiptesis es una explicacin posible de la situacin Problema o una respuesta posible a la pregunta planteada. Se formula en trminos afirmativos respecto a relaciones entre variables pertinentes. Frente al problema que sirvi de ejemplo, una hiptesis podra ser; un factor causal de la colelitiasis es el alto contenido en sales minerales del agua de bebida. Esta afirmacin ser sometida a prueba. En general, la hiptesis se basa en el conocimiento cientfico existente, en la experiencia previa del investigador o en la observacin de hechos relacionados con el problema. Excepcionalmente un investigador formular hiptesis que no se basan en el conocimiento existente sino que son el resultado de una originalidad genial que puede hacer cambiar el curso de la ciencia. 3. Deduccin de consecuencias verificables de la Hiptesis Siendo la hiptesis una explicacin o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma lgica, consecuencias particulares de la hiptesis. De la hiptesis ms arriba enunciada puede deducirse por ejemplo que, regiones con agua dura tendrn mayor morbilidad por colelitiasis que regiones con agua blanda. 4. Verificacin de la Hiptesis La verificacin puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones tericas basadas en relaciones aceptadas en el estado actual del conocimiento.

En el campo biolgico la verificacin se hace, a travs de recoleccin de informacin o de observacin de los fenmenos. Esto implica la aplicacin de una serie de procedimientos estadsticos. En el ejemplo de la colelitiasis la verificacin podra consistir en el anlisis del agua y la recoleccin de datos sobre frecuencia de colelitiasis en diferentes regiones, estableciendo relaciones entre ambas variables. 5. Interpretacin de los resultados Con los datos obtenidos en la etapa anterior se decide si se ha de rechazar o no la hiptesis en estudio. Si las consecuencias particulares de la hiptesis fueron deducidas lgicamente y los hechos no estn de acuerdo con lo esperado, en principio debemos rechazar la hiptesis. Si por ejemplo la frecuencia de colelitiasis es semejante en regiones con agua dura y agua blanda, deberemos rechazar la hiptesis de la cual se dedujo la consecuencia estudiada. Debe tenerse cuidado, sin embargo, de considerar en este caso, que la dureza del agua podra no ser el nico factor causal, siendo posible la existencia de otros factores que encubrieran el verdadero efecto de las sales minerales del agua. Si por ejemplo, los que viven en sitios de agua dura, consumen menos grasa que los otros y si el consumo de grasas fuera otro factor causal, un efecto real del agua podra quedar contrarrestado por el efecto de la dieta que est actuando en sentido contrario. Si los hechos se muestran de acuerdo con la hiptesis y sus consecuencias, no rechazaremos la hiptesis. Esta actitud tambin est expuesta a error. Si la verdadera causa de la colelitiasis radicara en l consumo de grasa y en las regiones con agua dura se consumiera ms grasa, una mayor frecuencia de colelitiasis en esas regiones se interpretar errneamente como consecuencia del contenido mineral del agua por ser esa la variable considerada de acuerdo a la hiptesis. Tanto el rechazo como l no rechazo de la hiptesis llevan a la reiniciacin del ciclo de investigacin descrito ms arriba. Si la hiptesis ha sido rechazada, el problema persiste y habr que seguir investigando sta o nuevas hiptesis. Si la hiptesis no se rechaz habr que seguir 'aportando mayores evidencias a su veracidad. La verdad absoluta, seguir siendo la meta final y desconocida del mtodo cientfico. Los logros se reducirn a construir un cuerpo de conocimientos con estructura lgica y soportes racionales que resista la verificacin emprica. "La ciencia es una escuela d modestia, de valor intelectual y de tolerancia: muestra que el pensamiento es un proceso, que no hay un gran hombre que no se haya equivocado, que no hay dogma que no se haya desmoronado ante el embate de los nuevas hechos". (Ernesto Sbato en: Uno y el Universo).

C) El Mtodo Estadstico Es un conjunto de procedimientos aplicados en secuencia lgica a la obtencin y anlisis de datos influidos por mltiples factores. El mtodo estadstico proporciona las tcnicas para llevar a la prctica aquellas etapas del mtodo cientfico que requieren recoleccin y anlisis de informacin. Se divide en una etapa de planificacin y una etapa de ejecucin. l. Planificacin Mientras mejor planeada est una investigacin, ms se facilitar su realizacin. Es conveniente considerar los siguientes aspectos en la planificacin o diseo de una investigacin. 1.1 Definicin de Objetivos Debe ser el primer paso de toda investigacin. Consiste en sealar detalladamente lo que se pretende investigar, el qu, cmo, dnde, cundo, y por qu. Los objetivos podrn modificarse en las etapas siguientes si se ve que por alguna circunstancia no ser factible cumplirlos. Idealmente, toda modificacin debera hacerse en la etapa de planificacin para que la ejecucin se realice con objetivos definitivos. Formalmente pueden corresponder a la descripcin del problema que da origen a la investigacin o a las preguntas que la investigacin pretende contestar En los casos en que existe hiptesis, correspondern a las consecuencias que se han derivado de ella. 1.2 Definicin del Universo E1 universo o poblacin del cual se extraer la informacin y a h cual se referirn los resultados debe quedar claramente definido.

As por ejemplo si se desea describir el problema de las drogas en la juventud chilena ser importante definir qu se entender por juventud chilena y si no posible abarcar a toda la juventud, delimitar a que parte de ella se refiere el estudio. 1.3 Diseo de la Muestra Con frecuencia es imposible, innecesario o poco prctico el estudio de el universo. En estos casos se estudiar una muestra que, si se disea de acuerdo a ciertos principios probabilsticos, permitir la generalizacin al universo de origen de los resultados en ella obtenidos. 1.4 Definicin del Grupo Control La investigacin de hiptesis hace necesaria la comparacin entre grupos con y sin la variable en estudio, o bien entre unidades de observacin con diversos valores de esta variable. En el primer caso se llamar grupo de estudio al que posee la variable y grupo control o testigo, al que no la posee. El grupo de estudio puede ser por ejemplo el que recibe un trata miento cuyo efecto se desea averiguar y grupo control el que no lo recibe. Para que la comparacin sea vlida, ambos grupos debieran diferir slo en la variable bajo estudio. Un modo eficaz de lograrlo es la adjudicacin aleatoria del tratamiento a las unidades de observacin, posible slo en Los experimentos. 1.5 Definicin de las Unidades de Observacin Tiene importancia tener claro en qu elementos se estudiarn las variables. En una misma investigacin cada objetivo puede requerir el estudio de distintas unidades. As por ejemplo en una investigacin sobre morbilidad podra haber aspectos que se refieran a la familia, otros a la vivienda y otros a cada persona de la familia. 1.6 Determinacin de la Informacin Necesaria Con el fin de simplificar las etapas de recoleccin y anlisis debe hacerse una cuidadosa seleccin de la informacin a recoger. Esta debe ser la mnima suficiente para cumplir los objetivos, debe ser accesible y medible con un error mnimo. 1.7 Determinacin de la Fuente de Origen de la Informacin Podr abstenerse de registros permanentes como lo son por ejemplo las fichas clnicas de un hospital, el Registro Civil, etc. Son datos fcilmente obtenibles pero tienen el defecto de no haber sido recogidos, la mayora de las veces, para los objetivos de la investigacin. Entre las formas ms frecuentes de obtener informacin para determinado estudio estn la entrevista para las encuestas, y la observacin y medicin para los estudios clnicos y de laboratorio. 1.8 Fijacin de Unidades de Medida y Escalas de Clasificacin Esta fijacin determinar la manera de registrar y tabular la informacin. Si por ejemplo en una investigacin la edad de los individuos slo requiere ser conocida en su distribucin en grandes grupos no habr necesidad de registrar la edad exacta sino que el grupo al que pertenece la persona. Debe tenerse presente que una decisin de este tipo hace que la informacin detallada se pierda definitivamente en esta investigacin. 1.9 Elaboracin del Plan de Tabulacin y Anlisis Muchas veces se revisar la informacin que se estim necesaria al comienzo, agregando o suprimiendo datos; en el momento de clarificar la forma en que se presentar y analizar esta informacin. 1.10 Organizacin de la Investigacin Comprende todos los aspectos prcticos. Habr que determinar la cronologa, estimando la duracin aproximada de diversas etapas de la ejecucin. La eleccin del personal que debe intervenir y su adiestramiento ser otro punto importante. Debern fijarse los procedimientos de anlisis: manual, computacin con equipos convencionales o electrnicos. Por fin deber estimarse el costo de la investigacin por conceptos de remuneraciones, obtencin de muestra, materiales, uso de equipo, etc. 2. EJECUCIN Consiste en llevar a la Prctica lo que se planific. Pueden mencionarse algunas sub-etapas:

2.1 Recoleccin de la Informacin Deber hacerse siguiendo criterios e instrucciones uniformes, sobre todo cuando hay varios investigadores. 2.2 Elaboracin de la Informacin La informacin se revisar respecto a su integridad y a la existencia de errores. Luego se clasificarn las unidades de observacin de acuerdo a las escalas elaboradas previamente y se har el recuento de unidades en cada categora. La presentacin tabular y grfica facilitar la descripcin y anlisis. E1 resumen de los datos mediante medidas adecuadas permitir la descripcin y comparacin de los grupos en estudio. 2.3 Anlisis de los resultados Cuando un estudio es slo descriptivo, esta etapa consiste en la presentacin de los hechos encontrados. Cuando existe una hiptesis, se evala el cumplimiento de los supuestos tericos a la luz de la inferencia estadstica. Los resultados obtenidos nos llevarn a rechazar o no, la hiptesis en estudio, con probabilidad de error conocidas y aceptadas, siempre que el diseo de la investigacin permita este anlisis.

D). Tipos de Investigaciones Un mismo problema puede estudiarse de distintas maneras. E1 tipo de investigacin que se realice depender entre otras cosas de: los objetivos de La investigacin, la existencia de hiptesis, la fuente de origen de los datos el orden en que se recoge la informacin y el manejo de las variables. A continuacin se muestran algunas clasificaciones de investigaciones con frecuencia en medicina. 1. Retrospectiva y Prospectiva Con respecto a la relacin entre tiempo de ocurrencia .y registro de la informacin se define a la investigacin retrospectiva como aqulla que averigua hechos ocurridos en el pasado, la investigacin prospectiva, en cambio va registrando la informacin a medida que se va produciendo. Con respecto a la relacin entre causa y efecto, en la investigacin retrospectiva, las unidades de observacin se clasifican segn la variable efecto y luego se averigua la existencia o intensidad de la variable presumiblemente causal en las diferentes clases. En la investigacin prospectiva la primera clasificacin se hace segn la variable que se supone causal y luego se va registrando la ocurrencia o no, del efecto. Ejemplo: Frente a la hiptesis de que el consumo de cigarrillos favorece la aparicin de cncer pulmonar la investigacin retrospectiva clasificara a los individuos en cancerosos y sanos y averiguara si existe diferencia en el hbito de fumar entre los dos grupos. En una investigacin prospectiva se observara si en un grupo de fumadores aparecen ms enfermos o muertos de cncer pulmonar que en un grupo de no fumadores.

2. Transversal y Longitudinal La investigacin transversal estudia las diversas variables en determinado momento, la longitudinal estudia las variables a travs del tiempo. Pueden compararse a una fotografa instantnea y a una pelcula de los hechos respectivamente. Ejemplo: Para determinar el crecimiento ponderal de nios normales es posible hacer un estudio transversal en que se pesan nios normales de diferentes edades. El promedio de peso de los nios de sucesivas edades da respuesta al problema. El estudio longitudinal del problema implica controlar desarrollo, ponderal de un grupo de nios a partir de su nacimiento en intervalos de tiempo determinados. 3.Descriptiva y Explicativa La investigacin descriptiva tiene como objetivo mostrar una situacin, la explicativa, pretende averiguar la veracidad de una hiptesis. Los resultados obtenidos en una investigacin descriptiva pueden dar origen a una hiptesis y cumplir as con la primera etapa del mtodo cientfico. Ejemplo: El estudio del crecimiento ponderal del nio sano es una investigacin descriptiva, en cambio, averiguar la relacin entre cncer de Y el hbito de fumar es una investigacin explicativa.

4. Experimental y no Experimental La investigacin experimental tiene como caracterstica que el investigador maneja la variable independiente. Las unidades experimentales son adjudicadas en forma aleatoria a las diferentes categoras del factor presumiblemente causal, estudindose los efectos que se producen. En las investigaciones no experimentales slo se puede clasificar el material de estudio en diferentes categoras de los factores causa y efecto, estudiando la relacin entre ambos. Las conclusiones de estudios experimentales bien diseados son ms vlidas que las conclusiones que se obtengan de buenos estudios no experimentales. El experimento es el mejor camino para acercarse cientficamente a la verdad en la investigacin de relaciones causales porque permite conocer la probabilidad del error que pueda cometerse en las conclusiones. Ejemplo: Para estudiar el efecto de la dieta sobre el desarrollo intelectual puede hacerse un experimento con ratones. Si se dispone de dos dietas, una completa y otra carenciada, podra usarse el siguiente procedimiento aleatorio (al azar) para determinar cules animales recibirn una y otra dieta: se toman tantas fichas como animales haya en el experimento, la mitad de color rojo, simbolizando la dieta completa y la otra mitad azul, simbolizando la dieta carenciada. Frente a cada ratn se saca a ciegas una ficha cuyo color indicar la dieta que se le suministrar. Se espera que el azar haya repartido todas las caractersticas de los animales en forma equitativa entre los dos grupos, de modo que sean fundamentalmente semejantes, diferencindose solamente en la dieta. Se estudiar luego el desarrollo intelectual a travs de pruebas de aprendizaje u otros procedimientos en ambos grupos para ver si existen diferencias entre ellos. Un estudio no experimental del mismo tema consistira en estudiar por ejemplo la capacidad intelectual de nios que hayan sido calificados como desnutridos en comparacin con la capacidad intelectual de nios bien nutridos. Si la desnutricin estuviera ligada a mal cuidado de la madre por un bajo desarrollo intelectual de ella, va a ser difcil separar el factor hereditario del factor nutricional y si bien se pueden hacer comparaciones entre bien y mal nutridos en diferentes subgrupos de la poblacin investigada. estas subdivisiones estarn sujetas al criterio del investigador y nunca estaremos seguros que no se le ha escapado el verdadero factor causal en la clasificacin que ha hecho. De esta manera, los estudios no experimentales. los nicos posibles muchas veces por razones ticas, slo pueden indicarnos posibles relaciones entre las variables. Las distintas clasificaciones no son mutuamente excluyentes e incluso la pertenencia a una categora puede determinar que una investigacin deba ser necesariamente de determinado grupo en las otras clasificaciones. Es as por ejemplo que el experimento ser prospectivo, longitudinal. y explicativo en cambio la investigacin no experimental puede ser de cualquier tipo en las otras clasificaciones.

NIVELES DE MEDICIN
Para describir un objeto, un individuo u otra entidad, hacemos referencia a las propiedades o atributos que posee. Estas atributos pueden expresarse en escalas de diferente nivel de medicin. 1 E1 nivel de medicin puede depender entre otros, de uno o ms de los siguientes factores: naturaleza del atributo, avances cientficos y tcnicos en 1a medicin del atributo, disponibilidad de recursos para efectuar la medicin y precisin requerida en la medicin. Una vez que se ha elegido el nivel de medicin para el atributo o propiedad, las entidades o unidades de observacin pueden ser asignadas -a las diferentes categoras de las escalas correspondientes. Consideraremos el siguiente esquema de escalas, que sin ser el nico posible, satisface nuestras necesidades de conceptualizacin bsica para fundamentar diferentes tcnicas en la presentacin y el anlisis de datos:

Nominal Escalas Ordinal De intervalos Discontinua o discreta Continua

Escala Nominal Las diferentes categoras de la escala se distinguen por el "nombre". que se les asigna. Son ejemplos de datos clasificables en esta escala, las causas de muerte de las defunciones, la circunscripcin en que ocurren los nacimientos, el estado civil de las personas. No existe jerarqua entre las diferentes clases de esta escala y su ordenamiento es arbitrario, dependiendo de las preferencias o de las necesidades del usuario de la informacin. La denominacin de cada clase se puede hacer con una palabra o frase, En el ejemplo de las causas de muerte los grupos podran denominarse: enfermedades infecciosas, tumores, etc. Esta palabra o frase puede ser remplazada por un smbolo cualesquiera o por un cdigo numrico. Por ejemplo se le puede asignar al grupo de enfermedades infecciosas el cdigo 000-136, al de tumores 140-239, etc. Estos nmeros no tienen un significado cuantitativo, sino que son una manera de remplazar un smbolo verbal, como lo es la palabra, por un smbolo numrico. Escala Ordinal Esta escala lleva implcita la idea de jerarquizacin o de "orden" que permite indicar la posicin relativa de los distintos elementos clasificados. Constituye de esta manera una etapa de transicin hacia la cuantificacin de un fenmeno. Son ejemplos de datos clasificables en esta escala el grado de desarrollo de un pas, la gravedad de una enfermedad, la intensidad de un dolor. La calificacin de una entidad con el fin de asignarla a alguna de las categoras de estas escalas, puede ser el resultado de la evaluacin de uno o ms atributos. En este ltimo caso deben resumirse en un ndice que re. fleje jerarqua. Este procedimiento es muy usado en ciencias sociales. En psicologa y tambin tiene utilidad en clnica. Se puede definir por ejemplo la gravedad de una tuberculosis pulmonar, por la extensin de la lesin en la placa radiogrfica, el examen bacteriolgico de la expectoracin y el estado general del paciente. Si en cada una de estas variables asumimos la existencia de tres grados: 1, 2, y 3, que a su vez constituyen categoras de escala de tipo ordinal, un paciente podr quedar catalogado, por suma de estos grados en una escala entre 3 y 9 siempre que se suponga la equivalencia de la importancia de estas variables.

1 (*) Medicin es el proceso de asignar nmeros o poner en correspondencia de uno a uno a objetos u observaciones. (Sidney Siegel.)

Se debe entender claramente que en muchos casos de escalas ordinales en que a las diferentes categoras se le asignan valores numricos, estos smbolos no gozan de todas las propiedades de los nmeros. As un grado 3 no tiene el significado de ser tres veces el grado 1 o de estar a igual distancia del grado 2 que ste del grado 1. Slo se exige que se cumpla una relacin de orden en que por ejemplo 1 es menos que 2 y 3 es ms que 2. Escalas de Intervalos Las escalas de intervalos se caracterizan porque los nmeros asignados a las diferentes categoras tienen un significado cuantitativo claro, respecto a la distancia que existe entre dos observaciones diferentes. As por ejemplo, la diferencia entre una persona que mide 1,65 m y otra que mide 1,67 m es igual a la que existe entre una persona que mide 1,72 m y otra que mide 1,74 m. En ambos casos el intervalo entre las mediciones es de 0,02 m. Para nuestras necesidades de descripcin y anlisis de datos, nos basta distinguir en las escalas de intervalos las que son discontinuas o discretas de las que son continuas. Escala Discontinua o Discreta Esta escala se refiere a datos que resultan del recuento de elementos pertenecientes a la unidad de observacin. As por ejemplo el nmero de camas de los hospitales, el nmero de hijos vivos de las mujeres, etc. La escala tiene explcita la relacin de orden entre sus diferentes categoras. As por ejemplo una mujer con tres hijos tiene tres veces ms hijos que la que tiene 1. Se llama escala discreta o discontinua porque sus diferentes categoras son los nmeros naturales incluyendo al 0. Escala Continua Corresponde a datos que son el resultado de mediciones, como por ejemplo el peso, la longitud, la temperatura, etc. Su caracterstica es la Posibilidad de existencia de infinitos valores intermedios entre una divisin de la escala de medida y la prxima. La restriccin para la continuidad perfecta en la prctica depende de la precisin del instrumento de medida, y de las necesidades del usuario. As por ejemplo el peso de un nio recin nacido se expresar a lo ms con el detalle de unidades de 10 gramos, aunque entre un peso de 2.950 y 2.960 grs. hay infinitos pesos posibles. Por las limitaciones del instrumento de medicin, las escalas continuas en la prctica aparecen como discretas, sin embargo en su presentacin y anlisis prevalece el criterio de su continuidad terica. Relacin entre Escalas de Diferente Nivel de Medicin Se puede observar que el orden en que se han presentado las diferentes escalas, refleja grados de complejidad y de precisin dentro de la naturaleza del fenmeno medido. Es posible que de una escala de intervalos continua, se baje a una escala ordinal. Por ejemplo, la estatura que por la naturaleza de la medida de longitud corresponde a una escala. continua, puede expresarse en escala ordinal si al poner en orden ascendente de estatura, a un grupo de individuos, se les califica por alguna divisin arbitraria en bajos, medianos y altos. E1 paso de una escala de intervalos a una escala nominal es menos frecuente. Un ejemplo podra ser el de los colores: pueden expresarse en escala continua, usando la longitud de onda de luces de distintos colores, o bien simplemente en una escala nominal que describa la percepcin visual del color de un objeto. E1 proceso inverso no es posible y una vez que los datos han quedado clasificados en una escala de. menor precisin, no es posible pasar a una de mayor precisin. Por ltimo debe reflexionarse sobre el hecho que la cantidad de informacin que aporta cada nivel de medicin sobre las unidades de observacin no es necesariamente equivalente a la precisin que se obtiene en cada caso. En general la asignacin a una categora en una escala nominal requiere de una amplia definicin de los atributos que tienen los objetos en cada categora, como puede suceder por ejemplo con un diagnstico clnico en que deben considerarse mltiples elementos. A medida que se progresa en la cuantificacin, la atencin se restringe a menos elementos medidos con ms capacidad de discriminacin. La ventaja de la cuantificacin reside ms que nada en la mayor objetividad que se logra a travs de estas mediciones lo que a su vez permite una mejor comparacin de diferentes unidades de observacin. Es por estos motivos que la aspiracin de toda disciplina cientfica es llegar a la cuantificacin de las variables que utiliza.

ERRORES DE LA INFORMACIN ESTADSTICA


"El estadstico ha dejado de ser un alquimista del cual se espera que produzca oro a partir de cualquier material sin valor. Es ms bien un qumico capaz de determinar exactamente cuanto contiene de valioso, y capaz tambin de extraer esa cantidad y no ms. En estas circunstancias sera absurdo alabar a un estadstico porque sus resultados son precisos o reprobarlo porque no lo son. Si es competente en su oficio, el valor de los resultados depende exclusivamente del valor del material que se le ha entregado. Contiene esa cantidad de informacin y no ms: Su nica tarea es producir lo que contiene". (R.A. Fisher.) Estas palabras del ms importante estadstico de nuestros tiempos tienen inters sobre todo para aquellos que, sin pretender llegar a ser especialistas, estudian algunos principios bsicos de estadstica o recurren al estadstico para resolver problemas de interpretacin de datos. Una informacin de buena calidad debera ser EXACTA, en otras palabras, debera reflejar la verdad. Sin embargo en el campo de las ciencias aplicadas, la exactitud se ve amenazada por mltiples factores que van desde el diseo de la investigacin hasta el registro de los datos. Llamaremos ERROR a la diferencia entre la medida asignada a un objeto y su valor verdadero. Las posibles causas as como los medios para reducir o evitar los errores son fciles de imaginar. Sin embargo la frecuencia con que a pesar de eso incurrimos en ellos, hace aconsejable discutirlos breve-mente. En el marco del mtodo cientfico el proceso de OBTENCION DE INFORMACION consiste en que, de acuerdo a un plan preestablecido, un observador fija su atencin en una propiedad del objeto o unidad de observacin y la mide por medio de instrumentos. El PLAN preestablecido para la observacin ser parte de la planificacin de la investigacin. Comprende el enunciado de las definiciones a utilizar, la especificacin de las condiciones en que se har la observacin y la descripcin de los procedimientos d e medicin. Llamaremos OBSERVADOR a toda persona que interviene en el proces de obtencin de informacin desde la inspeccin, interrogacin, examen o medicin del objeto hasta el registro del dato. . El OBJETO es todo lo que puede ser materia de conocimiento o sensibilidad de parte del observador. Definiremos a la UNIDAD DE OBSERVACIN como la menor divisin del material en estudio sometida observacin. El INSTRUMENTO es el medio utilizado para realizar la observacin. podr ser uno de los rganos d los sentidos del observador, un aparato analizador, una pipeta, una regla, etc. Cuanto mayor sea el poder discriminatorio del instrumento tanto ms PRECISA ser la observacin. A excepcin de algunas medidas que resultan de la operacin de contar, es imposible en la prctica, conocer la verdad. acerca de un objeto. La presencia de error slo se detecta a travs de las INCONSISTENCIAS DE CLASIFICACION, es decir, cuando se adjudica una misma unidad de observacin a diferentes categoras de una escala de clasificacin, cuando, esta adjudicacin se realiza en ms de una oportunidad. Intentaremos algunas clasificaciones de errores que son arbitrarias y , no son las nicas posibles pero servirn para definir un lenguaje comn y para sistematizar ideas.

ERRORES ORIGINADOS EN ELEMENTOS DEL PROCESO DE OBTENCION DE INFORMACION


En la planificacin La planificacin deficiente puede causar errores por falta de definiciones precisas y por heterogeneidad en las condiciones en que se realiza la observacin o de los procedimientos de medicin. La FALTA DE DEFINICIONES afecta sobre todo a las variables medidas en escalas nominal y ordinal, en que cada categora de la escala representa en general a un conjunto de propiedades de la unidad de observacin que a su vez deben quedar definidas. As por ejemplo, al clasificar a un grupo de enfermos por diagnstico, debe definirse qu sntomas, signos y resultados de exmenes se considerarn propios de cada enfermedad. Adems se deber definir qu se entender por determinado sntoma o signo. Esto ser fcil cuando los factores son pocos y precisos, pero puede ser extremadamente difcil en casos complejos. Una situacin similar se observa en una escala ordinal si se desea clasificar enfermos segn la gravedad de un sntoma. Cuanto ms exhaustivas sean las definiciones tanto ms precisos sern los datos obtenidos. En las escalas de intervalos discretas la definicin tiene menor importancia por tratarse de datos que son el resultado de recuentos, sin embargo en situaciones en que los elementos contados pueden prestarse a dudas, como por ejemplo en el recuento de colonias microbianas en un cultivo de orina, ser

necesario definir los criterios de lo que se denominar colonia. En las escalas continuas en general la unidad de medida est bien definida como sucede al medir longitud, peso, etc. La heterogeneidad en las condiciones de observacin y en los procedimientos de medicin puede influir en la exactitud de los datos en cualquiera de las escalas de clasificacin. As por ejemplo, una ictericia puede pasar desapercibida si el paciente es examinado con luz artificial y detectarse al examinarlo con luz natural. calificacin de una persona a travs de una entrevista puede verse influida por el cansancio del entrevistador, el peso de un individuo depende de la ropa que lleva puesta, Todo esfuerzo que se haga durante la planificacin respecto a especifica, las condiciones en que debe realizarse la medicin se ver recompensado por la obtencin de datos ms exactos. Del observador Los errores debidos al OBSERVADOR estn relacionados con sus destrezas y habilidades, con su experiencia y con su acuciosidad. La VARIABILIDAD entre observadores o del mismo observador se detecta al someter al mismo objeto a examen por varios observadores o por el mismo observador en diferentes oportunidades respectivamente. Si se encuentran discrepancias entre las calificaciones habr que adiestrar al observador hasta conseguir una nivelacin que asegure lmites tolerables de variacin. De la unidad de observacin Las diferentes variables que pueden ser objeto de medicin en la unidad de observacin estn sujetas a variaciones que no siempre son evitables o previsibles. As por ejemplo, en un enfermo puede aparecer un nuevo sntoma que hace cambiar e1 diagnstico primitivo, la presin arterial de un individuo puede variar por diferentes motivos en el transcurso del da, las respuestas a un test de inteligencia pueden depender de factores emocionales, etc. La variabilidad de la unidad de observacin prcticamente no puede evitarse pero debe tenerse presente al analizar los datos con el fin de determinar su magnitud, cuando parezca necesario, a travs de observaciones sucesivas, en que se asegure la estabilidad de otros posibles factores de error. Del instrumento Las inconsistencias causadas por el instrumento de medicin son frecuentes mxime si incluimos en la denominacin d instrumentos a los rganos de los sentidos del observador. Estos influyen sobre todo en los datos en escala nominal u ordinal, en que la sensibilidad vara de uno a otro observador. y en el mismo observador en distintas circunstancias. Los instrumentos de medida tales como pipetas, reglas, balanzas. etc. pueden tener defectos en su CALIBRACION que tienen como consecuencia una inconsistencia en la determinacin de la variable cuando es medida con dos instrumentos diferentes. Hay instrumentos muy sensibles que se descalibran fcilmente ante variaciones de las condiciones atmosfricas y que deben calibrarse peridicamente para evitar inconsistencias en las mediciones con el mismo instrumento. Errores Sistemticos y Aleatorios Los errores analizados ms arriba pueden ser todos clasificados en dos categoras; sistemticos y aleatorios. Se habla de ERROR SISTEMTICO cuando cada valor de una serie de observaciones tiene una desviacin en una direccin, ya sea en trminos de frecuencia o que todos los valores estn aumentados o disminuidos, con respecto a su valor verdadero. Este tipo de error ocurre en todas las escalas. En la escala NOMINAL se manifiesta a travs de una mayor frecuencia de clasificacin de las unidades en determinado rubro. As por ejemplo se ha visto en la revisin de causas de muerte no certificadas por mdico que hay una repeticin de determinada causa de muerte en algunas circunscripciones, dependiendo de los diagnsticos preferenciales que hace el oficial de Registro Civil a base de la descripcin de la causa de muerte hecha por los testigos. En la escala ORDINAL es posible que en ausencia de definiciones precisas para distintos grados de intensidad haya diferencia sistemtica entre los observadores para calificar la intensidad de un sntoma.. En la escala de INTERVALOS DISCRETA el recuento de colonias microbianas por ejemplo puede tener variacin sistemtica entre un observador y otro al mirar las mismas placas, por distinta apreciacin de lo que es una colonia. En las escalas CONTINUAS en que interviene un instrumento de medicin, la defectuosa calibracin de una balanza o de una pipeta produce errores sistemticos en un sentido con respecto a instrumentos con otra calibracin.

Las CAUSAS de los errores sistemticos son en resumen la falta de definiciones precisas, la diversidad de criterios o la mala calibracin d instrumentos. Dependen en consecuencia del observador o del instrumento y raramente de la unidad de observacin. Para REDUCIRLOS o evitarlos debern unificarse las definiciones y calibrarse correctamente los instrumentos. Si se descubre el defecto de calibracin y se le puede asignar un valor, es posible corregirlos sumando o restando una cantidad fija a cada observacin segn el sentido en que haya actuado la mala calibracin. Los ERRORES ALEATORIOS se deben a mltiples factores, generalmente no identificados y que producen variacin en mas o menos respecto al verdadero valor. Se pesquisan sobre todo en datos en escala de intervalos en que para sucesivas lecturas o mediciones de un mismo objeto se observa una dispersin de los valores. Se estudian de preferencia en medidas en escala continua. Son ejemplos de estos errores la dispersin que se encuentra cuando diferentes observadores miden una misma recta o cuando un mismo observador repite la medicin de esa recta. Prcticamente no hay medios eficaces para evitarlos. Se podrn reducir haciendo mediciones cuidadosas. Lo ms frecuente es que se describa su magnitud a travs de modelos tericos de la conducta del error, que permiten obtener un valor central para la medicin y una magnitud para la dispersin. Equivocaciones Usaremos esta denominacin para errores que se producen por la incorrecta aplicacin de un procedimiento o de una norma. Son ejemplos de equivocacin los errores de recuento, clculo aritmtico, asignacin de cdigos, registro de datos, etc. Por definicin se deben al OBSERVADOR y generalmente son ocasionados por falta de acuciosidad en el trabajo o por cansancio en la repeticin de operaciones rutinarias. La manera de evitar equivocaciones es la REVISION cuidadosa de las operaciones realizadas ya sea por el mismo observador o mejor an por otra persona, ya que es poco probable que dos personas cometan la misma equivocacin. Los procedimientos de revisin estn contemplados en todo buen plan de investigacin y debern ser tanto ms completos cuanto ms graves pueden ser las consecuencias de la equivocacin.

TABLAS ESTADISTICAS
Las tablas estadsticas sirven para presentar los datos numricos obtenidos en algn estudio, en forma ordenada. Las etapas principales en la construccin de una tabla son; 1) Definir los propsitos de la tabla 2) Colocar un ttulo a la tabla 3) Asignar las escalas de clasificacin a filas y columnas 4) Colocar los datos numricos obtenidos del material en estudio y completarlos con porcentajes si es necesario. 1) Definir los propsitos de la tabla Segn los propsitos distinguimos tablas de DISTRIBUCION DE FRECUENCIAS en que el material se clasifica segn un solo criterio y tablas de ASOCIACION en que se desea mostrar la relacin entre dos o ms variables en las unidades de observacin. La definicin de los propsitos ayuda a determinar los CRITERIOS DE CLASIFICACION a usar en las tablas y el SENTIDO en que deben analizarse los datos. Si el propsito es por ejemplo mostrar las edades de un grupo de enfermos slo emplearemos un criterio de clasificacin, la edad, y construiremos una tabla de distribucin de frecuencias. Si el propsito es, en cambio. mostrar la relacin que existe entre la edad y la gravedad de la enfermedad haremos una tabla de asociacin con dos criterios de clasificacin, la edad y la gravedad. La manera ms prctica para definir los propsitos de una tabla es a travs de la formulacin de la o las preguntas que se intenta contestar con la tabla. Es as como en el primer ejemplo se podra preguntar: cul es la distribucin por edad de los enfermos?, y en el segundo: hay relacin entre la edad de los enfermos y su gravedad?

2) Colocar el ttulo Las tablas deben tener un ttulo completo que especifique: QUE se presenta. Por ejemplo: enfermos, operados, diagnsticos, etc. COMO se clasifican las unidades de observacin. Por ejemplo: enfermos segn grupos de edades, operaciones segn resultados, diagnstico segn gravedad, etc. DONDE fueron registrados los datos. Por ejemplo: Departamento de Ciruga del Hospital A., Asistencia Pblica de Santiago, etc. CUANDO se registraron los datos: 1972, de 1940 a 1970, etc. Hay algunos CASOS ESPECIALES en que no es necesario ceirse estrictamente a estos datos en el ttulo o en que deben agregarse otros elementos: Los TITULOS CON MENOS DATOS se podrn colocar cuando en una misma investigacin se presentan varias tablas que se han originado todas en el mismo lugar y en el mismo tiempo. Estos datos aparecern en el texto del trabajo y no ser necesario repetirlos en cada tabla. Entre los elementos agregados tenemos las NOTAS AL PIE que debern colocarse por ejemplo cuando el origen de los datos es otro estudio cuya referencia debe quedar anotada. Como las referencias en general son largas y le restaran claridad al ttulo se puede colocar all un signo y colocar frente al mismo signo en el pie de la pgina, la referencia completa. Tambin se colocarn notas al pie cuando debe explicarse la forma de obtencin o de anlisis de los datos. Por ejemplo: Se excluy en el anlisis la categora: desconocidos. En general ser objeto de una nota al pie cualquiera circunstancia que requiera una aclaracin. Cuando un trabajo contiene varias tablas conviene colocarles NUMEROS: tabla 1, tabla 2, etc. Esto facilita la referencia a la tabla en el texto. El nmero complementa al ttulo, y se coloca independiente de l, ya sea sobre l o al pie de la tabla. 3) Asignar las escalas de clasificacin a filas y columnas Cuando hay un solo criterio de clasificacin de las observaciones se colocar la escala de clasificacin en la primera columna. En el ejemplo de clasificacin por edad:

Cuando hay MAS DE UN criterio se preferir colocar la escala con MAYOR NUMERO DE GRUPOS en la primera columna. Al clasificar por edad y gravedad a un grupo de enfermos son ms los grupos de edad que las categoras de gravedad.

Cuando hay dos escalas de clasificacin y una se refiere a los antecedentes y la otra a las consecuencias, preferimos colocar los antecedentes en la columna de la izquierda y la consecuencia en la fila superior. Si por ejemplo, deseamos estudiar la relacin entre tratamiento y desenlace de una enfermedad en que el tratamiento es el antecedente y el resultado es la consecuencia, la tabla se hara en la siguiente forma:

Las tablas de ms de dos criterios de clasificacin presentan dificultades de lectura y debieran evitarse como tablas de presentacin en publicaciones. Son tiles como tablas de referencia para colocarlas en anexos del trabajo. Tambin sirven como tablas de trabajo para resumir todos los datos y poder extraer de ellas tablas ms sencillas. 4) Colocacin de los datos numricos Una vez que se tienen claros los propsitos de la tabla, se ha colocado el ttulo y se han asignado las escalas de clasificacin a las filas y las columnas es til disponer de una columna o fila o de ambas con los totales marginales que se obtienen por suma horizontal o vertical de los valores de los casilleros. 5e calcularn PORCENTAJES y se colocarn al lado de los valores absolutos respectivos con dos objetivos: Destacar la FRECUENCIA de un hecho en un total o COMPARAR la ocurrencia de un mismo hecho en dos o ms grupos. Es ms fcil entender que 83,4% del total de enfermos mejor que decir mejoraron 176 de 211 enfermos.

No usaremos porcentajes cuando el nmero de casos es muy reducido. Si por ejemplo se somete a tratamiento a 5 enfermos cada uno de ellos representa un 20% del total. Si en este caso hablamos de xito en el 80% de los casos daremos una falsa impresin de estabilidad de nuestra informacin la que no refleja la realidad de nuestra experiencia. Podramos fijar arbitrariamente la cantidad de 20 como lmite entre nmero reducido en que no calculamos porcentajes : nmero grande en que si lo calculamos. Para el CALCULO DE PORCENTAJES se divide el nmero de obs. del grupo cuya frecuencia se requiere destacar por el total del cual proviene y luego se multiplica por 100. En nuestro ejemplo la mejora con tratamiento A se obtuvo en 72 de los 83 tratados. 72 : 83 = 0, 867 0,867 x 100 = 86,7%

Ejemplos de Tablas Distribucin de Frecuencias


Ejemplo N 1 1. Propsito Mostrar la distribucin de frecuencia de diagnstico en enfermos con hemorragia digestiva alta. 2. Ttulo Indica QUE se pregunta: enfermos con hemorragia digestiva alta; COMO se clasifican: segn diagnstico; DONDE fueron estudiados: en el servicio X; CUANDO fueron estudiados: ao 1972. 3. Escalas de clasificacin Hay un solo criterio de clasificacin: el diagnstico, por lo tanto lo colocaremos en la primera columna. 4.Datos numricos Se estudi un total de 350 enfermos. Por tratarse de una escala nominal no hay un orden preestablecido de las categoras y se colocarn por orden de frecuencia a excepcin del rubro "no precisado" que se deja en ltimo lugar. Para mayor claridad se calcularn porcentajes sobre el total.

Tabla N 1
Diagnstico en enfermos con Hemorragia Digestiva alta Servicio X Ao 1972

Tablas de Asociacin
Ejemplo N1 1. Propsito Mostrar el efecto de dos tratamientos en la evolucin del dolor en enfermos de angina de pecho. 2. Titulo Indica QUE se presenta: enfermo de angina de pecho; como se clasifican: segn efecto de la droga X y de un placebo (sustancia similar en apariencia a la droga pero sin contener su principio activo) sobre el dolor; DONDE fue estudiado el grupo de enfermos y CUANDO se estudi.

3. Escalas de clasificacin Hay dos criterios de clasificacin: tratamiento que puede ser droga X o placebo y evolucin del dolor que se clasifica en tres tipos en una escala ordinal que determina la secuencia en que se anotarn las categoras ya sea en orden creciente a decreciente del efecto. Segn la regla anteriormente mencionada, de colocar la escala con mayor nmero de categoras en la primera columna, deberamos colocar all la evolucin del dolor. (Tabla 2), sin embargo, esta forma de presentar los datos parece menos clara que si seguimos el criterio de colocar el antecedente en la primera columna y la consecuencia en la primera fila (Tabla 3). 4. Datos numricos Si bien en este caso los dos grupos son de igual tamao: 35 pacientes, lo que no hace indispensable el calculo de porcentajes, stos facilitan la comparacin. E1 sentido en que deben calcularse los porcentajes est especificado en el propsito de la tabla: deseamos saber la frecuencia con que los enfermos mejoran, siguen igual o empeoran de su dolor en cada tratamiento. Se calcularan, por lo tanto, sobre el total de cada grupo de tratados. La interpretacin se hara muy engorrosa si los porcentajes se calcularan en el otro sentido, pues nos diran cuntos de los enfermos que mejoran, siguen igual o empeoran han sido tratados con droga o con placebo.

Tabla N 2
Efecto de droga X y de placebo sobre el dolor en enfermos con angina de pecho, Servicio X, ao Y

Tabla N 3
Efecto de droga X y de placebo sobre el dolor en enfermos con angina de pecho, Servicio X, ao Y

Ejemplo N- 2 1. Propsito Mostrar si la mortalidad de prematuros depende del peso al nacer y del sexo. 2. Ttulo Especfica toda la informacin que se presenta en la tabla. 3. Escalas de clasificacin Son tres: peso, sexo y mortalidad. Debido a que tanto en mujeres como en hombres interesa la mortalidad en relacin al peso, el peso es el antecedente ms general y lo colocaremos en la primera columna, Los otros dos criterios se colocaran arriba comenzando por el antecedente segundo en importancia que es el sexo y colocando debajo el criterio que corresponde a la consecuencia que es la mortalidad. 4. Datos numricos Para cada sexo y en cada grupo de peso el desenlace puede ser sobrevida o muerte. Con el fin de no recargar la tabla ser preferible colocar so- lo uno de estos datos (Tabla N- 4), Se ve que al hacer la tabla completa (Tabla N -5) se dificulta el anlisis.

Tabla N 4
Mortalidad de prematuros con trastornos respiratorios severos segn peso al nacer y sexo Servicio A, 19 ..

Tabla N 5
Mortalidad de prematuros con trastornos respiratorios severos segn peso al nacer y sexo Servicio A, 19,.

Caso Especial
Cuando una misma unidad de observacin puede presentar ms de un atributo de la escala de clasificacin, se presenta el problema de que la suma total de casos no corresponde al nmero de unidades de observacin. Esto sucede por ejemplo, al hacer una distribucin de frecuencia de sntomas o de complicaciones de una enfermedad, en que cada paciente puede presentar ms de un sntoma o complicacin. En estos casos deber especificarse en el ttulo que se estn clasificando sntomas y aclarar con una nota al pie el procedimiento que se us para hacer la tabla.

Tabla N 6
Frecuencia de sntomas subjetivos en 126 enfermos con cuadros neurticos y neurovegetativos funcionales. Casustica X ao Y

(*) % sobre el total de 126 enfermos.

La suma del nmero de casos es 557 y corresponde en realidad al nmero de sntomas que hubo. El ttulo especifica claramente 'que se trata de sntomas en 126 enfermos. Adems se hace referencia a travs de la llamada (*) frente al porcentaje a la nota aclaratoria al pie de la tabla. En este caso no se coloca total bajo las columnas.

GRAFICOS
El grfico es la representacin de datos numricos en el plano con el fin de obtener una impresin visual de conjunto del material presentado que facilite su rpida comprensin. Los objetivos de la mayora de los grficos son representar distribuciones de frecuencias o mostrar la asociacin entre dos o ms variables investigadas en las unidades de observacin.

Requisitos generales de un grfico


1. Debe ser sencillo y autoexplicativo. No debe tener ms elementos que los que puedan captarse cmodamente con la vista ni menos que los que permiten la identificacin del material presentado: ttulos, escalas numricas y leyendas. 2. Debe presentar fielmente los hechos. Se evitarn distorsiones por escalas exageradas. Ejemplo: Baja de un ndice en el lapso de 10 aos desde dos puntos de vista.

En la comparacin de grupos debe evitarse el predominio de un color o de un matiz sobre otro. Es preferible el contraste entre distintos rayados que entre negro y blanco ya que en el ltimo caso las secciones blancas aparecern menos importantes. Ejemplo: Los hombres parecen menos importantes en el grfico A que en el B.

En los grficos de barras los rayados se harn de preferencia oblicuos porque las rayas horizontales o verticales distorsionan el ancho y el largo de la barra. 3. Debe ser agradable a la vista. Se recomienda en lo posible la proporcin de 1:1,5 entre la longitud de los ejes que corresponde aproximadamente a la seccin urea. Para categoras de una misma variable representadas por barras se usar un solo color o un solo tipo de rayado ya que la profusin de colores o rayados fuera de resultar antiesttica quita claridad a la presentacin. El grfico debe ser limpio, de trazos netos, ttulos escritos con letra caligrfica o a mquina y leyendas ubicadas en lugares apropiados.

Etapas en la construccin de un grfico


l. Definicin de objetivos. Se debe especificar qu se desea mostrar, para qu, a quienes y dnde. 2. Eleccin del tipo de grfico. Depende de las escalas de clasificacin de los datos y de los objetivos del grfico. 3. Construccin propiamente tal. Decisin sobre tamao y proporciones. Adaptacin de las escalas a estas proporciones. Inscripcin de puntos y dibujo del grfico. Colocacin de Ttulos al grfico y a sus elementos, que especifiquen claramente lo que se est presentando.

Tipos de grficos
La mayora de los grficos utilizados con fines de presentacin de datos estadsticos se basan en un sistema de ejes perpendiculares orientados en los que se inscriben las escalas de clasificacin o las frecuencias.

1. Grficos de Barras Barras simples Se usa para presentar la distribucin de frecuencias de variables en escalas nominal, ordinal y de intervalos discontinua. Cada categora se representa por una barra cuyo largo indica la frecuencia o el nmero de casos pertenecientes a esa categora. E1 ancho de las barras es constante al igual que los espacios entre las barras. En escalas de intervalos discretas con muchas categoras, es frecuente el uso de barras lineales. El orden de las barras puede estar dado por su longitud o por la secuencia ms lgica de las categoras. As por ejemplo al representar la frecuencia de sntomas de una enfermedad podra ser ms adecuada una ordenacin por frecuencia, en cambio, si se desea representar la frecuencia de nmero de hijos de las mujeres de una poblacin, ser mejor una ordenacin de las barras segn este nmero. Cada barra debe tener un ttulo que especifique la categora que representa. Si los ttulos son largos conviene hacer el grfico con barras transversales si son cortos se preferirn barras verticales. Debe evitarse la colocacin de claves a las barras con una interpretacin adjunta ya que ello dificulta la rpida comprensin del grfico. No deben colocarse ttulos o nmeros sobre o dentro de las barras porque distorsionan la magnitud de ellas. Las barras pueden inscribirse marcando slo su contorno a bien rellenndolas de negro o con rayados oblicuos. Las barras en color se usan de preferencia para grficos de presentacin al pblico y no convienen para publicaciones ya que el costo de impresin es alto. Tanto el rayado como el color debe ser el mismo para todas las barras de este tipo de grfico. Ejemplos:

Barras agrupadas Se usa para mostrar la asociacin o relacin entre dos o ms variables en escalas nominal y ordinal y en algunos casos de escalas de intervalos discretas. Se dibujan grupos de barras que correspondan a subdivisiones de una clasificacin ms general.

Si queremos representar por ejemplo el resultado en trminos de mejora y muerte de tres tratamientos: A, B y C, podremos construir para cada resultado el tro de barras correspondiente a los tratamientos, o bien construir para cada tratamiento el par de barras correspondiente a los diferentes resultados. Las barras de cada grupo debern tener rayados diferentes para cada subdivisin con una interpretacin de la clave en. un lugar apropiada del grfico. Ser preferible hacer la clasificacin primaria por la variable con ms categoras con el fin de disminuir el nmero de claves necesarias para la interpretacin, a menos que con esta agrupacin se pierda claridad en la demostracin de los hechos que se presentan o no se cumpla con el objetivo real del grfico. Debe tenerse presente que las variables cuya comparacin sea de mayor inters se deben colocar dentro de un mismo grupo de barras. Ejemplos: La relacin entre condiciones higinicas, edad y frecuencia de anticuerpos para virus de poliomielitis puede estudiarse en los dos grficos que siguen. El grfico A destaca la comparacin entre condiciones higinicas. el grfico B, la comparacin entre edades. Debe notarse que en este caso la variable edad, que por su naturaleza debiera estar en escala continua, se maneja como discontinua con 3 grupos en que el ltimo no tiene lmite superior definido.

Barras subdivididas Es un grfico muy apropiado para mostrar la composicin proporcional de distintas categoras. No conviene hacer ms de tres subdivisiones de cada barra porque se dificulta la comparacin. Est especialmente indicado cuando en algunas categoras el 100% de las unidades de observacin pertenece a uno de los subgrupos, caso en el que para un grfico de barras agrupadas se encuentra el problema de no tener frecuencia para una de las barras de una de las categoras. Ejemplo:

2. Grficos Sectoriales Por su agradable apariencia son adecuados sobre todo para la presentacin al pblico. Se utilizan para los mismos casos que los grficos de barras, con la limitante que toda frecuencia debe expresarse como proporcin del total. Esta proporcin determina el ngulo con respecto a los 360, del circulo total que debe limitar el sector que representa la frecuencia correspondiente. Ejemplo:

3. Histogramas Se usan para presentar datos en escalas de intervalos continuas. Consisten en una serie de rectngulos adyacentes cuyas superficies representan la frecuencia en cada categora de la escala de clasificacin. Cuando el material de estudio est clasificado en intervalos iguales, los rectngulos tienen todos el mismo ancho y su altura corresponde directamente a la frecuencia observada en el intervalo. Para la distribucin por edades que se muestra en la siguiente tabla, el grfico adjunto es un ejemplo de histograma.

Si en el ejemplo anterior, en vez de la clasificacin en grupos quinquenales interesaran los siguientes intervalos: 0 4. 5 - 14. 15 - 24 y 25 - 39, las frecuencias en estas nuevas categoras sern la suma de las frecuencias que existan en las que le dieron origen:

Vemos que ahora los intervalos son desiguales, situacin que se debe mostrar en el histograma correspondiente a travs del diferente ancho de los rectngulos o barras. Para que los rectngulos mantengan una superficie que represente la frecuencia real, ser necesario ajustar su altura al ancho de los intervalos. E1 grfico resultante se llama HISTOGRAMA AJUSTADO. Como primer paso en su construccin se elige una unidad de intervalo que est contenida en todas las clases. En el presente ejemplo podemos elegir como unidad, un intervalo de 1 ao, que estar contenido 5, 10, 10y 15 veces respectivamente en las sucesivas clases de la tabla. Las frecuencias observadas se dividen por el nmero de unidades contenidas en cada categora, dando la frecuencia por intervalos de 1 ao la que determina la altura de los rectngulos.

La posibilidad de expresar las frecuencias ajustadas por diferentes unidades hace necesario que en el eje vertical del grfico se especifique la unidad de intervalo en la que se expresa la frecuencia: Adems es recomendable agregar un rectngulo con una unidad de superficie traducida a frecuencia, para una ms fcil interpretacin del grfico.

Cuando una o ambas clases extremas de la distribucin de frecuencias tiene lmites precisos, como sucede a veces con distribuciones por edad en que la ltima clase puede ser por ejemplo: 65 y ms aos, debe ajustarse la frecuencia en esa clase a un intervalo arbitrario que debe quedar especificado al pie del grfico. Adems se har notar esta situacin, dibujando el contorno de ese rectngulo con lnea interrumpida o dejndola abierta hacia el lmite no definido. 4. Polgonos de Frecuencia Se utilizan de preferencia para la comparacin de distribuciones de frecuencias en escalas de intervalos continuas. Son una variedad de histograma simple o ajustado en que el contorno de los rectngulos se remplaza por un polgono que une los puntos medios de sus bordes superiores. De esta manera las reas de los distintos rectngulos se compensan aproximadamente. Cuando los grupos a comparar son de tamao diferente las frecuencias absolutas de la distribucin debern convertirse en frecuencias relativas, porcentuales.

Es conveniente que el comienzo y el final del polgono llegue al punto medio del primer y ltimo intervalo en que s observaron frecuencias respectivamente: La prolongacin de las lneas hasta la frecuencia 0 en el punto medio de los intervalos adyacentes puede llevar a una representacin falsa de los hechos. Esto 'ocurre sobre todo cuando la escala horizontal comienza en 0 y cuando la prolongacin hacia la izquierda implicara la existencia de valores negativos, lo que a veces es imposible. Ejemplo:

5. Grficos lineales Estn indicados cuando se debe representar la relacin entre dos variables en, escala de intervalos continuas, por ejemplo: concentracin sangunea en funcin de dosis inyectada, tasa de mortalidad infantil a travs de los ltimos 10 aos, etc. La variable independiente se inscribe en el eje horizontal y la variable dependiente en el eje vertical. La escala en el eje vertical debe comenzar en 0. Si esto implica que un segmento importante del eje no se utiliza y que la escala pierde detalle, se podr interrumpir este eje mediante dos lneas. Frente al valor de la variable independiente de una unidad de observacin se inscribir con un punto, el valor de la variable dependiente correspondiente. Los puntos contiguos se unen por lneas rectas: Cuando se tiene una serie de intervalos iguales y por algn motivo se desconoce la informacin frente a alguno de los valores de la variable independiente conviene indicar este hecho con una interrupcin de la lnea. Esto vale sobre todo para series cronolgicas en que los datos de un perodo a otro suelen sufrir grandes fluctuaciones. Si para la misma escala de la variable independiente se quieren mostrar varios fenmenos, cada uno se inscribir con lneas de diferente trazado o color. Cuando se desea conocer la conducta del fenmeno en trminos absolutos se usarn escalas aritmticas en ambos ejes. Si se desea investigar cambios relativos de la variable dependiente, es til usar el grfico semilogartmico, con el eje horizontal en escala aritmtica y el vertical en escala logartmica. E1 ltimo objetivo tambin se logra expresando cada valor de la variable dependiente en relacin a un valor base, por ejemplo, la mortalidad por enfermedades infecciosas y la mortalidad por cncer en 20 aos se puede expresar en trminos del porcentaje que son estas mortalidades cada ao respecto a la mortalidad del ao inicial del perodo. En este caso ambas lneas parten del l00%. Los grficos A y B se basan en los mismos datos. Tasas de mortalidad infantil y de mortalidad general en Chile a partir de 1930. El grfico A en escalas aritmticas muestra los cambios absolutos, el B en escala logartmica para las tasas, muestra la reduccin relativa de ambos ndices.

8. Grficos de correlacin o Diagramas de dispersin Obedece a los mismos principios que los grficos lineales, pero en vez de tener una observacin frente a cada valor de la variable independiente, pueden tener varios. Sirven para estudiar la relacin entre dos variables en escala continua. Los ejes vertical y horizontal deben tener aproximadamente la misma longitud y slo comprendern el intervalo en que existen observaciones sin necesidad de indicar un corte de los ejes. Los puntos no se unen entre s. Lo que se observa en estos grficos es la forma de la nube de puntos: mientras ms se acerca a una distribucin lineal ms estrecha es la relacin entre ambas variables. Ejemplos:

Se observa que la relacin entre variable X e Y es ms estrecha en el grfico B que en el grfico A. 7. Pictogramas Se utilizan para presentaciones al pblico o para fines propagandsticos, en que el objetivo principal es atraer la atencin. Se puede representar por ejemplo el nmero de defunciones por atades, la frecuencia de enfermedades cardiovasculares, hepticas y cerebrales por filas de corazones, hgados y cerebros en que cada uno de estos rganos representa un determinado nmero de enfermos. Se puede comparar la poblacin de distintos pases por filas de hombrecitos en que cada uno representa varios miles de habitantes, etc. Ejemplo: representando cada 5% de tasa de letalidad por un atad completo:

Las INDICACIONES ms comunes de los grficos analizados se presentan a continuacin en un esquema que contempla los objetivos de los grficos y las escalas de clasificacin.

INDICADORES DE SALUD TASAS, RAZONES Y PROPORCIONES


Cifras absolutas y frecuencias relativas
Las estadsticas que resultan de las tabulaciones de diferentes tipas de datos (nacimientos, defunciones, casos de enfermedad, consultas, egresos hospitalarios, etc.) proporcionan nmeros absolutos que son muchas veces utilizables directamente en Salud Pblica. Por ejemplo, el. nmero de consultas otorgadas en un consultorio externo permite al. administrador en salud estimar la cantidad de recursos necesarios para dar una atencin suficiente; el nmero de nacimientos es un dato valioso para los programas de atencin materno-infantil; el nmero de egresos de un hospital muestra el volumen de hospitalizacin y sirve para calcular costos y rendimientos. Sin embargo, a pesar de la importancia de las cifras absolutas, son las FRECUENCIAS RELATIVAS las que tienen una mayor utilidad. Bajo esta denominacin se incluyen las tasas, proporciones, porcentajes y simples razones. Las frecuencias relativas tienen la ventaja de facilitar la presentacin de las relaciones que existen entre dos o ms datos y hacer ms sencilla la comparacin de resultados. l. Razones Son cuocientes entre dos cantidades de igual o distinta naturaleza. In dican cuantas veces sucede; el hecho que est en el numerador con respecto al hecho que est en el denominador. Ejemplo: Razn de masculinidad = N de hombres N de mujeres Indica cuntos hombres hay por cada mujer. Si se amplifica por 100, se sabr cuntos hombres hay por cada 100 mujeres, en Chile 1982 haba 96 hombres por cada 100 mujeres. Chile 1982 = 5.521.067 5.754.373 x 100 = 95. 9

Otro ejemplo : En el programa de atencin maternal se desea comparar la relacin entre controles y consultas de morbilidad otorgadas en dos Servicios de Salud en 1982.

El examen de estas cifras absolutas hace un poco difcil la comparacin. En una forma gruesa se puede decir que ambos Servicios dieron nmero de controles y que, en cambio, el nmero de consultas por morbilidad fue muy superior en el Servicio Sur. Resulta ms clara la comparacin si se calculan los cuocientes entre el nmero de controles y el nmero de consultas en cada uno de los Servicios. Servicio oriente 72.154/72.568 = 1 control por cada consulta. Servicio Sur 72.029/87.041 = 0.8 controles por cada consulta. Se establece que el Servicio oriente ha dado ms controles por consulta que el Servicio Sur. 2. Proporciones Son cuocientes entre dos cantidades de igual naturaleza. Describen la fraccin que una serie de sucesos que figuran en el numerador representa con respecto al total de sucesos de igual ndole. Cuando el resultado de este cuociente se multiplica por 100 resulta un porcentaje, que es la forma habitual de calcular esta frecuencia relativa. Ejemplo: En Chile en 1982 el Sistema Nacional de Servicios de Salud control el estado nutricional de 1.160.813 nios menores de 6 aos. En el mismo ao la Regin Metropolitana control 390.464 nios de igual edad. Como la Regin Metropolitana es una parte del Sistema Nacional se puede calcular el porcentaje que representan los controles de esta Regin con respecto al total del pas: 390.464 1.160.813 x 100

De este modo se sabe que 34% del total de nios menores de seis aos en control nutricional en el pas, pertenecen a la Regin Metropolitana. Es importante insistir que tanto los hechos que figuran en el numerador como los del denominador deben ser de igual naturaleza De este modo el resultado expresa la importancia relativa que el dato del numerador tiene con respecto al total. Los porcentajes tienen la ventaja de permitir una comparacin fcil de series que tienen totales diferentes, al referirlos a una base comn que en este caso es 100. Si suponemos dos Provincias en que se desea conocer si la mortalidad del menor de 28 das es diferente en importancia con respecto al total de nios menores de 1 ao, es ms sencillo calcular los porcentajes que representan las defunciones de menores de 28 das con respecto al total de defunciones de menores de 1 ao.

En la provincia de Concepcin las defunciones de menores de 28 das representan e1 48.2% del total de defunciones infantiles, en cambio en la provincia de Bio-Bo representan el 45.6%. Limitaciones de los porcentajes y necesidad del clculo de tasas A pesar de su utilidad, los porcentajes tienen limitaciones. Sise estudian, por ejemplo, las muertes por accidentes en dos grupos de edades en un pas X nos encontramos con lo siguiente:

En este caso podra concluirse que los accidentes son un peligro ms serio para los jvenes, en los que ms de una cuarta parte de las defunciones se debe a accidentes, que para las personas de mayor edad , en las que los accidentes causan menos del 4% de las defunciones. Las cifras anteriores no expresan realmente el riesgo de. morir por accidente, sino la importancia relativa que esta causa tiene en el total de defunciones de cada grupo de edad. E1 conocimiento del riesgo no se obtiene con el clculo de los porcentajes; para ello hay que introducir en la comparacin un elemento importante que es la poblacin expuesta al riesgo de sufrir accidentes. El resultado que se obtiene al dividir el nmero de muertes debidas a accidentes por la poblacin expuesta al riesgo de sufrir un accidente es lo que se denomina tasa de mortalidad por accidente. 3. Tasas Una tasa es un cuociente formado por tres elementos: -Un numerador, que consiste en el nmero de veces que ocurri un determinado hecho en un perodo de tiempo dado y en un rea determinada. Por ejemplo, el nmero de casos de una enfermedad que se registr en un rea durante un ao. -Un denominador, que es la poblacin expuesta al riesgo de que le suceda el fenmeno que aparece en el numerador. -Una constante por la cual se multiplica el cuociente. Debido a que el cuociente resultante en una tasa es siempre de valor inferior a la unidad, ste se multiplica por 100, 1.000, 10.000 100.000 de modo de tener cifras superiores a la unidad lo que facilita la interpretacin. En efecto, es ms fcil entender que la tasa de mortalidad de una regin es 8 por 1.000 habitantes que decir que es 0.008 por habitante. Requisitos generales de las tasas Es necesario que en una tasa haya concordancia entre el numerador y el denominador en tres aspectos importantes: la naturaleza del hecho, la zona geogrfica y el perodo de tiempo dentro del cual ocurre el hecho. En relacin con la naturaleza del hecho, debe usarse en el denominador la poblacin de la cual haya emanado el hecho del numerador. As, no podramos tener una tasa de mortalidad por cncer de la prstata si en el denominador figura la poblacin femenina. El rea geogrfica debe ser la misma para el numerador que para el denominador. Con respecto al tiempo, las tasas se calculan generalmente sobre una base anual. Se presenta un problema en cuanto al denominador de la tasa, ya que debido a qu la poblacin vara a lo largo del ao, pueden hacerse distintas estimaciones de ella. Si la poblacin se estima al comienzo del perodo no representa toda la poblacin expuesta ya que en esta poblacin no figuran por ejemplo, los nios que nacern duran te el ao. Si la poblacin que se usa es la estimada al final del ao sucede lo contrario, ya que no aparecern en ella los que han fallecido y los que han emigrado en el curso del ao. De aqu que es de uso habitual coma representativa de 1a poblacin media expuesta al riesgo la estimacin a mitad del perodo, es decir al 30 de junio del ao en estudio.

Tipos de tasas En general pueden distinguirse dos tipos principales de tasas: a. Tasas crudas o brutas. b. Tasas especficas Cuando en el denominador figura el total de la poblacin se habla de tasas crudas porque no se consideran caractersticas como edad, sexo, etc. Es una medicin gruesa de la fuerza de ocurrencia de un hecho. Cuando en el denominador se usa slo cierto sector de la poblacin por ejemplo, la poblacin de 20 a 25 aos (en el numerador debe figurar el hecho referido que afecta slo a este grupo de edad) se habla de tasas especficas. Estas tasas son ms refinadas y miden con mayor exactitud el riesgo que se desea conocer, ya que en general los riesgos son diferentes segn las caractersticas de las personas. Por ejemplo, la mortalidad es muy diferente en algunos grupos de edad y la tasa cruda es slo una especie de promedio de las diferentes tasas especficas. A veces se habla impropiamente de que una tasa es especfica. Tal es el caso de la tasa de mortalidad por una causa determinada, por ejemplo tuberculosis. Si en el numerador figuran todas las defunciones por tuberculosis en el denominador debe estar toda la poblacin y es por lo tanto una tasa cruda por una causa especfica. Las tasas que habitualmente se usan en Salud Pblica se refieren a la mortalidad, la morbilidad la letalidad y la fecundidad. 3.1. Tasa bruta de mortalidad Su numerador incluye la totalidad de las defunciones de ambos sexos, de todas las edades y por todas las causas, registradas a lo largo de un ao calendario en un rea determinada. Su denominador es la poblacin total de esa misma rea estimada a mitad de perodo, es decir, al. 30 de junio del mismo ao. Tal como ocurre con todas las tasas de mortalidad debido a que en la poblacin expuesta al riesgo de morir slo a algunos individuos han muerto en el trmino del ao calendario, el denominador. es siempre mayor que el numerador y para obtener cifras enteras es necesario amplificar el cuociente entre defunciones y poblacin por una constante que, en el caso de la tasa bruta es 1.000 Tasa bruta de mortalidad = = N total de defunciones en un rea y ao determinados x 1.000 Poblacin total del rea al 30 de junio de ese ao Segn causa Tasa de mortalidad por causa = = Defunciones por una causa en un rea y ao determinados x 100.000 Poblacin total al 30/junio de ese ao y rea El denominador de las tasas por causa, en general, es la poblacin total y por consiguiente se trata de tasas crudas por una causa o grupo de causas especficas. La construccin de estas tasas implica separar el conjunto de todas las muertes diversos subconjuntos atendiendo a la causa de muerte. Dichas muertes, si no hay otra especificacin adicional, incluyen las de funciones de cualquier edad y ambos sexos que han ocurrido por una misma causa o grupo de causas. Debido a la necesidad de disponer de tasas por causas de muerte cuya magnitud en la poblacin puede ser muy pequea y a fin de que la magnitud de las tasas de mortalidad por las diferentes causas sea fcilmente comparable, la constante que en ellas se utiliza es 100.000. Tasa de mortalidad materna = Muertes debidas a complicaciones del embarazo, parto o puerperio x 1.000 ( - x 10.000). Nacidos vivos en ese ao y rea Se denominan muertes maternas aqullas cuya causa est relacionada con complicaciones del embarazo, parto o puerperio y ellas constituyen el numerador de la tasa. Su denominador podran ser las mujeres entre 15 y 49 aos pero el riesgo especifico que indica el numerador slo afecta a aquellas que en dicho ao han tenido un embarazo, por lo tanto lo ms adecuado seria colocar el nmero de embarazadas. Como habitualmente no se dispone de informacin fidedigna respecto a este dato, se ha convenido internacionalmente utilizar como denominador el nmero de nacidos vivos del mismo ao en que sucedieron las muertes del numerador.

La tasa de mortalidad materna se define como la relacin entre el nmero de defunciones por causas relacionadas con las complicaciones del embarazo, parto o puerperio ocurridas en un ao y rea dadas y el nmero de nacidos vivos en el mismo ao y rea. Se puede expresar por 1.000 6 por 10.000. 3.2. Tasas especficas de mortalidad Segn sexo: El riesgo de morir difiere segn el sexo. Por ello es conveniente medir por separado la mortalidad de hombres y de mujeres. Tasa Mortalidad masculina = = Defunciones masculinas en un rea y ao determinados x 1.000 Poblacin masculina al 30/VI de ese ao y rea Tasa Mortalidad Femenina = = Defunciones femeninas en un rea y ao determinados Poblacin femenina al 30/VI de ese ao y rea x 1.000

Igual que la tasa bruta de mortalidad, ambas tasas se amplifican por 1.000. Debido a que sus denominadores son deferentes estas dos tasas no se pueden sumar directamente para reconstruir la tasa bruta de mortalidad. Segn edad : La mortalidad difiere marcadamente segn la edad. Por eso corrientemente la medicin de la mortalidad requiere medir el riesgo de muerte por edades. A1 elaborar las tasas de mortalidad por edad puede llegarse a tal grado de especificacin que los subconjuntos de defunciones incluyan slo edades simples, es decir, se elabore una tasa para cada ao de edad. Sin embargo, lo habitual es que se trabaje con grupos de edades, usndose frecuentemente grupos quinquenales de edad o bien grupos de mayor, amplitud. Slo para las edades ms jvenes, en que el riesgo de morir cambia ms rpidamente con la edad, est justificado construir tasas de mortalidad por edades simples o an por intervalos que sean menos amplios que 1 ao. Tasa de mortalidad por edad = = Defunciones de un grupo de edad en un rea y ao determinados x 1.000 Poblacin de ese grupo de edad al 30/VI de ese ao y rea. Todas las tasas de mortalidad por edad se amplifican por 1.000. Estas tasas se pueden calcular separadamente para cada sexo. En tales casos la doble especificacin de sexo y edad debe hacerse tanto para las defunciones como para la poblacin. Ejemplo: Tasas mortalidad masculina de 20 - 24 aos = = Defunciones masculinas de 20-24 en un rea y ao determinados x 1.000 Poblacin masculina de 20-24 aos al 30/VI para ese ao y rea Un caso especial dentro de las tasas de mortalidad por edad lo constituyen las muertes de los menores de un ao. El riesgo de morir es considerablemente ms alto en el primer ao de vida que en las edades siguientes, salvo las edades muy avanzadas. Es precisamente en esta edad cuando la mortalidad es ms sensible a los efectos del ambiente y si las tasas son altas una buena proporcin de estas defunciones son evitables. Por ello esta medida es un indicador usual del nivel de salud e interesa particularmente conocerla. Tasa de mortalidad infantil= = Defunciones de nios menores de 1 ao en un rea y ao determinados x 1.000 Nacidos vivos en ese ao y rea Tal como en la tasa bruta de mortalidad y las tasas de mortalidad por sexo y edad, la constante que se utiliza en esta tasa es 1.000. El numerador de la tasa de mortalidad infantil incluye las defunciones de ambos sexos y por todas las causas que ocurren dentro de un ao calendario y en un rea determinada en los nios que an no han cumplido su primer ao de vida. Dada la naturaleza de su numerador la tasa de mortalidad infantil tiene el carcter de una tasa de mortalidad por edad. Por lo tanto, debera esperarse que su denominador fuera la poblacin de menores de 1 ao de edad,

estimada a mitad del mismo ao calendario a que se refieren las muertes. Sin embargo, hay razones metodolgicas por las cuales se hace necesario el uso de otro denominador. Entre estas razones est el hecho de que la poblacin menor de 1 ao se omite en los censos en una proporcin mayor que la de cualquiera otra edad, y por ello su tamao, para un ao censal y con mayor razn en las estimaciones para los aos posteriores al censo, son ms inexactas que. para los grupos de edades mayores. Por otra parte, los nios menores de 1 ao que existen en una poblacin depende del nivel y las tendencias de la natalidad en los aos recientes. En cambio, en los grupos de edades mayores los efectivos de poblacin san menas sensibles a las modificaciones de la natalidad en los aos inmediatamente precedentes. Es por esto, que para estar a cubierto de las variaciones que existen entre los pases respecto a la cabalidad de los censos y de las fluctuaciones que puede experimentar el nivel de la natalidad, se ha convenido internacionalmente en utilizar como denominador de la tasa de mortalidad infantil la cifra de nacidos vivos del ao, en lugar de la poblacin estimada de menores de l ao. La tasa de mortalidad infantil se subdivide en dos componentes: Tasa de mortalidad neonatal = = Defunciones s nios menores de 28 ds en un rea y ao determinados x l.000 Nacidos vivos en ese ao y rea Esta tasa mide la frecuencia de muertes que ocurren en los menores de 28 das en un ao calendario y en un rea determinada por cada 1.000 nacidos vivos en ese mismo ao y rea. Tasa de mortalidad infantil tarda = = Defunciones de nios de 28 ds a11 ms en un rea y ao determinados x 1.000 Nacidos vivos en ese ao y rea La tasa de mortalidad infantil tarda mide la frecuencia de muertes que ocurren en el primer ao de vida a partir del 28 da, en un ao calendario y rea dada por 1.000 nacidos vivos en ese ao y rea. As como entre las muertes del primer ao es conveniente distinguir las que ocurren en las primeras 4 semanas del resto de las muertes infantiles, tambin es til analizar separadamente las muertes de la primera semana de vida de las correspondientes a las 3 semanas siguientes. Si se refieren estos nuevos dos subconjuntos a la misma cifra de nacidos vivos del ao se obtienen dos nuevas tasas que sumadas equivalen a la tasa de mortalidad neonatal. Ambas se expresan igualmente por 1.000. La tasa de mortalidad de la primera semana se denomina tasa de mortalidad neonatal precoz y la de la segunda a cuarta semana tasa de mortalidad neonatal tarda Tasa de mortalidad neonatal precoz = = Defunciones de menores de 7 das en un rea y ao determinados x 1.000 Nacidos vivos en ese ano y rea Esta tasa mide la frecuencia de muertes que ocurren en la primera semana de vida en un ao calendario y rea dada por cada 1.000 nacidos vivos del mismo ao y rea. Tasa de mortalidad neonatal tarda = = Defunciones de nios de 7 a 27 das en un rea y ao determinados x 1.000 Nacidos vivos en ese ao y rea Mide la frecuencia de muertes que ocurren entre la segunda y cuarta se mana de vida en un ao calendario y rea dados por cada 1.000 nacidos vivos del mismo ao y rea. Tasa de mortalidad fetal tarda (o mortinatalidad)= = Defunciones fetales tardas (28 y + semanas de gestacin) en un rea y ao determinados x 1.000 Nacidos vivos en ese ao y rea Segn el momento de la gestacin en que se produce la muerte del producto de la concepcin, las defunciones fetales se clasifican en precoces (menos de 20 semanas de gestacin) intermedias (20a 27 semanas) y tardas (28 y ms semanas de gestacin). Las defunciones fetales tardas corresponden a los mortinatos y las precoces e intermedias a los abortos. El registro de las defunciones fetales tiene una omisin importante . Esta omisin afecta principalmente a las defunciones fetales precoces. Para las defunciones fetales tardas en cambia, el registro proporciona una informacin ms completa, aunque siempre subestima la magnitud real del problema. Su denominador tambin son los nacidos vivos por las razones expuestas en la tasa de mortalidad materna.

Tasa de mortalidad perinatal = = Defunciones fetales tardas + defunciones de nios menores de 7 das en un rea y ao determinados Nacidos vivos en ese ao y rea

x 1.000

Esta tasa mide el riesgo de muerte que implica para el producto de la concepcin el paso de la vida intrauterina a la vida extrauterina. 3.3. Medicin de la morbilidad El estudio la morbilidad tiene serias dificultades. Desde luego a diferencia de la muerte que ocurre una sola vez y en un momento bien definido y es un hecho permanente, la enfermedad puede ocurrir varias veces en la vida de un individuo, ya que se trata de una misma enfermedad o de enfermedades distintas y por ltimo ellas pueden tener duracin variable. En lo que se refiere a la medicin de la enfermedad se pueden distinguir tres tipos de unidades: 1. Personas enfermas, 2. Enfermedades, 3. Episodios de enfermedad Por ejemplo, si una persona tiene durante el ao 2 resfros y 3 episodios diarreicos, se contabilizar: a. persona enferma; b. 2 enfermedades; c. 5 episodios. Por este motivo el Comit de Expertos en Estadsticas de salud recomienda que en las estadsticas de morbilidad se especifique claramente a cual de estos tres criterios se refieren los datos. En la medicin de la morbilidad interesa fundamentalmente medir la frecuencia de la enfermedad en la poblacin, su duracin y su gravedad. 3.3.a. Medicin de la frecuencia de la enfermedad Se distinguen dos tipos: la incidencia y la prevalencia. -Tasa de incidencia se denomina incidencia al nmero de casos nuevos que se presenta en un perodo de tiempo. Se refiere a enfermedades que comienzan durante un perodo definido y la tasa mide la frecuencia de acontecimientos que ocurren durante el perodo. En la tasa de incidencia se incluyen en el numerador los casos nuevos (enfermedades o enfermos) registrados durante el periodo y el denominador se refiere a la poblacin estimada en el punto medio del perodo. Las tasas de incidencia pueden ser anuales pero tambin pueden referirse a cualquiera otra unidad de tiempo. Tasa de incidencia = = Nmero de casos nuevos en el perodo x 100.000 Poblacin a mitad del perodo La tasa de incidencia muestra la dinmica de la enfermedad y expresa el riesgo de enfermar que tiene la poblacin durante el perodo observado. -Tasa de prevalencia Prevalencia: es el nmero de casos (nuevos y antiguos) que se registran en un tiempo o momento dado, por ejemplo, el primer da de un mes o el ltimo da de un ao o el promedio diario dentro de un perodo de tiempo. La tasa de prevalencia tiene como numerador el nmero de casos que estn presentes en ese momento y como denominador la poblacin estimada para el mismo momento. Tasa de prevalencia= = Nmero de casos existentes en un momento dado x 100.000 poblacin en ese momento La tasa de prevalencia es una medida relativa cuyo sentido es comparable a la informacin que proporcionan los censos de poblacin y mide slo lo que existe o prevalece en ese momento. Es necesario hacer notar que en el numerador figuran todos los casos tanto los que se iniciaron antes del momento de medicin como los casos nuevos que aparecen en ese momento. Tratndose de enfermedades crnicas la prevalencia refleja mejor que la incidencia la magnitud del problema en la comunidad. 3.3.b. Medicin de la gravedad de la enfermedad Un aspecto de la morbilidad cuyo conocimiento tiene gran inters es la gravedad de la enfermedad. Ella puede medirse en trminos de la incapacidad que produce. Por ejemplo, una enfermedad menor es aquella que no es causa de ausencia del trabajo. Esto hace necesario tener una escala de incapacidad para medir la severidad del cuadro. A dems la medicin tiene el problema de que la gravedad depende no slo de la enfermedad sino que tambin de las

caractersticas de los in dividuos que la padecen. Por ejemplo, un resfro comn puede ser motivo para que una persona guarde cama, mientras otro individuo con un resfro de iguales condiciones contina desarrollando sus actividades. Por estas dificultades el ndice de gravedad de una enfermedad que ms se utiliza es la tasa de letalidad, que establece la relacin entre los fallecidos por una enfermedad y los enfermos que padecen esa enfermedad. Tasa de letalidad = = Nmero de defunciones por una enfermedad dada x 100 Nmero de enfermos de esa enfermedad Mide la frecuencia con que se produce la muerte en una enfermedad. Esta es la tasa que permite establecer el pronstico de las enfermedades. 3.3.c. Medicin de la duracin de la enfermedad La duracin de la enfermedad es un dato que interesa medir, entre otras razones, porque la enfermedad de mayor duracin significa mayor costo. Puede hacerse esta medicin en forma de un promedio. Por ejemplo, 60 enfermos de tifoidea estuvieron en cama un total de 1.080 das, la duracin de la enfermedad es entonces: Duracin = 1.080 = 18 das en promedio 60 Para la medicin de la duracin es necesario definir previamente qu se entiende por enfermedad. En este caso la duracin se refiere al tiempo promedio de estada en cama de los enfermos. Otras definiciones podran tomar en cuenta, por ejemplo, el da de los primeros sntomas o el da en que se hizo el diagnstico, etc. El promedio puede obtenerse no slo en relacin a los enfermos (60 en el ejemplo anterior) sino que puede obtenerse para episodios de enfermedad. Por ejemplo: en una escuela se registraron los resfros de los alumnos y se tuvo un total de 100 resfros en el ao. La duracin total de los resfros fue de 500 das. La duracin media de cada episodio fue, por lo tanto de 5 das. 3.4. Medicin de la fecundidad La medicin de la fecundidad se hace a travs de diferentes tipos de tasas que tratan de medir los niveles del fenmeno en un rea. Tasa bruta de natalidad Es una tasa simple que relaciona los nacidos vivos registrados en un rea geogrfica durante un ao con la poblacin total de esta rea. Tasa bruta de natalidad = = Nacidos vivos en un rea y ao determinados x 1.000 Poblacin total al 30/VI en ese ao y rea Como incluye a la poblacin total (de todas las edades y de ambos sexos) no puede interpretarse como una probabilidad porque en el denominador hay poblacin que no est expuesta al riesgo de tener un nio. Expresa ms bien la frecuencia de los nacimientos por cada 1.000 habitantes. Las tasas de natalidad son prcticamente las nicas medidas de fecundidad que es posible calcular para reas geogrficas pequeas y permite estudiar las tendencias del fenmeno en un rea determinada. Cuando se comparan reas diferentes hay que ser extremadamente cuidadoso en la interpretacin porque puede haber diferencias en la estructura de la poblacin especialmente en lo que se refiere a la composicin por edad de la poblacin femenina y esta diferencia puede por si sola determinar diferencias en las tasas de natalidad. Tasa de fecundidad general Es sta una tasa ms especfica ya que tiene un denominador la poblacin potencialmente expuesta al riesgo de tener un nacido vivo: la poblacin femenina en edad frtil. Tasa de fecundidad general = = Nacidos vivos en un rea y ao determinados x 1.000 Poblacin femenina de 15 a 49 aos al 30/VI en ese ao y rea A1 tomar en cuenta solamente a las mujeres y en el grupo de edad expuesto al riesgo es una tasa ms til para hacer comparaciones entre zonas o comparaciones internacionales. Tasa de fecundidad por edad Esta tasa tiene un nuevo refinamiento y es ms especfica ya que toma en cuenta no slo e1 sexo, sino la composicin por edad. En efecto, en su numerador se anotan los nacimientos de madres de un grupo d edad determinada y en el denominador la poblacin femenina de esa edad

Tasa de fecundidad por edad = = Nacidos vivas de mujeres de un grupo de edad en un rea y ao determinados Poblacin femenina de ese grupo de edad al 30/VI en ese ao y rea Ejemplo: Nacidos vivos de mujeres de 15 a 19 aos en un rea y ao determinados Poblacin femenina de 15 a 19 aos al 30/VI en ese ao y rea x 1.000

x 1.000

Por lo general las tasas de fecundidad por edad se calculan para grupos quinquenales de edades comprendidas entre los 15 y los 49 aos, es decir, se calculan 7 tasas de fecundidad por edad. Otras medidas de fecundidad Los estudios demogrficos ms finos de 1a. fecundidad utilizan adems de las tasas anteriores, las llamadas tasas de reproduccin que tratan de medir el aporte futuro de la fecundidad al reemplazo de la poblacin haciendo una correccin en. los nacimientos utilizando la proporcin de nacimientos femeninos. Como se trata de tasas usadas por especialistas remitimos al lector a los textos de Demografa para su estudio.

MEDIDAS DE RESUMEN
Una de las caractersticas de los fenmenos biolgicos es su variabilidad. As por ejemplo, el pesa o la presin arterial varan de persona a persona y tambin varan para un mismo individua en diferentes momentos. Sin embargo es posible determinar los valores esperados de estas medidas para distintos grupos y fijar lmites a su variacin habitual cuando se conoce su conducta o distribucin. Se sabe por ejemplo que los enfermos de hipertiroidismo tienen en general un peso inferior al de los individuos normales y que en algunas enfermedades renales est aumentada la presin arterial. Por otra parte, si se dice que el peso normal para un adulto de 170 cm de estatura es 66,6 Kg., no se espera que todo adulto de esta estatura tenga ese peso sino que se aceptan variaciones entre 59,8 y 74,7 Kg. La estadstica nos proporciona tcnicas que permiten describir la ubicacin de un grupo respecto a una escala de medicin y cuantificar la variabilidad de los valores individuales mediante las medidas de posicin y de dispersin respectivamente.

Medidas de posicin
Tienen por objeto la obtencin de un valor que resuma en si todas las mediciones. La mayora de ellas tratan de ubicar el centro de la distribucin, por lo que tambin reciben el nombre de medidas de tendencia central. Mencionaremos aqu el promedio aritmtico, la mediana, los percentiles y el modo.

Promedio o media aritmtica


Se define como la suma de los valores de todas las observaciones dividida por el nmero de observaciones Se representa por el smbolo x cuando se refiere a una muestra y por /u cuando se refiere a un universo. Para un grupo de observaciones:

En que: smbolo que denota suma de los valores que siguen n nmero de observaciones Xi valor de la variable x en la i sima observacin. El subndice i va de 1 a n, por lo tanto el valor de la primera observacin se simboliza por x1, el de la segunda, por x2 y as sucesivamente hasta xn.

Ejemplo: Las edades de 5 enfermos son: 50, 25, 45, 20, 30.

el promedio es:

Propiedades del promedio o media aritmtica


Entre las propiedades de la media destacaremos dos: 1. La suma algebraica de las desviaciones de cada valor de una serie con respecto a su media es cero: (xi - x) = 0 En el ejemplo anterior:

2. Si f1 nmeros tienen media x1. f2 nmeros tienen media x2 .... .... fk nmeros tienen media xk, entonces la media de todos los nmeros es:

Clculo del promedio en series agrupadas


Si los datos estn agrupados en una distribucin de frecuencias no conocemos el valor de cada observacin, slo sabemos en qu intervalo se encuentra. Por lo tanto para calcular el promedio habr que determinar, para cada intervalo, un valor que represente a todas las observaciones en l contenidas. Se elige, para este efecto el centro o marca de clase que lo simbolizaremos por x', para indicar que es el centro de la c ase j en- que j va de 1 a k siendo k el nmero de clases, o intervalos de la clasificacin. Corresponde al punto medio del intervalo y se calcula Promediando sus lmites reales, supongamos por ejemplo que tenemos una clasificacin por edad en grupos quinquenales de aos, y que el primer intervalo es de 0 a 4 aos. Por convencin la edad se aproxima al valor inferior de manera que un nio tendr 0 aos hasta el momento en que cumple 1 ao tendr 1 ao hasta que cumpla dos y as sucesivamente. Los lmites reales del intervalo que nos preocupa sern entonces; 0 el inferior y 5 el superior. Por lo tanto el centro de clase ser:

En otros casos es posible que la aproximacin se haga a la unidad ms cercana como sucede por ejemplo al determinar estatura. Si la unidad usada es el cm., una persona que mide 161,4 cm. tendr un valor aproximado de 161 cm, y una que mida 161.8 cm. un valor de 162 al hacer la aproximacin. En este caso una clase de 160 a 164 cm. tendr como lmites reales: 159.5 y 164,5 y su centro ser 162 cm. El hecho de tomar el centro del intervalo como valor para las observaciones del grupo se basa en el supuesto que los valores individuales se distribuyen en forma simtrica alrededor de ste, de modo que las subestimaciones se compensan con las sobreestimaciones. Una vez obtenido el centro de cada clase stos se multiplican por la frecuencia de observaciones en la clase correspondiente, lo que da la suma de los valores de las observaciones en el intervalo. Si las frecuencias se simbolizan por fj la suma en el primer intervalo ser:

Ejemplo : Protenas totales del plasma en prematuros normales de 15 das de edad

Mediana
Se define como el valor que deja igual nmero de observaciones de valores iguales o inferiores por debajo de l. como valores iguales o superior por encima de l. cuando los valores de la variable estn ordenados segn magnitud. La simbolizaremos por Md. Para su clculo se debe proceder de la siguiente forma:

1. Ordenar los valores de la variable segn magnitud. 2. Determinar la posicin correspondiente a la mediana. es decir, la posicin (n + 1)/2. en que n representa el nmero de observaciones. 3. Ubicar el valor correspondiente a la (n + 1)/2 ava observacin. Cuando el N de observaciones es par no hay una observacin central sino dos, en este caso se adopta el criterio de definir la mediana como el promedio de estas dos observaciones centrales. Ejemplo: Si la edad de 6 enfermos es: 45,43, 47, 52, 43, 55 para obtener la mediana, debemos en primer lugar ordenar la serie segn magnitud: 43, 43, 45, 47, 52, 55 la mediana ocupar el lugar (n + 1)/2 = 7/2 = 3.5, es decir ser el promedio entre la tercera y cuarta observacin. Md = (45 + 47) /2 = 46 aos

Clculo de la mediana en serie agrupada


Cuando la serie es muy larga, la parte ms laboriosa es el ordenamiento. Una forma de facilitar el clculo es agrupar la serie, lo cual modifica el procedimiento de clculo. Cuando los datos estn agrupados en intervalos de clases, la mediana no puede ser localizada con exactitud. Sin embargo si se supone que cada intervalo es compartido en partes iguales por todas las observaciones que en l se encuentran, se puede obtener una buena aproximacin. Si por ejemplo en una clase de edad de 55 a 64 aos (cuyos lmites reales son 55 y 65) se encuentran 270 observaciones, debemos suponer que. a cada observacin le pertenece un 270 avo del ancho del intervalo de 10 aos, o sea, le corresponde un intervalo de 0,037 aos. La ubicacin del valor-de la mediana ya no corresponder en este caso a una determinada observacin sino que a un valor que deja un 50% de los intervalos individuales por debajo y un 50% por encima, cuando estn ordenados por magnitud. Para n observaciones habr n intervalos y la mediana estar ubicada en n/2. En la siguiente serie agrupada en la columna de frecuencias acumuladas: Fj . la mediana estar en la clase 55 a 64 en que se encuentra n/2 = 975/2 =487,5, Como en las edades inferiores a 55 aos haba 430 casos acumulados deberemos llegar hasta el punto 487,5 por medio de una interpolacin lineal determinando el valor correspondiente a 57,5/ 270 avos del intervalo de 10 aos, entre 55 y 64. Distribucin de 975 individuos segn edad, lugar X, fecha Y

En general, la frmula de la Mediana ser:

Donde: L. inf n S W fMd

= lmite real inferior del intervalo que contiene la Mediana = nmero total de observaciones = suma de frecuencias acumuladas hasta el intervalo anterior al que contiene la mediana. = amplitud del intervalo que contiene a la mediana = frecuencia de observaciones en el intervalo que contiene a la Mediana

Percentiles, deciles y cuartiles


Adems de la mediana se puede calcular en forma similar otros dos valores que unidos a ella dividen la serie en 4 partes iguales de 25% de los casos cada una y que se denominan cuartiles. En igual forma pueden calcularse los deciles que dividen la serie en 10 partes iguales de 10% cada una y los percentiles que la dividen en 100 partes iguales de 1% de los casos cada una. Clculos de percentiles En cada serie ordenada los percentiles mantienen una posicin precisa. As por ejemplo, el percentil 59 divide la serie en dos partes: una que contiene e1 5'9% de las observaciones, las de valores menores, y la otra. el 41% restante. La mediana divide la serie en dos grupos, cada uno de los cuales contiene el 50% de las observaciones. De este modo tambin se la puede llamar percentil 50, o decil 5 cuartil 2. Supngase por otra parte, que es necesario saber qu valor es sobrepasado no ms de 33% de las veces; en otras palabras cul es el valor del percentil 67. En una serie simple, este valor corresponde a la

observacin. Donde p corresponde al percentil buscado. En series agrupadas el intervalo que contiene al percentil buscado se identifica de la misma manera que lo hacemos para la mediana. Se calcula y se ubica en la columna de frecuencias acumuladas en qu intervalo se encuentra este valor. En la serie agrupada del ejemplo anterior esta observacin cae en el intervalo 55 - 64 ya que el 67% de 975 es 653. Utilizando e1 mismo razonamiento que en el caso de la mediana aplicado ahora a percentiles se tiene:

Donde; L. inf . = lmite real inferior del intervalo que contiene el percentil n = nmero total de observaciones p = percentil buscado S = suma de frecuencias acumuladas hasta el al que contiene al percentil W = amplitud del intervalo que contiene al percentil FPp = frecuencia de observaciones en la clase del percentil Para el ejemplo:

Significa que 67% de las personas de dicho grupo tienen una edad igual inferior a 63.3 aos. Para el clculo de cuartiles y deciles, se consideran los percentiles correspondientes.

Modo
El modo de una serie de valores es aquel valor que se presenta por frecuencia, Por ejemplo en la serie: 2, 4, 5, 5, 5, 7, 8 el modo es 5. En una distribucin de frecuencias con intervalos de clases iguales, llamaremos intervalo a clase modal a la categora que tiene la mxima frecuencia. En un histograma ser fcil visualizar esta clase modal porque corresponder al intervalo frente al cul el grfico llega a su mayor altura. En una distribucin puede ocurrir que no exista modo, si todas las categoras tienen igual frecuencia o puede haber varios modos si definicin, diciendo que corresponde a un valor alrededor del tos tienden a concentrarse. Una distribucin que tiene un solo modo se llama unimodal. Cuando el nivel de medicin de la variable estudiada es nominal es la nica medida de posicin que se puede

Medidas de dispersin
Una medida de posicin no es suficiente para describir una distribucin debido a que no considera la variabilidad de los valores, caracterstica de los fenmenos biolgicos y ,que ya ha sido mencionada anteriormente. Por lo tanto una descripcin completa de una distribucin requiere que adems de la medida de posicin se cuantifique la dispersin. Entre las medidas de dispersin mencionaremos la amplitud, los percentiles y la desviacin standard.

Amplitud
Se define como la diferencia entre el valor mximo y el valor mnimo de una serie. Ejemplo: en la serie 2, 5, 6, 9, 10, 13 la amplitud es: 13 - 2 = 11 Es una medida de fcil obtencin y `comprensin, Sin embargo por depender slo de los dos valores extremos tiene serias limitaciones. As por ejemplo, es posible que aparezca en una serie un valor muy bajo o muy alto, lo que tendra como consecuencia una amplitud grande que no reflejara la verdadera variabilidad de los valores. Esto podra subsanarse eliminando valores extremos muy alejados, pero las reglas para hacer esta eliminacin seran de difcil formulacin y se prestaran a interpretaciones subjetivas.

Percentiles
A1 estudiar las medidas d posicin se defini el percentil. Es fcil imaginar que la distancia entre dos percentiles determinados servir para comparar la variabilidad de diferentes series de valores. Por ejemplo. si la diferencia entre los valores del percentil 95 y el percentil 5 es de 50 unidades para una serie y de 70 para otra sabremos que los valores de la segunda serie son ms variables. Una diferencia particular entre percentiles es la llamada AMPLITUD INTERCUARTILICA que se define como la diferencia entre el cuartil 3 (o percentil 75) y el cuartil 1 (o percentil 25).

Sin embargo no es este el uso ms importante de los percentiles como medidas de dispersin; Es en la determinacin de los lmites de variacin, habitual que los percentiles adquieren su mxima utilidad. As por ejemplo, si se necesita saber cul es la temperatura mxima que se puede aceptar como normal antes de declarar que una persona tiene fiebre es posible hacer un estudio de la temperatura de un grupo de individuos normales. Si, en este grupo de mediciones determinamos la temperatura correspondiente al percentil 99 por ejemplo, sabremos que temperaturas de esa magnitud o superiores slo se observan en un 1% de las personas normales, o en otras palabras son raras en una persona normal, y es lcito entonces catalogarlas d fiebre. E1 percentil que se usar de lmite entre lo que se vaya a considerar normal o habitual y 1o que se considerar anormal es arbitrario y de-pender de lo que se considere poco probable o raro. Es frecuente usar el percentil 95 el 99 como lmite superior y el percentil 1 5 como lmite inferior. Cuando en una distribucin se ha usado la mediana como medida de posicin se usarn los percentiles como medida de dispersin. .

Desviacin standard
Para medir la dispersin de los valores de un grupo de datos en que se ha usado el promedio como medida de posicin corresponde indicar cmo varan las observaciones con respecto a este promedio. Podra pensarse que la suma de .las desviaciones de la media sera una medida adecuada pero ya hemos visto que esta suma es-siempre igual a cero. (Propiedad 1 de la media) Esta dificultad se puede obviar elevando al cuadrado cada diferencia. Tenemos entonces: (xi - )2 Pero este valor adems de depender de la distancia de los valores con respecto a su media, depende del nmero de observaciones realizadas. Esto se soluciona dividiendo por el nmero de observaciones lo que nos da una medida llamada varianza y que simbolizaremos por 2 : 2 = (xi - ) 2/N. Cuando se trata de una muestra la varianza se calcula con las diferencias cuadrticas de la media muestral x y dividiendo por (n - 1), simbolizndose por:

La unidad de medida de esta expresin es el cuadrado de la unidad en que est medida la variable (si por ejemplo trabajamos con cm, la varianza que da expresada en cm2). Si obtenemos la raz cuadrada de la varianza nos queda una medida de la dispersin en la misma unidad de medida de la variable y a esta expresin la llamaremos desviacin standard y la simbolizaremos por o si corresponde a un universo. Cuando se trata de una muestra, se usar:

La desviacin standard refleja la dispersin de los valores con respecto al promedio: es grande cuando hay mucha dispersin y es pequea cuando hay poca dispersin. Clculo de la desviacin standard en serie simple Si la edad de 5 enfermos es 4,8, 10,11,17

Cuando tenemos muchos datos, esta manera de hacer los clculos es muy engorrosa y conviene usar otra frmula equivalente:

Clculo de la desviacin standard en serie agrupada


Cuando tenemos una serie agrupada podemos hacer los clculos en ella sin necesidad de conocer los valores individuales.

Ejemplo:

Eleccin de las medidas de posicin y dispersin


A1 tratar de describir un grupo de datos nos encontramos con el problema de decidir cules de las medidas deben usarse para caracterizar su distribucin. Un criterio para la eleccin de estas medidas ser el nivel de medicin de la variable. Sabemos que en una escala nominal slo se podr determinar el modo de la distribucin, es decir, la categora ms frecuente, y no ser posible dar una medida de dispersin ya que no existe un orden implcito en la clasificacin. En escala ordinal adems del modo se podr calcular la mediana y los percentiles que sean de inters. En este tipo de escala evidentemente se preferir la descripcin con mediana y percentiles ya que as se logra no slo una descripcin de la posicin del grupo sino que tambin de su dispersin. Cuando las mediciones se han hecho en escala de intervalos se presenta el verdadero problema de eleccin de las medidas. Dejaremos aparte al modo, que podr darse como informacin adicional y discutiremos las alternativas de describir una serie con mediana y percentiles o con promedio y desviacin standard. En este caso ser muy importante el tipo de distribucin que tengan los valores que deseamos describir. Cuando hay distribucin nos es desconocida o cuando es asimtrica, con acumulacin de valores en uno de los extremos de la distribucin. lo indicado ser su descripcin a travs de mediana y percentiles, Estas medidas nos aseguran en cualquier caso que un determinado porcentaje de las observaciones tiene valores iguales o inferiores a ellas y nos darn una imagen fcilmente comprensible de la distribucin. Para utilizar el promedio y la desviacin standard en la descripcin de un grupo de datos es necesario que stos cumplan ciertos requisitos en su distribucin si queremos que estas medidas tengan sentido. La distribucin deber ser simtrica y un modal y parecerse a lo que conoceremos ms adelante por distribucin normal. En una distribucin de este tipo suceder que entre el promedio ms menos una desviacin standard se encontrarn los valores de aproximadamente dos tercios de las observaciones, que alrededor del 95% de los valores est entre el promedio ms menos dos desviaciones standard y que prcticamente todas las observaciones quedan comprendidas entre los lmites dados por el promedio ms, menos tres desviaciones standard

LA DISTRIBUCION NORMAL
Un problema frecuente en el campo biolgico y ms especficamente en el campo mdico, es determinar si un individuo est sano o enfermo, si es normal o se aparta de la normalidad. Para llegar a tal decisin generalmente se miden algunas caractersticas del individuo y si los valores encontrados son los habituales en personas sanas se le considera como tal, considerndolo como enfermo o anormal en caso contrario. As por ejemplo, consideraramos normal que un adulto tuviera una presin arterial de 130 mm y anormal que tuviera una presin de 210 mm, porque este ltimo valor es raro de encontrar en adultos sanos. Para establecer los lmites entre lo habitual y lo raro es necesario conocer la distribucin de la variable en estudio, en individuos normales. E1 grfico que se utiliza para representar una distribucin de frecuencias de datos en escala de intervalos continua es el histograma. En este grfico la frecuencia en cada categora de la escala est representada por el rea de la barra correspondiente y el total o 100% de las observaciones por la suma de las superficies de todas las barras. Supongamos que conocemos la distribucin de los valores de glucosa sangunea de un grupo de individuos sanos y que la representamos en un histograma.. Basados en esta distribucin es posible fijar los lmites entre los que se encuentra la mayora de las personas sanas y fuera de los cuales se encuentran muy pocos individuos. Existe una distribucin de frecuencias tericas llamada distribucin normal, que puede considerarse como modelo adecuado para la distribucin de un gran nmero de variables en el campo biolgico, en el sentido que si se aumenta el nmero de observaciones y se disminuye el tamao de los intervalos de clasificacin, el grfico se asemeja al de la distribucin normal, distribucin que tiene las siguientes caractersticas: 1. Su grfico semeja una campana simtrica cuyas colas se extienden hacia el infinito tanto en direccin negativa como positiva (es asinttica respecto al eje horizontal). 2. El promedio, la mediana y el modo de la distribucin tienen el mismo valor. 3. La distribucin queda completamente definida por el promedio y la desviacin standard. El promedio nos informa sobre la posicin o ubicacin de 1a distribucin en el eje horizontal y la desviacin standard refleja la dispersin de los valores con respecto al promedio. 4. E1 rea bajo la curva comprendida entre los valores de x: - y + - 2 y + 2 - 3 y + 3 es aproximadamente 0.683 68,3 % es aproximadamente 0.954 95,4 % es aproximadamente 0.973 97,3 %

cualesquiera sean los valores de y Aunque tericamente la distribucin llega a - y a + en la prctica no se encuentran valores a ms de 3 desviaciones standard del promedio.

Calculo de reas
Supongamos que frente a una determinacin de glucosa en la sangre tengamos que decidir si este valor es normal o no. Se sabe que midiendo la glucosa sangunea en mg por 100 ml de sangre tiene distribucin normal con promedio 83 y desviacin standard 4. Supongamos que en un paciente se encuentra un valor de 90. Para determinar si es habitual tener un valor de esta magnitud o superior, estando sana, debemos conocer la probabilidad con que esto ocurre. Par calcular el rea bajo la curva normal a partir de determinado valor de la variable x sera necesario integrar la funcin de densidad normal. Para evitar este trabajo se han construido tablas de, reas de la normal reducida, que tiene promedio 0 y desviacin standard 1. Para poder usar estas tabulaciones es necesario transformar la variable original en que estn dados los datos de manera que su promedio y su desviacin standard tengan estos valores. Esta variable transformada se llama variable normal standard y se simbolizar por z en que

En el problema que nos preocupaba, habamos encontrado un valor de glucosa sangunea de 90. correspondiente es:

El valor de z

Esto quiere decir que 90 se encuentra a 1,75 desviaciones standard del promedio. En la tabla, z aparece hasta can das decimales, indicndose las enteros y el primer decimal en la primera columna y el segundo decimal en la primera fila. El centro de la tabla contiene los valores de la superficie baja la curva, expresada en relacin a 1 desde el valor de z hasta infinito, en la misma direccin. Es decir, para un z positivo, desde z hasta + y para un z negativo, desde z hasta - . En nuestro ejemplo, en que z = + 1,75 el rea corresponde al valor anotado en la interseccin de la fila correspondiente a 1,7 y la columna 0.05 y es 0.0401. Esto significa que segn el modelo de la distribucin normal que la probabilidad de encontrar valores iguales a superiores es 0.0401 o bien que hay un 4.01% de valores iguales o superiores a 90 mg por 100 ml de sangre. Si definiramos como raros, aquellos valores que ocurren menos de 5% de las veces en este caso deberamos declarar anormal la glicemia encontrada. La tabla permite determinar otras probabilidades, como por ejemplo, la de encontrar valores en determinado intervalo de la variable x. para lo cual habr que tener presente que la superficie total vale 1. Si por ejemplo quisiramos conocer la probabilidad de encontrar valores d e glicemia entre 75 y 85 mg, buscaramos z y su rea para ambos valores:

En el grfico, las reas correspondientes se indican por la parte sombreada.

Lo que nos interesaba, sin embargo, era el rea en blanco. Sumando las reas extremas y restndolas a la superficie total 1 encontramos la probabilidad buscada.

De modo que la probabilidad de encontrar -valores entre 75 y 85 es de 0.6915 o lo que es lo mismo, esperamos que el 69,15% de los individuos sanos tenga glicemia entre 75 y 85. La tabla permite solucionar no slo problemas relativos a la probabilidad de encontrar valores de z superiores, inferiores o entre determinado valor es de z sino que sirve tambin para encontrar los valores de z y consecuentemente los de x que delimitan reas preestablecidas. Supongamos que en el problema de la glicemia quisiramos establecer lmites inferior y superior para lo habitual. En primer lugar habra que definir el criterio de habitual y raro. Supongamos que consideramos raro un hecho que ocurre slo un 5% de las veces. Aplicado este criterio al lmite inferior de la glicemia, debemos encontrar el valor de z bajo el cual queda el 5% del rea de la distribucin, o en otras palabras que tiene probabilidad 0.05 de ocurrir. En este caso buscaremos en el centro de la tabla el valor 0,0500 y determinaramos a qu z corresponde. Lo ms prximo a este valor es 0,0505 que corresponde a z = 1,64. Este z tendr valor negativo para el lmite inferior. Para el lmite superior. rigiendo el mismo criterio, tendremos un valor de z lmite de + 1,64. Para encontrar los valores de x correspondiente slo resta despejar x de la frmula de z:

En el grfico los valores habituales corresponden al rea sombreada (90%) y los valores raros en personas normales, al rea en blanco (10%).

Come, se puede desprender del ejemplo. el lmite que se fije para lo que se considerar habitual y raro es arbitrario. Podra haberse dado un 2%, un 1% etc. dependiendo del criterio del investigador. Por ltimo debe quedar en claro que, por muy atractivo que resulta este mtodo para asignar probabilidades a un intervalo de valores o para determinar lmites de variacin habitual, esto slo tiene sentido cuando los datos con que se trabaja se conducen segn el modelo de la distribucin normal. Los requisitos que deben cumplir son: que sea una variable en escala de intervalos continua, que la distribucin sea unimodal y simtrica. que su histograma se asemeje al de la distribucin normal y que las frecuencias en los distintos intervalos de la variable estudiada coincidan aproximadamente con las que se esperan por la distribucin normal. Esta coincidencia se puede evaluar con otros mtodos estadsticos que no se detallan en este momento.

PROBABILIDAD
Un concepto usado corrientemente en la vida diaria
Un carcter comn a los hechos cuya frecuencia se expresa en trminos de probabilidad, es la incertidumbre previa sobre la ocurrencia del hecho en un caso particular. A pesar de ello, puede existir la necesidad de predecir el resultado para adoptar una decisin. Por ejemplo, cada vez que se hace un viaje en avin no se conoce con certeza si ocurrir o no un accidente: hay una pequea probabilidad de que ste ocurra y, complementariamente, una alta probabilidad de que no suceda. Tomar la decisin de hacer el viaje supone predecir que no habr un accidente en su curso, prediccin que se basa en la probabilidad antedicha.

Por qu interesa en medicina


An con las tcnicas actuales, no es posible identificar y cuantificar todos los factores, mltiples y complejos, que determinan la ocurrencia de los hechos biolgicos. Con todo, en medicina clnica y ante un enfermo, nos vemos forzados a hacer un diagnstico y pronstico probables, y a formular un tratamiento. Por ejemplo, uno de los factores pronsticos en una persona quemada, es la extensin de la quemadura. La experiencia muestra que cuando sta no excede al 20% de la superficie corporal, fallecen 10% de los enfermos; cuando la quemadura alcanza la mitad de toda la superficie corporal, la mortalidad llega a 95%. Ante una persona que tiene una quemadura de escasa extensin, diramos que el Pronstico es benigno porque lo ms probable es que sobreviva; este pronstico no tiene seguridad absoluta: tal enfermo podra ser precisamente uno de los que mueren a pesar de que las quemaduras no son extensas. Lo importante es que es posible hacer predicciones probabilsticas en base a la experiencia anterior, PREDICCIONES QUE SON VALIDAS. con restricciones. PARA GRUPOS DE INDIVIDUOS. Por ejemplo: la tasa de mortalidad general en Chile flucta alrededor de 9%. y esto significa que de cada 1.000 chilenos van a morir 9 en el plazo de un ao; esta prediccin se cumplir con bastante exactitud sin que seamos capaces de predecir quines son los que vivirn y quines morirn.

Definicin y medicin de probabilidad


Ejemplo: * 2En un estudio hecho en el Hospital Calvo Mackenna sobre frecuencia de parsitos en nios se encuentra: 22 casos de scaris 178 casos sin scaris 200 nios estudiados Si se elige al azar uno de estos 200 nios cul es la probabilidad que l est infestado con este parsito?

Simbologa:
n mA P(A) = nmero de nios examinados = nmero de casos posibles = nmero de puntos en el espacio muestral = nmero de nios con hecho A cuya probabilidad se estudia = nmero de casos favorables''. = probabilidad de ocurrencia de A.

entonces: P(A) = mA/n = 22/200 = 0,11 o bien 11%

Definicin:
LA PROBABILIDAD DE QUE UN HECHO A OCURRA ES LA RAZON ENTRE EL NUMERO DE PUNTOS MUESTRALES QUE CORRESPONDEN A LA OCURRENCIA DE A (CASOS FAVORABLES) Y EL TOTAL DE PUNTOS (CASOS POSIBLES). Los puntos que representan todos los posibles resultados de una experiencia forman el espacio muestral.
2

Adaptacin de "Encuesta enteroparasitolgica en Hospital Calvo Mackenna" Bol. Chile. Parasit. XVII: 93-100. Oct.-dic. 1962.

"Espacio muestral de un experimento es un conjunto de elementos tal que cualquier resultado del experimento corresponde exactamente a un elemento del conjunto. Un elemento en el espacio muestral se designa como punto muestral3 En nuestro ejemplo el experimento consiste en elegir uno de los 200 nios al azar. El resultado del experimento puede ser de dos tipos: con scaris. sin scaris. El espacio muestral est constituido por 200 elementos (nios); cada nio es un punto muestral. La definicin de probabilidad que hemos dado es de carcter aplicado y representa la frecuencia relativa con que ocurre determinado hecho si el experimento se repite indefinidamente. El espacio muestral puede representarse grficamente:

El modelo que se est explicando se caracteriza porque se asigna una igual probabilidad a todos los puntos: cualquier nio puede ser elegido y su eleccin es igualmente probable. En este primer esquema, el ms simple, ntese considera un solo hecho: infestacin por scaris. En consecuencia la probabilidad de que A no acontezca (no infestacin) es:

Esto significa que las probabilidades complementarias suman uno, constituyendo certeza. P (A) + P (A) = 1

Si en el total de 200 nios no hubiera ninguno infestado con scaris, P(A) = 0. A la inversa, si todos tuvieran scaris, P(A) = 1. En consecuencia toda probabilidad tendr un valor entre 0 y 1: 0P 1 si si P = 0 hay imposibilidad de ocurrencia P = 1 hay certeza de ocurrencia

A veces la probabilidad puede ser determinada "a priori". Por ejemplo en el lanzamiento de un dado todas las caras tienen igual probabilidad de ocurrencia y podemos establecer de antemano todos los casos posibles y los favorables. Por ejemplo, la probabilidad de obtener un seis es 1/6, porque los casos posibles en un lanzamiento son: 1 - 2 - 3 - 4 - 5 - 6, y el nico caso favorable es 6. En muchas otras ocasiones la probabilidad se determina "a posteriori", en base a la frecuencia relativa observada en experiencia previa. Por ejemplo, en 1958 el total de nacidos vivos en Chile fue de 250.247. De ellos, 127.432 fueron hombres y 122.815 fueron mujeres. De estos datos deducimos que la probabilidad de que un nacido vivo sea hombre es de: 127.432 / 250.247 = 0,5092 (50,92%)

Mosteller. Rourke, Thomas. "Probability and Statistics" Addison- Wesley. 196P

Teorema de adicin de probabilidades


A menudo interesa la ocurrencia de ms de un hecho. En el ejemplo usado anteriormente, se investig tambin la existencia de otro parsito, la lamblia, con los resultados siguientes:

Originalmente tenamos dos probabilidades: que un nio elegido scaris [P (A) = 0,11] o que no los tuviera [P (A) = 0,89] Ambas probabilidades sumaban 1. Vemos que al agregar un dato ms a nuestra una serie de otras probabilidades. Denominemos por A y el de tener lamblias por B. La certeza actual =1, est constituida por la suma de las siguientes probabilidades:

Se puede ver fcilmente que lo probabilidad de que un nio elegido tenga cualquiera o ambas parsitos es la suma de P(AB) + P(AB) + P(AB) = 0,06 + 0,41 + 0,05 = 0,52. Simbolizaremos esta Situacin por P(A o B) en que "o" significa; scaris o lamblias o ambos. Esto es equivalente a decir que P(A o B) es 1a probabilidad de que ocurra POR LO MENOS UNO de los hechos A, B. Si comparamos con las probabilidades simples originales, vemos que P(AB) difiere de P(A) en que en el numerador se ha restado a los 22 casos con scaris los 10 que adems tenan lamblias. A su vez P(AB) difiere de P(B) en que en el numerador a los 92 casos con lamblias se les ha restado los 10 casos que adems tenan scaris. Luego:

Este es el teorema de adicin de probabilidades: la probabilidad de que ocurra por lo menos uno de los hechos A o B es la suma de las probabilidades simples de ocurrencia de cada uno de ellos menos probabilidad de que ambos ocurran simultneamente. Para nuestro ejemplo: P (A o B ) = 22 ? + 92/200 - 10/200 = 0,52

Grficamente se puede representar el espacio muestral de la siguiente manera:

Es posible que los dos hechos A y B sean MUTUAMENTE EXCLUYENTES es decir, que no pueden acontecer conjuntamente. En tal caso P(AB) = 0 y el Teorema de Adicin se simplifica a:

Grficamente el espacio muestral sera:

Este teorema se puede generalizar a ms de dos hechos. Por ejemplo, en 1963 se notificaron 28.543 casos de Sarampin en Chile, de los cuales 13.768 ocurrieron en Santiago, 2.709 en Valparaso y 2.186 en Concepcin. Estos eventos son mutuamente excluyentes. La probabilidad de que un caso de sarampin haya ocurrido en Santiago. Valparaso o Concepcin es: 13.768 / 28.543 + 2.709 / 28.543 + 2.186 / 28.543 = 18.663 / 28.543 = 0,65

Teorema de Composicin de Probabilidades


Entendemos por probabilidad compuesta o conjunta, la probabilidad de simultneamente. En nuestro ejemplo sera la probabilidad de que un nio lamblias. esto es, P(AB). Con el fin de deducir una frmula para P(AB) es necesario introducir CONDICIONAL. Esta es la probabilidad de que ocurra un hecho cuando que dos o ms hechos ocurran tuviera al mismo tiempo scaris y el concepto de PROBABILIDAD se establece como condicin que

previamente haya ocurrido otro hecho. En smbolos se representa por: P(A/B) = probabilidad de que ocurra A habiendo ocurrido previamente B. En nuestro ejemplo P(A/B) sera la probabilidad de encontrar un nio infestado por scaris en circunstancias de haberse comprobada que portaba lamblias. E1 espacio muestral de casos posibles se reduce entonces a los 92 nios infestados por lamblias y los casos favorables son los 10 nios que adicionalmente tienen scaris:

Dividiendo numerador y denominador del trmino derecho por n tenemos:

Luego:

Este resultado es equivalente a 10/200 = 0,05 Este es el TEOREMA DE MULTIPLICACION DE PROBABILIDADES O PROBABILIDAD COMPUESTA O CONJUNTA. Habramos llegado al mismo resultado aplicando este .e rema desde el punto de vista de 1a probabilidad condicional de tener lamblias cuando previamente se comprueba la existencia de scaris: P(AB) = P(A) . P(B/A) = 22/200 . 10/22 = (0,11) (0,4545) = 0,05 (5%)

Hechos independientes
Dos o ms hechos son independientes cuando la ocurrencia de uno de ellos no afecta la probabilidad de ocurrencia de l o de los otros. En tal caso, es claro que: P(A/B) = P (A) y P(B/A) = P(B) con lo cual el teorema de composicin de probabilidades se transforma en

LOS HECHOS INDEPENDIENTES JAMAS PUEDEN SER MUTUAMENTE EXCLUYENTES. Siendo P(A) mayor que 0 y P(B) mayor que 0. su producto nunca podr ser 0. Desde otro punto de vista; s la ocurrencia de un hecho hiciera imposible la ocurrencia de otro hecho, como sucede en acontecimientos mutuamente excluyentes estos hecho lgicamente no son independientes. Comparemos ahora lo que sucede cuando dos hechos son independientes y cuando no lo son. En una escuela se examina 1.500 alumnos para establecer su estado nutritivo en relacin al sexo. Se define:

Si el resultado es

Son A y B independientes? P(B/A) = 100/1.000 = 0,10 P (B) = 150/1.500 = 0,10 Luego A y B son independientes

La probabilidad de que un nio elegido al azar de esta escuela sea hombre y desnutrido ser por lo tanto: P(AB) = P(A) . P(B) = (1.000/1.500) (150/1.500) = 2/3 . 1/10 = 2/30 = 0.067 Si, en cambio, el resultado hubiera sido el siguiente:

En este caso P(B/A) = 50/1.000 = 0,05 P (B) = 100/1.500 = 0.067 Luego A y B no son independientes, es decir, la desnutricin depende del sexo. La probabilidad de que un nio elegido sea hombre y desnutrido ser entonces: P(AB) = P(A) P(B/A) = (1.000/1.500) (50/1.000) = 50/1.500 = 0,033 Es errneo, en cambio: P(AB) = P(A) P(B) = (1.000/1.500) (100/1.500) = 2/45 = 0,044 En realidad sabemos que la situacin conjunta de ser hombre y desnutrido ocurre slo en 40 nios de un total de 1.500, y su probabilidad es 50 /1.500 = 0,033.

DISTRIBUCION BINOMIAL
El problema
Con cierta frecuencia en medicina una investigacin consiste en la obtencin de un determinado nmero de unidades de observacin, en cada una de las cuales el hecho en estudio puede expresarse en slo dos alternativas. Por ejemplo: - Se seleccionan 100 escolares a quienes se les hace una reaccin de tuberculina, que puede ser "positiva" o "negativa", - Se ensaya una nueva droga en 30 enfermos y los resultados individuales se clasifican en "curacin" o "fracaso". - Se inoculan 20 ratas con una substancia presumiblemente txica y se observa en cada animal si "muere" o "sobrevive". Entonces surge la pregunta de cul es la probabilidad de que se observe un nmero dado de veces una de estas alternativas. Por ejemplo, en el experimento con la nueva droga se observan 20 curaciones (67,6 de curaciones); con la droga hasta ahora usada las curaciones eran habitualmente 50% y en 30 enfermos deberamos esperar 15 curaciones. Si la nueva droga no es mejor que la antigua, cun probable es que se registren 20 mejoras en vez de 15 por mera suerte en una experiencia con slo 30 enfermos? Problemas de esta especie pueden ser resueltos utilizando la distribucin binominal si se cumplen determinados requisitos.

Requisitos para utilizar la distribucin binomial


l. Debe haber un nmero fijo de "ensayos" 100 escolares, 30 enfermos, 20 ratas, etc. 2. En cada ensayo, los resultados posibles son necesariamente slo dos, a menudo denominados "xito" y "fracaso". La idea de binomio indica justamente dos nombres, dos trminos. En la prctica los resultados posibles podran ser ms pero si se agrupan en dos alternativas el modelo, es aplicable. Por ejemplo, los resultados clnicos de un tratamiento podran ser: curacin, mejora, estacionamiento, agravacin, muerte; podramos llamar "xito" a los dos primeros y "fracaso" a los restantes. 3. La probabilidad de "xito" debe ser igual en todos los ensayos Por ejemplo, s se sabe que el porcentaje de nios tuberculino - positivos en las escuelas primarias de Santiago es 30% y se toman al azar 10 de ellos, podemos suponer que la probabilidad al elegir cada nio es 0.3 de que sea positivo. 4. Los ensayos deben ser independientes entre s Esto es, la ocurrencia de una alternativa en un ensayo no debe afectar la probabilidad de ocurrencia de ella en ninguno de los otros ensayos. En el ejemplo de la droga ensayada en 30 diferentes enfermos, la probabilidad de curacin del segundo enfermo es igual haya o no curado el primer enfermo. Si esta probabilidad fuera 0.70, entonces la probabilidad de que el primero y el segundo enfermo curen ser (0,70) (0,70) = 0,49.

Simbologa
n = nmero de ensayos, siendo n > 1 p = probabilidad de "xito" en un ensayo; 0 < p < 1 q = 1 - p = probabilidad de "fracaso" en un ensayo x = nmero de xitos en n ensayos = 0,1,2, ........... n Un ejemplo. En la difteria larngea la letalidad es habitualmente de 10%. Si se eligen dos de estos enfermos al azar. Cul es la probabilidad de que uno de ellos muera y el otro sobreviva? En este caso el nmero de ensayos es dos enfermos, el curso de la enfermedad puede terminar en sobrevida (S) o muerte (M), se han elegido dos casos cualquiera a los cuales podemos atribuir una probabilidad "a priori" de sobrevivir igual, y lo que suceda al primer enfermo no afecta la evolucin del segundo.

Luego: n=2 p = probabilidad de sobrevivir = 0,90 q = probabilidad de morir = 0,10 x = nmero de xitos, esto es, sobrevivientes Se pide P(x = 1) = probabilidad de observar un sobreviviente El nmero de puntos muestrales es 4, porque el primer enfermo puede sobrevivir o morir (dos alternativas) y el segundo tambin (dos alternativas), lo que da 2 x 2 = 4 resultados posibles. El espacio muestral es: E = (SS, SM, MS, MM) Cada uno de estos puntos representa una probabilidad conjunta de dos hechos independientes, que corresponde al producto de las probabilidades simples. Por ejemplo: P (SS) = P (S) . P(S) = p . p = p2 = (0.90) (0,90) =0,81 De modo similar se obtiene:

Se ha pedido la probabilidad de obtener un sobreviviente. Aplicando el teorema de adicin de probabilidades (que haya un sobreviviente, sea el primer enfermo o el segundo), en hechos que son mutuamente excluyentes, se obtiene: P(x = 1) = P(SM U MS) = P(SM) + P(MS) = 2 pq = 2(0,09) = 0.18 Se ve de inmediato que, tratndose de 2 ensayos, la probabilidad de tener 2, 1 0 xitos, se obtiene por los trminos de expansin del binomio: (p + q) 2 = p2 + 2 pq + q2 Si se hubieran elegido, en similares condiciones, 3 enfermos, (n = 3), el espacio muestral tendra: 2 x 2 x 2 = 23 = 8 puntos, cuyas probabilidades son:

Es decir, cuando n = 3, se obtienen las probabilidades 3, 2, 1 0 xitos, por la expansin del cubo del binomio: (P + q) 3 = p3 + 3p2q + 3pq2 + q3 El caso general para n ensayos Cul es la probabilidad de obtener en general x xitos en n ensayos si la probabilidad de xito es p? Designemos esta probabilidad por: P (x, n, p) Si en n ensayos hay x xitos, debe haber tambin (n -x) fracasos. La probabilidad de obtener x xitos, puesto que se trata de hechos independientes, es p multiplicado x veces por s mismo, es decir, px . De igual modo, la probabilidad de obtener exactamente (n - x) fracasos es q n-x . De este modo, La probabilidad de obtener. EN CUALQUIER ORDEN exactamente x xitos y (n - x) fracasos es: pxq (n-.x) (1)

El hecho de que el orden en que aparecen xitos y fracasos no altera esta probabilidad depende de que la independencia implica multiplicacin de las probabilidades simples, y el orden de estos factores no altera el producto. Hemos visto que existen varias modos diferentes por los cuales pueden presentarse las x xitos y los (n - x) fracasos. Por ejemplo, dos muertes y un sobreviviente en el ejemplo antedicho, pueden presentarse de tres modos diferentes: MMS MSM SMM

Es necesario completar la frmula (1), que especifica la probabilidad, con un coeficiente que indique todos los arreglos distintos de n ensayos con x xitos. Este numero corresponde a las permutaciones de n elementos de dos clases, de los cuales x son de un tipo (n - x) son de otro: este coeficiente corresponde tambin a las combinaciones de n elementos tomados de a x cada vez:

n! es el smbolo para n factorial que significa n(n-1) (n-2)........ (n-n+l) Para el ejemplo anterior en que n = 3, x = l, n-x=2

Por definicin 0! = 1, de modo que las maneras de obtener 3 xitos en 3

ensayos = (n) Existen pues x puntos que corresponden a exactamente x xitos que forman el subconjunto de hechos "favorables". Cada punto tiene la probabilidad indicada en (1). La probabilidad total de x xitos en n ensayos se obtiene por la suma de estas probabilidades.

Por ejemplo, en el caso de los tres enfermos de difteria, la probabilidad de obtener un solo sobreviviente (xito) y por tanto dos muertes (fracasos) es:

En la serie de trminos obtenidos por el desarrollo del binomio (p+q)n el exponente de p disminuye de x = n hasta x = 0. Si p es la probabilidad de xito, los trminos expresan ordenadamente las probabilidades de obtener n, n-l, n-2. ....... 0 xitos. En el ejemplo utilizado: (p+q)3 = p3 + 3 p2q + 3 p q2 + q3

reemplazando:

Probabilidad de obtener x sobrevivientes x = 3 x = 2 En general, si p = probabilidad de xito:

x=1 x=0

Probabilidad de obtener

n xitos

n1 xitos

x xitos

0 xitos

El hecho de que (p + q)n = 1, indica que sus trminos corresponden a las probabilidades de todos los puntos muestrales. Estos puntos son 2n, porque en cada ensayo , por definicin, existen dos alternativas: xito o fracaso. El nmero total de trminos, que es el nmero total de resultados posibles del experimento, es n + l. Para cada trmino, los exponentes de p y de q, que son x y (n-x), suman n. puesto que el total de ensayos se compone slo de xitos y fracasos. Los coeficientes son simtricos, porque:

Sin embargo, la distribucin de probabilidades no es simtrica, a menos que p = q = 0.5 Entonces :

Por ejemplo, si se lanzan al aire 6 monedas, es igualmente probable obtener 6 caras que obtener 6 sellos, y esta probabilidad es (0.5)6. Esta condicin se observa en algunos experimentos en gentica. Si se tiene un hbrido Aa, es igualmente probable que un gameto reciba el gene dominante A o el recesivo a. Los grficos que siguen muestran en (1) y (2) la simetra producida por p = 0. 5. El aumento de n = 10 a n = 30 aumenta la amplitud en el nmero de xitos: estos varan entre 1 y 9 en el primer caso, entre 9 y 21 en el segundo. Pero si el nmero de xitos se expresa como un porcentaje, se ve que el aumento en el tamao de la muestra reduce la variacin. Para n = 10 esta variacin es de 10 a 90%, es decir, 80% para n = 30 vara entre 30 y 70% es decir, 40% Esto es, si hacemos una experiencia con un mayor nmero de enfermos, los resultados porcentuales obtenidos sern menos variables por la influencia del azar. En el grafico (3) se observa una distribucin muy asimtrica para p = 0.2 y n = 10. Sin embargo si n aumenta a 30, la distribucin tiende a la simetra.

En general, puede decirse que la distribucin binomial puede considerarse simtrica si: np 5 y nq 5

Esta propiedad tiene importancia porque permite utilizar la curva normal como una aproximacin del binomio, bajo determinadas condiciones.

Aplicacin a un experimento de muestreo


En un trabajo prctico se ha hecho un experimento que consisti en obtener repetidas muestras aleatorias de 10 bolitas de un saco que contiene muchas bolitas y de las cuales 40% tienen determinado color. Suponemos que esto representa la extraccin de muestras aleatorias de 10 nios, de una escuela donde se saba que exista un 40% de nios tuberculino-positivos. El propsito era ver si el porcentaje de positivos observado en cada muestra poda diferir por simple azar de la proporcin existente en la Escuela. Esta diferencia es importante porque en la prctica el problema consiste en estimar la proporcin desconocida que existe en un universo o poblacin, basados slo en los resultados de una muestra. La distribucin obtenida en 570 muestras se presenta en la tabla adjunta. Las probabilidades obtenidas por el desarrollo del binomio (0,4+0,6)10 se presentan en la tabla y se ve que coinciden bastante bien con los resultados del experimento:

Se observa que en el experimento en slo 25,1% de las muestras se obtuvo el 40% de positivos existentes en la Escuela. Si hubiramos inducido a la Escuela los resultados de una de estas muestras, en 100% - 25,1% = 74,9% de las veces habramos llegado a una conclusin errnea. Este error deriva del hecho mismo de usar una muestra (ERROR DE MUESTREO): desaparecera si pudiramos examinar a todo el universo o poblacin. De acuerdo al experimento, este error es frecuente e inevitable. Esto significa que toda induccin cientfica tiene cierto grado de incertidumbre. La distribucin obtenida es unimodal y centrada en el % existente en la Escuela: de todos los resultados posibles, el ms probable es la tasa verdadera. La distribucin es aproximadamente simtrica. A medida que el porcentaje de la muestra se distancia ms de 40% (es decir, a medida que el error de muestreo aumenta), la frecuencia de las muestras es menor. Esto es, la

probabilidad de cometer grandes errores es baja; es ms probable obtener una muestra que coincida con la tasa existente en la Escuela o que no sea muy diferente de ella. Si las bolitas se han extrado una a una, reponiendo la bolita extrada al saco despus de cada ensayo para mantener constante p = 0,4, es evidente que sta es una distribucin binomial donde: n=10 p=0,4 q =0,6 EN SUMA. la induccin basada en muestras est expuesta inevitablemente. a error de muestreo. No obstante, disponemos de una teora de probabilidad que permite estimar este error, si se cumplen determinados supuestos. Por ejemplo. cul es el riesgo de obtener una muestra que difiera en 30% o ms de la verdadera tasa existente en la Escuela en el experimento que se analiza? Estas muestras sern las que tengan 0, 1, 7, 8, 9 10 positivos. Luego, la probabilidad de cometer este error es: la suma de las probabilidades individuales de los trminos del binomio correspondientes: 0,6 + 4,0 + 4,2 + 1,1 + 0,2 = 10,1% La aplicacin de la teora de la probabilidad a la induccin basada en muestras es lo que se conoce como inferencia estadstica.

INFERENCIA
Se define la inferencia estadstica como aqulla parte de la metodologa estadstica que, a travs de un razonamiento inductivo, extiende los resultados obtenidos en las muestras a su universo de origen. Dos son los objetivos de la inferencia: la estimacin de parmetros y la docimasia de hiptesis, esta ltima ms conocida coma prueba de significacin estadstica. Antes de explicar en qu consisten la estimacin de parmetros y la docimasia de hiptesis conviene definir algunos trminos. Se llama PARAMETRO a una medida que describe un universo. Cuando la medida correspondiente describe una muestra se la denomina ESTADISTICA. Supongamos por ejemplo que se conocen las estaturas de todos los individuos de un universo. Si quisiramos una medida que describa la posicin central de este universo calcularamos el promedio de todas las estaturas, lo que constituira el parmetro x Si slo tuviramos informacin sobre las estaturas de una muestra extrada de este universo, el promedio x calculado en la muestra sera la estadstica correspondiente. Si por otra parte nos interesara la dispersin de los valores individuales de las estaturas, calcularamos la desviacin standard que para el universo se simbolizar por x y para la muestra por sx. El procedimiento de clculo del parmetro x difiere en este caso del de la estadstica sx ya que en esta ltima la suma de las desviaciones cuadrticas se divide por (n - 1) en vez de dividir por N como se hace en el universo. Aceptando estas definiciones la ESTIMACIN DE PARRMETROS consiste en el clculo de estadsticas para muestras, con el fin de obtener informacin sobre el valor de los parmetros del universo. Esta induccin se basa en la teora de probabilidades y slo es posible cuando se conoce la conducta o "distribucin muestral" de las estadsticas. Cuando en una investigacin explicativa se verifica la veracidad de la hiptesis los procedimientos estadsticos empleados, en la prueba de significacin ayudan al cientfico a tomar una decisin respecto a la hiptesis planteada. La DOCIMASIA DE HIPOTESIS consiste en determinar la probabilidad de ocurrencia del resultado obtenido en la investigacin basndose en la distribucin muestral de la estadstica utilizada para medir tal resultado.

Distribuciones muestrales
Tanto para la estimacin de parmetros como para la docimasia de hiptesis se mencion la importancia de conocer las distribuciones mustrales. Estas adoptan diferentes formas segn las estadsticas investigadas. Para entender lo que es una distribucin muestral analizaremos un ejemplo concreto.

Supongamos que disponemos de un universo de fichas que llevan cada una un nmero que corresponde al valor de una variable distribuida normalmente con x = 500 y x = 100. Si de este universo extraemos repetidas muestras de tamao n = 25 (reponiendo cada ficha al universo antes de sacar la prxima) y para cada muestra calculamos el promedio de los valores que aparecen en las fichas. ocurrir que la mayora de los promedios estarn cerca del x del universo, es decir de 500, y pocas estarn muy alejados de este valor. Si los resultados se llevan a un grfico este histograma tendr el aspecto de una curva normal. Por lo tanto podramos describir esta distribucin con el promedio y la desviacin standard de los promedios muestrales. Veremos que en nuestro ejemplo el promedio de los promedios estar cerca de 500 y su desviacin standard tendr un valor cercano a 20. A travs de la teora estadstica se puede demostrar que si se extraen todas las distintas muestras posibles de tamao n de un universo con x y x conocidos, los promedios de estas muestras se distribuyen normalmente con

en el presente ejemplo

Supongamos ahora que en vez de tener un universo de fichas con valores en escala de intervalos continua tuviramos un universo con una variable en escala nominal, por ejemplo un universo de bolitas en que e1 40% de las bolitas fueran azules y el 60% grises. En este caso el parmetro del universo es P = 0,4 la proporcin o tasa de bolitas azules, siendo Q su complemento: 1 - P, la proporcin de bolitas grises. A1 sacar repetidas muestras de tamao n = 20 de este universo (reponiendo las bolitas despus de cada extraccin) la proporcin p de bolitas azules de las muestras se distribuir en forma aproximadamente normal con

en el presente ejemplo:

Nota: Es aceptable describir esta distribucin como normal siempre que la muestra tenga tamao suficiente para que nP y nQ tengan valores iguales o superiores a 5. Estos dos ejemplos de muestreo de un universo nos servirn para entender el procedimiento de estimacin de parmetros. Para comprender las distribuciones muestrales que se utilizan en la docimasia de hiptesis ser til considerar los siguientes casos: Supongamos que en vez de extraer cada vez una muestra de nuestro universo de fichas, sacamos pares de muestras de 25 fichas cada una y que estudiamos la diferencia entre los promedios de estos pares. Si llamamos x1 al promedio de la primera muestra del par y x2 al promedio de la segunda muestra. ocurre que la estadstica x1 - x2 se distribuye normalmente con

En el presente ejemplo:

Si igual procedimiento se sigue en el universo de bolitas, extrayendo pares de muestras de tamao n = 20 la distribucin de diferencias entre porcentajes de pares de muestras tendr una distribucin normal con

En el presente ejemplo:

Por los ejemplos expuestos pudiera quedar la impresin que toda distribucin muestral es una distribucin normal. Esto no es efectivo. As por ejemplo la estadstica np para muestras extradas con reposicin tiene distribucin binominal. Una de las distribuciones ms importantes en inferencia es la distribucin t de Student. Cuando se desconoce el x del universo, lo que en la prctica es la situacin ms corriente, el error standard del promedio debe calcularse a partir de la desviacin standard de la muestra;

En este caso ya no es licito trabajar con la distribucin normal

sino que se trabajar con la variable que y la variable normal standard tiene una distribucin parecida a la normal pero un poco ms amplia. Los valores de t dependen del N de grados de libertad, los que se determinan a partir del nmero usado en el denominador para el clculo de sx. Se observa por ejemplo que el percentil 97,5 que en la curva normal corresponde a un valor de z = 1,96, en la distribucin de t para 24 grados de libertad corresponde a un t de 2.064. Para n infinito la distribucin t es igual a la normal pero en la prctica cuando el nmero de observaciones es superior a 30 los valores de z y t son tan parecidos que se puede utilizar como aproximacin la distribucin normal. Afortunadamente la mayora de las distribuciones muestrales tienden a parecerse a la normal cuando el tamao de la muestra es grande.

Estimacin de parmetros
Al estudiar las distribuciones muestrales se han elaborado ejemplos de extraccin de muestras de universos conocidos. En la prctica el problema consiste en cambio. en obtener informacin sobre un universo desconocido basndose en los resultados obtenidos en una sola muestra. En otras palabras, se desea estimar los parmetros del universo a partir de las estadsticas muestrales. Se vio en el ejemplo de la distribucin de promedios muestrales que la mxima frecuencia de muestras est frente al parmetro x del universo, lo que significa que x es el valor ms probable de obtener como promedio muestral. Por lo tanto al disponer de una sola muestra. La estadstica x ser la mejor estimacin de x. Este proceso se llama "estimacin puntual" ya que se refiere a un punto en la escala de medicin. E1 mismo razonamiento se puede aplicar a la estimacin de P a travs de la estadstica p. Es evidente que la estimacin puntual da una informacin incompleta porque no toma en consideracin la dispersin de la distribucin muestral. A1 afirmar que la distribucin de los promedios muestrales, por ejemplo, es normal se deduce que aproximadamente un 95% de los promedios de muestras aleatorias extradas del universo no se alejan ms de 2 errores standard del promedio x del. universo. A la inversa se puede decir que el 95% de las veces que se obtiene una muestra del universo, su promedio x no quedar a una distancia mayor que dos errores standard del promedio muestral x. Existe por lo tanto una probabilidad de 0,95 de incluir a x en el intervalo construido con x dos errores standard.

En otras palabras tenemos confianza que de cada 100 predicciones que hagamos en esta forma, 95 de ellas incluirn el verdadero valor del universo y slo fracasaremos en 5. Este procedimiento se llama "estimacin por intervalo" y se habla de intervalos de confianza de 95%, de 99%, etc. dependiendo de la seguridad que se quiera dar a la estimacin.

Docimasia de hiptesis
La docimasia de hiptesis se refiere generalmente a la comparacin de dos o ms grupos sometidos a tratamientos diferentes. Vimos que para el caso de dos grupos es conocida la distribucin muestral de las diferencias de promedios o de porcentajes de pares de muestras provenientes de un mismo universo y que ambas estn centradas en 0. Aplicando los conocimientos sobre distribucin normal se puede predecir que en estas distribuciones ser raro encontrar diferencias muy alejadas de 0 cuando las muestras provienen del mismo universo y que es posible adjudicar probabilidades a las magnitudes de las diferencias haciendo uso de la variable z, El conocimiento de estos hechos ha dado lugar al procedimiento para docimar hiptesis lo que ms comnmente se conoce como la prueba de significacin estadstica. Consiste en plantear dos hiptesis: la hiptesis de nulidad Ho y la hiptesis alternativa Hl. En la hiptesis d nulidad se plantea que las muestras provienen del mismo universo y por tanto conocemos la distribucin de la estadstica bajo este supuesto. En la hiptesis alternativa se plantea que las muestras provienen de diferentes universos. Cuando la diferencia observada es tan grande que bajo el supuesto de la hiptesis de nulidad este hecho es poco probable, se rechaza la hiptesis de nulidad y en cambio se acepta la hiptesis alternativa. La calificacin de poco probable es arbitraria y por costumbre se refiere a una probabilidad de 5% o de 1%. Esto es lo que se llama el nivel de significacin. Si para una diferencia entre dos grupos se encuentra que est a ms de 2 errores standard de 0 sabemos que esto ocurre a lo ms en el 5% de los casos en que se extraen muestras de un mismo universo. Como esto lo consideramos improbable rechazamos esta procedencia comn y aceptamos que realmente provienen de universos diferentes. Por este motivo en las publicaciones cientficas aparece con frecuencia la anotacin al lado de una diferencia: Diferencia estadsticamente significativa, p < 0,05 o bien p < 0.01 lo que se refiere al porcentaje de 5% o 1% habitual para el nivel de significacin.

ESTIMACION DE LA TASA DEL UNIVERSO (P) BASADA EN LA TASA MUESTRAL (p)


El problema
Con el propsito de evaluar un programa de atencin materno-infantil se desea conocer la tasa de mortalidad neonatal * de la poblacin sometida a este programa. Para ello se tom una muestra de 800 nacido vivos de esta poblacin y se registr el N de defunciones ocurridas antes de los 28 das de vida. Estas fueron 16 lo que da una tasa de mortalidad neonatal de 20%. Aunque este valor no es necesariamente igual a la tasa de mortalidad neonatal de la poblacin, s lo podemos utilizar como una estimacin de ella.

Estimacin puntual
La distribucin de las tasas (p) de muestras aleatorias extradas de un universo donde la tasa es P, es aproximadamente una curva normal con: Promedio = P

error standard

Podemos decir, pues, que la tasa observada. 20%, es una estimacin de la desconocida tasa de mortalidad neonatal de la poblacin sometida a este programa materno-infantil.

Estimacin por intervalo


Considerando la frecuente disparidad entre la tasa muestral y la del universo, parece mejor establecer un intervalo, para estimar la tasa de la poblacin. De acuerdo al teorema referido, repetidas muestras de tamao n = 800, obtenidas aleatoriamente de un universo en el cual la tasa de mortalidad neonatal es P, se distribuyen aproximadamente de acuerdo a una curva normal, con promedio y error standard ya indicados. Deberemos esperar que el 95% de las muestras, aproximadamente tengan tasas (p) comprendidas entre los lmites:

En consecuencia, slo 5% de las muestras correspondern a tasas que estn fuera de estos lmites. Estos lmites no son determinables, puesto que P es desconocido. Si se parte de la tasa de la muestra, que si es conocida (en este caso = 20%) pueden establecerse los lmites.:

Puesto que la tasa de la muestra no diferir de la tasa del Universo en ms de 1.96p en 95% de las muestras, estos lmites incluirn la tasa del universo (P) en 95 de cada 100 intervalos que construyamos de este modo. Por ello se habla de INTERVALOS DE 95% DE CONFIANZA. (Ver esquema de la prxima pgina). En 5 de cada 100 veces, la tasa de la muestra diferir del universo en ms de 1,96 p , y los intervalos que construyamos con este p no incluirn entre sus lmites la tasa del universo. Este error acontecer en: 100 % - 95 % = 5%

Para calcular estos niveles de confianza necesitamos determinar el error estndar

Se ve que este valor no es determinable porque requiere el valor de P, que es precisamente la tasa desconocida del universo. Nos vemos obligados a estimarlo basados en la muestra y designaremos el error standard estimado por sp.

El intervalo de confianza de 95% queda determinado en este ejemplo por los siguientes lmites:

EN SUMA, basados en una experiencia de 800 recin nacidos, podemos decir con una confianza del 95%, que la tasa de mortalidad neonatal en la poblacin beneficiaria de este programa est comprendida entre 10,2% y 29,8%

Seguridad y precisin de la estimacin


Hay dos elementos de inters prctico en la estimacin de la tasa del universo. La SEGURIDAD O CONFIANZA es la probabilidad de que sea correcto un intervalo de confianza calculado con el mtodo indicado, esto es, que realmente incluya entre sus lmites a la tasa del universo. En este ejemplo. la seguridad es de 95%. La confianza del intervalo est determinada por el valor z que hayamos elegido, que en este caso ha sido 1,96. Por otra parte, con esta confianza de 95% afirmamos que la tasa de la muestra no debe diferir de la tasa del universo en ms de 1,96. En este ejemplo. en ms de 1,96 (5) = 9.8%. Este valor mide la PRECISIN de la estimacin. Diramos que una estimacin de la verdadera tasa de mortalidad neonatal de la poblacin sometida a programa sera ms precisa si, afirmar que la tasa de la muestra no difiere de la tasa del universo en ms de 5% . La confianza del intervalo puede aumentarse utilizando mayores valores para z. Por ejemplo, para lmites de confianza de 99%, z = + 2,58 z = - 2,58

puesto que dentro de estos lmites se encuentran aproximadamente el 99% de las muestras. El intervalo es ahora:

Hemos ganado as seguridad, pero a costa de sacrificar precisin, porque ahora: zsp = 2,58(5) = 12,9 en tanto que en los lmites de confianza de 95% era: zsp = 1,96(5) = 9,8 El modo de ganar precisin sin perder seguridad (y viceversa) es aumentar el tamao de la muestra, puesto que la magnitud del error standard de tasas vara inversamente donde n es el tamao de la muestra. Supongamos que la experiencia se hubiera hecho con 3.200 nios:

Se ve que aumentar la muestra en 4 veces = (3.200/800) ha hecho este error standard a la mitad (5/2.5) debido a que n se encuentra raz cuadrada.

Los lmites de confianza son ahora:

EN RESUMEN, los intervalos de confianza para las situaciones estudiadas son:

Determinacin del tamao necesario de la muestra


De todo esto resulta que es conveniente, al iniciar una investigacin, decidir sobre el tamao que debera tener la muestra para satisfacer los objetivos que se han determinado. Por ejemplo, podra considerarse que el intervalo de confianza que se ha calculado basado en 800 nios, parece demasiado amplio para resolver sobre la extensin del programa a otras poblaciones. Podra planearse entonces hacer una segunda experiencia complementaria. Cul sera el nmero de observaciones que deberamos realizar? Supongamos que se especifican las siguientes condiciones para la estimacin de la verdadera tasa de mortalidad neonatal: - Seguridad: intervalo de confianza de 95% - Precisin: que la tasa de la muestra no difiera de la tasa del universo en ms de 4% El requisito de seguridad o confianza se cumple utilizando un valor de z tal que el 95% de las muestras estn incluidas entre (P - z p-) En este caso: Z = 1,96 = 2 El requisito de precisin se satisface haciendo p - P = 4% Es necesario adems tener alguna idea sobre el posible valor de la tasa de mortalidad neonatal que se trata de estimar (P). Basados en la experiencia anterior, usaramos la tasa observada 20%, como estimacin de P. Entonces:

Una muestra de aproximadamente 5.000 nios satisfara los requisitos establecidos.

LA PRUEBA DE SIGNIFICACION ESTADISTICA DE DIFERENCIAS ENTRE TASAS EL METODO GENERAL SEGUIDO EN LA PRUEBA
Problema
En el proceso de investigar la veracidad de una hiptesis, con frecuencia se trata de comprobar si existen o no diferencias en alguna o algunas caractersticas de dos o ms grupos. Estos grupos son habitualmente muestras de universos en estudio. Cuando la investigacin comprueba diferencias, el problema que resta es pronunciarse, por induccin. sobre la realidad de tales diferencias en los universos de origen, puesto que el error de muestreo puede producir diferencias muestrales que no corresponden a diferencias reales en las poblaciones o universos originales. Este es el problema que resuelve la PRUEBA DE SIGNIFICACION ESTADISTICA, usando de la teora de la probabilidad. Requisito previo a la prueba de significacin es la similitud de los grupos que se comparan. Si los grupos difieren adems del factor que es motivo de investigacin, en otros atributos, es evidente que no podemos establecer cual de ellos es responsable de la diferencia observada. En general aceptamos la similitud de los grupos si los "tratamientos"4 han sido adjudicados aleatoriamente a las unidades de observacin y si son semejantes en ambos grupos las definiciones, mtodos de medicin, condiciones de observacin, etc. Estos requisitos son ms fciles de cumplir cuando se trata de un experimento, esto es, cuando el investigador ha provocado las observaciones. Existen muchas situaciones prcticas en que no es posible la asignacin aleatoria de los tratamientos a las unidades de observacin. Slo es factible entonces buscar un grupo de control tan parecido al grupo "tratado" como sea posible. En tal caso, se requiere investigar la similitud de los grupos en los atributos registrables y que sean atingentes al fenmeno en estudio. Por ejemplo, si se desea evaluar 1a accin de un programa sanita-rio. podra utilizarse una poblacin testigo en la que no se desarrolle tal programa y que tenga similares caractersticas demogrficas, sanitarias, sociales, econmicas, etc. O bien utilizar la misma comunidad, comparando con el perodo anterior al programa, siempre que todo indique que los restantes factores que influyen en el nivel de salud no hayan tenido variacin. Aun as, es posible que se encuentre que los grupos no son enteramente iguales. Por ejemplo, supongamos que se investiga la accin de una nueva droga A en la tasa de curacin de una determinada enfermedad por comparacin con un grupo de control que recibe la droga convencional B. Supongamos que se observa una mayor tasa de curacin con A que con B. Si sucediera adems que los casos tratados con A fueran menos graves que los del grupo de control, no podramos precisar si la diferencia se debe a la mayor accin del tratamiento A o al carcter ms benigno de los tratados con l. En este caso el factor que perturba el experimento opera en el mismo sentido que el efecto que se intenta detectar. Por el contrario, si los casos tratados con A fueran ms graves y an as el grupo tuviera una tasa de curacin ms alta que el control, la prueba de significacin, si se cumplen las condiciones que se establecen ms adelante, podra llevarnos a aceptar la mejor accin de A. Esto es posible porque el factor que diferencia los grupos tiene una accin inversa al efecto investigado. Naturalmente, el efecto revelado por el experimento sera menor que el real. Cuando es posible individualizar los factores que hacen que los grupos no sean similares, estos factores pueden ser neutralizados y restablecer as la condicin de similitud. Por ejemplo, en el experimento que se comenta podra ser factible dividir los casos segn gravedad y comparar las dos drogas en dos grupos de gravedad semejante.

La prueba de significacin estadstica


1) Planteamiento de hiptesis Toda prueba de significacin estadstica se plantea en trminos de una disyuntiva entre dos hiptesis referentes a l o los universos en estudio: la hiptesis de nulidad y la hiptesis alternativa. Se enuncian en la siguiente forma general: Hiptesis de nulidad (Ho)

Convencionalmente se habla de "Tratamiento" para referirse a los factores cuya accin se investiga por comparacin de grupos.

Los grupos comparados no difieren en la caracterstica (parmetro) estudiado. Por lo tanto, la diferencia observada en la investigacin es consecuencia del error de muestreo: hiptesis alternativa (H1) Los grupos difieren en la caracterstica (parmetro estudiado. Por lo tanto la diferencia observada es consecuencia de efectivas diferencias entre los universos de origen. Ejemplo: Un investigador estudia la (A y B) por inoculacin a dos grupos de animales, registrando la tasa de letalidad (% de muertes) en los animales inoculados. Sea: PA = tasa de letalidad en universo de animales inoculados con cepa A. PB = tasa de letalidad en universo de animales inoculados con cepa B. Las hiptesis son las siguientes:

Hiptesis de nulidad
La tasa de letalidad de animales inoculados es igual con ambas cepas. Esto equivale a negar una diferencia real de virulencia entre las dos cepas: Ho : PA = PB o bien PA PB = 0

Hiptesis alternativa
La letalidad de animales inoculados con la cepa A es distinta que la letalidad inducida por la cepa B. Esto es lo mismo que aceptar que la virulencia de las dos cepas es diferente. H1 : PA PB o bien PA - PB 0

El mtodo para resolver esta disyuntiva de hiptesis es el siguiente. Se acepta por un momento que la hiptesis de nulidad es cierta. Es posible entonces estimar la probabilidad de obtener una diferencia de igual o mayor magnitud que la observada, puesto que se conoce la distribucin terica de muestras aleatorias obtenidas en las condiciones que establece la hiptesis. Si la probabilidad es muy baja, rechazamos la hiptesis de nulidad. Si la probabilidad es mayor no rechazamos la hiptesis de nulidad y la disyuntiva queda sin resolver. 2) Nivel de significacin De acuerdo a este razonamiento la decisin que se toma no es de certeza sino de probabilidad; en consecuencia, est sometida a error. Rechazaremos la hiptesis de nulidad si la prueba da un valor cuya probabilidad asociada de ocurrencia bajo H es igual o menor que alguna pequea probabilidad simbolizada por que llamaremos nivel de significacin. El hecho de que el valor sea poco probable, no quiere decir imposibilidad de que ocurra por azar, luego, corremos un riesgo conocido de rechazar Ho siendo esta verdadera. Este es el error tipo I, que designamos como . E1 nivel de significacin es fijado por el investigador, considerando entre otros factores, las consecuencias del error. Habitualmente se fija un nivel de 5% ( - 0.05) o de 1% ( - 0,01). En todo caso, el criterio para rechazar la hiptesis nula debe establecerse previamente al examen de los datos y no subordinarse a los hallazgos de la investigacin. Podra pensarse que el procedimiento ms seguro es reducir a un mnimo este error, pero este requisito significara aumentar la probabilidad de cometer un segundo tipo de error, designado , que es el error de no rechazar una hiptesis nula siendo esta falsa. El esquema de las situaciones posibles es el siguiente:

3) Determinacin de la regin de rechazo de la hiptesis nula La regin de rechazo consiste en un conjunto de valores posibles tan extremos que, cuando Ho, es verdadera, es muy pequea la probabilidad () de que la muestra observada produzca un valor que est entre ellos. La localizacin de la regin de rechazo es afectada por la naturaleza de H1. Si H1 indica la direccin predicha de 1a diferencia, (H1 : PA> PB) entonces se requiere una prueba unilateral, si no indica la direccin de la diferencia. (H1: PA PB) entonces se requiere una prueba bilateral. Ejemplo:

El rea sombreada muestra la regin de rechazo de Ho. En ambos casos. La determinacin de la zona de "rechazo" de la hiptesis nula se basa en la distribucin terica de la diferencia entre muestras, la cual depende de las condiciones del experimento. Es diferente, por ejemplo, si las diferencias son entre proporciones, promedios, coeficientes de regresin, etc., si las muestras son dependientes o independientes; si se comparan dos o ms grupos; si la desviacin standard del universo es conocida o desconocida etc.

4) Interpretacin de los resultados de la prueba

Diferencias estadsticamente significativas: Interpretacin correcta


Si la hiptesis nula fuera verdadera, es improbable, de acuerdo al nivel de significacin establecido, que se hubiera obtenido una diferencia igual o mayor que la diferencia observada. Por lo tanto, aceptamos que se origina en el efecto de un factor diferencial entre los grupos.

Interpretaciones incorrectas
a) Es imposible que diferencias de esta magnitud se produzcan por error de muestreo. b) La significacin estadstica prueba que el factor en estudio ha causado la diferencia registrada.

Diferencias estadsticamente no significativas: Interpretacin correcta


De acuerdo al nivel de significacin que se ha preestablecido, no hay suficiente evidencia para rechazar la posibilidad de que la diferencia observada se deba a error de muestreo, es decir, la posibilidad de que no exista realmente en los universos en estudio.

Interpretaciones incorrectas
a) E1 experimento prueba que el factor en estudio no tiene efecto diferencial en los grupos. A continuacin veremos algunas pruebas de significacin estadstica.

Prueba de significacin estadstica de diferencias entre la tasa del universo (P) y la tasa de una muestra (p) El problema
La tasa de letalidad de la fiebre tifoidea antes del uso de la cloromicetina era de 10% (Pc), segn lo muestra una larga experiencia hospitalaria. Los primeros 100 casos tratados con este antibitico revelan una letalidad de 2% (pt) Puede aceptarse la diferencia 10% - 2% = 8% como una evidencia del mejor efecto del nuevo tratamiento?

Anlisis previo de los datos disponibles


Deberamos estar ciertos que el grupo tratado con cloromicetina no difiere de la experiencia hospitalaria anterior en ningn factor atingente a la letalidad, excepto en el hecho de no haber recibido el antibitico. Podran ser factores de no comparabilidad, entre otros, la menor gravedad de los casos tratados; diferencias entre criterios diagnsticos o cambios en , la virulencia del germen. La similitud de los grupos podra ser establecida si el material es dividido en grupos segn el factor ajeno al tratamiento que afecta a la letalidad. Por ejemplo, si se trata de la gravedad inicial de la enfermedad, los casos pueden ser clasificados en leves, de mediana gravedad y graves; las tasas de letalidad para tratados y controles podran ser comparados en cada grupo. Si los factores que hacen dismiles a los grupos no pueden ser detectados, el experimento no puede llegar a una conclusin til. Se ve la ventaja de haberlo diseado mejor: por ejemplo, definiendo un grupo de enfermos que ser admitido en la experiencia y asignando aleatoriamente el tratamiento a la mitad de ellos para dejar la otra mitad como grupo testigo. Satisfechas estas condiciones. Podramos asegurar que la cloromicetina" reduce la letalidad a 2% en cualquier caso de fiebre tifoidea tratado en condiciones similares? La idea de "cualquier caso" implica una generalizacin a partir de una muestra de 100 casos. Sabemos que toda muestra est expuesta al error de muestreo aunque sea una muestra aleatoria. Podra ser que una nueva experiencia mostrara una letalidad de 4% de 1%. Aun es posible imaginar que el antibitico no fuera realmente efectivo y que, casualmente, hemos obtenido una muestra con una tasa excepcionalmente baja. Clarificar esta duda, en trminos de probabilidad, es el objeto de la prueba de significacin estadstica.

La prueba de significacin estadstica


1. Formulacin de hiptesis

Hiptesis de nulidad:

La tasa de letalidad de tifoideas tratadas con cloromicetina (Pt ) es 10% igual que la tasa de letalidad de la fiebre tifoidea antes del uso de la cloromicetina (Pc). En smbolos: Ho : Pt = Pc = 10% o bien Ho : Pt - Pc = 0 Esto es equivalente a decir que la diferencia observada se debe al error de muestreo.

Hiptesis alternativa
La tasa de letalidad de tifoideas tratadas con cloromicetina (Pt) es menor que la tasa de letalidad de los no tratados (Pc). En smbolos: H1 : Pt < Pc o bien Hl : Pt - Pc < 0 Esto es equivalente a decir que la diferencia observada traduce efectivas diferencias en las poblaciones originales. 2. Nivel de significacin Podemos elegir un nivel de significacin de 5% ( = 0,05). Esto quiere decir que fijamos en 5% el riesgo de cometer el primer tipo de error, es decir, rechazar la hiptesis nula siendo sta verdadera, en este caso, aceptar que la cloromicetina es mejor tratamiento que el antiguo, cuando realmente no lo es.

Si somos ms exigentes y trabajamos con un nivel de significacin de 1%, por ejemplo, habremos reducido el primer tipo de error pero aumentado el segundo tipo de error, que consiste en declarar que el nuevo tratamiento no es efectivo, cuando en la realidad es mejor que el antiguo. 3. Determinacin de la zona de rechazo de Ho Aceptamos por un momento que Ho (Pt = Pc = 10%) es verdadera. En tal caso podemos tomar los 100 tratados con cloromicetina como, una muestra de un universo con tasa de letalidad para la fiebre tifoidea de 10%

Teorema
La distribucin de porcentajes (tasas) de muestras de tamao n, extradas de un universo con una tasa igual a P. es aproximadamente una normal con: promedio = tasa del universo = P

En este ejemplo, de acuerdo con la hiptesis de nulidad: P = tasa de letalidad de tifoideas, tratadas o no con cloromicetina = 10% (0.10). Q = tasa de sobrevivencia de estos enfermos = 90% (0.90) n = tamao de la muestra = 100 casos

Definidos el promedio y la desviacin standard de la curva normal, es posible utilizar la tabla de rea de esta curva, Se trata de encontrar qu tasas muestrales, menores que el promedio, difieren de este en tal magnitud que la probabilidad de obtener, por simple azar, esas tasas o una menor en la muestra, no exceda 5%. Se requiere definir, pues, un rea en el extremo izquierdo de la distribucin que equivale a 5% del rea total bajo la curva. En la tabla correspondiente se observa que el rea a la izquierda de z = -1,65 es igual a 0,05 (5%). De acuerdo con el nivel de significacin preestablecido, esta ser la zona de rechazo de la hiptesis nula.

Por lo tanto rechazaremos Ho. si el z que calculamos a partir de nuestros datos es menor o igual que -1,65.

4. Resolviendo sobre la diferencia observada. Slo resta ahora establecer si la diferencia observada cae en la zona de rechazo de correspondiente z:

Ho, calculando e1

El zobs es menor que -1,65 por lo tanto, de acuerdo con los criterios objetivos preestablecidos, rechazamos la hiptesis nula. (Pt = Pc = 10%).

Sobre la conclusin alcanzada


Esta conclusin, aunque obtenida por una buena metodologa, tiene varias limitaciones que deben tenerse siempre presente. Desde luego, al aceptar un real efecto de la cloromicetina en la tifoidea y rechazar la hiptesis que la diferencia observada sea casual. corremos un riesgo calculado de error. Basados solo en una experiencia de 100, es posible, aunque sea poco probable, que la diferencia fuera simple error de muestreo. La induccin basada en la muestra no tiene carcter de certidumbre y es slo un juicio de probabilidad. La repeticin de experiencias similares, que coincidan en similar conclusin, afianzarn cada vez ms este juicio: esto es lo que ha sucedido en la prctica con la cloromicetina de tal modo que no ponemos ahora en duda la eficacia de este tratamiento en la tifoidea. La prueba de significacin trabaja con el supuesto implcito que ambos grupos son enteramente iguales. Si el grupo testigo no cumple razonablemente las condiciones de similaridad con el grupo tratado, esta teora no tiene aplicacin. Por eso el diseo del experimento y el estudio de los trminos de comparacin son asuntos previos a la prueba de significacin. De igual modo, los errores de observacin definiciones deficientes, malas mediciones, criterios no uniformes, sesgo de los observadores, etc. pueden llevar a una conclusin errnea, que la teora de la prueba de significacin no puede evitar. Ntese. por otra parte, que se juzga en este ejemplo el efecto de la droga en trminos de reduccin de la letalidad. Pudiera ser que una droga no modificara esta tasa, pero sin embargo fuera efectiva en otros aspectos (reduccin del tiempo de enfermedad, menor frecuencia de secuelas, etc.). El juicio sobre la droga en consecuencia. depende del indicador usado.

Prueba de significacin estadstica de diferencia entre tasas de dos muestras. Problema


En un consultorio se deseaba estudiar el impacto que tiene el trabajo de terreno en el estado nutritivo del lactante. Con tal objetivo, en los sectores en que no hay programa de terreno, se tom una muestra de lactantes, a los cuales se calific su estado nutritivo, lo mismo se hizo en sectores en que las, auxiliares de enfermera hacen visitas peridicas al domicilio de los lactantes. Los resultados fueron los siguientes:

Es realmente mayor la tasa de desnutricin en los sectores sin programa?

Anlisis previo de los datos disponibles


Antes de proceder a la prueba de significacin estadstica debiera existir una razonable seguridad de que los sectores con y sin programa no difieren en otros aspectos que pueden influir en el estado nutritivo del lactante. El hecho de existir tales diferencias podra impedir sacar conclusiones respecto al factor trabajo de terreno que es el que nos interesa en este caso.

La prueba de significacin estadstica


1. Formulacin de hiptesis Hiptesis de nulidad: La tasa de desnutricin en el universo de lactantes sin programa: P1 es igual a la del universo de lactantes con programa: P2. Esto equivale a decir que la diferencia observada se debe al error de muestreo. En smbolos: Ho : P1 = P2 o bien H o : P1 - P 2 = 0

Hiptesis alternativa
La tasa de desnutricin real de los lactantes sin programa es mayor que la de los lactantes con programa. Esto equivale a decir que la diferencia observada traduce diferencias reales entre las poblaciones originales. En smbolos: H1 : P1 > P2 o bien H1 : P1 - P2 > 0

2. Nivel de significacin Podemos elegir un nivel de significacin de 5% esto equivale a decir que estamos aceptando un riesgo de un 5% de rechazar la hiptesis nula siendo sta verdadera. 3. Determinacin de la zona de rechaza de la hiptesis nula Suponiendo que la hiptesis nula fuera verdadera tendramos que: P1 = P2 = P .

Teorema
Al extraer pares de muestras de un universo con porcentaje P, las diferencias entre los porcentajes de las muestras se distribuyen aproximadamente como una normal con: promedio = 0

En este ejemplo: n1 = nmero de lactantes en la muestra del sector sin programa = 150 n2 = nmero de lactantes en la muestra del sector con programa =180 P = tasa de desnutricin en el universo de lactantes con o sin programa. Cantidad desconocida y que habra que estimar. La mejor estimacin corresponde la tasa de desnutricin del total de nios estudiados.

Definidos el promedio y la desviacin standard, es posible utilizar la tabla de rea de la curva normal. Se trata de encontrar qu diferencias entre tasas muestrales, mayores que 0 tienen una magnitud tal que la probabilidad de obtenerles por simple azar sea menor que 5% (nivel de significacin fijado). Se requiere determinar por lo tanto un rea en el extremo derecho de la distribucin que equivale al 5% del rea total bajo la curva. En la tabla correspondiente se observa que el rea a la derecha de 1.65 (Zcrit) es igual a 5%.

Por lo tanto para todo z (observado) > 1.65 rechazaremos Ho. 4. Resolviendo sobre la diferencia observada Necesitarnos saber si la diferencia observada cae en la zona de rechazo, por lo tanto, es necesario calcular el z (observado).

El Zobs > Zcrit , Por lo tanto se rechaza la hiptesis nula. programa.

La tasa de desnutricin es mayor en los sectores sin

PRUEBA 2 (Ji CUADRADO)


Las pruebas de significacin estadstica presentadas anteriormente permiten tomar decisiones sobre diferencias entre "dos" tasas, de las cuales a lo menos una, es una tasa muestral, sin embargo en el campo de la salud, a menudo nos enfrentamos con problemas en los cuales es necesario comparar ms de dos tasas. Ejemplos: 1. Comparar porcentajes de desnutridos de las distintas comunas del Gran Santiago. 2. Comparar efectividad de varios tratamientos para una misma enfermedad. 3. Estudiar si la mortalidad neonatal es independiente del nmero de controles de la madre durante el embarazo. 4. Estudiar si hay asociacin entre muerte por cncer pulmonar y hbito de fumar. 5. Estudiar si hay asociacin entre tipo de lceras y ubicacin de ellas. Problemas de esta naturaleza son resueltos mediante una prueba de significacin estadstica denominada "Prueba Ji-cuadrado" y en la cual se hace uso de 1a "distribucin Ji-cuadrado", cuyas caractersticas principales, sealamos a continuacin:

Distribucin 2
A. Caractersticas 1. Es una distribucin asimtrica. 2. Slo toma valores positivos y es asinttica con respecto al eje de las x positivas ( 0 < 2 < ) , 3. Est caracterizada por un nico parmetro "n" llamado "grados de libertad". 4. El rea comprendida entre la curva y el eje de las x es 1 100% En la figura adjunta, aparecen grficos de esta distribucin para algunos valores de "n".

B. Aplicaciones Entre las aplicaciones ms frecuentes de esta distribucin, en el rea de la salud, podemos sealar: B.1. Prueba de asociacin B.2. Prueba de "bondad de ajuste"

Prueba de Asociacin 5
Esta prueba, como se puede visualizar a travs de los ejemplos mencionados anteriormente, permite al clnico o investigador determinar si existe asociacin entre dos variables con escala de medicin nominal u ordinal. Estudiaremos la aplicacin de esta prueba, a travs de la resolucin de un problema.

Esta prueba, tambin aparece en la literatura estadstica con el nombre de "tablas de contingencia.

Problema
Los datos que se presentan a continuacin corresponden a un estudio anatmico de ulceraciones gstricas benignas y malignas realizadas entre 1940 y 1950 en el Boston City Hospital.

Se podra decir que hay asociacin entre la ubicacin de la lcera y el tipo de sta?

Solucin
i) Planteamiento de las hiptesis Hiptesis nula (Ho) : No hay asociacin entre ubicacin de la lcera y tipo de sta, es decir, el porcentaje de lceras malignas es el mismo ya sea la ubicacin de sta prepilrica, en el cuerpo o cardial. Simblicamente, Ho : Pprep = Pcuer = Pcar

Hiptesis alternativa (H1): Hay asociacin entre ubicacin de la lcera y tipo de sta, es decir, el porcentaje de ulceras malignas es diferente en por lo menos una de las ubicaciones. Simblicamente, H1 : Pprep Pcuer
y/o

pprep Pcar

y/o

Pcuer Pcar

ii) Nivel de significacin: = 0.05 (arbitrario) iii) Estadstica a utilizar:

en que Oi = frecuencia observada en la celda i Ei = frecuencia esperada en la celda i f . c = nmero de celdas, se obtiene multiplicando nmero de filas (f) por nmero de columnas (c). En este problema, fc = 6

a) Clculo de 2 observado

NOTA: Bajo la hiptesis nula no hay asociacin entre tipo de lcera y ubicacin de sta, por lo tanto el porcentaje de lceras malignas, debe ser el mismo para las tres ubicaciones (100/300), 33.3% y la frecuencia esperada (Ei) en cada celda la obtenemos aplicando este porcentaje a 160, 100 y 40 respectivamente. La frecuencia esperada para las benignas se pueden obtener por diferencia o aplicando a las mismas frecuencias anteriores 66,7%. b) 2 critico El 2 crtico se observa en la tabla de 2 (1-1804) en la interseccin de la fila n con la columna probabilidad. En que: -) n: son los grados de libertad (g.1.). En una tabla de asociacin, los grados de libertad se obtienen multiplicando el nmero de columnas menos 1 (c - 1) por el nmero de filas menos 1 (f - l).

para este problema:

g. 1 g. 1

= =

(3 - 1) 2

(2 - 1)

-) probabilidad : corresponde al nivel de significacin 2 critico. para n = 2 y = 2 crtico = 0.05 es 5.991 5.991

iv) Regin de Rechazo : R La regin de rechazo, R, est constituida por todos los valores de 2 mayores que 2 crtico.

v) Conclusin Como 2ob es menor que 2 crtico, concluimos que no hay evidencia para rechazar la hiptesis nula, es decir, para afirmar que el tipo de lcera, dependa de la ubicacin de ella. B.2. Prueba de bondad de ajuste La prueba de bondad de ajuste, permite afirmar con un cierto nivel de confianza, si las distribuciones de los universos de orgenes de muestras en estudio, se "ajustan" 'a alguna distribucin de inters tal como : normal t, binomial, 9 : 3 : 3 : 1; etc. a fin de utilizar las propiedades de estas distribuciones o como en gentica conducir experimentos de modo de obtener un nmero dado de fenotipos o predecir la estructura de la poblacin en una generacin dada. Ejemplos 1.Se podra realizar una prueba de bondad de ajuste para estudiar si la distribucin los pesos de hombres sanos de una estatura determinada es normal con peso promedio igual a y desviacin standard . Verifi cado que la distribucin es normal, se podra establecer lmites de normalidad para el peso. 2. En gentica es usual verificar si las distribuciones de los universos de orgenes de las muestras son mendelianos o si los resultados obtenidos estn de acuerdo a los modelos genticos. Veremos cmo se resuelve un problema de bondad de ajuste. mediante la resolucin de un problema del segundo tipo.

Problema
Segn una de las leyes de Mendel, el cruzamiento entre pollos normales y rizados extremo, debe producir en la segunda generacin (F2) pollos : rizado suave y normal en la proporcin 1 : 2 : 1. S en un cruzamiento, se obtuvo en F2 : 23 rizado extremo, 50 rizado suave y 20 normal ,se podra decir que esta distribucin es la dada por Mendel?

Solucin
i. Planteamiento de las hiptesis Hiptesis nula (Ho): La muestra proviene de un universo, donde las probabilidades de ocurrencia de los diversos fenotipos estn en la proporcin 1 : 2 : 1. Hiptesis Alternativa (H1): La muestra proviene de un universo, donde las probabilidades de ocurrencia de los diversos fenotipos, no estn en la proporcin 1 : 2 : 1 ii. Nivel de Significacin : = 0.01 iii. Estadstica a utilizar:

Ei = frecuencia esperada segn teora, en la clase i Oi =frecuencia observada en la clase i k = nmero de clases Clculo de: a) 2 observado

NOTA: La frecuencia esperada de cada fenotipo, se obtiene aplicando al total observado, las proporciones, predicha por la teora. En este ejemplo la proporcin del fenotipo : rizado extremo es 1/4 rizado suave es 2/4 normal es 1/4 luego, las frecuencias esperadas, se obtienen multiplicando por 93, cada una de estas proporciones. b) 2 crtico En general, en problemas de bondad de ajuste, en que no hay que estimar parmetros, los grados de libertad estn dados por el nmero de clases menos uno. g. 1 = k-1 En este problema k = 3 y por tanto g.1 = 2.

El 2 crtico, se observa en la tabla de 2 en la interseccin de la fila n=2 con la columna = 0.01. 2crtico = 9.210 iv) Regin de rechazo: R La regin de rechazo est constituida por todos los valores de 2 mayores que 2 crticos.

v. Conclusin Como 2ob < 2 critico, concluimos que no hay evidencia para suponer, que la distribucin de los fenotipos sea diferente de 1 : 2 : 1

Observaciones
1. La estructura de la estadstica, nos permite observar que mientras mayor sea la diferencia entre los valores observados y los esperadas, mayor ser el valor de 2 y aumentar por tanto la probabilidad de rechazar la hiptesis nula. 2. Tambin se puede observar, que si en alguna clase el valor esperado es cero o cercano a cero, el valor de 2 tender a . Se recomienda que ningn valor esperado sea menor que 5, y cuando esto suceda, juntar clases adyacentes. 3. Como 2 es una variable aleatoria continua, v 1a estamos utilizando para resolver problemas de variable discreta, es necesario, para el caso de pocas observaciones, usar una correccin de continuidad, denominada "correccin de Yates" o bien utilizar la distribucin exacta, que ser la multinominal, o una prueba no paramtrica. 4. Siempre que se utiliza alguna de las pruebas 2, debe tenerse cuidado de que la suma de las frecuencias observadas, coincida con la suma de las frecuencias esperadas. 5. Para el clculo del 2 observado, se debe trabajar con las frecuencias absolutas y no con las porcentajes.

INTRODUCCION A LA TECNICA DE MUESTREO


Entre las caractersticas importantes del hombre, figura su capacidad para generalizar. En la bsqueda del conocimiento su de medio, pone en prctica inconscientemente este proceso, an cuando no lo designe como tal y lo realiza desde el nivel ms elemental. As por ejemplo, es posible formarse una idea buena o mala de una persona al tratarla una sola vez. Tambin se generaliza cuando se examina una pequea cantidad de sangre de una persona y se supone que toda su sangre tiene esa misma composicin. Es difcil comprender que este procedimiento es arriesgado y a veces peligroso, ya que se puede cometer un gran error. Las unidades con que se toma contacto son slo parte, a veces muy pequea, del total o universo y lo que se hace no es otra cosa que reconstruir una caracterstica del universo en base a la informacin proporcionada por algunos representantes, los cuales constituyen una muestra. Si el universo es homogneo, cualquier muestra proporciona el mismo resultado y el procedimiento de seleccin carece de importancia. Pero cuan do el universo es heterogneo como sucede en la mayora de los casos, el procedimiento mediante el cual se obtiene la muestra es decisivo y se hace necesario utilizar un procedimiento que nos indique cuntas unidades tomar, cmo seleccionarlas de modo que se pueden obtener conclusiones vlidas para el total. Dicho procedimiento es el que se desarrolla a continuacin en forma muy general.

Definiciones
1. Unidad de Anlisis: Las unidades de anlisis son las unidades para las cuales se desea obtener informacin. stas pueden ser personas, hospitales, ciudades. 2. Poblacin o Universo: La poblacin o universo es el grupo completo de todas las unidades de anlisis cuyas caractersticas se desea estudiar. Los siguientes conjuntos podrn constituir universos para algunos estudios. Enfermos hospitalizados en el Hospital "E1 Salvador" entre el 10 y 15 de marzo de 1976. Infecciones ocurridas en Chile en el ao 1975. En la definicin del universo, se debe indicar la unidad de anlisis, donde se investiga (lugar) y cuando se investiga (tiempo) dejando claramente especificado estos aspectos. 3. Unidad de Muestreo : La unidad de muestreo es una unidad seleccionada del marco de muestreo. Puede ser igual a la unidad de anlisis aun que no necesariamente. Por ejemplo, para obtener informacin sobre personas, se puede utilizar una lista completa de un censo y seleccionar una muestra de personas directamente. Sin embargo, tambin se podr seleccionar una muestra de hogares e incluir en la muestra a todas las personas de los hogares seleccionados. La eleccin de la unidad de muestreo ms eficiente, es una de las consideraciones ms importante en el diseo de la muestra. 4. Marco de muestreo : La totalidad de las unidades de muestreo, entre las cuales se seleccionar la muestra, se denominar marco de muestreo. El marco puede ser un listado de personas, de viviendas o un mapa donde estn contenidas todas las unidades de muestreo. 5. Muestra : Es un conjunto de unidades de anlisis extradas del universo, con el fin de conocer una o ms caractersticas de l. Diremos que una muestra es representativa del universo cuando todas las unida des de muestreo tienen una probabilidad conocida de entrar en la muestra, la que debe ser distinta de cero.

TIPOS DE ERRORES Sesgo de Seleccin:


Se entiende por tal a un error sistemtico o dirigido en la seleccin de las unidades, con lo cual se obtiene una informacin parcial respecto del universo que se investiga. Por ejemplo, con el fin de conocer el nivel socioeconmico de los habitantes de una ciudad, se seleccionar una muestra a partir de la gua telefnica de la misma y se entrevistar a las familias de las personas seleccionadas, se estara cometiendo un sesgo, ya que habran algunas familias que no tendran posibilidad de entrar en la muestra.

Error de Muestreo:
Diferencia entre lo que informa la muestra (estimacin) y lo que real mente sucede en el universo (parmetro). As por ejemplo, si tenemos un archivo con 500 casos clnicos de los cuales 300 corresponden al sexo femenino y los 200 restantes al sexo masculino y si tomamos al azar una muestra de 50 fichas es muy "poco probable" que obtengamos 30 fichas de mujeres y 20 de hombres. Podemos obtener por ejemplo 29 fichas de mujeres y 21 de hombres, lo que indicar que en este krdex hay una proporcin probable de: 29/50 x 100 = 58% de mujeres, cuando efectivamente hay 60% Esta diferencia entre la estimacin dada por la muestra (58%) y el parmetro (60%) es lo que se denomina error de muestreo. Aparentemente pareciera que la presencia del error de muestreo sera un grave inconveniente para el uso de muestreo, pero esto no es as, ya que cuando usamos muestras probabilsticas podemos controlar este tipo de error.

Procedimiento de Seleccin Muestreo Aleatorio Simple:


Se denomina muestreo aleatorio a un mtodo para seleccionar "n" unida des de "N, de modo que cada una de las muestras posibles de tamao n, tengan igual posibilidad de ser seleccionadas. En la prctica una muestra aleatoria es extrada unidad por unidad. Las unidades en la poblacin son previamente numeradas en forma correlativa de "1 a "N". A continuacin se extraen n nmeros aleatorios entre "1" y "N" a partir de una tabla de nmeros aleatorios, o con otro procedimiento que asegure igual probabilidad de seleccin para cada unidad. En el muestreo aleatorio simple, o muestreo aleatorio irrestricto, como tambin se le denomina, no es permitida la doble inclusin de una misma unidad en la muestra. Esto significa que la muestra debe estar constituida por "n unidades diferentes. La probabilidad de seleccin en cada unidad est dada por la expresin: f=n/N denominada fraccin de muestreo; donde "n representa el tamao de la muestra y N el del universo.

Seleccin sistemtica
Es el procedimiento ms aplicado por su sencillez y rapidez. Su caracterstica es la seleccin de unidades tomando una de cada k unidades siendo k el espaciamiento de muestreo, dado por la expresin: k = N/n donde "N" corresponde al tamao de la poblacin y "n" al tamao de la muestra. El procedimiento consiste en tomar un nmero en forma aleatoria dentro de las k primeras unidades. A esta primera unidad de muestreo seleccionada la denominaremos unidad de arranque. Para seleccionar las siguientes unidades que formarn la muestra, se le suma a la unidad de arranque k, 2k, 3k, etc. hasta obtener el tamao de muestra deseado. Sea por ejemplo la serie 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, que representa a las doce unidades de una poblacin determinada. Supngase que deseamos tomar una muestra de tamao 4, tenemos entonces que el espaciamiento de muestreo k es igual a 3. Por lo tanto, debemos elegir un nmero en forma aleatoria entre 1 y 3. Supongamos que el nmero elegido sea 2, la muestra queda constituida por las unidades de muestreo 2, 5, 8 y 11. Ntese que para obtener la segunda unidad de anlisis (5), se sum a la unidad de arranque (2) l intervalo de muestreo (3), procedindose en forma anloga para todas las unidades seleccionadas. Es claro que al fijar el nmero de arranque, el resto de las unidades que ingresan a la muestra quedan seleccionadas en forma simultnea; es como sortear un grupo completo. Lgicamente que si siempre se partiera de dos slo podran entrar en la muestra las unidades 2, 5, 8, 11 y el resto quedara con probabilidad "cero" de seleccin, en cuyo caso sera una muestra sesgada. De aqu que es necesario sortear la primera unidad en forma aleatoria. Las ventajas de este mtodo radican como se dijo al inicio en la rapidez y sencillez de su operatoria. No necesita numeracin de las unidades, sino solamente un ordenamiento fsico que permita el recuento. Puede presentar tambin algunas desventajas. Una de ellas se refiere a la posible existencia de ciclos en la informacin y conjugndose con ella la posibilidad de que k coincida con dicho ciclo. Un ejemplo claro lo presentan las diarreas infantiles. Tienen un ciclo anual con mximo de verano y mnimo en invierno.

Si para hacer un estudio en relacin a diarreas infantiles, se sorteara un mes del ao y se hicieran observaciones cada 12 meses, se obtendr una informacin falsa an cuando el procedimiento estuviera bien empleado. Ejemplo: feb., feb., .,.............feb. En este caso se obtendra un resumen slo de los ndices ms elevados. Por esta razn es importante averiguar previamente la posibilidad de existencia de ciclos, ya que de ser as, se puede recurrir a diversos procedimientos para evitarlos. Entre ellos figura el doble sorteo de nmeros de arranque, es decir, utilizar 2 nmeros aleatorios entre 1 y 2k y utilizar como espaciamiento de muestreo para cada uno de ellos 2k. Rara vez es necesario utilizar procedimientos ms complejos.

Muestreo Estratificado Simple


Muchas veces las caractersticas que se estudian en una poblacin, va ran de muy distinta manera entre los diversos individuos o unidades de anlisis, es decir, se tiene una poblacin muy heterognea. Si no tomamos en consideracin esta "heterogeneidad" es muy posible que nuestras estimaciones a base de la muestra difieran apreciablemente de los verdaderos valores en la poblacin. Una manera de evitar la influencia de esta heterogeneidad en los resultados es agrupar los individuos ms o menos semejantes en subpoblaciones y muestrear cada una de las subpoblaciones como si se tratara de poblaciones independientes. Los distintos grupos formados se denominan estratos y al proceso de muestreo que procede a agrupar los individuos en estos estratos especiales se le denomina estratificacin. Una vez que se han fijado los estratos, se procede a la determinacin del nmero de individuos que deben seleccionarse de cada uno de ellos (afijacin), existen diferentes formas de fijar estos tamaos, una de ellas es tomar un tamao de muestra mayor en aquel estrato que sea ms heterogneo, pero sucede muchas veces que no se tiene una medida aceptable de la variabilidad de la caracterstica estudiada en los diversos estratos, en este caso si queremos una muestra del 10% de la poblacin por ejemplo, lo ms sencillo sera tomar dentro de cada estrato tambin un 10% de su tamao (N de unidades que contiene), a este tipo de afijacin se le denomina, afijacin proporcional. La estratificacin es una tcnica muy comn. Entre las principales razones para su uso se encuentran las siguientes: 1. Si se desean resultados para ciertas subpoblaciones de la poblacin es aconsejable considerar cada subpoblacin como una "poblacin" propiamente tal, y tomar una muestra independiente en cada una de ellas. 2. Ventajas de tipo administrativo pueden aconsejar el uso de la estratificacin, por ejemplo, la institucin que realiza la encuesta puede tener oficinas regionales, cada una de las cuales puede supervisar la encuesta para una parte de la poblacin. 3. La estratificacin puede contribuir a disminuir el error de muestreo. La idea bsica es la que es posible dividir una poblacin heterognea en subpoblaciones, cada una de ellas homognea en su interior. Esto est sugerido por el nombre de estrato qu implica la divisin en capas. Si cada estrato es homogneo en el sentido de que las medidas varan poco de una unidad a otra, una estimacin precisa del parmetro de cualquier estrato puede obtenerse en base a una pequea muestra del estrato.

Muestreo de Conglomerados
Puede suceder en la prctica que las unidades de anlisis no se encuentren aisladas, sino formando grupos o aglomeraciones. Tal es el caso por ejemplo, de los habitantes de una ciudad que viven ya sea en grupos fa miliares o en agrupaciones especiales como ser: residenciales, hoteles, hospitales, crceles, internados: etc. Si nos interesa saber lo que pasa con el individuo, se puede usar primeramente como unidades de muestreo estos ncleos o "conglomerados" de individuos, para enseguida tomar dentro de los conglomerados de la muestra a todos o parte de los individuos que en ellos se encuentran. Otras veces, par razones de orden econmico, se agrupan los individuos de la poblacin en "conglomerados" especiales, tales como zonas de empadronamientos, por ejemplo, o divisiones administrativas pequeas, siguiendo enseguida un proceso de seleccin, como el indicado en el prrafo anterior. Debido al uso de "conglomerados" como unidades (primarias) de muestreo, el proceso de muestreo que hace uso de esta modalidad de agrupacin de las unidades de anlisis, recibe el nombre de "muestreo de conglomerados"

Ventajas del uso del Muestreo:


Hay seis razones bsicas para el uso de muestreo: 1. Una muestra puede ahorrar dinero comparado con el costo de un censo. 2. Una muestra ahorra tiempo, cuando el hecho a estudiar presenta variaciones relativamente rpidas a travs del tiempo, este poco consumo de tiempo en obtener los datos cobra especial importancia pues permite completar la recoleccin de ellos antes que se presenten variaciones de importancia. 3. Una muestra permite concentrar la atencin en casos individuales, el tener que analizar un nmero reducido de individuos permite obtener mayor informacin respecto a ellos con todo el detalle que es necesario de acuerdo a los objetivos. 4. Una muestra permite el uso de poco personal y espacio. En general basta con un nmero reducido de personas debidamente entrenadas y que puedan trabajar en un espacio ms reducido que el que se necesitara para un trabajo de tipo censal. 5. Una muestra permite obtener resultados de mejor calidad, e1 uso de poco personal permite un mejor entrenamiento de ellos, junto al hecho de que se rechace la variacin con que puede presentarse por el observador mismo. Todos estos hechos redundan en una mejor calidad de los resultados. 6. Una muestra, muchas veces es la nica posibilidad razonable de anlisis, en muchas oportunidades el examen de los elementos que forman una poblacin o universo exige su destruccin o inutilizacin, como es el examen rutinario de leche embotellada, conservas, etc., por lo tanto, es absurdo destruir todo el lote de produccin para tener una informacin respecto a su calidad.

Desventajas del Muestreo:


A pesar de las ventajas del muestreo muchas veces no es aconsejable realizar una investigacin a base de muestras. Casos de este tipo son los siguientes: a. Cuando se necesitan datos para subdivisiones muy pequeas de la poblacin, se requieren muestras desproporcionadamente grandes, pues la precisin de una muestra depende frecuentemente del tamao de la muestra y no de la fraccin de muestreo. En este caso de muestreo puede ser casi tan costoso como un censo completo. b. Cuando se requiere un inventario para cada uno de los elementos de la poblacin, ejemplos de este tipo es la ficha clnica de hospital que tienen que existir para todos los pacientes, no slo para un grupo de ellos.

Aplicaciones de Muestreo:
En el campo sanitario el muestreo tiene mltiples aplicaciones, que son por ejemplo: a. La obtencin de informacin respecto a las personas que viven en el rea de un entro de salud con el objeto de elaborar o transformar un programa. b. Probar la eficiencia de un mtodo antes de aplicarlo al total de la poblacin. c. Determinar necesidades de recursos mdicos, asistenciales, de vivienda, de saneamiento dentro del rea del Centro de Salud. d. Evaluar los resultados que est dando un programa en ejecucin.

REGRESION LINEAL
El problema
Se investiga la capacidad vital en 8 nios de diferentes edades, con los siguientes resultados:

Los datos se caracterizan porque en cada unidad de observacin (nio) se hacen dos mediciones: edad (x) y capacidad vital (y). Se dispone de 8 pares de observaciones:

En general, para la observacin i = 1.2....,n, en que n es el nmero de observaciones el par de mediciones es (xi, yi ). Obsrvese que la variable x (edad) no es aleatoria, porque los nios han sido elegidos en ciertas edades; es la variable independiente. La variable capacidad vital (y) es aleatoria y es la variable dependiente. Fundamentalmente se trata de contestar las siguientes preguntas: 1. Depende la capacidad vital de la edad del nio? Depende y de x? 2. Si la respuesta es afirmativa, Cul es la forma de esta dependencia, o bien, Cmo se expresa y en funcin de x? Este tipo de problema es frecuente en medicina. Ejemplos: Cul es la curva ponderal de un nio sano? Cmo vara la concentracin sangunea de un antibitico despus de su administracin oral? Qu relacin hay entre el porcentaje de individuos inmunizados en una poblacin y el nmero de casos d una enfermedad infecciosa? Cul es el valor predictivo que tiene el examen de seleccin de Medicina respecto a las calificaciones del primer ao de estudios mdicos? La utilidad del mtodo es mltiple. Si se construye un modelo con el peso de nios sanos en funcin de la edad, ser posible saber cul es el peso normal de un nio para una edad determinada, lo que ayuda al diagnstico. El uso del examen de seleccin lleva implcita la idea que es capaz de predecir los resultados de los estudios universitarios. La expresin matemtica de la asociacin de dos variables facilita el resumen de muchas observaciones y su aplicacin. Por ltimo, precisar que existe una asociacin y expresarla cuantitativamente es muchas veces un paso previo a formular hiptesis sobre su causa.

El grfico y su descripcin
El primer paso en este tipo de problema es hacer un grfico con la variable dependiente en el eje de las ordenadas y la variable independiente en el de las abscisas.

En este ejemplo, el grfico muestra que la capacidad vital aumenta con la edad, desde 0.79 a los 4 aos de edad hasta 1,99 a los ll aos. Aunque con ciertas irregularidades, los puntos tienden a seguir una lnea ms o menos recta. Usaremos, pues el modelo de regresin lineal. 6

El modelo de regresin lneal


La ecuacin general de una lnea recta es: y = a + bx Siendo a = intercepto = valor de y para x = 0 b = pendiente = cambio en y por unidad de cambio en x.

Cmo se aplica este modelo en el campo multivariable de la medicina? Qu supuestos o condiciones se acepta al aplicarlo? Cmo se interpretan los parmetros de la ecuacin? Si hubiramos examinado un gran nmero de nios, no habramos obtenido para cada edad exactamente la capacidad determinarla en el pequeo grupo de 8 observaciones. Por ejemplo, para la edad 5 aos (x = 5). habramos obtenido capacidades vitales variables aunque ms o menos cercanas a y = 0,93. Por ello, en el modelo se acepta que
6

El nombre de regresin deriva de una de las primeras aplicaciones del mtodo. En un estudio de la relacin entre la estatura del padre y del hijo hombre, se encontr que los hijos de padres muy altos eran, en promedio, menos altos, y que los hijos de padres muy bajos alcanzaban, en promedio, estaturas ms altas que sus padres. Esto es, hay una regresin a la normalidad en sucesivas generaciones.

existe una familia de poblaciones, cada una determinada por un valor fijo y conocido de x. Cada una de estas poblaciones tiene una distribucin normal, definida por un promedio y una distribucin standard que designaremos: y/x = promedio de los valores de y para x dado y/x = desviacin standard de los valores de y para x dado En el ejemplo, esto significa que para la edad 5 aos (x = 5), el promedio de las capacidades vitales es y/x = 5, y la dispersin para este valor puede expresarse por y/x = 5. En un grfico tridimensional la representacin es la siguiente:

De acuerdo al modelo de regresin lineal, los promedios de estas distribuciones se disponen en una lnea recta, cuya ecuacin es: (2) y/x = + x donde

= promedio de y para x = 0 (en este ejemplo, capacidad vital promedio para edad 0, es decir, al nacimiento) = cambio en el promedio de y cuando x aumenta en una unidad. (En este ejemplo, aumento de la capacidad vital promedio por ao de edad) Finalmente, es necesario aceptar que, para cada valor de x, la desviacin standard de la distribucin de y es la misma. Es decir, y/x es constante para todo x En el ejemplo presente, esta condicin dice que la variabilidad individual en la capacidad vital es igual para todas las edades. En la aplicacin de un modelo matemtico de esta especie conviene llamar la atencin sobre los siguientes hechos: 1. Se acepta que el cambio de y es constante por unidad de x; en el ejemplo analizado. que el aumento en la capacidad vital es igual por cada ao de edad cumplido. Esta situacin no es habitual en el rea biolgica, pero el supuesto es aceptable muchas veces para determinados intervalos en el eje de las x. En el caso que se discute, aunque la capacidad vital no fuera una funcin lineal de la edad a lo largo de la vida humana, podra serlo en las edades consideradas. 2. Si la capacidad vital es variable en sujetos de igual edad, esto significa que est determinada ADEMAS por otros factores que no son la edad. Por lo tanto, y/x expresa una variacin de y que es independiente de x. Si la edad fuera el nica factor que determinara la capacidad vital, para una edad determinada habra una capacidad vital nica. Entonces y/x = 0 y todos los puntos corresponderan exactamente a la lnea de promedios. Lo habitual en el campo biolgico es, por el contrario, que la variable y dependa no slo de x sino de mltiples factores. Este carcter multifactorial y los errores de medicin son las dos fuentes que explican la variacin residual alrededor de la lnea de regresin. Tratndose de una muestra, veremos ms adelante que el error de muestreo es otra causa de esta dispersin.

Toda la discusin anterior se refiere a los datos de la poblacin del universo de nios. Lo cierto es que slo disponemos de datos de una pequea muestra de 8 mediciones de la capacidad vital, una para cada edad entre 4 y 11 aos. Cmo podemos estimar los valores desconocidos de y de que definen la lnea recta que expresa la capacidad vital como funcin lineal de la edad?

Ajuste de una lnea recta por el mtodo de los cuadrados mnimos


Para referirnos a la recta ajustada a los datos disponibles (a la muestra) usaremos la simbologa: Yi = a + bxi Hay mltiples lneas rectas que pueden ajustarse a los datos de este ejemplo, es decir. mltiples valores de a y de b, Desde luego. cada par de puntos define una recta; la recta, por otra parte, puede no pasar por los puntos observados. El mejor ajuste se obtiene por el criterio de cuadrados mnimos: es la recta que hace mnima la suma de las diferencias cuadrticas entre cada valor de yi y el valor predicho en xi por la lnea de regresin. Es decir: (yi - Yi )2 mnimo En el grfico siguiente se muestran cada una de estas diferencias como un trazo vertical:

Este ajuste de cuadrados mnimos tiene las propiedades de definir para cada conjunto de puntos observados una lnea nica y de hacer que las constantes a y b de la muestra sean la mejor estimacin de los parmetros y respectivamente. Los valores de a y b que satisfacen las condiciones de cuadrados mnimos se obtienen por la resolucin simultnea de las ecuaciones siguientes, llamadas ECUACIONES NORMALES y que resultan de la derivacin parcial respecto a a y b de la funcin. S = (yi - Yi)2 = (Yi - a - bxi )2 Las ecuaciones normales son: na + b xi = yi a xi + b xi2 = xi yi de donde resulta

Esta ltima ecuacin muestra que la recta pasa por el punto (x,y), es decir, por la medie de las dos distribuciones, puesto que y = a + bx para el ejemplo de la capacidad vital. el clculo del ajuste. es el siguiente

De acuerdo a esta funcin, por cada ao de edad la capacidad vital se incrementa en 0.18 unidades entre las edades de 4 y 11 aos. Extrapolando, la capacidad vital media para el nacimiento sera 0.05. La ecuacin permite predecir la capacidad vital promedio para cualquier valor de x. Por ejemplo, para los 5 aos y medio sera: Y5.5 = 0.05 + (0.18) 5.5 = 1.04

El resumen de la regresin en dos constantes permite tambin comparaciones entre grupos. Por ejemplo, si se estuviera estudiando la capacidad . vital en funcin de la edad entre grupos raciales, la comparacin de interceptos permitirn determinar si hay diferencias en la capacidad vital al nacimiento entre los diversos grupos, y la comparacin de las constantes b hara posible analizar si la raza tiene algn efecto en determinar un diferente incremento de la capacidad vital por ao de edad.

La variabilidad alrededor de la lnea de regresin


Hemos dicho que la dispersin de puntos respecto a la lnea de regresin puede expresar que y depende de otros factores adems de x, que hay errores en la medicin y que los datos de la muestra difieren accidentalmente de la verdadera distribucin en la poblacin o universo de origen. Por estas y otras razones, interesa muchas veces medir esta variabilidad. En la aplicacin del modelo lineal se ha aceptado que para cada valor de x, los valores de y tienen una distribucin normal con promedio = y/x desviacin standard = y/x Podemos estimar y/x de

Los valores de y/x son estimados por los correspondientes yi de la lnea de regresin. modo similar por el ERROR STANDARD DE LA ESTIMACION.

n = nmero de pares de observaciones. Obsrvese que sy/x tiene una estructura semejante a sx utilizado en, la descripcin de la variabilidad de una serie de medidas:

Las diferencias son las siguientes: 1. Las diferencias cuadrticas de cada valor observado no se refieren al promedio fijo del grupo observado, sino a un promedio que vara para cada xi , y que est dado por la lnea de regresin (Yi). 2. Se divide por (n - 2) en vez de (n - 1), por razones tericas que no es conveniente explicar aqu. En el ejemplo desarrollado, el clculo de sy/x es el siguiente

CORRELACION
El anlisis de correlacin estudia el comportamiento recproco de dos variables. Para poder hacerlo es necesario medir simultneamente las dos variables en cada uno de los elementos de un conjunto de unidades de observacin. Por ejemplo, en cada individuo de un grupo de hombres adultos se mide el peso y la estatura, en cada enfermo de un grupo de pacientes se mide la temperatura axilar y la presin sistlica, en cada rbol de un huerto se cuenta el nmero de frutas y se determina el promedio de tamao de las frutas. Simbolizaremos por "x" a una de las variables y por "y" a la otra. El objetivo del estudio de la correlacin es determinar si al variar los valores de "x" en determinado sentido en las unidades de observacin, "y" en estas unidades aumenta, disminuye o se mantiene igual. Ejemplos: observar si hombres con mayor estatura pesan ms que hombres con menor estatura; observar si al haber mayor temperatura corporal, la presin sistlica tambin aumenta; observar si a mayor nmero de frutas en el rbol el tamao promedio de las frutas disminuye.

Presentacin de los datos


1) Tabla: Segn el nmero de observaciones puede ser: a) una lista b) una tabla de datos agrupados a) La lista consiste en colocar frente a cada unidad de observacin e1 valor de cada una de las variables medidas. Ejemplo:

En este ejemplo la unidad de observacin es la familia. Cada familia se identific arbitrariamente por un nmero. En este caso es indiferente a cual de las estaturas designemos por x y a cual por "y". Decidimos llamar "x" a las estaturas de los hermanos y llamar "y" a la estatura de las hermanas. b) La tabla de datos agrupados o tabla de correlacin dispone de casilleros en los cuales quedan ubicadas las diferentes unidades de observacin que corresponden a ellos. Este tipo de tabla permite la visualizacin inmediata de la relacin existente entre las variables en estudio. Ejemplo:

Se aprecia fcilmente que a medida que aumenta el peso de los individuos aumenta tambin el consumo de 02. 2) Grfico La manera ms sencilla de presentar y analizar la relacin entre dos variables es el grfico de correlacin. La tcnica para construir este grfico es la siguiente: en cada uno de los ejes perpendiculares se coloca una de las variables estudiadas. La variable anotada en el eje horizontal se denomina "x." y la del eje vertical "y". La escala de variables en cada eje flucta entre el valor mnimo y el mximo de la serie, sin necesidad de comenzar en 0. Se proporcionarn las escalas de manera que ambos ejes tengan igual longitud. Una vez trazados los ejes y sus escalas se procede a inscribir unidad observada, representndola por un punto en la interseccin de perpendiculares imaginarias levantadas en los valores que le corresponden al individuo para cada variable. Se logra as un grfico de puntos cuya distribucin nos informa sobre la existencia o no de correlacin. El grfico slo puede hacerse a partir de una lista de los individuos, no de una tabla de correlacin. Ejemplo: En 18 alumnos de primer ao de una escuela se ha hecho un estudio de correlacin entre el test que mide el coeficiente intelectual (CI) y las notas obtenidas en los exmenes de primer ao. Los datos son los siguientes: CI X 107 120 77 136 111 140 97 117 126 92 90 110 123 110 103 96 133 102 EXAMEN Y 59 60 26 80 66 66 50 66 67 31 40 41 57 80 44 43 72 32

En la tabla es muy difcil ver la relacin que existe entre ambas variables, el grfico en cambio, nos muestra inmediatamente que a mayor CI las notas son tambin mayores y viceversa. El grfico de puntos nos revela correlacin cuando los puntos se disponen en una nube elptica y oblicua con respecto a los ejes. La correlacin puede ser positiva o negativa. Es positiva cuando a valores bajos de x corresponden valores bajos de y, y a valores altos de x corresponden valores altos de y. Es negativa si al aumentar los valores de x los valores de y disminuyen. La ausencia de correlacin se manifiesta en el grfico por una disposicin circular, horizontal o vertical de los puntos. Las imgenes de las situaciones descritas son:

El grado de correlacin se revela en el grfico por la mayor o menor dispersin de los puntos alrededor del eje mayor de la elipse. La correlacin perfecta se revelara por una disposicin lineal de los puntos. Cuando es difcil ver si existe correlacin, es una ayuda trazar perpendiculares a los ejes en los valores correspondientes a las medianas de las variables. En el grfico del presente ejemplo, trazamos una lnea vertical que

deje 9 puntos a su izquierda y 9 a su derecha con lo que obtenemos la mediana del CI, luego trazamos una horizontal que deje 9 puntos arriba y 9 abajo dando la mediana de las notas de examen. En este caso particular la 9a y la l0a observacin ordenada segn CI estn ambas frente al valor 110 y por lo tanto la vertical pasar por ambos puntos. Adjudicaremos dos mitades hacia la izquierda de la vertical y dos mitades hacia la derecha.

Contamos luego los puntos en cada uno de los cuadrantes obtenidos. Si en dos cuadrantes diagonalmente opuestos la cantidad de puntos es superior a la que se encuentra en el otro sentido decimos que hay correlacin. Podemos resumir el resultado del anlisis por medianas en una tabla de asociacin. En nuestro ejemplo definiremos los valores a uno u otro lado de la mediana simplemente como altos o bajos con lo que obtendremos la siguiente tabla:

Se observa la mayor frecuencia de individuos en los casilleros en que ambas mediciones coinciden lo que nos revela correlacin positiva.

El coeficiente de correlacin "r"


Tanto el anlisis del grfico como el mtodo del trazado de las medianas son slo aproximados para medir el grado de correlacin. Cuando la falta de correlacin es evidente no se justifica seguir adelante el anlisis. Por el contrario, si estos mtodos sugieren una correlacin, necesitamos alguna medida para apreciar su magnitud y esta medida es el coeficiente de correlacin r.

Requisitos para el clculo de r.


Para que el coeficiente de correlacin sea una buena medida es necesario que: . a) La correlacin terica sea una lnea recta. b) Que sea una distribucin bivariable, normal. El primer requisito se cumple cada vez qu la nube de puntos fuera resumible en una lnea recta. El requisito de ser normal bivariante, se puede explicar con la tabla de correlacin para peso corporal y consumo deoxgeno en la pgina 2. Se ve en esa tabla que hay un esbozo de distribucin normal frente a cada valor de peso y lo mismo frente a cada valor de consumo de O2. Este esbozo se perfeccionara a medida que fuera aumentando l nmero de observaciones. En general se supone que estos requisitos se cumplen ya que no es posible verificarlo. Si evidentemente no se cumplen, hay otros mtodos llamados "no paramtricos" que pueden utilizarse para medir el grad de correlacin.

Clculo de r
La frmula para el clculo de r es:

Para obtener las cantidades necesarias necesitamos las columnas indicadas a continuacin. Para nuestro ejemplo:

Interpretacin de r
El valor de r puede variar entre -1 y +1. Una visualizacin del valor de r se obtiene al analizar otra frmula para r en presencia de un grfico.

En los cuadrantes I y III los productos (x - x) (y - y) son positivos, en los cuadrantes II y IV son negativos. As podemos entender que la suma del numerador ser (+), (-) o 0 segn si el nmero de sumandos positivos es mayor, menor o igual al de sumandos negativos, lo que har que r sea (+), (-) o 0. La correlacin es ms estrecha mientras ms cercano a -1 o a +1 est r. De esta manera: - 1 = correlacin inversa o negativa perfecta, 0 = ausencia absoluta de correlacin + 1 = correlacin directa o positiva perfecta.

Significacin
Para poder determinar si el valor de r encontrado es estadsticamente significativo, es necesario hacer una prueba de significacin estadstica que: Ho : = 0 ausencia de correlacin H1 : 0 existencia de correlacin

Donde es el coeficiente de correlacin poblacional. La distribucin muestral de r es aproximadamente una curva normal centrada en = 0 y con error standard.

Con 16 grados de libertad. Las tablas de la t de Student muestran los valores para diferentes percentiles de la distribucin. Si nuestro afuera 0.05 tratndose de una prueba de significacin bilateral, debemos buscar el valor de t correspondiente al percentil 97,5 o bien, como aparece en la tabla, para .975 lo que nos da t = 2.120. Para = 0.01 buscaremos bajo 995 lo que da t = 2.921.

Interpretacin de la existencia de correlacin


Una vez que hayamos concluido que existe correlacin debemos hacer una interpretacin en trminos del problema que analizamos. Las siguientes circunstancias pueden provocar la correlacin entre dos variables : 1) Una variable es causa de la otra. Por ejemplo: la correlacin entre aumento de peso y cantidad de caloras ingeridas pueden ser de este tipo. 2) Ambas variables son consecuencia de una tercera. Por ejemplo: la correlacin entre mortalidad infantil y porcentaje de nios matriculados en la escuela en diferentes pases tiene una correlacin inversa explicada porque ambos fenmenos son consecuencia de un bajo nivel de vida. 3) La correlacin se ha producido por azar. Esto puede suceder sobre todo cuando el nmero de observaciones es escaso.

Interpretacin de la ausencia de correlacin


1) No hay correlacin entre las variables 2) Hay correlacin pero est encubierta por una variable que tiene correlacin opuesta. Por ejemplo: la velocidad desarrollada en una carrera y el nmero de pulsaciones por minuto deberan estar correlacionados directamente pero es posible que los ms veloces sean atletas que se vean menos afectados por el esfuerzo fsico y por lo tanto reaccionen como escaso aumento del nmero de pulsaciones. 3) El azar nos ha presentado aquellos casos en que la correlacin no se manifiesta. Esto puede suceder si el nmero de observaciones es escaso.

Conclusin general
La presencia o ausencia de correlacin entre dos variables no significa automticamente la existencia o no de una relacin causa-efecto. Debemos tener siempre presente las otras explicaciones que hemos sealado. El hecho de que las conclusiones que sacamos a partir de una correlacin sean de tipo inductivo no le resta importancia al mtodo. Hay muchas situaciones en que el nico estudio posible, en una primera etapa es el de la correlacin. As por ejemplo, en la investigacin de causas de enfermedades es til estudiar la correlacin entre la frecuencia de la enfermedad y distintos factores ambientales. As se puede descubrir importantes hechos que pueden comprobarse posteriormente con procedimientos experimentales que dan mayor seguridad en la interpretacin.

You might also like