Professional Documents
Culture Documents
AO 2010
Qu es la Estadstica?
Es un conjunto de mtodos que nos permiten aprender a partir de la experiencia. Es la maquinaria del mtodo cientfico .Es la ciencia que se ocupa de resumir y analizar datos sujetos a variaciones aleatorias. Es la mejor forma de anticipar, detectar, medir, reducir y en definitiva manejar la incertidumbre.
Porque la planificacin, realizacin e interpretacin de la investigacin en medicina, descansa cada vez ms sobre la metodologa estadstica.
Observacin: incluye desde la simple observacin, hasta mediciones in vivo (por ejemplo, medicin de la temperatura corporal) e in vitro (obtenidos en laboratorio). Registro: es una recoleccin sistemtica, peridica, continua y en ocasiones permanente. Por lo general genera datos secundarios. Por ejemplo, las Estadsticas vitales. Encuestas: es una recoleccin sistemtica pero eventual. Si se realizan al total de la poblacin se llaman censos. Por lo general producen datos de tipo primario.
No existe un mtodo instrumento perfecto para la recoleccin de datos; todos tienen ventajas y limitaciones, por lo que es conveniente combinar dos ms de ellos. FUENTES DE DATOS Los datos pueden existir o pueden ser obtenidos por mtodos planificados por quien los necesita. De acuerdo a esto se reconocen dos tipos de fuentes de datos:
Secundarias documentales: tienen datos que ya existen y que fueron recolectados por
otras personas y con fines diferentes a los fines de quien va a utilizarlos. Ejemplos: certificados de defuncin, registros especficos, estadsticas hospitalarias, etc. Son una forma rpida y econmica de recabar datos. Tienen algunas limitaciones que deben conocerse para evitar errores en la interpretacin de la informacin por ellas generada. Cuanto mayor desarrollo socioeconmico tiene un pas, mayor es la cobertura y calidad de sus registros. Las fuentes secundarias pueden ser de carcter permanente eventual:
Fuentes secundarias de carcter permanente: Estadsticas Vitales elaboradas por la Direccin Nacional de Estadsticas de Salud con datos sobre nacimientos, defunciones, y matrimonios provistos por el Registro Civil. Estadsticas hospitalarias Fuentes secundarias de carcter eventual: Censos Empadronamientos Encuestas Nacionales que aportan, por ejemplo, datos de mortalidad y morbilidad.
a. Escala nominal
Se usan para la forma ms simple de medicin, cuando la variable es una cualidad. Los datos valorados en esta escala se llaman observaciones cualitativas, categricas atributos. Ejemplos: Grupo sanguneo (A, B, AB, O); Grupo tnico (Blanco, Indgena, Mestizo) Si el nmero de categoras posibles se reduce a dos, la variable se dice dicotmica binaria. Por ejemplo: Sano - Enfermo; Vivo - Muerto; Varn - Mujer.
b. Escala ordinal
Se asignan rangos a las categoras que indican un orden natural. Permiten clasificar los objetos de acuerdo a su posicin relativa con respecto a los dems, pero sin indicar cunto mayor es un atributo de un nivel respecto a otro nivel. Aunque existe un orden entre las categoras, la diferencia entre dos grupos adyacentes no es uniforme a lo largo de la escala. Ejemplos: Disnea leve, moderada, grave; Estado de carcinoma de cuello uterino (I a IV); Nivel socioeconmico. No podemos decir que la persona con estado IV de cncer de cuello de tero, est el doble de grave respecto a otra que tiene II.
TABLAS
Una buena tabla es aquella en que los patrones y excepciones son obvios de un vistazo. Para ello hay ciertas reglas bsicas que debern seguirse: a) No pretender presentar demasiada informacin; el lector puede necesitar mucho tiempo para interpretarla y puede perderse el objetivo que los autores estn tratando de comunicar. b) Deben incluir ttulos, leyendas completas y unidades de medida.
c) Deben redondearse las cifras limitando el nmero de dgitos, de forma de alcanzar no ms precisin que la necesaria. (Para la presentacin, no para el anlisis posterior). d) Las cifras se comparan ms fcilmente en columnas. e) Deben espaciarse adecuadamente filas y columnas; ni tan juntas que los nmeros queden amontonados, ni tan separadas que el ojo deba esforzarse para recorrerlas. ACLARACION PARA EL LECTOR: En este apunte, los ejemplos utilizados para "PRESENTACIN DE LA INFORMACIN" y "MEDIDAS RESUMEN", se encuentran agrupados desde la pgina 14 hasta la pgina 20. Oportunamente al desarrollar estos temas nos remitiremos a ellos indicando su nmero de Tabla de distribucin de frecuencias pgina. Las distribuciones de frecuencias representan un mtodo para presentar ordenadamente un conjunto de datos. Constituyen un arreglo sistemtico de diferentes categoras, valores individuales intervalos de valores de la variable, junto con un recuento del nmero de veces que se obtuvo cada valor; por lo tanto pueden utilizarse para datos medidos en cualquiera de las tres escalas de medicin. Su elaboracin es sencilla, consta bsicamente de dos componentes: los valores mediciones de la variable (x) y el recuento de las observaciones pertenecientes a cada uno de esos valores frecuencia absoluta (f). Si la variable es nominal, la frecuencia se indica para cada valor de la variable. ( Tabla 1. Pg. 14). Si la variable es ordinal numrica discreta, y el rango de valores que puede tomar es reducido, la frecuencia puede indicarse en cada valor de la variable. (Tabla 2. Pg 14); en cambio si los valores posibles presentan una amplitud muy grande, conviene agrupar los datos en intervalos que sean mutuamente excluyentes y exhaustivos. Si la variable es continua siempre se deben formar intervalos clases, cuyo nmero depende del nmero total de observaciones denotado por n. El nmero de clases debe ser suficiente para mostrar la forma de la distribucin, pero no excesivo para registrar demasiadas fluctuaciones menores. En general vara entre 6 y 15 clases. Con la agrupacin en clases se gana en comodidad pero se pierde informacin, ya que una vez agrupados, todos los datos pertenecientes a un intervalo sern identificados para el anlisis posterior con el punto medio o marca de clase de ese intervalo. Siempre que se pueda, las amplitudes anchos de clase (diferencia entre el lmite superior y el inferior) deben ser iguales. (Tabla 3. Pg 15)
La frecuencia de una distribucin no se expresa a menudo como un recuento absoluto sino como una frecuencia relativa (fr) frecuencia relativa % (fr%), es decir como una proporcin porcentaje de la frecuencia total, siendo fr% = (f / n) x 100. En variables nominales generalmente se usan estos porcentajes. Cuando se analizan dos variables a la vez, (anlisis bivariado), la tabla de frecuencia se denomina Tabla de contingencia de clasificacin cruzada. Son fciles de construir y tienen la propiedad de comunicar una gran cantidad de informacin. Un caso especial de este tipo de tablas son las tablas de 2 x 2, es decir de 2 filas y 2 columnas. ( Tabla 4. Pg 17). Las hay de mayores dimensiones.
GRAFICOS
Los grficos tienen la ventaja de transmitir en forma casi instantnea una gran cantidad de informacin y deberan contribuir a hacer ms comprensible el material presentado. Para ello, el grfico ms eficiente es el que logra su propsito con la mayor sencillez posible. Algunas consideraciones que deben tenerse en cuenta para su construccin: a) El grfico no debe contener ms lneas smbolos que los que el ojo cmodamente pueda distinguir. b) Debe poder interpretarse por s mismo, sin necesidad de recurrir al texto. c) Debe estar claramente titulado y sus ejes rotulados indicando las unidades de medida. d) Deben interpretarse con precaucin aquellas escalas que no comienzan en cero, hecho que se indica mediante una interrupcin del eje en las proximidades del cero. e) Si se trabaja con porcentajes, se debe aclarar cul es el denominador utilizado para el clculo de los mismos. GRAFICOS QUE REPRESENTAN DISTRIBUCIONES DE FRECUENCIAS Para representar las tablas de distribucin de frecuencias, se utilizan diferentes grficos de acuerdo a la escala de medicin de la variable, el rango de valores, el nmero de datos con que se est trabajando y los objetivos buscados. Los ms conocidos y utilizados son:
Histograma
Se utiliza para representar una distribucin de frecuencias de una variable cuantitativa continua de una variable numrica discreta con rango de valores muy amplios y agrupados en clases. (Grfico 3. Pg 16). Est formado por rectngulos adyacentes cuyas alturas representan la frecuencia.
Polgono de frecuencias
Se utiliza para comparar dos o ms distribuciones de frecuencia en un mismo grfico, ya que el el histograma dificultara la lectura. (Grfico 3. Pg 16). Se construyen uniendo los puntos medios de los rectngulos del histograma, mediante una lnea continua que debe extenderse
hasta las marcas de clase de un intervalo anterior al primero y posterior al ltimo, de modo que el rea encerrada por el polgono sea equivalente al rea encerrada por el histograma. Son una manera til de visualizar rpidamente la forma de una distribucin de valores numricos. Estas formas pueden ser de tipos muy variados. Sin embargo, hay dos caractersticas fundamentales que definen a una distribucin: Simetra y Modalidad.
Simetra: una distribucin es simtrica si, al plegarla sobre s misma sus dos mitades se superponen aproximadamente. Las distribuciones que se muestran en la grfica siguiente son simtricas:
Con datos reales, es muy raro que las distribuciones sean perfectamente simtricas, sin embargo, cuando se trata de caracterizar la forma de una distribucin, a menudo las discrepancias menores se ignoran. En las distribuciones asimtricas sesgadas, el pico se encuentra descentrado y una cola es ms larga que la otra. Cuando la cola ms larga apunta a la derecha se dice que el sesgo es positivo; cuando apunta a la izquierda, la distribucin tiene sesgo negativo.
Modalidad: Una distribucin unimodal es aquella que slo presenta un pico punto alto(es decir un valor con elevada frecuencia), en tanto que una distribucin polimodal tiene dos ms picos; si tiene dos en particular se llama bimodal.
La simetra y la modalidad son aspectos completamente independientes. Conocer el sesgo de una distribucin no indica nada acerca de su modalidad. Algunas distribuciones se encuentran tan frecuentemente que han dado lugar al uso generalizado de trminos especiales para designarlas. De particular inters en el anlisis estadstico es la distribucin normal, tambin conocida como distribucin de Gauss. Esta distribucin es simtrica, unimodal y no demasiado puntiforme. No le resultar muy complicado identificarla entre las cinco figuras anteriores. Muchas variables fsicas y psicolgicas se aproximan a esta distribucin, entre ellas, la estatura, la inteligencia, la edad de la menarca, y la presin arterial.
OTROS GRAFICOS Los grficos siguientes no representan distribuciones de frecuencias y se utilizan con fines especficos:
Grfico de lneas
Se utiliza generalmente para mostrar las variaciones que experimenta una variable a lo largo del tiempo. (Grfico 4. Pg 17). Las unidades de tiempo se colocan en el eje horizontal y los puntos que representan la variable principal en momentos sucesivos, se unen con segmentos rectilneos. Se debe ser cuidadoso en la eleccin de la escala y en su interpretacin, si se elige un origen distinto de cero.
Proporcin
Es el nmero (a) de observaciones con una caracterstica dada, por ejemplo enfermos, dividido por el nmero total de observaciones (a + b), es decir sanos y enfermos: a / (a + b) Establece la relacin de una parte con el todo. El numerador siempre debe estar contenido en el denominador. Suelen expresarse como porcentajes, multiplicando la proporcin por 100. Ejemplo: En un ensayo clnico se enrrolan 120 pacientes, 72 de los cuales son mujeres; la proporcin de mujeres es 72 /120 = 0.6 el 60%.
Razn
Es el nmero (a) de observaciones con una caracterstica dada, por ejemplo estar enfermo, dividido el nmero (b) de observaciones sin la caracterstica dada, no estar enfermo: a / b Establece la relacin de una parte con otra parte. El numerador no es parte del denominador. Ejemplo: Durante el 2004 hubo en Argentina 960 muertes por accidente de trnsito, 720 varones y 240 mujeres. Por cada muerte del sexo femenino por esa causa, hubo 3 del sexo masculino. La razn de muertos hombre:mujer es 3 = 720/240.
Tasa ndice
Son semejantes a las proporciones, excepto en que, tienen en cuenta una medida del tiempo en la cual fueron recogidos los datos. Para permitir la comparacin rpida entre tasas, se las expresa en relacin a un multiplicador base, por ejemplo 1000, 10000, 100000 un milln, dependiendo de la frecuencia del evento. Describen la rapidez con que tiene lugar un suceso dado. Ejemplo: Durante el ao 1960 hubo en una ciudad de 2 millones de habitantes, 500 casos de tuberculosis. La tasa de tuberculosis puede expresarse entonces como 25 x 100000 personas por ao 250 x milln de personas por ao.
MEDIDAS DE CENTRALIZACIN Buscan definir a un "representante oficial" "valor tpico" del conjunto de datos. Moda (Mo)
Es el valor de la variable que se presenta con mayor frecuencia. Puede haber una moda (unimodal), dos (bimodal), ms de dos (polimodal) ninguna. Se utiliza con variables en cualquier escala de medicin. En el caso de variables continuas, que generalmente se presentan agrupadas en intervalos, la moda puede identificarse con la marca de clase del intervalo que presenta la mayor frecuencia. Es la nica medida que se puede utilizar para resumir la tendencia central de variables en escala nominal.
x1 x 2 xn n
10
Si los datos estn agrupados en una tabla de distribucin de frecuencias y no es posible recurrir a los datos originales, se obtiene un valor aproximado de la media debido al efecto del agrupamiento; en este caso se utiliza el punto medio del intervalo como el ms representativo del mismo y se considera que todos los valores de ese intervalo coinciden con l. Es la medida de centralizacin que se utiliza en Estadstica inferencial (intervalos de confianza, test de hiptesis, etc.), porque incluye en su clculo a todas las observaciones y por sus propiedades matemticas. No es una medida representativa si la variable tiene distribucin asimtrica no es unimodal.
Mediana (Me)
Es la observacin que ocupa el lugar central de los datos cuando se los ordena en forma creciente. Divide a la distribucin en partes iguales; la mitad de los datos estn por encima de este valor y la otra mitad por debajo. Si el nmero total de observaciones n es impar, existir una nica mediana y ser el valor que ocupe la posicin (n + 1)/2. Ej: {2, 5, 7, 19, 21 , Me = 7 (Ocupa el 3 lugar = (5 + 1)/2). Si n es par no existe un nico valor central y la mediana se define como el promedio de las dos observaciones centrales, es decir las que ocupan las posiciones n/2 y n/2 + 1. Ej: {2, 5, 7, 19, 21, 25 Me = (7 + 19)/2 = 13 No tiene en cuenta la magnitud exacta de cada observacin, sino solamente la del dato que ocupa la posicin central. Esto se puede considerar una desventaja con relacin a la media, porque implica una prdida de informacin; sin embargo, esto se transforma en ventaja cuando la distribucin es asimtrica, ya que la mediana en ese caso, no se ve afectada por valores extremos que pueda tomar la variable. Si al conjunto de datos del ejemplo anterior le cambiamos el valor 25 por 250, la mediana no se modifica, sigue siendo 13. Si la distribucin es simtrica y unimodal, media, moda y mediana coinciden. Se la utiliza para estimar tiempo medio de sobrevida, ya que es posible calcularla despus que slo la mitad de los sujetos han muerto; la media, en cambio, no se puede calcular hasta que todos murieron.
Es la medida de centralizacin que se utiliza cuando la variable es numrica y la distribucin es asimtrica, y tambien para variables en escala ordinal.
MEDIDAS DE ORDEN
Las medidas de orden no tienen en cuenta la magnitud exacta de cada observacin, sino solamente la posicin u orden que un dato que ocupa cuando el conjunto de datos es ordenado en forma creciente. Son valores que dividen al conjunto ordnado en partes iguales.
11
MEDIDAS DE DISPERSION
Expresan el grado de variacin de los datos, y por lo general, indican en qu medida el resto de los datos se asemeja al "representante oficial". Una medida de centralizacin como la media, ser ms fiable, y estar determinada con mayor precisin, si todos los valores se encuentran cercanos a ella, que si varan ampliamente. Dos series de mediciones pueden coincidir en media, mediana y moda, y sin embargo, ser totalmente diferentes en su distribucin. Por eso, una medida de centralizacin siempre debe ir acompaada de una de dispersin, que indique la magnitud en la que los resultados se desvan unos de otros. Las ms utilizadas son: el rango, el rango intercuartlico, el desvo estndar, la varianza y el coeficiente de variacin.
Rango (R)
Es la diferencia entre la mayor y la menor observacin. Siempre se deben especificar ambos valores, pues dan informacin ms til que el rango. No es una medida estable, ya que es comun que aumente a medida que aumenta el nmero de datos, y su clculo se basa slo en los valores extremos, (que por otra parte son los ms variables). Por este motivo, el rango se utiliza, sobre todo, como un ndice descriptivo grueso y se informa junto con otras medidas de variabilidad, pero no en su lugar.
12
Si la distribucin es simtrica y unimodal: 67% de las observaciones estn entre la media menos un desvo y la media ms un desvo. 95% de las observaciones estn entre la media menos dos desvos y la media ms dos desvos. 99.7% las observaciones estn entre la media menos tres desvos y la media ms tres desvos. Si al desvo estndar se lo eleva al cuadrado, se obtiene otra medida de dispersin muy utilizada conocida como varianza.
CV %
S 100% x
13
EJEMPLO 1
Se revisaron las historias clnicas de 93 pacientes que fueron operados en el Servicio de Neurociruga entre 1990 y 1994 de tumores intracraneales del Sistema Nervioso Central. Se clasific a los tumores segn su tipo histolgico con los siguientes resultados:
Grfico 1. Grfico de sectores. Tipos histolgicos de tumores intracraneales del Sistema Nervioso Central
N = 93
Otros 16%
Meningiomas 24%
Neurinomas 8%
Metastasis 16%
Gliomas 36%
__________________________________________________________________________ EJEMPLO 2
Se observ prospectivamente durante 5 aos a 120 pacientes con cardiopata isqumica estable que haban sido intervenidos quirrgicamente, y se cont el nmero de veces que necesitaron ser hospitalizados durante ese perodo. Los resultados se ordenaron en la siguiente tabla de frecuencias:
14
50 45
Nmero de pacientes
40 35 30 25 20 15 10 5 0
39 31 22 16 8 3 1
2 3 4 5 Nmero de hospitalizaciones
Media aritmtica = 202/120 = 1.68 Cuartil 1 = 1 Desvo estndar = 155.89/ 119 = 1.31 Mediana = Cuartil 2 = 1 Cuartil 3 = 2 Varianza = 1.71 Moda = 1 Rango intercuartlico = 2 - 1 = 1 Este es un caso de distribucin asimtrica y por lo tanto como medida de centralizacin se recomienda la mediana y como medida de dispersin, el rango intercuartlico.
_________________________________________________________________________________
EJEMPLO 3 A continuacin figuran los valores de seroalbmina en g/l de sangre de 50 mujeres sanas: _________________________________ 42 41 42 44 44 36 38 41 42 44 42 39 49 40 45 32 34 43 37 39 41 39 48 42 43 33 43 35 32 34 39 35 43 44 47 40 39 42 41 46 37 49 41 39 43 42 47 48 51 52 _________________________________ Los datos fueron agrupados en 6 intervalos de clase de igual amplitud y se construy la Tabla de frecuencias correspondiente. Tabla 3. Tabla de frecuencias de seroalbmina (g/l) en sangre de mujeres sanas.
Seroalbmina (g/l) [ 30 - 34) [34 - 38) [38 - 42) [42 - 46) [46 - 50) [50 - 54) TOTAL Nmero de mujeres Frec. absoluta (f) 3 7 14 17 7 2 50 Marca de clase 32 36 40 44 48 52 Frecuencia relativa % (fr%) 6.0 14.0 28.0 34.0 14.0 4.0 100.0 Frecuencia acumulada (fa) 3 10 24 41 48 50
15
Mnimo = 32 Mximo = 52 Rango = 52 32 = 20 Amplitud de clase = 4 Marca de clase = (Lmite superior + Lmite inferior)/2 = (30 + 34)/2 = 32 Frecuencia relativa % = 3/50 x 100 = 6%
Medidas resumen calculadas con los datos sin agrupar
Media aritmtica = 2069/50 = 41.38 Desvo estndar = 232.26/49 = 4.746 Mediana = Cuartil 2 = 42 Varianza = 22.52 Moda = 42 Rango intercuartlico = 44 39 = 5 Cuartil 1 = 39 Percentil 40 = 41 Cuartil 3 = 44 Percentil 90 = 48
En este caso la distribucin es prcticamente simtrica, y por lo tanto las medidas de centralizacin estn muy prximas; como medida de dispersin puede utilizarse el desvo estndar.
Entre 39g/l y 44 g/l se encuentran los valores centrales de seroalbmina del 50% de las mujeres. El 40% tiene valores inferiores a 41 g/l y el 10% tiene valores superiores a 48 g/l.
16
EJEMPLO 4
Mediante un estudio de casos y controles se desea investigar la historia del consumo de carne en personas con enteritis necrotizante, comparndola con el de personas que no han sufrido la enfermedad. Se cuenta con 118 individuos de los cuales 61 son casos y 57, controles. Entre los primeros, 50 consumieron carne recientemente y entre los segundos, 16 lo haban hecho. Con estos datos se puede construir una tabla de contingencia de 2 x 2.
Tabla 4. Tabla de contingencia de 2 x 2. Asociacin entre enteritis necrotizante y consumo reciente de carne.
Exposicin (ingesta de carne) SI NO Enfermedad (enteritis necrotizante) SI NO Total 50 16 66 11 41 52 Total 61 57 118
Este tipo de tabla de frecuencias permite calcular, entre otras cosas, medidas de riesgo. _________________________________________________________________________________ EJEMPLO 5 Grfico de lineas
Se analizaron seis encuestas realizadas en Australia durante los aos 74, 76, 80, 83 86 y 89, para evidenciar los cambios que haba experimentado la proporcin de hombres y mujeres que eran fumadores habituales. Porcentaje de hombres y mujeres que eran fumadores habituales en Australia AO HOMBRES MUJERES 1974 46 29 1976 44 33 1980 42 32 1983 41 32 1986 34 30 1989 31 28
Grfico 4. Grfico de lneas de la proporcin de hombres y mujeres que eran fumadores habituales en Australia.
17
Se realiz un estudio de tipo ecolgico en 11 pases asiticos para correlacionar la prevalencia de insuficiencia ponderal infantil con la ingesta calrica per cpita.
Prevalencia de insuficiencia ponderal infantil e ingesta calrica en 11 pases asiticos.
Pas
1 2 3 4 5 6 7 8 9 10 11
1900 2000 2080 2200 2200 2210 2250 2340 2520 2540 2670
ficiencia ponderal 70 70 73 35 56 52 49 41 21 40 53
Grfico 5. Diagrama de dispersin de la prevalencia de insuficiencia ponderal infantil e ingesta calrica per cpita en 11 pases asiticos.
60 50 40 30 20 10 0 1800
1900
2000
2100
2200
2300
2400
2500
2600
2700
Se observa una correlacin lineal negativa entre ambas variables; a menor ingesta calrica, mayor prevalencia de insuficiencia ponderal infantil. 18
Grfico 6. Grfico de puntos del Nmero de pulsaciones por minuto de droga y placebo
Se observa que, en general, los pacientes tratados con la nueva droga, presentan menor nmero de pulsaciones que los que recibieron placebo. Este ltimo grupo, presenta mayor variabilidad del nmero de pulsaciones, que los que tomaron la droga.
19
Grfico de caja Para los mismos datos del Ejemplo 7, se utilizaron grficos de caja. Grfico 7. Grfico de caja del nmero de pulsaciones por minuto del grupo que recibi la droga y el grupo placebo
140
120
100
80
Tratamiento
Adems de los comentarios que acompaan al Grfico 6, en el box plot podemos visualizar las medianas de uno y otro grupo, la asimetra en el grupo que recibi placebo, y confirmar la mayor dispersin del grupo placebo y la condicin de dato atpico o outlier (representado por el smbolo ), de uno de los pacientes que recibi la droga.
20