You are on page 1of 21

Muestra El objeto de encontrar los pasos para una encuesta por muestreo es recalcar que el muestreo es un negocio prctico

y exige muchas y diversas habilidades. En algunos pasos, como por ejemplo en la definicin de la poblacin, en la determinacin de los datos a recoger y de los mtodos de medicin, y en la organizacin del trabajo de campo, poco o nada tiene que ver la teora del muestreo. Aunque estos asuntos no se discutirn en el resto del libro, hay que tener presente su importancia. El muestreo requiere atencin en todas las fases de la actividad: un trabajo mediocre en una de ellas puede arruinar toda la encuesta El propsito de la teora del muestreo es que ste sea ms eficiente. Su objetivo es desarrollar mtodos de seleccin de muestras y de estimacin, que proporcionen, al menor costo posible, estimaciones con la suficiente exactitud para nuestros propsitos. Este principio de exactitud especfica a costo mnimo aparece una y otra vez en la presentacin de la teora Para aplicar este principio, debemos ser capaces de predecir en cualquier mtodo de muestreo que se considere, la precisin y el costo esperados. Respecto a la precisin, no podremos predecir cul ser el error de una estimacin en una situacin especfica, porque esto implicara el conocimiento del verdadero valor de la poblacin. En lugar de ello, la precisin de un procedimiento de muestreo se juzga al examinar la distribucin de frecuencia generada para las estimaciones, suponiendo que el proceso de muestreo se aplica varias veces a la misma poblacin. Desde luego, sta es la tcnica estndar con la que se juzga la precisin en la teora estadstica Una simplificacin adicional que podemos hacer, consiste en suponer, lo que es razonable en la prctica si se trata de muestras de tamao comn, que las estimaciones de muestra tienen una distribucin aproximadamente normal. Con una estimacin distribuida en forma normal se conoce la distribucin de frecuencias, si son conocidas la media y la desviacin estndar o la varianza. Una parte considerable de la teora del muestreo se ocupa de encontrar frmulas para estas medias y varianzas Hay dos diferencias entre la teora estndar de encuestas por muestreo y la teora clsica del muestreo como aparece en los libros de estadstica matemtica. En la teora clsica, las mediciones hechas sobre las unidades de muestreo de la poblacin suele suponerse que siguen una distribucin de frecuencia de forma matemtica conocida, como sera la distribucin normal, cuyos parmetros, media y varianza, por ejemplo, se estimaran a partir de los datos de las muestras. Por otro lado, en la teora de las encuestas por muestreo, se supone que slo se dispone de una informacin muy limitada sobre dicha distribucin, y sobre todo, no se supone conocida su forma matemtica, as que el enfoque se puede describir como independiente de un modelo o de una distribucin de frecuencia. Esta es una actitud natural para encuestas muy grandes en las que se efectan numerosas mediciones diferentes de las unidades que siguen diversas distribuciones de frecuencia. Para las encuestas en las que slo se realizan pocas mediciones en cada unidad, el estudio de sus distribuciones de frecuencia puede justificar la hiptesis de que son de forma matemtica conocida, lo que permite la aplicacin de la teora clsica Otra diferencia es que las poblaciones en una encuesta tienen un nmero finito de unidades. Los resultados son ligeramente ms complicados cuando el muestreo es de una poblacin finita y no de una infinita. Por razones prcticas, a menudo se ignoran estas diferencias en los resultados para poblaciones finitas e infinitas.

Requisitos de una muestra.

Cualitativamente debe ser buena, vale decir representativa del Universo al que pertenece. Una muestra representativa debe ser: Homognea. Estar compuesta slo por elementos que pertenecen al universo previamente definido. Adecuada. Al incluir todas las variaciones esenciales de las caractersticas relevantes de los elementos del universo. No viciada. Al presentar esas variaciones en mas o menos la misma frecuencia con que ocurren en el universo.

Parmetros Poblacionales y Estadsticos Son los valores de diversas medidas descriptivas de la poblacin y son la Mediana (Md), los Percentiles y la Varianza (S). Cuando estas medidas se obtienen de una muestra con el propsito de estimar un parmetro de una poblacin reciben el nombre de Estadgrafo, Estadsticos Muestrales o simplemente Estadstico. Distribucin Muestral Es la determinacin de un Estadgrafo o sea la distribucin de todas las muestras de tamao n que pueden extraerse de una poblacin Para determinar la distribucin muestral de un estadgrafo se utiliza el Teorema del Lmite Central. Teorema del Lmite Central Consiste en la distribucin muestral de la media muestral (x). Si de una poblacin infinita, cuya media es u y cuya varianza es S, se seleccionan al azar muestra de tamao n. Como sera la distribucin muestral de las medias? Si n es lo suficiente grande, las X muestrales se distribuirn casi normalmente y adems la media de todas las muestra ser igual a u, o sea a la media de la poblacin, as mismo la varianza de las medias de las muestras (S x) ser igual a la varianza de la poblacin dividida entre las muestras de tamao n (S x = S/n). Intervalos de Confianza Una estimacin de un intervalo de un parmetro es un segmento en el continuo de la escala de los nmeros en algn punto del cual se supone se halla el valor del parmetro a estudiar. Ej. Si de S a Sx es 68% o sea dentro de 1 desviacin tpica respecto a la media (u) , a estos intervalos se les conoce con el nombre de intervalos de confianza del 68%, 95% y 99% respectivamente se designan con la letra . Un intervalo de confianza es aquel en el cual se conoce la probabilidad de que un parmetro se halle dentro de sus lmites. Dependiendo de cual sea el intervalo de confianza se correlaciona con un valor denominado lmite o nivel de confianza que se denota con la letra z.

68 z = 1.65 95 z = 1.96 99 z = 2.58 Tamao de la muestra Al trabajar con muestras se plantean 2 interrogantes. Cuando tomar la muestra? Como tomarla? Calculo del tamao ptimo de n.

1. 2. 3. 4.

Heterogeneidad de elementos que conforman N. Del tamao de N. Del nivel de confianza () que se quiere. Del Error que estamos dispuestos a aceptar (Error mximo admisible del 1 al 15%).

Muestra ptima en poblaciones finitas.

Muestra ptima en poblaciones infinitas.

Errosr estndar
Al Trabajar con muestras como no se estudia la totalidad de los individuos de una poblacin se incurre en el error por muestreo el cual puede medirse a travs de una constante estadstica denominada Error Estndar (E.E.) Origen del Error Estndar Si de N se obtiene un nmero de n del mismo tamao y a cada muestra se le calcula su promedio, estos se distribuyen alrededor del verdadero valor del universo formando una curva normal, entnces puede afirmarse que ninguna muestra diferir 0 del valor del N es mas de 3 veces la DE, pues se sabe que en el encuentra el 100% del rea de la curva DE se

Si con la finalidad de conocer el verdadero valor del promedio de determinado N, se obtiene una n y se calcula su promedio, este ser exactamente igual al del N, pero si se conoce la DE de un conjunto de n extradas de dicho N, bastara tomar DE para determinar los lmites dentro de los cuales se encuentra el promedio del N. EE es la DE de un conjunto de muestras obtenidas de determinado N que puede estimarse con bastante exactitud a partir de una sola muestra. Clculo del Error Estndar Eex=DE/Vn Pasos. 1. Calcular el X de la serie. 2. Calcular la DE. 3. Dividir DE/Vn EE%=Vp.q/n p.% de personas con x caractersticas. q. % de personas que no poseen x caracterstica Interpretacin del EE X1 X2 X3 EE incluye el 68% de las observaciones EE incluye el 95% ( el 5% Difiere de N) EE incluye el 99% ( el 1% Difiere de N)

Usos del EE.

1. Para conocer dentro de que lmites se encuentra el verdadero valor del


universo.

2. Para estimar el tamao que debe tener una muestra para lograr
determinada precisin.

3. Para saber si una muestra procede o no de determinado N.


Muestra probabiliistica
Los procedimientos de muestreo considerados comparten las siguientes propiedades matemticas

1. Podemos definir el conjunto de muestras distintas S1, S2,, Sv, que el

procedimiento es capaz de elegir si se aplica a una poblacin especfica. Esto significa que podemos decir con precisin cules son las unidades del muestreo que pertenecen a S1, S2, etc. Supongamos, por ejemplo, que la poblacin consta de seis unidades, numeradas de 1 a 6. Un procedimiento comn para elegir una muestra de tamao 2 ofrece tres posibilidades S1(1,4); S2(2,5); S3(3,6). Ntese que no se incluyen todas las posibles muestras de tamao 2.

2. Cada muestra posible Si tiene asignada una probabilidad de seleccin i. 3. Se selecciona una de las Si por un proceso aleatorio, en el que cada Si tiene

4.

una probabilidad pi de ser elegida. En el ejemplo anterior, podramos asignar la misma probabilidad a cada muestra. Posteriormente, la seleccin se podra realizar al elegir un nmero aleatorio entre 1 y 3. Si el nmero es j, se toma la muestra S j. El mtodo para calcular la estimacin a partir de la muestra debe ser definido y debe conducir a una estimacin nica para cualquier muestra especfica. Podemos decir, por ejemplo, que la estimacin es el promedio de las mediciones correspondientes a las unidades individuales de la muestra

Para todo procedimiento de muestreo que satisfaga estas condiciones, podemos calcular la distribucin de frecuencia de las estimaciones, podemos calcular la distribucin de frecuencia de las estimaciones que genera el proceso, si se aplica repetidamente a la misma poblacin. Sabemos la frecuencia con que se elige cualquier muestra Si, y sabemos cmo calcular la estimacin a partir de los datos de Si . Por lo tanto, es claro que se puede desarrollar una teora de muestreo para cada procedimiento de este tipo, aunque los detalles del desarrollo puedan ser intrincados. Un mtodo de esta clase se conoce con el nombre de muestreo probabilista. En la prctica, rara vez se extrae una muestra de probabilidad dando las Si y los nmeros i como se esboz anteriormente. Es un trabajo muy laborioso para una gran poblacin, en la cual un procedimiento de muestreo puede producir billones de muestras posibles. Por lo general, la extraccin se hace al especificar probabilidades de inclusin en la muestra para las unidades individuales y extraer unidades, una a la vez, o en grupos, hasta constituir la muestra del tamao y tipo deseado. Desde el punto de vista terico, basta saber que si quisiramos, podramos especificar las subcolecciones Si y las i, siempre y cuando tuviramos tiempo ilimitado para hacerlo. ALTERNATIVAS AL MUESTREO PROBABILISTA A continuacin veremos algunos tipos comunes de muestreo no probabilistas

La muestra es una parte de la poblacin fcilmente accesible. Una muestra de carbn en un vagn abierto se puede tomar a 15 o 20 cm. de la parte superior La muestra se selecciona a la ventura. Al tomar diez conejos de una jaula en un laboratorio, el investigador puede sacar aquellos que alcance con la mano, sin una planeacin consciente Con una poblacin pequea pero heterognea, el investigador inspecciona la totalidad de sta y selecciona una pequea muestra de unidades tpicas, es decir, unidades que a su parecer estn cercanas al promedio de la poblacin. Este mtodo algunas veces es llamado de juicio o de seleccin intencional La muestra consta esencialmente de voluntarios, en estudios en los cuales el proceso de medicin es desagradable o penoso para la persona que est siendo investigada

En condiciones adecuadas cualquiera de estos mtodos puede dar resultados tiles. Sin embargo, no son los indicados para el desarrollo de una teora de muestreo, ya que no involucran ningn elemento aleatorio en el procedimiento de seleccin. Casi la nica manera de examinar qu tan bueno puede ser uno de los mtodos es encontrar una situacin en la cual los resultados sean conocidos, ya sea para la poblacin total o para una muestra basada en probabilidades y posteriormente hacer una comparacin. Pero aun as, si un mtodo resulta adecuado en la comparacin, puede ser inadecuado al variar las condiciones En relacin con lo anterior (muestreos probabilistas y no probabilistas) sealamos que algunos de los primeros usos del muestreo que hicieron los gobiernos a nivel urbano o nacional, desde 1850, tenan como finalidad reducir los costos de las estimaciones de los resultados de un censo. Para los tributos ms importantes del censo, se calculaban los totales de la ciudad o el pas, aprovechando completamente la informacin obtenida del censo. Para las mediciones restantes se tomaba una muestra que variaba entre el 15 y el 25% de los formularios devueltos despus del censo, con objeto de aligerar el trabajo de estimacin de los totales de la ciudad o el pas para dichas mediciones. Se usaron dos mtodos diferentes para la seleccin de la muestra. El primero, llamado de seleccin aleatoria es una aplicacin del muestreo de probabilidad segn el cual cada unidad de la poblacin (cada formulario devuelto despus del censo) tiene la misma oportunidad de ser incluido en la muestra. Para este mtodo se constat que, como se dijo anteriormente, con ayuda de la teora del muestreo y la distribucin normal es posible predecir, en forma aproximada y con los datos de la muestra, la magnitud del error esperado en las estimaciones hechas a partir de la muestra. Ms an, en los tems ms importantes para los que se dispona de los datos completos que suministr el censo, es posible, hasta cierto grado verificar la exactitud de las predicciones El segundo mtodo es la seleccin a propsito. Esta no se defina en detalle, pero presentaba dos rasgos comunes. La unidad de muestreo consista en grupos de formularios, a menudo relativamente grandes. Por ejemplo, en el censo italiano de 1921, el pas tena 8354 comunas agrupadas en 214 distritos. Al extraer una muestra del 14%, los estadsticos italianos Gini y Galvani seleccionaron a propsito 29 distritos, en lugar de 1250 comunas. En segundo lugar, los 29 distritos se eligieron de tal modo que la muestra proporcionara estimaciones exactas para 7 importantes variables de control, cuyos resultados eran conocidos para todo el pas, y con esto se esperaba que la muestra diera buenas estimaciones de las otras variables altamente correlacionadas con las de control En la dcada de los 20, el Instituto Estadstico Internacional nombr una comisin para estudiar las ventajas y desventajas de los dos mtodos. El informe de Jensen

(1926) pareci favorecer el mtodo de seleccin a propsito. Sin embargo, este mtodo se abandon relativamente pronto como tcnica de muestreo para obtener estimaciones nacionales en las encuestas que medan muchas variables, ya que careca de la flexibilidad que ofrecan los mtodos de muestreo probabilista desarrollados posteriormente, no poda predecir a partir de la muestra la exactitud esperada en las estimaciones y usaba unidades de muestreo demasiado grandes. Gini y Galvani concluyeron que el mtodo de muestreo denominado muestreo aleatorio estratificado que utiliza la comuna como unidad de muestreo, habra dado mejores resultados que su mtodo Mtodos de Muestreo 1. Probabilsticos. Todos los elementos de la poblacin tienen la misma probabilidad de ser escogidos y formar parte de la muestra. 1.1 Condiciones: Probabilidad (p) de eleccin de cada individuo de la muestra va a ser diferente a cero y perfectamente conocida. Azar. Todos los individuos que forman parte de la muestra deben ser elegidos al azar.

1.2 Tipos de Muestreo Probabilsticos Aleatorio Simple. Todos los elementos de la poblacin tienen la misma probabilidad de formar parte de la muestra. Tipos. Lotera o Tmbola, Tabla de Nmeros aleatorios o Random. Muestreo Sistemtico. Es un procedimiento de seleccin muy til y fcil de aplicar, consiste en seleccionar dentro de una poblacin N a un nmero de n elementos a partir de un intervalo K. K es un intervalo que va a estar determinado por el tamao de la poblacin y el tamao de la muestra. K=N/n Muestreo Estratificado Proporcional al Azar. Se estratifica la muestra en relacin a estratos o categoras que se presentan en la poblacin que son relevantes para los objetivos de la investigacin y de cada estrato se extrae al azar una proporcin equivalente al tamao de la muestra hasta completarla. Muestreo por conglomerados o Racimos. Se utiliza en casos donde el investigador se ve limitado por recursos financieros, por tiempo o distancia geogrfica. Implica diferenciar la unidad de anlisis y la unidad muestral. La unidad de anlisis se refiere a quienes van a ser medidos, los sujetos . La unidad muestral se refiere al racimo a travs del cual se logra el acceso a la unidad de anlisis. El muestreo por racimo implica una seleccin en 2 etapas, ambas con procedimientos probabilsticos.

2. No Probabilsticos. No todos los elementos de la poblacin tienen la misma probabilidad de ser seleccionados por lo que no es una muestra representativa. La seleccin puede ser voluntaria o involuntaria. Ej. Muestreo con voluntarios. Constituido por personas que se ofrecen a participar en un estudio, ello facilita la labor, pero la muestra obtenida no es representativa de la poblacin. Por Conveniencia. PRUEBAS DE SIGNIFICANCIA ESTADISTICA

INTRODUCCION La realizacin de cualquier estudio clnico-epidemiolgico pretende poner de manifiesto al final del mismo si existe o no asociacin entre diferentes variables. Esta asociacin puede ser resultado de que realmente exista la asociacin indicada, pero esta asociacin tambin puede ser producto del azar, de la presencia de sesgos o de la presencia de variables de confusin. Una de las aplicaciones de la estadstica es hacer inferencias a poblaciones, a partir de muestras. En la realizacin de este proceso inferencial, siempre existe el riesgo de error o imprecisin ya sea por el azar o la variabilidad biolgica del fenmeno a estudiar. La carencia de error aleatorio debido al azar se conoce como precisin. Cuanto ms grande es el tamao muestral, mayor es la precisin y la variabilidad explicada por el azar disminuye. Esta posibilidad de error o falta de precisin, siempre que no existan sesgos o variables de confusin, se corrige aumentando el tamao de la muestra. De cualquier manera el papel del azar debe ser siempre contemplado, evaluado y medido, realizando test de hiptesis o construyendo intervalos de confianza para conocer la precisin de nuestra estimacin dentro de una seguridad previamente definida. Desde el punto de vista clnico la significacin estadstica no resuelve todos los interrogantes que hay que responder ya que la asociacin estadsticamente significativa puede no ser clnicamente relevante y adems la asociacin estadsticamente significativa puede no ser causal. En definitiva podemos encontrar asociaciones "estadsticamente posibles y conceptualmente estriles". SIGNIFICANCIA ESTADISTICA: A pesar de las limitaciones de la estadstica, el trmino "estadsticamente significativo" invade la literatura mdica y se percibe como una etiqueta que indicase "garanta de calidad". El considerar el trmino significativo implica utilizar trminos comparativos de dos hiptesis. Los test de hiptesis son test de significacin estadstica que cuantifican hasta que punto la variabilidad de la muestra puede ser responsable de los resultados de un estudio en particular. La Ho (hiptesis nula) representa la afirmacin de que no hay asociacin entre las dos variables estudiadas y la Ha(hiptesis alternativa) afirma que hay algn grado de relacin o asociacin entre las dos variables. Nuevamente la estadstica nos muestra su utilidad ya que nos ayuda a tomar la decisin de que hiptesis debemos elegir. Dicha decisin puede ser afirmada con una seguridad que nosotros previamente decidimos. El nivel de significacin se estableci siguiendo los comentarios del estadstico Fisher que seal "...es conveniente trazar una lnea de demarcacin a partir de la cual podamos decir: o bien hay algo en el tratamiento...". El mecanismo de los diferentes test se realiza aunque con matices siempre de la siguiente forma: En primer lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor que un error estndar definido multiplicado por una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos la hiptesis alternativa y rechazamos la hiptesis nula. Ejemplo: Disponemos de 2 tratamientos (A y B). El tratamiento A lo reciben 25 pacientes y el tratamiento B otros 25 pacientes. 15 pacientes responden favorablemente al tratamiento A y 20 al tratamiento B. Existe diferencia significativa entre ambos tratamientos?

Ho (hiptesis nula) = No hay diferencia entre ambos tratamientos. Ha (hiptesis alternativa) = S existe diferencia. Tratamiento N Porcentaje de respuesta A B 25 15/25 = 0.60 25 20/25 = 0.80

Si ( P1 - P2 )es mayor que el producto de 1.96 * el error estndar, conclumos que la diferencia es significativa. ( P1-P2) = (0,60-0,80)= 0,20 p= P1 + P2 = 0,60 + 0,80 = 0,7 22 z 95% :1,96 E 5%: 0,05 Error estndar = = 0.1296 Error estndar * 1.96 = 0.1296 * 1.96 = 0.25 Como quiera que la diferencia = (P1-P2) = ( 0,60- 0,80) = 0,20 no supera el valor 0.25 concluimos que la diferencia entre 0.60 y 0.80 no es estadsticamente significativa. A la vista de los resultados no podemos aceptar la Ha (hiptesis alternativa). El proceso de aceptacin o rechazo de la hiptesis lleva implcito un riesgo que se cuantifica con el valor de la "p", que es la probabilidad de aceptar la hiptesis alternativa como cierta, cuando la cierta podra ser la hiptesis nula. El valor de "p" que indica que la asociacin es estadsticamente significativa ha sido arbitrariamente seleccionado y por consenso se considera en 0.05. Una seguridad del 95% lleva implcito una p < de 0.05 y una seguridad del 99% lleva implcita una p < 0.01. Cuando rechazamos la Ho (hiptesis nula) y aceptamos la Hao (hiptesis nula) que afirma que ambas variables no estn asociadas o correlacionadas. (hiptesis alternativa) como probablemente cierta afirmando que hay una asociacin, o que hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese responsable de dicha asociacin. Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicacin de dicho hallazgo y no rechazamos la H. Conviene por otra parte considerar que la significacin estadstica entre dos variables depende de dos componentes fundamentales. El primero es la magnitud de la diferencia a testar. Cuanto ms grande sea la diferencia entre las dos variables, ms fcil es demostrar que la diferencia es significativa. Por el contrario si la diferencia entre ambas variables es pequea, las posibilidades de detectar diferencias entre las mismas se dificulta. El segundo componente fundamental a

tener en cuanta al testar diferencias entre dos variables es el tamao muestral. Cuanto ms grande sea dicho tamao muestral ms fcil es detectar diferencias entre las mismas. Pequeas diferencias se pueden detectar con grandes tamaos muestrales y grandes diferencias entre variables necesitan muchos menos pacientes o individuos a ser estudiados. Cualquier diferencia puede ser estadsticamente significativa si se dispone del suficiente nmero de pacientes. Ejemplo: En el ejemplo anterior objetivamos que no hay diferencia entre 60% y 80%. Supongamos que realizamos ahora el estudio con 900 pacientes en cada grupo: Si ( P1-P2) es mayor que el producto de 1.96 * el error estndar, concluimos que la diferencia es significativa. P1-P2= (0,60-0,80) = 0,20 p= P1+P2 = 0,60 +0,80 = 0,7 22 z: 1,96 Error estndar = 0.01296

Error estndar * 1.96 = 0.01296 * 1.96 = 0.025 Como quiera que la diferencia = ( P1-P2)= (0,60-0,80) = 0,20 supera el valor 0.0423 concluimos que la diferencia entre 0.60 y 0.80 s es estadsticamente significativa. A la vista de los resultados por tanto rechazamos la Ho (hiptesis nula) y aceptamos la Ha(hiptesis alternativa) como probablemente cierta. Como podemos objetivar en este segundo ejemplo ahora, si podemos decir que la diferencia entre 60% y 80% es estadsticamente significativa (p< 0.05). El tamao muestral afecta a la probabilidad de la significacin estadstica a travs del error estndar que se hace ms pequeo cuantos ms pacientes tenga el estudio. As pues el valor de la "p" es funcin de la magnitud de la diferencia entre los dos grupos o dos variables y del tamao de la muestra. Por esta razn una pequea diferencia puede ser estadsticamente significativa si disponemos de un tamao muestral lo suficientemente grande y por el contrario un efecto o diferencia relativamente grande puede no alcanzar la significacin estadstica si la variabilidad es grande debida a un pequeo tamao muestral. Por estas razones los valores de la "p" deben ser considerados solo como una gua y no como base de conclusiones definitivas e irrevocables. Ji ( chi) Cuadrado (x2) : Es un procedimiento de la estadistica inferencial no parametrica que permite determinar si hay relacin entre las variables de estudio, el propsito fundamental consiste en comparar las frecuencias observadas, con las frecuencias esperadas a

fin de determinar si hay o no diferencias estadisticamente significativas que permiten decidir si el resultado es casual o no casual. Para aplicar el chi cuadrado hay que cumplir 3 supuestos:

1. Que la muestra sea representativa 2. Que los datos esten en forma de frecuencia 3. variables independientes
Kruskal -wallis (H): En estadstica, el test de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un estadstico no paramtrico para testear si un grupo de datos proviene de la misma poblacin. Intuitivamente, es idntico al ANOVA con los datos reemplazados por categoras. Es una extensin del test de la U de Mann-Whitney para 3 o ms grupos. Ya que es un test no paramtrico, el test de Kruskal-Wallis no asume normalidad en los datos, en oposicin al tradicional ANOVA. Si asume bajo la hiptesis nula que los datos vienen de la misma distribucin. Una forma comn en que se viola este supuesto es con datos heterocedsticos. Mtodo

1. Ordenar todos los datos de la muestra de menor a mayor, y asignar al

2.

menor un rango de 1, al segundo un 2, y as hasta el n-simo. Si existen datos que se repiten, se asigna el rango promedio a cada uno de ellos (si existen cuatro datos idnticos que ocupan los rangos 11, 12, 13 y 14, se les asigna un rango de 12,5 a los cuatro). Aplicar formula:

H = 12 x sumatoria Ti2 3 ( N + 1 ) N ( N-1) ni 12 y 3 son constantes ni= tamao que hay en cada grupo Ti: Suma al cuadrado de cada uno de los rangos o ordenes. Algunas definiciones de interes VARIABLES: Son elementos que pueden asumir diferentes valores, que pueden ser medidos. Tipos de variables:

1. Cuantitativos: numeros, cifras, cantidades Ejemplo: peso, talla, TA 2. Cualitativas: Cualidad o caracteristicas: sexo, raza, escolaridad, profesion, 3.

nacionalidad Continuas: asume valores entre dos valores, valores decimales ( peso,edad)

4. 5. 6. 7. 8. 9.

Discretas: no acepta valores intermedios ( n de hijos) Independientes: ser refiere a la causa del fenomeno dependiente: efecto del fenomeno de estudio Dicotimicas admte dos valores (sexo: M y F) Tricotimicas: admite de 3 a 6 valores ( estado civil) Policotimicas: Mas de 6 valores menos de 20 ( colores)

LA CURVA NORMAL INTRODUCCION En la prctica e investigacin clnica, el termino de "normal" es de uso rutinario. As, el mdico y el investigador clnico pueden afrontar las siguientes preguntas: Un hallazgo clnico determinado indica enfermedad?, o la cifra obtenida de un examen de laboratorio, en un individuo, es normal o anormal? por ello, conviene revisar los conceptos que suelen fundamentar la demarcacin entre lo llamado normal de lo anormal, as como las limitantes y problemas prcticos inherentes a los mtodos utilizados en este proceso. En la revisin se analizaran dos enfoques conceptuales comnmente utilizados en la definicin del termino "normal". Existe un punto de vista, con orientacin fundamentalmente estadstico en donde el trmino " normal" es sinnimo de usual o frecuente, sin que necesariamente se asocie a la ausencia de un estado mrbido y lo anormal, por el contrario es sinnimo de lo infrecuente o poco usual. este enfoque lo denominaremos definicin aislada (o univariada) de normalidad , puesto que lo normal, las caractersticas clnicas o los valores de una medicin, que se encuentren dentro de los lmites de un espectro de caractersticas o de valores, que por su frecuencia son los esperados o usuales de una poblacin de referencia ( habitualmente de individuos " sanos"). La demarcacin de lo usual o frecuente generalmente se hace con base en algn modelo matemtico terico, como lo es la distribucin de Gauss. Por otra parte, existe el enfoque, de orientacin predominantemente mdica, en el cual lo "normal" es sinnimo de sano; es decir cuando el individuo se ajusta a una norma, la cual no necesariamente corresponde a lo usual. Este enfoque lo denominaremos la definicin correlacionada o multivariada de normalidad, ya que existe la asociacin entre un intervalo de mediciones de una variable y algun atributo biolgico. As, una cierta caractersticas clnica o medicin se dir que es "anormal" cuando corresponda a una manifestacin de enfermedad, cuando prediga un mayor riesgo a padecerla o una determinada evolucin patolgica o bien cuando justifique la administracin de una medida teraputica. CONCEPTO AISLADO DE NORMALIDAD: Bajo este enfoque la definicin de los normal esta basada en un concepto estrictamente univariado, es decir es generada mediante la delimitacin de un intervalo de valores (que se considerarn como normales) dentro del espectro de una sola variable (o medicin), tal como el peso, la talla o los nivles sericos de alguna sustancia qumica. estos valores limites demarcarn una zona que se decidir representen lo habitual o usual, generalmente con base unicamente en un concepto estadstico o un modelo matemtico en particular. Habiendo decidido que la "normalidad" sea delimitada de esta manera, el siguiente paso es escoger un mtodo matemtico para definir los valores numericos que haran la divisin entre

lo "normal" y lo "anormal", as como seleccionar al grupo de individuos en quienes se hagan las mediciones de las variables en cuestin. De tal manera que la decisin estadistica de cul sera el intervalo de lo normal implica definir el tamao, la localizacin y la simetria de una zona de demarcacin. Definir el tamao en la zona, se refiere a contestarse las siguientes preguntas Que proporcin de los valores, en una serie de mediciones, se va a considerar como valores normales o habituales? o que proporcin como valores "anormales" o no habituales? Dicho de otra manera Que tan comn debe ser la medicin para que se le considere como "anormal". Bajo este enfoque aislado Fisher, considera al 95% de los valores centrales dentro de una distribucin de mediciones como las comunes y al 5% restante de los infrecuentes LA CURVA NORMAL O DE GAUSS Entre las numerosas curvas matemticas descritas se encuentra la denominada curva de Gauss, curva normal o de campana. La campana de Gauss, curva de Gauss o curva normal, es una funcin de probabilidad continua, simtrica, cuyo mximo coincide con la media (m) y que tiene dos puntos de inflexin situados a ambos lados de la media, a una distancia (d) de ella. Esta curva fue descrita por el matemtico alemn Carl Friederich Gauss, estudiando los errores que se producen al medir reiteradamente una cierta magnitud. La gran importancia de esta distribucin se debe a la enorme frecuencia con la que aparece en las situaciones ms variadas: Caracteres morfolgicos de individuos Caracteres fisiolgicos Caracteres sociolgicos Caracteres fsicos

Fuente: http://upload.wikimedia.org/wikipedia/commons/c/c4/DisNormal01.svg
La curva normal en una curva en forma de campana, perfectamente simtrica, de tal manera, que una perpendicular que pase por el vrtice la divide en 2 mitades exactamente iguales. dicha perpendicular representa el promedio aritmtico. Puede observarse que en cada mitad, la curva es primero cncava hacia arriba, y luego cncava hacia abajo, habindose dado el nombre de " punto de inflexin" a aquel en el cual la curva cambia de direccin. Hay por consiguiente, 2 puntos de inflexin, uno izquierdo y otro derecho. La distancia que separa cada punto de inflexin de la linea central que representa el promedio, constituye una desviacin estndar. Aunque tericamente la curva nunca toca la horizontal, para propsitos practico, puede considerarse que la totalidad de su rea se encuentra comprendida entre dos lineas verticales, situadas a 3 DE a cada lado del promedio. Los matemticos han demostrado que aproximadamente un 68 % de todo el rea de la curva se encuentra comprendida entre las dos verticales que pasan por los puntos de inflexin, lo cual equivale a decir que el 68 % del rea se encuentra entre el promedio mas una desviacin estndar y el promedio menos una desviacin estndar. Igualmente se ha visto que entre el promedio mas menos 2 DE se encuentran aproximadamente el 95% de del rea de la curva y que prcticamente el 100% del rea de la curva se encuentra entre el promedio mas menos 3 DE. Lo anterior es importante por dos razones principales. En primer lugar, porque ya sealamos que los resultados dados por el azar siguen una curva normal, y en segundo lugar porque se ha visto que casi todas las constantes fisiolgicas de los individuos ( peso, talla, tensin arterial , etc.) y en general las diferentes caractersticas de toda la poblacin se distribuyen formando una curva normal.

esto quiere decir que las propiedades de la curva normal pueden aplicarse a cualquier caracterstica que tenga una distribucin normal, y asi por ejemplo, si la edad de un grupo de individuos es 30 aos y la DE = 3 aos, entonces: Aproximadamente el 68% de los individuos tienen entre 27 y 33 aos (X +- 1 DE = 30+-1x3) Aproximadamente el 95% de los individuos tienen entre 24 y 36 aos (X +- 2 DE = 30+-2x3) Prcticamente la totalidad de los individuos tienen entre 21 y 39 aos (X +- 3 DE = 30+-3x3). A travs del ejemplo anterior puede verse como el promedio y la DE bastan para resumir un estudio. debe advertirse sin embargo que:

1. Cuando la serie es muy pequea las anteriores propiedades de la DE son


difciles de comprobar

2. Para que la interpretacin sea correcta se requiere, que las caractersticas

estudiadas semeje en curva normal. Si tal similitud no existe, es preferible recurrir a la mediana y a los percentiles para resumir la serie, o conformarse con analizar esta mediante el uso de porcentajes.

Tomado de : Fayad. Cmel. Estadistica Medica y planificion de la salud ULA. 2002 Realizado por: Dra. Rosa Arcia. Medico Familiar

MEDIDAS DE DISPERSIN INTRODUCCION: El conocimiento de la forma de la distribucin y del respectivo promedio de una coleccin de valores de una variable, puede servir para tener una idea bastante clara de la conformacin, pero no de de la homogeneidad de cada una de los valores con respecto a la medida de tendencia central aplicada. En el caso de las variables con valores que pueden definirse en trminos de alguna escala de medida de igual intervalo, puede usarse un tipo de indicador que permite apreciar el grado de dispersin o variabilidad existente en el grupo de variantes en estudio. A estos indicadores les llamamos medidas de dispersin, por cuanto que estn referidos a la variabilidad que exhiben los valores de las observaciones, yaque si no hubiere variabilidad o dispersin en los datos inters, entonces no habra necesidad de la gran mayora de las medidas de la estadstica descriptiva. Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras.

LA DISPERSIN Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda slo nos revelan una parte de la informacin que necesitamos acerca de las caractersticas de los datos. Para aumentar nuestro entendimiento del patrn de los datos, debemos medir tambin su dispersin, extensin o variabilidad. La dispersin es importante porque: Proporciona informacin adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos representativa de los datos. Ya que existen problemas caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersin antes de abordar esos problemas. Quiz se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersin de valores con respecto al centro de distribucin o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones ms grandes.

Pero si hay dispersin en la mayora de los datos, y debemos estar en capacidad de describirla. Ya que la dispersin ocurre frecuentemente y su grado de variabilidad es importante, cmo medimos la variabilidad de una distribucin emprica?. Vamos a considerar slo algunas medidas de dispersin absolutas: el rango, la varianza, la desviacin estndar y el coeficiente de variacin. MEDIDAS DE VARIABILIDAD MS USADAS RANGO DESVIACION ESTANDAR VARIANZA COEFICIENTE DE VARIACION DECILES CUARTILES PERCENTILES.

EL RANGO O AMPLITUD (R): Es la medida de variabilidad ms fcil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor ms alto (Xn Xmax.) y el mas bajo (X1 Xmin) en un conjunto de datos. Rango para datos no agrupados; R = Xmx.-Xmn = Xn-X1 Ejemplo: wikipedia Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 27,34 y 25., para calcular la media aritmtica (promedio de las edades, se tiene que: R = (Xn-X1) = 34-18 = 16 aos

Con datos agrupados no se saben los valores mximos y mnimos. Si no hay intervalos de clasesabiertos podemos aproximar el rango mediante el uso de los lmites de clases. Se aproxima el rango tomando el limite superior de la ltima clase menos el limite inferior de la primera clase. DESVIACIN ESTNDAR: ( DE, S) en series no agrupadas: La desviacin Estndar consiste en averiguar en cuanto difiere cada observacin ( xi) del promedio general del grupo. Como esta suma siempre es 0 ( cero), se eleva cada desviacin al cuadrado para hacer desaparecer el signo. la suma de estos cuadrados se divide entre el numero de observaciones menos uno ( n-1), por ultimo se extrae la raz cuadrada para volver a la unidad de origen. Denominacin. formulaaaaaaaa Ejemplo: Das de hospitalizacion en 7 pacientes con bronquitis ( calculo de la desviacin estndar) Nmero del Das de Valores xi paciente hospitalizacin al cuadrado Primero Segundo Tercero Cuarto Quinto Sexto Sptimo Total Los pasos a seguir son los siguientes: 1 2 3 7 11 12 13 49 1 4 9 49 121 144 169 497

1. Sumar la observaciones = 49 2. Elevar al cuadrado cada observacin y sumar esta columna =497 3. Elevar al cuadrado las suma de las observaciones obtenidas en el primer 4. 5. 6.

paso y dividir por el numero de observaciones= ( 49)2 /7 = 343 restar este ultimo valor a la suma de cuadrados obtenida en el paso 2 ( 497343) = 154 Dividir por el numero de observaciones menos 1, ( n-1) y extraer la raz cuadrada. S= 5,07 ( este valor es la desviacin Estndar)

Desviacin estndar en series agrupadas Los diferentes pasos que deben seguirse para el calculo de la Desviacin Estndar aparecen resumidos en el siguiente cuadro, cuyas primeras cuatro columnas se utilizan para calcular el promedio conforme ya se estudio previamente. Producto de la columnas Pto. medio de la clase 2 x 3 Prs 2 x3 x2 Producto de la columnas 3x4

Peso en kilos

N de Personas fi

20-24 25-29 30-34 35-39 40-44 45-49 50-54 Total

4 8 9 10 7 6 6
50

22 27 32 37 42 47 52

88 216 288 370 294 282 312


1850

484 729 1024 1369 1764 2209 2704

1936 5832 9216 13690 12348 13254 16224


72500

Pasos:
1.Obtener los valores fi Xi multiplicando las cifras de la columna 2 por la columna 3 y sumar estos valores (=1.850) 2.Obtener los valores fi X2i multiplicando las cifras de las columnas 3 y 4 y sumar dichos valores ( =72.500) 3.Elevar al cuadrado la suma fi Xi obtenida en el primer paso y dividir por el nmero de observaciones ( 1.850 al cuadrado sobre 50= 68.450) 4.Restar este ultimo valor a la suma de cuadrados, o sea ( 72.500- 68.450= 4.050). 5.Dividir el resultado de esta resta entre ( n-1) y extrae la raz cuadrada 4.050/50 = 9,1 Kg LA VARIANZA (S2 2 ): La varianza es una medida de dispersin relativa a algn punto de referencia. Ese punto de referencia es la media aritmtica de la distribucin. Ms especficamente, la varianza es una medida de que tan cerca, o que tan lejos estn los diferentes valores de su propia media aritmtica. Cuando ms lejos estn las Xi de su propia media aritmtica, mayor es la varianza; cuando ms cerca estn las Xi a su media menos es la varianza. Dado un conjunto de observaciones, tales como X1, X2, , Xn, la varianza denotada usualmente por la letra minscula griega (sigma) elevada al cuadrado ( 2)y en otros casos S2 segn otros analistas, se define como: el cuadrado medio de las desviaciones con respecto a su media aritmtica" Matemticamente, se expresa como: Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 25, 27, y 34. Al calcular la media aritmtica (promedio de las edades, se obtuvo 25.4 aos, encontrar la varianza de las edades de estos estudiantes: Para calcular se utiliza una tabla estadstica de trabajo de la siguiente manera: Xi 18 ( Xi ) ( Xi )2

(18 25.5)=-7.4 (-7.4)2=54.76

23 25 27 34 Total

(23 25.5)=-2.4 (-2.4)2= 5.76 (25 25.5)=-0.4 (-0.4)2= 0.16 (27 25.5)= 1.6 ( 1.64)2= 2.16 (34 25.5)= 8.6 ( 8.6)2 =73.96 xxxx 137.20

S2= 137.20/5 = 27.4 aos Respuesta: la varianza de las edades es de 27.4 aos La varianza para datos agrupados Si en una tabla de distribucin de frecuencias. Los puntos medios de las clases son X1, X2, , Xn; y las frecuencias de las clases f1, f2, , fn; la varianza se calcula as: (Xi- )2f1 = ---------------fi Sin embargo la formula anterior tiene algn inconveniente para su uso en la practica, sobre todo cuando se trabaja con nmeros decimales o cuando la media aritmtica es un nmero entero. Asimismo cuando se trabaja con mquinas calculadoras, La tarea de computar la varianza se simplifica utilizando la formula de computacin que se da a continuacin:
2

Xi2fi - [(Xifi)2/N] 2 = ---------------------------N donde N=fi Ejemplo: Se tienen los datos de una muestra de 30 cuentas por cobrar de la tienda Cabreras y Asociados dispuestos en una tabla de distribucin de frecuencias, a partir de los cuales se deber calcular la varianza, para lo cual se construye la siguiente tabla estadstica de trabajo, si se calcul anteriormente la media aritmtica y se fij en 43.458 (ver ejemplo del calculo en "media aritmtica para datos agrupados) de la siguiente manera = 21,649.344 / 30 = 721.645 Respuesta: la varianza de las cuentas por cobrar es igual B/.721.645

Propiedades de la varianza : wikipedia


s siempre un valor no negativo, que puede ser igual o distinta de 0. Ser 0 solamente cuando Xi= La varianza es la medida de dispersin cuadrtica optima por ser la menor de todas. Si a todos los valores de la variable se le suma una constante la varianza no se modifica.

El Coeficiente de Variacin de Pearson (C.V.) Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras. El problema de las medidas de dispersin absolutas es que normalmente son un indicador que nos da problemas a la hora de comparar. Comparar muestras de variables que entre s no tienen cantidades en las mismas unidades, de ah que en ocasiones se recurra a medidas de dispersin relativas. Un problema que se plantea, tanto la varianza como la desviacin estndar, especialmente a efectos de comparaciones entre distribuciones, es el de la dependencia respecto a las unidades de medida de la variable. Cuando se quiere comparar el grado de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el llamado "Coeficiente de Variacin de Pearson" , del que se demuestra que nos da un nmero independiente de las unidades de medidas empleadas, por lo que entre dos distribuciones dadas diremos que posee menor dispersin aquella cuyo coeficiente de variacin sea menor., y que se define como la relacin por cociente entre la desviacin estndar y la media aritmtica; o en otras palabras es la desviacin estndar expresada como porcentaje de la media aritmtica. Definicin del Coeficiente de Variacin CV= s/x2 Donde: C.V. representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media. Propiedades del Coeficiente de Variacin :

- Si a todos los valores de la variable se le suma una misma constante el coeficiente de variacin queda alterado . Ejemplo: Suponga que Usted trabaja en una compaa de ventas, que ofrece como premio de incentivo al mejor vendedor del trimestre anterior las entradas al palco empresarial en la serie final de bisbol de las grandes ligas en los Estados Unidos (E,E,U,A,). De los registros de ventas se tienen los siguientes datos de ventas, expresados en porcentajes de cumplimiento de las metas fijadas mensualmente: Vendedor A 95 105 100 Vendedor B 100 90 110 El promedio trimestral de cumplimiento de las metas de ventas de ambos vendedores es igual y equivale al 100%, pero Ud. Slo le puede dar el premio de incentivo a uno de ellos. Cul usted escogera?. En base a que criterio. Explique. Este problema se resuelve utilizando el coeficiente de variacin, para estos efectos es necesario encontrar la desviacin estndar trimestral de las ventas de cada uno de la siguiente manera:

Vendedor A Xi 95 105 100 ( Xi ) ( Xi )2

95 100 = -5 (-5)2 = 25 105 100 = 5 ( 5)2 = 25 100 100 = 0 ( 0)2 = 0 50

Total XXX

La desviacin estndar es =(50/3) = 16.667 = 4.08, luego entonces el coeficiente de variacin es igual a: 4.08 C.VA= --------- = ----------- = 0.0408 100 Vendedor B Xi 100 90 110 ( Xi ) ( Xi ( 0 )2 = 0 )2

100 100 = 0

90 100 = -10 (-10)2 = 100 110 100 = 10 ( 10)2 = 100 200

Total XXX

La desviacin estndar es =(200/3) = 66.667 = 8.16, luego entonces el coeficiente de variacin es igual a: 8.16 C.VB= --------- = ----------- = 0.0816 100 Respuesta: Dado que el vendedor A tiene menor coeficiente de variacin, A l le corresponde recibir el premio de incentivo.

You might also like