You are on page 1of 13

UNIVERSIDAD CATOLICA DE TEMUCO

ESCUELA DE SALUD
BIOESTADISTICA CCB1107
GUIA CATEDRA IV BIOESTADISTICA

Prof.: Carola del Valle, M.V.


Diplomada Epidemiología Clínica
Magíster Epidemiología Clínica
El empleo del software estadístico

Nadie duda que el análisis de los datos en general y biológicos en particular hoy en día se ha
simplificado gracias al desarrollo de software con completísimos paquetes estadísticos y al
acceso a computadores y calculadoras científicas de bolsillo. Los avances desarrollados en
esta línea permiten manejar grandes números de datos con cálculos que sin software y el
uso de computadores tardarían varias semanas y el empleo de mucha gente. Estos
programas de computador además permiten tener la certeza absoluta que los cálculos
desarrollados no tienen posibilidad de generar valores errados, el error sólo podría
presentarse en la digitación de los datos al sistema. Al contrario, si el cálculo se realizara
manualmente lo más probable que se cometan errores involuntarios en su desarrollo.
Sin embargo, ni el software ni la computadora por muy avanzados que estos sean piensan
por quien esta manejando el experimento, tampoco tienen opinión ni les preocupa si los
datos ingresados reúnen los requisitos para el análisis o prueba que se ejecuta. Por
consecuencia, el paquete estadístico y la maquina solo cumplen en dar una respuesta
(resultado). En este caso, la validez del resultado sólo dependerá de la responsabilidad y
honradez del investigador, cumpliéndose la premisa de que “si basura se introduce como
dato basura saldrá como resultado”, siendo lo anterior independiente del software
estadístico y la computadora empleada.
En otros casos, siendo los datos adecuados y especulando que la prueba realizada también
sea la adecuada, es posible que un iniciado genere errores de interpretación o simplemente
no saque el provecho suficiente a los datos debido, a que desconoce para que sirve o que
implican muchos de los resultados generado por la prueba estadística. En estos casos, lo
más importante de los resultados pasa a segundo plano o bien se ignora.
También es muy posible que el resultado sea usado por quien se inicia en el análisis de datos
como un resultado indesmentible de lo que se desea probar, al respecto se vuelve a recalcar
que, quien desarrolla el trabajo deberá darle la validez que corresponda y para ello la
estadística solo cumple un rol de herramienta al servicio del investigador o analista.

Software utilizados: Varios son los paquetes estadísticos comerciales existentes en el


mercado la mayoría de los que se listan a continuación son de uso general válidos para
distintos campos de investigación.
Paquete estadístico originado en las
ciencias sociales. Hoy en día es un
SPSS
completísimo programa adecuado para
varios campos disciplinarios
Paquete estadístico gigantesco, sólo para
SAS avezados. Difícil de manejarlo pero es muy
poderoso y completo
Paquete estadístico derivado de SAS, si
bien su manejo se ha facilitado bastante en
JMP
relación a SAS aún es difícil de manejar,
pero bastante bueno
Paquete estadístico si bien utilizado en el
STATA área médica no es una herramienta muy
amigable
Programa muy simple desarrollado para
MINITAB
apoyar la enseñanza de la estadística
Estadístico sencillo para Macintosh. No
STATVIEW
posee muchas opciones de análisis pero es
fácil de usar y posee una adecuada gráfica
Combina capacidades estadísticas y
STATGRAPHICS gráficas para el análisis de datos. Fácil de
usar
Completo programa estadístico al mismo
STATISTICA nivel que el SPSS. El problema es su manual
en ingles
Programa simple muy adecuado para
quienes se inician. Fácil de entender,
GRAPHPAD
también posee el problema de su manual
sólo en ingles

RECORDAR…….

ESTADÍSTICA DESCRIPTIVA

La estadística descriptiva además lo que reviso en las clases anteriores (recoger


información, clasificar la información según la escala de medida de las variables, ordenarla
en filas y columnas y tabularla en una tabla de datos o base de datos en un programa
especifico para almacenar datos como Access o directamente sobre un software o
programa estadístico), nos indica cual tal es una situación que se presenta con los datos,
describe en forma resumida e informa “lo que hay”, de tal modo que permite describir y
resumir las observaciones que se hagan sobre un conjunto de datos. Se calculan a partir de
los datos de una muestra o de una población.

ESTADÍSTICA INFERENCIAL

La estadística inferencial es cuando de los datos estadísticos obtenidos de una muestra se


infiere o se deduce una observación y se generaliza sobre la población de la que de obtiene
la muestra. Para determinar la confiabilidad de la inferencia de los datos estadísticos de
una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se
observa en una muestra se observará también en la población. Por lo tanto, esto requiere
utilizar técnicas y análisis estadísticos más avanzados con los datos estadísticos obtenidos
de la muestra para así confirmar la veracidad de las inferencias que se hagan sobre la
respectiva población a que corresponde la muestra. Generalmente el análisis estadístico
inferencial se lleva cabo para mostrar relaciones de causa y efecto, así como para probar
hipótesis y teorías científicas.

PARÁMETRO VS ESTADÍGRAFO

PARÁMETRO – Un índice estadístico calculado a base de los datos de una población y que
cuantifica una característica de esa población. Generalmente son datos comprobados
mediante registros. Ejemplo: La tasa de desempleo se ha mantenido en 18%. Es un índice
estadístico que va dirigido a describir a la población. Muchos de estos índices se obtienen
mediante registros oficiales de agencias del Gobierno, tales como la tasa de mortalidad, de
divorcios, entre otras.

ESTADÍGRAFO -Cuando se llevan a cabo investigaciones y sus resultados son


comprobados como ciertos y los mismos se generalizan o se aplican a la población, se da
entonces la inferencia estadística como un procedimiento mediante el cuál se estiman los
parámetros. O sea que un dato estadístico de una muestra ( estadígrafo), si el mismo es
comprobado como cierto para toda la población, entonces se le considera como un
parámetro. Debe entenderse que el parámetro y el estadígrafo son conceptos muy
similares. Su diferencia radica realmente en que el estadígrafo se calcula sobre una
muestra y el parámetro se calcula con relación a una población.

MEDIDAS DE RESUMEN O ESTADISTICOS DESCRIPTIVOS

Las medidas de resumen sirven para describir en forma resumida un conjunto de datos que
constituyen una muestra tomada de alguna población.
Existen diferentes tipos de medidas de resumen o estadísticos, algunos de ellos se
clasifican como:

• Medidas de posición o posicionamiento


• Medidas de tendencia central o de centralización
• De dispersión o variabilidad
• De forma (simetría y apuntamiento)

Medidas de localización, posición o posicionamiento: según la medida de la que se esté


hablando esta divide la distribución de datos en partes iguales

Medidas de posicionamiento
MEDIDAS DE POSICIÓN
Localización
Señalan otras ubicaciones,
aparte del centro, dentro
de la masa de datos.
Me

Pp o Pi

Dividen la distribución Qq
en partes iguales

Dc

Q
MEDIANA: (Me, Md, X0,5)

Se calcula de diferentes formas según el nº de datos:

SI EL NÚMERO DE OBSERVACIONES ES PAR:

Me o X0.5 = X3+X4 / 2
Ej.:
Sea X = 3,5; 2,0; 3,3; 5,0; 5,4; 4,9
R.: 2,0
3,3
*3,5
*4,9
5,0
5,4
En este caso corresponde al promedio de los 2 valores centrales

Me o X0.5 = X3+X4 / 2 = 3,5 + 4,9 / 2 ⇒ 4.2

SI EL NÚMERO DE OBSERVACIONES ES IMPAR:

Sea X= (2,0; 3,5; 3,3; 5,5; 5,0; 5,4; 4,9)


2,0
3,3
3,5
*4,9
5,0
5,4
5,5

Me o X0.5 = X ( n+1) / 2 ⇒ 7+1 / 2 ⇒ 4 es el valor que se ubica en la posición 4


Se afirma que la mediana escepcionalmente puede calcularse sobre una variable cualitativa,
solo si esta es ordinal, RECUERDE DEFINICION DE UNA VARIABLE DE ESCALA DE
MEDIDA ORDINAL….

Observaciones:

• La Me es un “promedio de posición o posicionamiento”


• No es afectada por valores extremos (solo toma valores centrales)
• Es menos sensible a valores extremos

Solo valido para variables cuantitativas:



CUARTILES (Q): Los cuartiles dividen la distribución en 4 partes iguales, o sea realiza 3
divisiones correspondientes al 25%, 50%, 75%.

DECILES (Dp): Los deciles dividen la distribución en 10 partes iguales, o sea realiza 9
divisiones correspondientes a 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% y 90%.

PERCENTILES (PP) O CENTILES: El número total de datos se divide en 100 partes, o sea
realiza 99 divisiones desde el 1% al 99% y se avanza desde el dato menor al mayor y se
extrae el valor del recorrido de la variable que corresponda.
Existe un valor donde coinciden los cuartiles, deciles y percentiles, y surge cuando estos
son iguales a la mediana.

Pp0____________________________Pp50_____________________________Pp100
Me
Q2
Dp5


MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIÓN

MODA moda, mode o promedio típico MO: Se puede calcular sobre variables de escala de
medida cualitativa o cuantitativa, corresponde al valor de la variable que más veces se
repite, el valor que tiene la mayor frecuencia, no es afectada por valores extremos, una
distribución de datos puede ser amodal, o sea no existir moda o bi, tri o polimodal
Ej.: Sea X una variable cualitativa, color preferido de un grupo de adolescentes
X = {amarillo, amarillo, verde, café, azul, amarillo, azul, azul } 2 modas= distribución
bimodal

Observaciones:

• La Mo es el valor con la más alta frecuencia (o sea que mas se repite)


• La Mo no se calcula tomando todos los valores de la distribución, ya que solo registra los
que presentan la mayor frecuencia
• La Mo no se ve afectada por valores extremos (muy altos o muy bajos, en var.
cuantitativas)
• La Mo de un conjunto de datos es fácil de estimar

MEDIA ARITMÉTICA: Es el promedio típico y si es afectado por valores extremos, el


promedio siempre existe y es único, para calcularlo hay que tener al menos 2 observaciones
también se denomina “centro de gravedad de la distribución”

Ej.:

Sea X = ⎨x1, x2, x3.........xn⎬ (observaciones de una muestra de tamaño n)

Es la suma de todos los valores de la variable dividida entre el número total de


observaciones o elementos.
n
∑ X1/n = X= x1+ x2+ x3+ xn / n
i=1

Observaciones:

• Es afectado por los valores extremos (considera todos los valores)


• El promedio siempre existe y es único
• Para calcularlo hay que tener variables Cuantitativas
• Para calcularlo hay que tener al menos 2 observaciones
• También se denomina “centro de gravedad de la distribución”

MEDIA ARITMÉTICA PONDERADA:


Se usa cuando cada valor de la variable tiene una ponderación
diferente.

Para calcularla se tiene conocer la ponderación de cada valor.

Se representa como:
∑xi*wi ni
∑wi ni

Siendo:

wi = la ponderación de la variable xi.


∑wi = la suma de todas las ponderaciones.

Ej.:

Un estudiante realiza 3 evaluaciones de bioestadística de complejidad creciente,


obteniendo los siguientes resultados: 4,5; 5,0; 5,7 con ponderaciones de un 25%, un 35% y
un 40% respectivamente.

Xw = (4,5 * 25)+(5,0 * 35)+(5,7 *40)/25+35+40 = 515,5/100 ⇒ 5,155

MEDIDAS DE DISPERSION O VARIABILIDAD



Describen el grado de dispersión de los datos, es decir, cuán separados se encuentran, en
contraposición a datos que están muy concentrados o cercanos entre sí, o sea nos indican
que tan dispersos están los datos respecto a una medida de centralización como un
promedio, muy usadas para complementar el promedio

• Las medidas de dispersión nos indican que tan dispersos están los datos respecto a
una medida de posición, como la media (cuanto varían, que tan diferente es cada
punto del recorrido de una variable)
• Muy usadas para complementar la media
• Para describir la variabilidad o dispersión de un grupo de datos
• Para comparar un grupo de datos con otro.

Alguna de estas medidas de variabilidad son:

• Rango
• Varianza
• Desviación estándar
• Error estándar
• Rango interquartilico
• Coeficiente de variación
CARACTERÍSTICAS DE LAS MEDIDAS DE VARIABILIDAD

• El estadígrafo deberá tomar un valor = 0 si los datos no presentan variabilidad.

• Sí los datos presentan variabilidad el estadígrafo toma un valor positivo, que


aumenta en la medida que aumenta la variabilidad de los datos.

RANGO (Rx): El rango corresponde a la diferencia entre el valor máximo y el valor mínimo,
que toma la variable, es el más tosco de los estimadores de dispersión, puede ser
gravemente afectado por valores extremos.

Rx = (Máx. – Mín.)
Ej:
Sea X una variable cuantitativa (edad de un grupo de pacientes que reciben un
quimioterápico

X = {5, 10, 11, 12, 13, 16, 18, 20}


R(X) = 20 – 5 = 15

Principales características del rango:

• No es un buen estadígrafo de dispersión (muy pobre).


• Puede ser influenciado grandemente por valores no usuales o extremos en los datos.
• Es considerado una tosca estimación de las medidas de dispersión.

VARIANZA (S2): Cuantifica la variabilidad o dispersión de los datos alrededor del


promedio, la varianza tiene la expresión o se parece a un promedio, aumenta a medida que
aumenta la variabilidad, no es constante y entrega un valor en unidades cuadráticas.
Cuantifica la cantidad de variabilidad o dispersión alrededor de la media.
n
S² X = ∑ [ xi-x]² / n-1
i=1
Ej.:
Sea X = {177, 193, 195, 209, 226}
X = 200
S² = [177 – 200] ²+ [193 – 200] ² + [195 –200] ² + [209 – 200] ² + [226 – 200] ²
5–1
= 1360 ⇒ S² = 340
4

Recordar que es un valor cuadrático

Principales características de la varianza:

• La varianza tiene la expresión o se parece a un promedio


• La varianza aumenta a medida que aumenta la variabilidad
• Hay una diferencia de cada valor observado con respecto al promedio
• No es constante
• Va a entregar un valor en unidades cuadradas
• Sirve para calcular la desviación estándar
No es muy usada ya que entrega los resultados en unidades cuadradas respecto de la
unidad de medición que se uso originalmente.

DESVIACIÓN ESTANDAR (s): La D.E. está basada en cada uno de los datos, permite por
lo tanto una mejor descripción de la dispersión, está calculada con respecto a la media
aritmética. O sea mide la dispersión alrededor de la media, la D.E. tiene un alto nivel de
interpretación porque las unidades de medida son las mismas que las de la variable original.

Principales características de la D.E.:

• La D.E. está basada en cada uno de los datos, permite por lo tanto una mejor
descripción de la dispersión.
• La D.E. esta calculada con respecto a la media aritmética. O sea mide la dispersión
alrededor de la media.
• La D.E. tiene un alto nivel de interpretación porque las unidades de medida son las
mismas que las de la variable original.

ERROR ESTÁNDAR (E.E.): El error estándar de la media, estima la variabilidad entre las
medias de las muestras que se obtendría si se tomaran múltiples muestras de la misma
población. El error estándar de la media estima la variabilidad entre las muestras mientras
que la desviación estándar mide la variabilidad dentro de una muestra.

RANGO INTERQUARTILICO (R.I.): En estadística descriptiva, se le llama rango


intercuartílico o rango intercuartil, a la diferencia entre el tercer y el primer cuartil de
una distribución.

COEFICIENTE DE VARIACIÓN (C.V.): Se usa para comparar la variabilidad entre dos o


más grupos, ya que nos permite comprobar que grupo es más homogéneo al compararlo con
otro. Entre menor sea el CV menor es la variabilidad relativa.

C.V = s * 100
X
Observaciones: el grupo con el coeficiente de variación más pequeño nos indica menor
variabilidad entre sus datos.

4 7 11
1 2 5

3 6 55
12 45 7

C.V. = 12% C.V.= 5%

Estimación subjetiva del C.V.

• C.V.% desde 1 a 5% = Var. extremadamente baja


• C.V.% desde 5 a 10% = var. baja
• C.V.% desde 10% a 20% = var. Media
• C.V.% de 21% a 30% = var. en limite de aceptación
• C.V.% superiores a 30% = Indica que la variable estudiada esta afectada por una
fuerte variación.


MEDIDAS DE FORMA O APUNTAMIENTO

SIMETRIA Y KURTOSIS

Cuando hablamos de simetría en una distribución nos referimos básicamente a cuando


estas 3 medidas coinciden (mediana, moda, y media). Cuando la distribución de frecuencias
es asimétrica estos 3 valores se apartan uno de otro, mientras más se separe la Me, de la
Mo mayor es la asimetría.
La curva de distribución de frecuencias puede ser asimétrica hacia el lado derecho de la
escala de la X (positivamente asimétrica) o hacia el lado izquierda del eje de la X
(negativamente asimétrica)
Para obtener el coeficiente de asimetría (C.A.) se usa la siguiente fórmula:

a) Coeficiente de asimetría de K. Pearson.

C.A. = (X – Mo)
D.E.
Solo en caso de distribuciones unimodales

Ej.: La distribución de millas recorridas por 20 estudiantes al ir a una universidad,


arrojaron como promedio 5.1 millas, una Mo de 6.7 y D.E. de 2.23 calcule el Coeficiente de
Asimetría.

C.A. = 5.1 – 6.7


2.23
C.A. = - 0.72
Como el coeficiente es negativo la distribución es asimétrica hacia la izquierda, o hacia los
valores más pequeños en la escala de la X.

b) Coeficiente de asimetría de A. Bowley

C.A. = 3*(X – Me)


D.E
Una medida diferente de asimetría puede ser obtenida empleando los quartiles. En donde si
la distribución es simétrica Q3 y Q1 estarán equidistantes de Q2 ( o la Me); es decir Q3 –
Q2 = Q2 - Q1, sin embargo si la distribución es asimétrica, la distancia de Q3 a Q2 no es
igual a la distancia entre de Q2 a Q1. La diferencia entre las dos distancias puede usarse
como una base para medir la asimetría de la distribución, con valores que oscilarán de –1 a 1
.

C.A. = (Q3 -Q2) – (Q2- Q1)


Q3 – Q1

Donde:
Q3 = 7, Q1 = 3.2, Q2 = 5.5

C.A. = (7 – 5.5) – (5.5 – 3.2)


7 – 3.2
C.A. = -0.21

En este caso la distribución es asimétrica a la izquierda o hacia los valores menores de la


escala de la X.
C.A. = Pp75 + (2*Pp50) + Pp25
Pp75 –Pp25

< 0 = Asimetría negativa


= 0 = Distribución simétrica
> 0 = Asimetría positiva

Al describir una distribución de frecuencias, se puede usar un promedio para mostrar la


tendencia central en la distribución, una medida de dispersión para la variabilidad de los
datos tales como la desviación quartílica o alrededor de un promedio de la distribución tal
como la desviación estándar y una medida de asimetría para mostrar la dirección de la
distribución ya sea hacia la izquierda o hacia la derecha. La medida de apuntamiento o
kurtosis puede ser usado para mostrar el grado de concentración ya sea alrededor de la Mo
(curva apuntada) o descentralizada respecto de la Mo hacia ambos extremos de la curva de
frecuencia (curva achatada)

Una medida de Kurtosis puede ser obtenida mediante el uso de formulas.


Cuando hablamos de kurtosis de una distribución unimodal está relacionada con el grado de
apuntamiento de una distribución en relación al tamaño de sus colas encontrándonos con
distribuciones:
a) Leptocurticas: se habla de leptokurtica cuando la distribución es apuntada y con largas
colas.
b) Mesokurticas: distribución simétrica.

c) Platikurticas: es cuando la distribución es más bien plana y de colas cortas.


Finalidad Guía IV Cátedra

1.- Repasar los contenidos ya vistos en esta asignatura y en asignaturas relacionadas.


2.- Comprender los contenidos hasta acá vistos en esta asignatura y en asignaturas.
3.- Aclarar las dudas conceptuales y procedimentales de los contenidos hasta acá vistos.
4.- Resumir los principales conceptos de esta guía para extraer la información más útil a
ocupar de aquí en adelante.
5.- Indicar las principales críticas y comentarios en general de la guía

Al finalizar su lectura deberá estar en condiciones de:

1.- Defina los conceptos de moda, mediana, media, varianza, desviación estándar,
coeficiente de variación.
2.- Un estudiante realiza 3 evaluaciones de bioestadística; obteniendo los siguientes
resultados: 2,5; 6,0; 3,7, Calcular la media aritmética
3.- Determine la mediana de las siguientes notas obtenidas durante un año.
3,5; 2,0; 3,3; 5,0; 5,4; 4,9
4.- Calcule la moda e indique el tipo de distribución al que corresponde,
X = ⎨3, 3, 3, 4, 5, 6, 6, 6, 8,9,12, 2⎬
5.- Estime la varianza y d.e del siguiente conjunto de datos
X = peso ⎨23, 13, 21, 24, 35, 28, 22, 19, 28,19,20, 21⎬

You might also like