You are on page 1of 83

Por qu estudiar estadstica?

**
1. Conocimiento de estadstica es esencial para
que
investigacin, manejo de
0011personas
0010 1010 1101
0001hacen
0100 1011
estudios
2. Entendimiento bsico de estadstica es til para
conducir investigaciones y una presentacin
efectiva
3. Entendimiento de estadstica puede ayudar a
discriminar entre hechos y suposiciones en la
vida diaria
4. Un curso de estadstica deber ayudar a saber
cuando un estadstico deber ser consultado.

** Lmina tomada de: Dr. M. H. Rahbar, Departamento de Epidmeiologa, Director, Centro


de Coordinacin de Datos, Colegio de Medicina Humana, Universidad Estatal de Michigan

Enfoque de anlisis
Determinstico / Probabilstico

0011 0010 1010 1101 0001 0100 1011

Hasta ahora, seguramente, todo lo han visto


matemtico en un esquema
DETERMINSTICO
Ej:

Empezaremos a conocer el mbito


PROBABILSTICO, en el que se considera
la variabilidad y el error.

Poblacin y su variabilidad
Dentro de una misma poblacin de inters, hay elementos
que
difieren
en 0001
una 0100
o ms
caractersticas.
0011
0010
1010 1101
1011
De ah que nos interesa conocer probabilidades
Tambin necesitamos funciones que nos ayuden a
describir en manera de resumida.

La estadstica toma en cuenta la variabilidad de


los fenmenos o poblaciones; nos permite
0011 0010 1010 1101 0001 0100 1011
entender y describir la variabilidad basndose
en conceptos de probabilidad.
As como hay variabilidad hay una cierta
distribucin.
Es de inters el estudio de la distribucin de
los datos; encontrar una distribucin que
explique el comportamiento.
Si no hubiera variabilidad en los fenmenos que
observamos o en las poblaciones de inters,
todo se describiran en trminos de valores fijos.

0011 0010 1010 1101 0001 0100 1011

DESCRIPTIVA

Conocer una
poblacin o
aspectos de
ella

INFERENCIAL

Inferir, hacer
conclusiones sobre
una poblacin, o
proceso en una
poblacin

En cualquier mbito, como la


naturaleza, en un proceso de
produccin , un tratamiento
0011 0010 1010 1101 0001 0100 1011 mdico, o en un juego de azar, se
da el fenmeno de variabilidad
entre los posibles resultados.

Mtodo cientfico y estadstica


0011 0010 1010 1101 0001 0100 1011

Fuente: Bioestadstica.
U. Mlaga.

Tema 1: Introducin

Fases o etapas de los


mtodos estadsticos
0011 0010 1010 1101 0001 0100 1011

Planeacin
Recoleccin
Organizacin
Presentacin
Anlisis
Interpretacin

Adaptado de: Manuel Lobos Gonzlez, Introduccin a la Estadstica (Se


aadi la etapa de planeacin a la fuente original

Poblacin de inters
0011 0010 1010 1101 0001 0100 1011

Muestra

Inferencias
Sobre la
poblacin

Un problema clsico en
estadstica: No puedo
conocer la poblacin, por
lo que nos basamos en una
muestra.

Poblacin y muestra
0011 0010 1010 1101 0001 0100 1011

Poblacin (population) es el conjunto sobre el que estamos


interesados en obtener conclusiones (hacer inferencia).
Normalmente es demasiado grande para poder abarcarlo.

Muestra (sample) es un subconjunto suyo al que tenemos


acceso y sobre el que realmente hacemos las observaciones
(mediciones)
Debera ser representativo
Esta formado por miembros seleccionados de la poblacin
(individuos, unidades experimentales).

Fuente de la lmina:
Bioestadstica. U.
Mlaga.

Tema 1: Introducin

4
10

Variables
Una variable es una caracterstica observable que vara entre los
diferentes individuos de una poblacin. La informacin que disponemos
0011 de
0010
1010
1101 0001
0100 1011
cada
individuo
es resumida
en variables.

En los individuos de la poblacin espaola, de uno


a otro es variable:
El grupo sanguneo

{A, B, AB, O} Var. Cualitativa

Su nivel de felicidad declarado

{Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal

El nmero de hijos

{0,1,2,3,...} Var. Numrica discreta

La altura

{162 ; 174; ...} Var. Numrica continua

Bioestadstica.11
U.
Fuente de a lpamina:
Tema 1: IntroducinMlaga.

Fuentes de datos ms usadas en


bioestadstica

0011 0010 1010 1101 0001 0100 1011

1. Registros rutinarios (administrativos)


2. Censo ( se mide todo)
3. Encuestas (Se selecciona una muestra aleatoria
y permite hacer inferencias sin necesidad de un
censo)
4. Experimentacin (El investigador controla el o
los principales factores)
5. Fuentes externas ( Informes publicados, bancos
de datos existentes, etc)

Diferencia entre encuestas y


experimentos
Datos de una encuesta representan observaciones
de eventos o fenmenos sobre los cuales pocos o
ningn, control se impone.

0011 0010 1010 1101 0001 0100 1011

(e.g., evaluando la asociacin entre diferentes


estilos de vida y enfermedad cardiaca)

En un experimento diseamos una investigacin


planeada a propsito para imponer controles
sobre la cantidad de exposicin (tratamiento) a
una medicamento. (e.g., estudios clnicos)

** Lmina tomada de: Dr. M. H. Rahbar, Departamento de Epidmeiologa, Director, Centro


de Coordinacin de Datos, Colegio de Medicina Humana, Universidad Estatal de Michigan

Variables cualitativas y cuantitativas


Ejemplos de variables cualitativas son
ocupacin, sexo, estado civil, etc.

0011 0010 1010 1101 0001 0100 1011

Variables que producen observaciones que


pueden medirse, se considera que son
variables cuantitativas. Ejemplos de variables
cuantitativas son peso, estatura, edad.

Variables cuantitativas pueden clasificarse en


discretas o continuas

** Lmina tomada de: Dr. M. H. Rahbar, Departamento de Epidmeiologa, Director, Centro


de Coordinacin de Datos, Colegio de Medicina Humana, Universidad Estatal de Michigan

Escala de variables
0011 0010 1010 1101 0001 0100 1011

Escala de variable

Escala nominal
Categricas
Cualitativas
Escala ordinal
Escala de intervalo
Cuantitativas
Escala de razn de intervalo

** Lmina adaptada de: Dr. M. H. Rahbar, Departamento de Epidmeiologa, Director, Centro


de Coordinacin de Datos, Colegio de Medicina Humana, Universidad Estatal de Michigan

Escala de datos
1. Nominal: estos datos no representan una cantidad (e.g.,
estado civil, sexo)
0011 0010 1010 1101 0001 0100 1011

2. Ordinal: estos datos representan una serie de datos


ordenados (e.g., nivel de educacin)

3. Intervalo: estos datos son medidos en una escala de


intervalo teniendo iguales unidades pero teniendo un 0
arbitrario (e.g.: temperatura en Fahrenheit)

4. Razn: un ejemplo es el peso, pues podemos comparar


significativamente un peso contra otro (digamos, 100
Kg es dos veces 50 Kg)

** Lmina tomada de: Dr. M. H. Rahbar, Departamento de Epidmeiologa, Director, Centro


de Coordinacin de Datos, Colegio de Medicina Humana, Universidad Estatal de Michigan

Qu tipo de variable(s) y escala(s) tenemos?


0011 0010 1010 1101 0001 0100 1011

Qu tipo de variable(s) y escala(s) tenemos?


0011 0010 1010 1101 0001 0100 1011

Qu tipo de variable(s) y escala tenemos?


0011 0010 1010 1101 0001 0100 1011

Qu tipo de variable(s) y escala tenemos?


0011 0010 1010 1101 0001 0100 1011

Es buena idea codificar las variables


como nmeros para poder procesarlas
con facilidad en un ordenador.
Es conveniente asignar etiquetas a los
valores de las variables para recordar
0011 0010
1010 1101
0001numricos.
0100 1011
qu significan
los cdigos

Sexo (Cualit: Cdigos arbitrarios)

1 = Hombre
2 = Mujer

Raza (Cualit: Cdigos arbitrarios)

1 = Blanca
2 = Negra,...

Felicidad Ordinal: Respetar un orden al


codificar.

Se pueden asignar cdigos a respuestas


especiales como

1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz

0 = No sabe
99 = No contesta...

Estas situaciones debern ser tenidas en


cuentas en el anlisis. Datos perdidos
(missing data)

Bioestadstica. U.
Mlaga.

Tema 1: Introducin

4
21

Aunque se codifiquen como nmeros, debemos recordar siempre el


verdadero tipo de las variables y su significado cuando vayamos a usar
programas de clculo estadstico.
0011
1010est
1101
0001 0100
0010
No todo
permitido
con 1011
cualquier tipo de variable.

Bioestadstica. U.
Mlaga.

Tema 1: Introducin

4
22

Los posibles valores de una variable suelen denominarse modalidades.


Las modalidades pueden agruparse en clases (intervalos)

0011 0010 Edades:


1010 1101 0001 0100 1011
Menos de 20 aos, de 20 a 50 aos, ms de 50 aos

Hijos:
Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Las modalidades/clases deben forman un sistema exhaustivo y


excluyente
Exhaustivo: No podemos olvidar ningn posible valor de la variable

Mal: Cul es su color del pelo: (Rubio, Moreno)?


Bien: Cul es su grupo sanguneo?

Excluyente: Nadie puede presentar dos valores


simultneos de la variable
Estudio sobre el ocio

Bioestadstica. U.
Mlaga.

Mal: De los siguientes, qu le gusta: (deporte, cine)


Bien: Le gusta el deporte: (S, No)
Bien: Le gusta el cine: (S, No)
Mal: Cuntos hijos tiene: (Ninguno, Menos de 5, Ms de 2)
Tema 1: Introducin

23

0011 0010 1010 1101 0001 0100 1011

Tengo los datos. Cmo empiezo?


Identificar tipos de variables
Ordenar, organizar .

Presentacin ordenada de datos


0011Gnero
0010 1010 Frec.
1101 0001 0100 1011

Hombre

Mujer

Las tablas de frecuencias y las representaciones grficas


son dos maneras equivalentes de presentar la
informacin. Las dos exponen ordenadamente la
informacin recogida en una muestra.
Bioestadstica. U.
Mlaga.

Tema 1: Introducin

25

Tablas de frecuencia

Exponen la informacin recogida en la muestra, de forma que no se pierda nada de


informacin (o poca).

0011 0010
1010 1101 0001 0100 1011

Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Muy tiles para calcular cuantiles (ver ms adelante)

Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8


Entre 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%. Soluc 2: 97,3% - 83,8% = 13,5%
Sexo del encuestado

Nmero de hijos

Vlidos

Hombre
Mujer
Total

Frecuencia
636
881
1517

Porcentaje
41,9
58,1
100,0

Porcentaje
vlido
41,9
58,1
100,0

Vlidos

Nivel de felicidad

Vlidos

Perdidos
Total

Muy feliz
Bastante feliz
No demasiado feliz
Total
No contesta

Frecuencia
467
872
165
1504
13
1517

Bioestadstica. U.
Mlaga.

Porcentaje
30,8
57,5
10,9
99,1
,9
100,0

Porcentaje
vlido
31,1
58,0
11,0
100,0

Porcentaje
acumulado
31,1
89,0
100,0

Tema 1: Introducin

Perdidos
Total

0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta

Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas

Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517

Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0

26

Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

Datos desordenados y ordenados en tablas


Variable:
Gnero
0011 0010
1010 1101
0001 0100 1011
Modalidades:
H = Hombre
M = Mujer

Frec.

Frec. relat.
porcentaje

Hombr
e

4/10=0,4=40%

Mujer

6/10=0,6=60%

MHHMMHMMMH
equivale a
HHHH MMMMMM
27

10=tama
o muestral

Muestra:

Tema 1: Introducin

Gner
o

Bioestadstica. U.
Mlaga.

Ejemplo
Cuntos individuos tienen
menos de 2 hijos?
frec.
indiv.
sin 0001
hijos 0100 1011
0011 0010
1010
1101
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos
Qu porcentaje de individuos
tiene 6 hijos o menos?
97,3%
Qu cantidad de hijos es tal
que al menos el 50% de la
poblacin tiene una cantidad
inferior o igual?
2 hijos
Bioestadstica. U.
Mlaga.

Nmero de hijos

0
1
2
3
4
5
6
7
Ocho+
Total

Tema 1: Introducin

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

4
28

50%

Grficos para v. cualitativas

Diagramas de barras

Alturas
proporcionales
las frecuencias
0011 0010
1010
1101 0001a0100
1011 (abs. o rel.)
Se pueden aplicar tambin a variables discretas

Diagramas de sectores (tartas, polares)


No usarlo con variables ordinales.
El rea de cada sector es proporcional a su
frecuencia (abs. o rel.)

Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser proporcional a la
frecuencia. De los dos, cul es incorrecto?.

Bioestadstica. U. Mlaga.

29
Tema 1: Introducin

Grficos diferenciales para variables numricas


419
400

Son1010
diferentes
en0100
funcin
0011 0010
1101 0001
1011 de que las
variables sean discretas o continuas.
Valen con frec. absolutas o relativas.

300

255
215
200

127
100

El rea que hay bajo el histograma entre dos


puntos cualesquiera indica la cantidad
(porcentaje o frecuencia) de individuos en
el intervalo.

1
1

24
6

23

4
200

150

100

50

20

7 Ocho o ms

40

60

Edad del encuestado

Bioestadstica. U.
Mlaga.

Tema 1: Introducin

17

Nmero de hijos

250

Histogramas para v. continuas

54

Diagramas barras para v. discretas


Se deja un hueco entre barras para indicar
los valores que no son posibles

375

30

80

Diagramas integrales
Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a
partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad
de1101
individuos
que
poseen
un valor inferior o igual al mismo. No los construiremos
0011(frecuencia)
0010 1010
0001
0100
1011
en clase. Se pasan de los diferenciales a los integrales por integracin y a la inversa por
derivacin (en un sentido ms general del que visteis en bachillerato.)

Bioestadstica. U.
Mlaga.

Tema 1: Introducin

4
31

0011 0010 1010 1101 0001 0100 1011

PASOS PARA HACER UN HISTOGRAMA:


0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

Tambin es factible calcular [(rango +1) / nmero de clases] ; en tal caso, el lmite
inferior lo ubicas en el mnimo menos 0.5 y el lmite superior mayor ser el mximo
+ 0.5. Ver ejemplo en Excel.

0011 0010 1010 1101 0001 0100 1011

Eso es lo que debes cuidar al construir las clases,


adems de que cada clase debe ser del mismo
ancho. Observa el ejemplo que sigue.

Datos del ejemplo que sigue:


0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

HISTOGRAMA Y LA
APRECIACIN DEL SESGO

0011 0010 1010 1101 0001 0100 1011

La distribucin alrededor de la
media
es similar en ambos lados
0011 0010 1010 1101 0001 0100
1011

Hay algn dato muy chico en


comparacin con los dems 8 la
izquierda de la distribucin)
0011 0010 1010 1101 0001 0100 1011

Hay algn dato muy grande en


comparacin con los dems (a la
0011 0010 1010 1101 0001 0100 1011
derecha)

0011 0010 1010 1101 0001 0100 1011

Estadsticas y parmetros
Una medida
descriptiva calculada
a partir de una
muestra se llama
ESTADSTICA

0011 0010 1010 1101 0001 0100 1011

Una medida descriptiva calculada a partir de una


poblacin se llama PARMETRO

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010Media


1101 0001
0100 1011
muestral

Si se calcula la media poblacional (parmetro ) , sse denomina N el nmero de


datos en la poblacin; se hace la sumatoria de N datos y se divide entre N.

0011 0010 1010 1101 0001 0100 1011

La media como punto de equilibrio


0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

Si la variable es cualitativa se
puede/debe calcular la media?

Si la variable es ordinal se puede/debe


calcular la media?

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

Aclaracin de otros mtodos para calcular percentiles


Cabe sealar que hay procedimientos que buscan mucha ms exactitud al
calcular percentiles
0011 0010 1010 1101 0001 0100 1011

Por ello en el libro de Daniel, pags. 45-46, apreciarn que el mtodo que se
propone, hace una interpolacin entre dos valores contiguos.
En el ejemplo 2.5.4 (tabla 2.5.1)se ve que para calcular el primer cuartil
(percentil 25), primero calculan (n+1)/4, lo cual en el ejemplo da 5.25. Se
busca, en los datos ordenados de menor a mayor, la quinta medicin, que
tiene un valor de 2.5; siendo la que posicin 6 tiene valor de 3.0.

La diferencia entre los valores de las dos posiciones es: (3.0 -5.0)= 0.5. De
esa se busca cunto es 0.25 (el decimal que excede una posicin entera;
recuerda que se obtuvo 5.25). Entonces, 0.25(3-2.5) = .125.
Por tal motivo se suma 0.125 al valor que estaba en la posicin 5, lo cual
era 2.5. Finalmente el primer cuartil (percentil 25) = 2.625,

Si necesitas obtener percentiles de un conjunto de datos, en Excel


tienes una funcin sencilla que te lo permitir.
0011 0010
1101
0001
1011
Por1010
ejemplo,
si en
una 0100
celda de
Excel escribes:

=PERCENTILE(A2:A151, 0.95)
Excel pondr en esa celda el percentil 95 en los datos que van de A2 a
A151.

Lo ms importante es que sepas interpretar un percentil!

Recuerda que el percentil p te dice que por lo menos p% de los datos


son menores o iguales a dicho valor.

Si en un examen calificaste en el percentil 90, quiere decir que al


menos 90% de lso que presentaron el examen caclificaron por debajo
de ti.
Si en un examen alguien calific en el percentil 10, quiere decir, que al
menos 10% calificaron por debajo de esa persona; es decir, 90% sali
mejor (lo cual sera muy mal resultado).

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

BOXPLOTS
0011 0010 1010 1101 0001 0100 1011

DIDAGRAMAS DE CAJA

BOXPLOTS / DIAGRAMAS DE BOX / DIAGRAMAS DE CAJA

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

0011 0010 1010 1101 0001 0100 1011

NOTA
Nota: la explicacin de diagramas de Box, en el libro de
Daniel , no es clara en cuanto a cmo representar los datos
0011 aberrantes.
0010 1010 1101
0001 menciona
0100 1011 que las lneas van desde el dato
Es ms,
menor al primer cuartil y del tercer cuartil al dato mayor
(FIGURA 2.5.5)
Los paquetes estadsticos muestran los datos aberrantes en un
diagrama de Box y conviene que sepas que se consideran
OUTLIERS (en este diagrama), los que pasan una distancia
de 1.5 veces en rango intercuartil, de cualquier lado.
Si el valor mximo de los datos es menor a Q3+1.5*RIQ,
entonces la raya superior llega hasta el mximo; igualmente, si
el valor mnimo es mayor a Q1 -1.5RIQ, entones la raya
inferior, llega hasta el mnimo de los datos.
Observa que cada bigote debe tener un largo mximo
equivalente a 1 veces el largo de la caja.

Observa que en las cajas se encuentra el 50% de los datos y te


describe el comportamiento alrededor de la mediana
Ejemplo de un diagrama de Box por sexo de los pacientes
0011 0010 1010 1101 0001 0100 1011

En el siguiente ejemplo, hay datos aberrantes que se marcan


como puntos particulares

0011 0010 1010 1101 0001 0100 1011

Describe las siguientes distribuciones:

0011 0010 1010 1101 0001 0100 1011

You might also like