You are on page 1of 21

Estadstica I

Tema 2: Estadsticos

Eduardo Vliz, Ing.

Tema 2: Estadsticos

Parmetros y estadsticos
Parmetro: Es una medida numrica calculada en base a una poblacin. Es constante.
La altura media de los individuos de un pas

La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros).

Estadstico: dem (cambiar poblacin por muestra) Es variable aleatoria.


La altura media de los que estamos en este aula.
Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar estimador.

Nos interesa conocer parmetros, pero por la dificultad de estudiar TODA la poblacin, calculamos un estimador en base a muestra y confiamos en que sean prximos.
Tema 2: Estadsticos 2

Eduardo Vliz, Ing.

Eduardo Vliz, Ing.

Tema 2: Estadsticos

Un brevsimo resumen sobre estadsticos


Tendencia Central
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y moda

Dispersin
Indican la mayor o menor concentracin de los datos con respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza

Posicin
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...

Forma
Asimetra Apuntamiento o curtosis
Eduardo Vliz, Ing. Tema 2: Estadsticos 4

Medidas de Tendencia Central


Media Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral. Media de 2,2,3,7 es (2+2+3+7)/4=3,5 Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos Utiliza todos los datos de la muestra. Es nica. Mediana Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos. Si el nmero de datos es impar se toma el dato central, pero si es par, se elige la media de los dos datos centrales. Mediana de 1,2,4,5,6,6,8 es 5 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos. Es nica. Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
Eduardo Vliz, Ing. Tema 2: Estadsticos 5

Medidas de Tendencia Central


Moda Es el valor ms repetido, el ms comn de la muestra. Moda de 1,2,4,5,6,6,8 es 6 Moda de 1,2,4,5,5,5,6,6,8 es 5, no es 6. Si hay 2 datos que se repiten el mayor nmero de veces se llama distribucin bimodal. Moda de 1,2,4,5,5,5,6,6,6,8 son 5 y 6. Moda de 1,2,2,4,5,5,6,6,8 son 2, 5 y 6. (trimodal). Moda de 1,2,3,4 no existe. Media Geomtrica Es la raz n-sima del producto de todas las observaciones. Se usa con datos pequeos como ndices. Es preferible que todos los datos sean mayores a cero para evitar problemas de signo con la raz. Media Geomtrica de 2,2,3,5 es 2.2.3.5 = 60 = 7.746
Eduardo Vliz, Ing. Tema 2: Estadsticos 6

Altura mediana

Eduardo Vliz, Ing.

Tema 2: Estadsticos

Variabilidad o dispersin
Los estudiantes de Bioestadstica reciben diferentes calificaciones en la asignatura (variabilidad). A qu puede deberse?
Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. Las notas seran las mismas en todos? Seguramente No.
Dormir poco el da del examen, el croissant estaba envenenado... Diferencias individuales en la habilidad para hacer un examen. El examen no es una medida perfecta del conocimiento. Variabilidad por error de medida. En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la mala Variabilidad por azar, aleatoriedad.
8

Eduardo Vliz, Ing.

Tema 2: Estadsticos

Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa.
Amplitud o Rango: La diferencia entre las observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7 (Mayor menor) Es muy sensible a los valores extremos.
25%

% 25% 25 25%

Rango intercuartl:
Es la distancia entre el primer y tercer cuartil.
Rango intercuartlico =

Q3 Q1

Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores. No es tan sensible a valores extremos.
Eduardo Vliz, Ing. Tema 2: Estadsticos 9

Varianza S2: Mide el promedio las desviaciones (al cuadrado) de observaciones con respecto a la media.
S2 = 1 n1

de las

(x x )
i i

Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. Indica la distancia promedio de las observaciones hacia la media. Se eleva al cuadrado para suprimir signos, pues al sumar todos los datos restando la media el resultado es cero.
Eduardo Vliz, Ing. Tema 2: Estadsticos 10

50

Desviacin estndar o tpica Es la raz cuadrada de la varianza Tiene las misma dimensionalidad (unidades) que la variable.

40

30

20

S=
Eduardo Vliz, Ing.

10 Desv. tp. = 568,43 Media = 2023 0 50 0 90 0 N= 407,00 1. 1. 2. 2. 2. 3. 30 70 10 50 90 0 0 0 0 0 30 0

Peso recin nacidos en partos gemelares


Tema 2: Estadsticos 11

Desviacin Media: Mide el promedio las desviaciones (en valor absoluto) de observaciones con respecto a la media.

de las

1 DM = xi x n i

Es sensible a valores extremos, pero menos que la varianza. Sus unidades son las mismas que las de la variable. Indica la distancia promedio de las observaciones hacia la media.
12

Eduardo Vliz, Ing.

Tema 2: Estadsticos

Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media Tambin se la denomina variabilidad relativa.

S CV = x

Es frecuente mostrarla en porcentajes


Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.


Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F

Eduardo Vliz, Ing.

Tema 2: Estadsticos

13

Estadsticos de posicin
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Eduardo Vliz, Ing.

Tema 2: Estadsticos

14

Estadsticos de posicin
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.


Primer cuartil = Percentil 25 Segundo cuartil = Percentil 50 = decil 5 = mediana Tercer cuartil = Percentil 75
Eduardo Vliz, Ing. Tema 2: Estadsticos 15

Ejemplos
El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera demasiado bajo?
Percentil 5

Qu peso es superado slo por el 25% de los individuos?


Percentil 75

El colesterol se distribuye simtricamente en la poblacin. Se considera patolgico los valores extremos. El 90% de los individuos son normales Entre qu valores se encuentran los individuos normales?
Entre el percentil 5 y el 95

Entre qu valores se encuentran la mitad de los individuos ms normales de una poblacin?


Entre el cuartil 1 y 3

Eduardo Vliz, Ing.

Tema 2: Estadsticos

16

Ejemplo
Qu peso no llega a alcanzar el 25% de los individuos?
Primer cuartil = percentil 25 = 60 Kg.

Qu peso es superado por el 25% de los individuos?


Tercer cuartil= percentil 75= 80 kg.

50%
25%
100

% 25% 25 25%

Entre qu valores se encuentra el 50% de los individuos con un peso ms normal?


Entre el primer y tercer cuartil = entre 60 y 80 kg. Obsrvar que indica cmo de dispersos estn los individuos que ocupan la parte central de la muestra. Ver ms adelante rango intercuartlico. Los diagramas de caja (boxplot) sintetizan esta informacin (y algo ms).
Estadsticos

90

80

70

60

PESO Percentiles

25 50 75

60,00 70,00 80,00

50

40

Eduardo Vliz, Ing.

Tema 2: Estadsticos

17

Asimetra o Sesgo
Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.
Eduardo Vliz, Ing. Tema 2: Estadsticos 18

Estadsticos para detectar asimetra


Hay diferentes estadsticos que sirven para detectar asimetra.
Basado en diferencia entre estadsticos de tendencia central.

Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3.


Basados en desviaciones con signo respecto a la media.

En funcin del signo del estadstico diremos que la asimetra es positiva o negativa.

Distribucin simtrica = insesgada.


La asimetra es adimensional.
Eduardo Vliz, Ing.

3 x~ CA = x S
Tema 2: Estadsticos

( )
19

Apuntamiento o curtosis
La curtosis nos indica el grado de elevacin de una distribucin. Es adimensional.
Platicrtica: curtosis < 3

400

300

200

100

Mesocrtica: curtosis = 3 Leptocrtica: curtosis > 3

Frecuencia

0 3 16 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97 108 102 138

Leptocrtica
300

Los grficos poseen la misma media y desviacin tpica, pero con diferente grado de elevacin.

200

100

Frecuencia

0 27 37 45 53 61 69 77 85 93

32

41

49

57

65

73

81

89

99

Eduardo Vliz, Ing.

Tema 2: Estadsticos Mesocrtica

20

Qu hemos visto?
Parmetros Estadsticos y estimadores Clasificacin Medidas de tendencia central: Media, mediana y moda
Diferenciar sus propiedades.

Medidas de dispersin
con unidades: rango, rango intercuartlico, varianza, desv. tpica sin unidades: coeficiente de variacin Qu usamos para comparar dispersin de dos poblaciones?

Posicin (cuantiles, percentiles,...)


Diagramas de cajas

Asimetra
positiva Negativa Podemos observar asimetra sin mirar la grfica?

Medidas de elevacin (curtosis)

Eduardo Vliz, Ing.

Tema 2: Estadsticos

21

You might also like