You are on page 1of 9

Tema 10: Medidas de posicin y dispersin o o Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores

que sintetizan la informacin. Estudiaremos dos grandes secciones: o Medidas de tendencia central o de posicin: situacin de los valores alredeo o dor de los cules uctan los dems. a u a Medidas de dispersin: grado de desviacin de los datos respecto de las medio o das de tendencia central. Acabaremos este resumen con el proceso de tipicacin de una variable aleatoria. o 1. Medidas de tendencia central Estudiaremos la media aritmtica, la mediana y la moda. e
1.1. Media aritmtica e

Se suele representar por x, aunque tambin por e incluso abusando de la notacin e o probabilista EX (esperanza de la variable X). Es el valor de tendencia central de mayor inters. e
Caso discreto

Sea X una variable discreta que toma los valores x1 , x2 , , xk con frecuencias absolutas n1 , n2 , , nk resp. La media aritmtica de X viene dada por e
k

x=

i=1

xi n i =

xi fi .
i=1

Ejemplo. Calicaciones de 20 alumnos en Matemticas: a xi ni 2 3 4 6 5 5 6 3 8 1 10 2 La nota media es x = Ni Pi 3 15 9 45 14 70 17 85 18 90 20 100 = 5 05.

23+46+55+63+81+102 20 1

Propiedades

1) La suma de todas las desviaciones a la media es cero:

k i=1

(xi x)ni = 0.

2) Si X toma los valores x1 , x2 , . . . , xk , e Y los valores yi = xi + c, i = 1, 2, . . . , k, c R, entonces y = x + c. 3) Si X toma los valores x1 , x2 , . . . , xk , e Y los valores yi = cxi , i = 1, 2, . . . , k, c R, entonces y = c. x
c Aplicacin: si X toma los valores x1 , x2 , . . . , xk , y Z los valores zi = xid , i = o 1, 2, . . . , k, con c, d R, d = 0, entonces z = xc , lo cual facilita a veces los clculos d a cambiando de variable. Por ejemplo, se quiere calcular el dimetro medio de 100 a mbolos cuyas medidas en mm son: e

(xi ) 153 7 153 8 153 9 154 0 154 1 154 2 154 3 ni 10 15 19 21 14 13 8 Denimos Z =


X154 01

cuya distribucin de frecuencias es o

Dimetro (zi ) 3 2 1 0 1 2 3 a ni 10 15 19 21 14 13 8 La media de Z es z = 0 15, luego x = 0 1 + 154 = 153 985. z


Caso continuo

Si la variable aleatoria es continua, para simplicar se calcular la media ara itmtica de una variable discreta cuyos valores son las marcas de clase de cada uno e de los intervalos y las frecuencias absolutas las de cada clase. Con ello se pierde precisin, porque slo se tendr en cuenta el nmero de valores que est dentro de o o a u a un intervalo de clase pero no la forma en la que estn repartidos. a Ventajas de la media aritmtica: e - Contiene toda la informacin de los datos de la distribucin, por lo que es repo o resentativa. - Siempre puede ser determinada, es fcil de calcular y admite operaciones ara itmticas. e Desventaja: presenta una gran sensibilidad a valores extremos.

1.2.

Percentiles. Caso particular: la mediana

Se suponen los valores de la variable ordenados en orden creciente. Si n N, con 1 n 100, el percentil de rango n es el valor de la variable estad stica que deja por debajo de l al n % de los valores y al resto por encima. La mediana es el e percentil de rango 50 (divide a la muestra en dos partes iguales; al menos la mitad de la muestra cumple estar por debajo del valor destacado). Estudiaremos el valor de la variable correspondiente a un percentil dado; y dado un valor de la variable calcularemos el percentil correspondiente.

Caso discreto

Se realiza en primer lugar la tabla de frecuencias porcentuales acumuladas (f.p.a.). a) Si el porcentaje n no gura en la columna de f.p.a. se toma como percentil de rango n el primer valor de la variable cuya f.p.a. sobrepasa a n. b) Si el porcentaje n coincide con la f.p.a. de algn valor xi , se toma como peru xi +xi+1 centil de rango n el valor 2 . Ejemplo. Consideramos de nuevo la tabla dada en la pgina ?? sobre las calicaa ciones de 20 alumnos en Matemticas. a La mediana es 5, el percentil de rango 84 es 6, mientras que el percentil de rango 85 es 6+8 = 7. 2
Caso continuo

Se construye el pol gono de frecuencias porcentuales acumuladas (no debe construirse sobre el histograma, sino solo, pues las alturas deben reejar el porcentaje correspondiente independientemente de la amplitud de cada clase). La abcisa correspondiente a la ordenada n es el percentil de rango n. El clculo se hace por a interpolacin suponiendo que todos los individuos de un intervalo de clase estn o a distribuidos homogneamente. e Ejemplo. Peso en kg de 100 personas: Peso [20, 40) [40, 60) [60, 80) [80, 100) Pi 10 59 91 100

100 91

59 Pi

10 20 40 60 peso 80 100

Recurdese que la recta que pasa por los puntos (x0 , y0 ) y (x1 , y1 ) viene dada, por e y ejemplo, como y x0 = x1 y0 (x x0 ). 1 x0 En este caso la mediana est en el intervalo [40, 60). Es aquel x tal que a 50 10 = 59 10 (x 40) x = 41 6. 60 40

El percentil de rango 91 es 80.

1.3.

Moda

Es el valor de la variable estad stica que corresponde al mximo del diagrama difera encial (diagrama de rectngulos o barras-histograma en caso continuo- y pol a gono de frecuencias simples). Se representa por M o.

Caso discreto

La moda es el valor de la variable con mayor frecuencia. No tiene por qu ser e unica, puede haber dos o ms valores que se repiten (frecuencia absoluta) igual a nmero (mximo) de veces. En tal caso, todos esos valores son la moda. u a Ejemplo: En el caso de que estudiemos el nmero de hijos por familia espaola u n descrito por el siguiente diagrama de barras:

tenemos que M o = 2.
Caso continuo

Se construye el histograma.
17.25 13.75

n alumnos

8 5 4

5 calificacion

10

La moda est en el rectngulo de altura mxima, es decir, el de base [3, 5). a a a (Suponemos, igual que se hac en el clculo de la mediana, que la distribucin a lo a a o largo del intervalo es uniforme.) As ahora la moda se calcula hallando la intersec, cin de los segmentos que aparecen en la gura. En este caso, la moda corresponde o a la coordenada x del punto de interseccin. Como dicho punto es (4 45, 14 71), o M o = 4 45.

2.

Medidas de dispersin o

La dispersin de una distribucin es la mayor o menor separacin de sus datos o o o respecto de una de las caracter sticas de tendencia central, pretendiendo medir la representatividad de dicha caracter stica. Ejemplo. Calicaciones de 28 alumnos: F sica 3 9 ni 14 14 Biolog 3 6 9 a ni 5 6 7

La calicacin media en ambas asignaturas es de 6 puntos, pero dnde es ms o o a representativa? Estudiaremos el recorrido, la desviacin media, la varianza, la desviacin t o o pica y el coeciente de variacin de Pearson. o
2.1. Recorrido

Viene denido como R = mx(xi ) m i ). a n(x Proporciona una primera informacin de la variabilidad de la distribucin, pero o o es insuciente ya que si la variable toma un valor muy alto o muy bajo en relacin o con el resto, puede inducir a engao (de nuevo, como ocurr con la media, es muy n a sensible a valores extremos).
2.2. Desviacin media o

Dada una caracter stica de tendencia central C, los valores |xi C| representan la desviacin a C. Estas cantidades denen una variable estad o stica que se usa como medida de dispersin. En concreto, la desviacin media es la media aritmtica de o o e las desviaciones a la media:
k i=1

|xi x|ni

. N Problema: los valores absolutos no son muy adecuados para realizar clculos y a posteriores estudios. Dx =

2.3.

Varianza

Se dene como la media aritmtica de los cuadrados de las desviaciones a la media: e


k

. N Si la varianza es nula, todos los valores de la variable coinciden con la media, es decir, dispersin nula. Cuanto ms alejadas estn las observaciones de la media, o a e mayor ser la varianza. A veces tambin aparece (por ejemplo en muchas calculadoa e 2 ras) expresada como n . Propiedades: Sea X una variable, c, d R, d = 0. 1) Si Y = dX, entonces s2 = d2 s2 . Y X 2) Si Y = X + c, entonces s2 = s2 . Y X Teorema 1 (de Knig). la varianza es la diferencia entre la media de los cuadrados o y el cuadrado de la media, es decir,
k i=1

s2 = X

i=1

(xi x)2 ni

(xi x)2 ni =

k i=1

xi 2 ni

x2 N N Problema: como todas las desviaciones estn elevadas al cuadrado, la unidad a de medida de la varianza viene dada en cuadrados de las unidades de los datos originales.
2.4. Desviacin t o pica

Se dene como la ra cuadrada positiva de la varianza: z 1/2 2 (xi x) ni sX = i=1 N


k

Esto aparece representado en muchas calculadoras como n .

Propiedades: Sea X una variable, c, d R, d = 0. 1) Si Y = dX, entonces sY = dsX . 2) Si Y = X + c, entonces sY = sX . 3) Usando de nuevo el Teorema de Knig: o
k

1/2

2 xi n i i=1 2 sX = x N

Ejemplo. Calicaciones de 20 alumnos en Matemticas: a xi ni (xi x)2 (xi x)2 ni 2 3 93025 279075 6 6 11025 66150 5 5 00025 00125 6 3 09025 27075 8 1 87025 87025 10 2 245025 490050 Total 20 9495 Sabemos que x = 5 05.
k

x2 i 4 16 25 36 64 100

x2 n i i 12 96 125 108 64 200 605

Usando la denicin, o

s2 X

i=1

(xi )2 ni x N
k

94 95 20

= 4 7475, y sX = 2 1788.
605 20

Usando el Teorema de Knig, o


2.5.

s2 X

i=1

x i 2 ni N

x2 =

(5 05)2 = 4 7475.

Coeciente de variacin de Pearson o

A veces hay que comparar las dispersiones de dos distribuciones expresadas en distintas unidades. Es por ello que estudiamos una medida relativa de la variabilidad de la distribucin mediante un nmero abstracto independiente de las unidades de o u medida de las variables. El coeciente de variacin de Pearson es o sX CV = . x Multiplicndolo por cien permite usar el lenguaje de porcentajes. Cuanto mayor a sea CV menor ser la representatividad de la media. Su valor m a nimo es cero, cuando sX = 0, en cuyo caso, obviamente, no hay dispersin. o
8

Tipicacin de la variable o En ocasiones interesa deducir el valor relativo de un dato respecto al grupo que pertenece, usando para ello la media y desviacin t o pica del grupo. Ejemplo. Se quiere asignar un puesto de trabajo entre dos candidatos. La plaza la consigue el que obtenga mejor calicacin en una prueba que ambos realizaron en o sus ciudades de procedencia. El candidato A obtuvo 55 puntos sobre 80, el candidato B 7 sobre 10 puntos. Son conocidas las medias y las desviaciones t picas de ambas pruebas: xA = 45, sA = 12; xB = 6, sB = 2. Quin consigue entonces el puesto de trabajo? O dicho ms generalmente: cmo e a o comparar datos de dos muestras distintas asociadas a un mismo tipo de estudio? Se hace un reescalamiento, denominado tipicacin. o Se llama tipicacin de la variable X, que toma los valores x1 , x2 , . . . , xk , a la o transformacin o xi x . zi = sX A la variable Z que toma los valores z1 , z2 , . . . , zk , se le llama variable tipicada. Gracias a las propiedades de la media y desviacin t o pica, la variable tipicada tiene media nula y desviacin t o pica uno (y ahora s podemos compararlas). Notamos ZA y ZB a dos nuevas variables estad sticas, las tipicaciones de las calicaciones habidas en las respectivas ciudades. As las notas de ambos individuos , tipicadas son: zA = xA xA = 0 83; sA zB = xB xB = 0 5. sB

Estos valores ahora s son comparables, y elegimos el valor mayor, es decir, el can didato de la ciudad A como el ms apto. a

You might also like