Professional Documents
Culture Documents
que sintetizan la informacin. Estudiaremos dos grandes secciones: o Medidas de tendencia central o de posicin: situacin de los valores alredeo o dor de los cules uctan los dems. a u a Medidas de dispersin: grado de desviacin de los datos respecto de las medio o das de tendencia central. Acabaremos este resumen con el proceso de tipicacin de una variable aleatoria. o 1. Medidas de tendencia central Estudiaremos la media aritmtica, la mediana y la moda. e
1.1. Media aritmtica e
Se suele representar por x, aunque tambin por e incluso abusando de la notacin e o probabilista EX (esperanza de la variable X). Es el valor de tendencia central de mayor inters. e
Caso discreto
Sea X una variable discreta que toma los valores x1 , x2 , , xk con frecuencias absolutas n1 , n2 , , nk resp. La media aritmtica de X viene dada por e
k
x=
i=1
xi n i =
xi fi .
i=1
23+46+55+63+81+102 20 1
Propiedades
k i=1
(xi x)ni = 0.
2) Si X toma los valores x1 , x2 , . . . , xk , e Y los valores yi = xi + c, i = 1, 2, . . . , k, c R, entonces y = x + c. 3) Si X toma los valores x1 , x2 , . . . , xk , e Y los valores yi = cxi , i = 1, 2, . . . , k, c R, entonces y = c. x
c Aplicacin: si X toma los valores x1 , x2 , . . . , xk , y Z los valores zi = xid , i = o 1, 2, . . . , k, con c, d R, d = 0, entonces z = xc , lo cual facilita a veces los clculos d a cambiando de variable. Por ejemplo, se quiere calcular el dimetro medio de 100 a mbolos cuyas medidas en mm son: e
Si la variable aleatoria es continua, para simplicar se calcular la media ara itmtica de una variable discreta cuyos valores son las marcas de clase de cada uno e de los intervalos y las frecuencias absolutas las de cada clase. Con ello se pierde precisin, porque slo se tendr en cuenta el nmero de valores que est dentro de o o a u a un intervalo de clase pero no la forma en la que estn repartidos. a Ventajas de la media aritmtica: e - Contiene toda la informacin de los datos de la distribucin, por lo que es repo o resentativa. - Siempre puede ser determinada, es fcil de calcular y admite operaciones ara itmticas. e Desventaja: presenta una gran sensibilidad a valores extremos.
1.2.
Se suponen los valores de la variable ordenados en orden creciente. Si n N, con 1 n 100, el percentil de rango n es el valor de la variable estad stica que deja por debajo de l al n % de los valores y al resto por encima. La mediana es el e percentil de rango 50 (divide a la muestra en dos partes iguales; al menos la mitad de la muestra cumple estar por debajo del valor destacado). Estudiaremos el valor de la variable correspondiente a un percentil dado; y dado un valor de la variable calcularemos el percentil correspondiente.
Caso discreto
Se realiza en primer lugar la tabla de frecuencias porcentuales acumuladas (f.p.a.). a) Si el porcentaje n no gura en la columna de f.p.a. se toma como percentil de rango n el primer valor de la variable cuya f.p.a. sobrepasa a n. b) Si el porcentaje n coincide con la f.p.a. de algn valor xi , se toma como peru xi +xi+1 centil de rango n el valor 2 . Ejemplo. Consideramos de nuevo la tabla dada en la pgina ?? sobre las calicaa ciones de 20 alumnos en Matemticas. a La mediana es 5, el percentil de rango 84 es 6, mientras que el percentil de rango 85 es 6+8 = 7. 2
Caso continuo
Se construye el pol gono de frecuencias porcentuales acumuladas (no debe construirse sobre el histograma, sino solo, pues las alturas deben reejar el porcentaje correspondiente independientemente de la amplitud de cada clase). La abcisa correspondiente a la ordenada n es el percentil de rango n. El clculo se hace por a interpolacin suponiendo que todos los individuos de un intervalo de clase estn o a distribuidos homogneamente. e Ejemplo. Peso en kg de 100 personas: Peso [20, 40) [40, 60) [60, 80) [80, 100) Pi 10 59 91 100
100 91
59 Pi
10 20 40 60 peso 80 100
Recurdese que la recta que pasa por los puntos (x0 , y0 ) y (x1 , y1 ) viene dada, por e y ejemplo, como y x0 = x1 y0 (x x0 ). 1 x0 En este caso la mediana est en el intervalo [40, 60). Es aquel x tal que a 50 10 = 59 10 (x 40) x = 41 6. 60 40
1.3.
Moda
Es el valor de la variable estad stica que corresponde al mximo del diagrama difera encial (diagrama de rectngulos o barras-histograma en caso continuo- y pol a gono de frecuencias simples). Se representa por M o.
Caso discreto
La moda es el valor de la variable con mayor frecuencia. No tiene por qu ser e unica, puede haber dos o ms valores que se repiten (frecuencia absoluta) igual a nmero (mximo) de veces. En tal caso, todos esos valores son la moda. u a Ejemplo: En el caso de que estudiemos el nmero de hijos por familia espaola u n descrito por el siguiente diagrama de barras:
tenemos que M o = 2.
Caso continuo
Se construye el histograma.
17.25 13.75
n alumnos
8 5 4
5 calificacion
10
La moda est en el rectngulo de altura mxima, es decir, el de base [3, 5). a a a (Suponemos, igual que se hac en el clculo de la mediana, que la distribucin a lo a a o largo del intervalo es uniforme.) As ahora la moda se calcula hallando la intersec, cin de los segmentos que aparecen en la gura. En este caso, la moda corresponde o a la coordenada x del punto de interseccin. Como dicho punto es (4 45, 14 71), o M o = 4 45.
2.
Medidas de dispersin o
La dispersin de una distribucin es la mayor o menor separacin de sus datos o o o respecto de una de las caracter sticas de tendencia central, pretendiendo medir la representatividad de dicha caracter stica. Ejemplo. Calicaciones de 28 alumnos: F sica 3 9 ni 14 14 Biolog 3 6 9 a ni 5 6 7
La calicacin media en ambas asignaturas es de 6 puntos, pero dnde es ms o o a representativa? Estudiaremos el recorrido, la desviacin media, la varianza, la desviacin t o o pica y el coeciente de variacin de Pearson. o
2.1. Recorrido
Viene denido como R = mx(xi ) m i ). a n(x Proporciona una primera informacin de la variabilidad de la distribucin, pero o o es insuciente ya que si la variable toma un valor muy alto o muy bajo en relacin o con el resto, puede inducir a engao (de nuevo, como ocurr con la media, es muy n a sensible a valores extremos).
2.2. Desviacin media o
Dada una caracter stica de tendencia central C, los valores |xi C| representan la desviacin a C. Estas cantidades denen una variable estad o stica que se usa como medida de dispersin. En concreto, la desviacin media es la media aritmtica de o o e las desviaciones a la media:
k i=1
|xi x|ni
. N Problema: los valores absolutos no son muy adecuados para realizar clculos y a posteriores estudios. Dx =
2.3.
Varianza
. N Si la varianza es nula, todos los valores de la variable coinciden con la media, es decir, dispersin nula. Cuanto ms alejadas estn las observaciones de la media, o a e mayor ser la varianza. A veces tambin aparece (por ejemplo en muchas calculadoa e 2 ras) expresada como n . Propiedades: Sea X una variable, c, d R, d = 0. 1) Si Y = dX, entonces s2 = d2 s2 . Y X 2) Si Y = X + c, entonces s2 = s2 . Y X Teorema 1 (de Knig). la varianza es la diferencia entre la media de los cuadrados o y el cuadrado de la media, es decir,
k i=1
s2 = X
i=1
(xi x)2 ni
(xi x)2 ni =
k i=1
xi 2 ni
x2 N N Problema: como todas las desviaciones estn elevadas al cuadrado, la unidad a de medida de la varianza viene dada en cuadrados de las unidades de los datos originales.
2.4. Desviacin t o pica
Propiedades: Sea X una variable, c, d R, d = 0. 1) Si Y = dX, entonces sY = dsX . 2) Si Y = X + c, entonces sY = sX . 3) Usando de nuevo el Teorema de Knig: o
k
1/2
2 xi n i i=1 2 sX = x N
Ejemplo. Calicaciones de 20 alumnos en Matemticas: a xi ni (xi x)2 (xi x)2 ni 2 3 93025 279075 6 6 11025 66150 5 5 00025 00125 6 3 09025 27075 8 1 87025 87025 10 2 245025 490050 Total 20 9495 Sabemos que x = 5 05.
k
x2 i 4 16 25 36 64 100
Usando la denicin, o
s2 X
i=1
(xi )2 ni x N
k
94 95 20
= 4 7475, y sX = 2 1788.
605 20
s2 X
i=1
x i 2 ni N
x2 =
(5 05)2 = 4 7475.
A veces hay que comparar las dispersiones de dos distribuciones expresadas en distintas unidades. Es por ello que estudiamos una medida relativa de la variabilidad de la distribucin mediante un nmero abstracto independiente de las unidades de o u medida de las variables. El coeciente de variacin de Pearson es o sX CV = . x Multiplicndolo por cien permite usar el lenguaje de porcentajes. Cuanto mayor a sea CV menor ser la representatividad de la media. Su valor m a nimo es cero, cuando sX = 0, en cuyo caso, obviamente, no hay dispersin. o
8
Tipicacin de la variable o En ocasiones interesa deducir el valor relativo de un dato respecto al grupo que pertenece, usando para ello la media y desviacin t o pica del grupo. Ejemplo. Se quiere asignar un puesto de trabajo entre dos candidatos. La plaza la consigue el que obtenga mejor calicacin en una prueba que ambos realizaron en o sus ciudades de procedencia. El candidato A obtuvo 55 puntos sobre 80, el candidato B 7 sobre 10 puntos. Son conocidas las medias y las desviaciones t picas de ambas pruebas: xA = 45, sA = 12; xB = 6, sB = 2. Quin consigue entonces el puesto de trabajo? O dicho ms generalmente: cmo e a o comparar datos de dos muestras distintas asociadas a un mismo tipo de estudio? Se hace un reescalamiento, denominado tipicacin. o Se llama tipicacin de la variable X, que toma los valores x1 , x2 , . . . , xk , a la o transformacin o xi x . zi = sX A la variable Z que toma los valores z1 , z2 , . . . , zk , se le llama variable tipicada. Gracias a las propiedades de la media y desviacin t o pica, la variable tipicada tiene media nula y desviacin t o pica uno (y ahora s podemos compararlas). Notamos ZA y ZB a dos nuevas variables estad sticas, las tipicaciones de las calicaciones habidas en las respectivas ciudades. As las notas de ambos individuos , tipicadas son: zA = xA xA = 0 83; sA zB = xB xB = 0 5. sB
Estos valores ahora s son comparables, y elegimos el valor mayor, es decir, el can didato de la ciudad A como el ms apto. a