Professional Documents
Culture Documents
Unidad II
MEDIDAS DESCRIPTIVAS
2.1. INTRODUCCIN
39
Unidad 1I: Medidas Descriptivas
Las distribuciones pueden tener diferentes formas, una manera de caracterizar la forma
es observando su simetra. Las distribuciones simtricas presentan un eje de simetra y las
frecuencias alrededor de ese eje se distribuyen de manera simtrica(Figura 2.1). Las
distribuciones asimtricas, pueden presentar dos tipos de asimetra, la asimetra positiva
(Figura 2.2) donde los valores grandes de la variable presentan frecuencias bajas; y la asimetra
negativa donde los valores pequeos de la variable presentan frecuencias bajas (Figura 2.3).
40
Unidad 1I: Medidas Descriptivas
Existen medidas que permiten cuantificar el grado de asimetra de una distribucin pero
no sern tratadas en este mdulo.
las medidas de tendencia central son valores numricos que tienden a localizar la
parte central de un conjunto de datos.
A menudo, el trmino promedio se asocia slo con la media aritmtica, pero en realidad
cada una de las medidas de tendencia central puede recibir el nombre de medida promedio.
41
Unidad 1I: Medidas Descriptivas
entonces, se puede tratar de encontrar las razones de tales diferencias y ver si este hecho es
remediable.
Para encontrar la media aritmtica o simplemente media, x , se suman todos los valores
observados y se divide en el nmero de observaciones. Esta medida se expresa con la frmula.
xobs.
n
x i
(1)
x= = i =1
todos los x
n n
En general su clculo es bastante simple, particularmente cuando se cuentan con pocas
observaciones. Por ejemplo, en el caso de los datos presentados en la Tabla 4, la media es igual
a 231.42/57 = 4.06.
Observaciones:
1. A veces se interpreta errneamente a la media como aquel valor que es tpico, o que se
esperara que la mayora de las personas tuvieran. Esta interpretacin puede ser
bastante absurda en algunos casos, por ejemplo, cuando se calcula la media de hijos en
un grupo de mujeres, se obtiene que es de 2.3 nios y, obviamente, no se puede esperar
encontrar una madre con exactamente 2.3 nios. Todo lo que la cifra dice, es que si
dividimos el nmero total de nios de las mujeres consideradas por el nmero de
mujeres, el resultado es 2.3 nios por mujer. Esto puede ser un conocimiento til en la
comparacin de tamao de familia, de dos o ms grupos, pero no sugiere que alguna
mujer tenga 2.3 nios.
2. Otras veces se piensa que la media aritmtica tiene la caracterstica que la mitad de las
observaciones es menor o igual que la media. Este concepto es totalmente errado en
algunos casos, por ejemplo, si la distribucin es asimtrica a la derecha (Figura 2.2),
como puede ser la distribucin de salarios donde hay muchas personas que ganan poco
y hay pocas personas que ganan mucho, la media aritmtica resultar mucho ms
grande de lo que uno esperara encontrar, si se piensa que el valor central debe ser tal
42
Unidad 1I: Medidas Descriptivas
que la mitad de las personas tiene un salario inferior a l y la otra mitad un salario
superior. Esto se debe a la presencia de unos pocos valores excesivamente grandes que
al tener demasiada influencia en el valor de la media aritmtica hacen que ella se
ubique en una posicin ms extrema a la esperada. Por lo tanto debera pensarse en
otras medidas para evaluar un valor central con esta caracterstica.
2.3.2. MEDIANA
La mediana de una serie de observaciones es
el valor del centro u observacin central cuando todas las observaciones estn
ordenadas de menor a mayor segn su magnitud.
En otras palabras, la mitad de las observaciones son menores o iguales que la mediana y
la otra mitad son mayores o iguales. La mediana, entonces, divide la distribucin en dos mitades,
y define la posicin central de la distribucin como el centro geomtrico de la misma.
Si consideramos los valores 3,7,8,6,4 y a ellos los ordenamos de menor a mayor
tenemos: 3,4,6,7,8; el valor que separa la serie en dos partes iguales es 6, pues 3 y 4 son menores
que 6 y 7 y 8 son mayores que 6.
Cuando el nmero de observaciones es impar la mediana es entonces el valor central de
la serie ordenada (Me=6). Cuando el nmero de observaciones es par, como por ejemplo en la
serie 2,3,4,6,7,8, hay cierta incertidumbre en la definicin de la mediana, pues en tal caso no hay
en la serie ningn valor observado que la divida en dos mitades. Ser suficiente entonces,
adoptar como mediana cualquier valor comprendido entre las dos observaciones centrales; pero
para precisar y unificar criterios se usa como mediana al valor promedio de dichas
43
Unidad 1I: Medidas Descriptivas
Observaciones:
1. Si la distribucin es asimtrica como la del Figura 2.2 (Figura 2.3), hemos visto que
la media aritmtica se encuentra situada a la derecha del centro geomtrico
(mediana) y esta diferencia crece a medida que aumenta la asimetra de la
distribucin. De esta manera resulta poco claro qu representa la media aritmtica,
y por lo tanto en distribuciones asimtricas es conveniente usar la mediana como
medida de centro para fines descriptivos. Para ilustrar este hecho consideremos el
caso de la duracin promedio de una lmpara. Las duraciones registradas en das
son: 7, 9, 10, 10, 11, 12, 12, 15, 16, entonces, la mediana es Me = 11 das y la media
X = 11,3 das. Si a esta serie de observaciones se le agrega la de dos lmparas cuya
duracin fue de 3 y 6 meses o sea 90 y 180 das, la mediana no se ve
apreciablemente alterada, ya que en este caso su valor sera M = 12 das, las
observaciones agregadas slo representan dos casos que caen por encima del punto
medio, y cunto se alejan de l, es irrelevante. Por otra parte, la media con el
agregado de las dos observaciones es ahora igual a 33.8 das un valor casi tres
veces mayor.
Sin embargo, si sucede que dos o ms valores tienen la misma frecuencia ms alta o que
no haya un valor nico que parezca con mayor frecuencia, se dice, en el primer caso de una
distribucin bi o polimodal y en el segundo caso se dice que no existe el modo o que la muestra
carece de modo.
Otra medida de tendencia central es el centro de amplitud. Un conjunto de datos tiene un
extremo inferior (m), o mnimo, y un extremo superior (M), o mximo; y el punto medio o
centro de amplitud es el punto situado entre ellos, exactamente en el medio. Por lo tanto el
centro de amplitud se puede encontrar de la siguiente manera.
44
Unidad 1I: Medidas Descriptivas
(max+ min)
puntomediodela amplitud = (2)
2
Las cuatro medidas de tendencia central vistas hasta ahora representan cuatro mtodos
para describir el centro de un conjunto de datos, estos cuatro valores no necesariamente
coinciden; aunque, si lo hacen cuando se trata de una distribucin simtrica.
Por lo tanto, cuando se tiene informacin sobre un promedio sobre una caracterstica, se
debera preguntar de qu clase de promedio se trata, entonces se sabr cul es la informacin que
l refleja, tambin debe observarse el tipo de distribucin de la variable bajo estudio de manera
que pueda juzgarse si la medida promedio utilizada ha sido la adecuada.
Si bien los promedios son las medidas de posicin ms comunes, existen otras que
proporcionan informacin adicional acerca de las caractersticas de un conjunto de datos. Por
ejemplo, la persona encargada de conseguir personal para una compaa, puede tener inters en
algo ms que la nota media o la mediana de los alumnos del ltimo ao. A esta persona le puede
interesar la nota de los alumnos del ltimo ao que estn por encima del 90% o del 80% de las
notas de su clase y as sucesivamente
45
Unidad 1I: Medidas Descriptivas
Estos valores nos informan el rango en el que se encuentran las observaciones. Por
ejemplo, si se conoce que el valor promedio de das de espera para el cumplimiento de un
contrato, es de 5 das con el protocolo A, y de 7 das con el protocolo B, con esta nica
informacin no es posible hacer una eleccin adecuada. Por otra parte si se sabe que con el
protocolo A, el nmero mnimo de das de espera es de 3 y el mximo de 15, mientras que con el
protocolo B, los valores son 3 y 8 das respectivamente, se estara, con esta informacin
adicional, en condiciones de tomar una decisin ms adecuada.
2.5.2. PERCENTILES
Son nmeros que dividen en 100 partes iguales un conjunto de datos ordenados. Es decir,
Por ejemplo, suponga que se estudia el ingreso mensual y se sabe que el percentil 90 es
$1100, que aproximadamente el 90% de las personas tienen ingresos que son menores o iguales
a $1100, y por supuesto, el 10% tiene ingresos mayores o iguales a dicho valor. En este ejemplo
se tomo el percentil 90 pero se podra haber considerado cualquier valor, por ejemplo, 70, 80
entre otros.
Fundamentalmente cuando la distribucin de frecuencia es asimtrica, puede ser ms til
e informativo, resumir la distribucin de la variable en estudio, mediante los percentiles.
46
Unidad 1I: Medidas Descriptivas
2.5.3. CUARTILLES
En trminos de percentiles el Primer Cuartil (Q1) coincide con el P25 (percentil 25); el
Segundo Cuartil con el P50 o mediana, y el Tercer Cuartil (Q3) con el P75.
Observaciones:
47
Unidad 1I: Medidas Descriptivas
Por lo tanto, una vez determinada la posicin central de las observaciones, la bsqueda
de informacin se dirige inmediatamente a las medidas de dispersin, entre ellas se encuentran
la amplitud, o rango, el desvo estndar y el rango intercuartos. Estos valores numricos
describen el grado de dispersin, o variabilidad de los datos, y por lo tanto, ellas toman valores
ms altos cuanto ms disgregados o esparcidos estn los datos.
Como un ejemplo, la Tabla 15 muestra la distribucin de frecuencias de los registros de
edad al morir en diferentes grupos.
La media de la edad al morir no difiere mucho entre las dos distribuciones, siendo 37.2
aos para la edad registrada como debida a No conductores y 35.2 aos para aquellas atribuidas
a Conductores. Pero la tabla muestra que la diferencia en variabilidad, o dispersin, de las
observaciones alrededor de sus respectivas medias es muy considerable. En el caso de No
conductores las muertes varan en los grupos de edad de 0-4 a 70-74, mientras las muertes para
Conductores varan entre 20-24 y 45-49.
Es claro entonces que para describir adecuadamente la distribucin de frecuencia,
necesitamos una medida del grado de variabilidad de las observaciones alrededor del promedio.
48
Unidad 1I: Medidas Descriptivas
2.6.1. RANGO
6 48 30
6 49 37
7 50 48
93 50 52
94 51 62
94 52 70
95 52 72
97 54 84
98 55 91
98 55 92
100 100 100
Total 800 800 800
Mediana 50 50 50
Media 50 50 50
Rango 100 100 100
49
Unidad 1I: Medidas Descriptivas
Se puede pensar a la dispersin de las observaciones en trmino del desvo de cada una
de ellas con respecto a la media de la distribucin, esto es,
Es claro, que se tiene tantos desvos observados como individuos estudiados, luego, para medir
la dispersin total, se necesitara alguna especie de promedio de cunto se desva cada
observacin de la media. Sin embargo, debido a una propiedad de la media aritmtica, no
podemos promediar los desvos respecto de la media ya que la suma de ellos es cero. Por
ejemplo, en la Tabla 17 se muestran cinco observaciones, con media 5.76, y sus respectivos
desvos.
Tabla 17: Observaciones y desvo de un conjunto de datos
Individuo Valor Desvo
1 1.3 1.3 5.76 = - 4.76
2 3.4 3.4 5.76 = - 2.36
3 6.7 6.7 - 5.76 = 0.94
4 8.5 8.5 - 5.76 = 2.74
5 8.9 8.9 - 5.76 = 3.14
Suma 28.8 0.00
Promedio 5.76 0.00
Como se ve a partir de los datos de la tabla anterior, la suma de los desvos respectos de
50
Unidad 1I: Medidas Descriptivas
la media, y por lo tanto su promedio, son cero. Este hecho no es accidental sino que se sigue
inevitablemente de la definicin de la media.
Entonces, si se quiere utilizar los desvos respecto de la media para definir una medida
de variabilidad, dado que su suma es siempre cero, no podemos usar ningn promedio simple de
ellos. As, una posibilidad sera tomar una medida de dispersin que promedie los desvos al
cuadrado. Bajo esta idea se defini el desvo estndar de una muestra de observaciones como la
raz cuadrada de la suma de los desvos al cuadrado dividido en n-1. Es decir,
(x X)
2
suma de los desvios al cuadrado
SD = =
obs .
(3)
n 1 n 1
Se puede pensar que a la suma de los cuadrados deberamos dividirla por el tamao de la
muestra (n). Pero, basndose en ciertas propiedades que van ms all del desarrollo de estas
notas, se conviene, en el caso de tratarse de una muestra de observaciones dividir por n-1,
mientras que si se estuviera calculando el desvo estndar de la poblacin dividir en n.
Cabe destacar que el desvo estndar es una medida de variabilidad de las observaciones
respecto de la media, de esta manera, un gran desvo estndar muestra que la distribucin de
frecuencia est ampliamente extendida alrededor de la media, mientras que un desvo estndar
pequeo indica que ella esta muy concentrada alrededor de la media con poca variabilidad entre
una observacin y otra.
Por ejemplo, el desvo estndar de la edad de las muertes debidas en la va pblica para
No conductores (ver Tabla 15) es 11.3 aos, mientras que en la distribucin, ms concentrada,
de edad de muertes atribuidas a Conductores es solamente de 6.8 aos. Las distribuciones de
frecuencias, por si misma, muestran claramente esta considerable diferencia en variabilidad.
Para poder interpretar al desvo estndar como una medida de fluctuacin de los datos se
hace la siguiente afirmacin:
entre ( x k SD, x + k SD) por lo menos se encuentra el (1-1/k2) por ciento de las
observaciones,
51
Unidad 1I: Medidas Descriptivas
Para poder interpretar de una manera mejor esta afirmacin observemos la Tabla 18, de
ella se deduce que al menos el 75% (o sea (1-1/22)*100) de las compaas tienen antigedad en
el mercado que oscila entre 17.2 y 36.8 aos, ( x 2 SD, x + 2 SD) , como as tambin que por lo
menos el 75% de las compaas tienen entre 2566 y 4286 acciones.
Por ejemplo si consideramos los siguientes valores ordenados: 26, 33, 36, 39, 40, 40,
(41), 42, 44, 45, 47, 47, 47, (48), 50, 51, 51, 53, 54, 54, (55), 57, 59, 61, 63, 66, 71, los valores
cuartiles se muestran entre parntesis, es decir, 41, 48 y 55, donde, el segundo cuartil es
simplemente la mediana. La dispersin calculada a travs del rango intercuartil, es en este caso
ser, 55 - 41 = 14
52
Unidad 1I: Medidas Descriptivas
Debe destacarse que el desvo estndar depende de las unidades de medidas de las
observaciones, ya l est expresado en las mismas unidades que las observaciones originales, y
por lo tanto del orden de magnitud de lo que se est midiendo. Por ejemplo, la altura media de
un grupo de nios puede ser 48 pulgadas y el desvo estndar de 6 pulgadas; si las observaciones
fueron registradas en centmetros en lugar de pulgadas, luego la media sera de 122 cm y el
desvo estndar de 15,2 cm.
Por otra parte, se puede ver que no es posible por simple comparacin de los valores de
los mismos, decir, por ejemplo, que el peso es una caracterstica ms variable que la altura; las
dos caractersticas no son medidas en las mismas unidades y la seleccin de estas unidades,
pulgadas o centmetros, libras o kilogramos, afecta la comparacin.
Otro punto a tener en cuenta es que un desvo estndar de 10 alrededor de una media de
40 debe indicar un grado relativamente ms grande de dispersin que un desvo estndar de 10
alrededor de una media de 400 aunque las unidades de medida sean las mismas.
Para evitar estas dificultades cuando se quiere comparar la variabilidad de dos o ms
conjunto de observaciones, fundamentalmente cuando ellos estn medidos en diferentes
unidades o con amplias diferencias entre sus medias, se define el coeficiente de variacin (CV).
Este coeficiente es el desvo estndar de la distribucin expresado como un porcentaje de
la media de dicha distribucin, es decir,
SD
CV = 100 (5)
x
2.7.1. RAZONES
Una razn es
54
Unidad 1I: Medidas Descriptivas
compaa tiene 250 persona a cargo de los cuales 150 son hombres, el ndice de masculinidad
sera de1.5, lo cual indicara que la cantidad de hombres 1.5 veces la cantidad mujeres.
2.7.2. PROPORCIONES
La clase de ndice designado comnmente como una proporcin es un tanto diferente, y
la caracterstica principal de este tipo de ndice es que
As en el caso de la compaa con 250 persona a cargo, de los cuales 150 son hombres,
la proporcin de hombres es:
150 hombres
100 = 60%
150 hombres + 100 mujeres
2.7.3. TASA
Al igual que los ndices previamente definidos una tasa es tambin un cociente, pero a
diferencia de ellas involucra explcitamente el tiempo durante el cual se hace la observacin y se
55
Unidad 1I: Medidas Descriptivas
usa como indicador del riesgo que tiene un dado evento de producirse en un dado perodo de
tiempo. Por esta razn, en la definicin de las tasas, en general, aparecen tres elementos:
El numerador, que consiste en el nmero de veces que ocurri un determinado
hecho en un perodo de tiempo dado y en un rea determinada, por ejemplo, nmero
de personas sin empleo que se registr en Tucumn durante1997.
Una constante por la cual se multiplica el cociente (100, 1000, 10000, etc.) a fin de
que la tasa se exprese convenientemente.
En este contexto una tasa trata de describir la rapidez con que tiene lugar un suceso dado
a travs del tiempo.
Algunos ejemplos de tasas son tasa de mortalidad, tasa de desempleo, tasa de
crecimiento econmico, etc.
56
Unidad 1I: Medidas Descriptivas
RESUMEN
Al tratar de describir un conjunto de datos nos encontramos con el problema de decidir
cules de las medidas deben usarse para caracterizar su distribucin.
Un criterio para la eleccin de estas medidas ser el nivel de medicin de la variable.
Sabemos que en una escala nominal slo se podr determinar la categora ms frecuente, o modo
de la distribucin, y no ser posible dar una medida de dispersin ya que no existe un orden
implcito en la clasificacin.
En escala ordinal, adems del modo, se podrn calcular la categora mediana y los
percentiles que sean de inters. En este tipo de escala evidentemente se preferir la descripcin
con mediana y percentiles ya que as se logra no solo una descripcin de la posicin del grupo
sino tambin de su dispersin.
Cuando las mediciones se han hecho en escalas cuantitativas se presenta el verdadero
problema de eleccin de las medidas. En este caso ser muy importante el tipo de distribucin
que tengan las observaciones que vamos a describir.
Cuando la distribucin es asimtrica, con acumulacin de valores en uno de sus
extremos, lo indicado ser su descripcin a travs de la mediana, percentiles y rango intercuartil.
Estas medidas nos aseguran que un determinado porcentaje de observaciones tienen valores
iguales o inferiores a ellas y nos darn una imagen fcilmente comprensible de la distribucin.
Para describir la distribucin de frecuencia de una serie de observaciones con
distribucin simtrica se recomienda generalmente el uso de la media y el desvo estndar.
Recordemos que la media sola, raramente o nunca, es suficiente. En trabajos estadsticos
es necesario pensar en trmino de la distribucin de frecuencia como un total, tomando en
cuenta la posicin central (media) alrededor de la cual ella se dispersa, la variabilidad que ella
muestra alrededor de aquella posicin central (el desvo estndar) y la simetra o falta de simetra
con la cual las observaciones se dispersan alrededor de la posicin central. Lo importante es
pensar no slo en funcin del promedio sino tambin de la dispersin de las observaciones
alrededor de ella.
Actividades: 2.1
1) Para las variables presentadas en la Tabla A realice el grfico apropiado para la
distribucin de frecuencias, teniendo en cuenta la codificacin usada en las
57
Unidad 1I: Medidas Descriptivas
58