You are on page 1of 7

INSTITUTO ALEMN DE PUERTO MONTT

DEPARTAMENTO DE MATEMTICA

ESTADSTICA DESCRIPTIVA DE UNA VARIABLE


(IV medio 2017)

1. INTRODUCCION

El concepto de Estadstica es muy amplio, y sus aplicaciones directas o indirectas, muy numerosas;
resulta difcil, por ello, dar una definicin. Sin embargo, la idea ms adecuada es considerar que incumbe a la
Estadstica la recogida, ordenacin, resumen y anlisis de datos de cualquier tipo sobre colectivos, lo que
significa que no tiene sentido pensar en un dato aislado o individual como terreno de trabajo de la Estadstica:
es necesario, pues, considerar un grupo de elementos (personas, animales, cosas, experimentos, etc.) a los que
se refieren los datos que se consideran. Este conjunto puede venir dado de dos formas que condicionan toda
clasificacin interna de la Estadstica, y que son las siguientes:

a) Poblacin, o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de datos de una o ms
variables sobre la poblacin completa, o se puede acceder a ellos, la Estadstica tendr como misin que la
recogida sea adecuada, se ordenen, se estructuren y se resuman dichos datos para su mejor comprensin, es
decir, que se describan. Ello nos llevar a hablar de Estadstica Descriptiva. Por ejemplo, el conjunto de los
varones mayores de 65 aos y residentes en una provincia sera una poblacin

b) Muestra, o conjunto de elementos de los que efectivamente se dispone de datos, y que es una parte (a
menudo pequea) de la poblacin. Cuando no se puede acceder a los datos de toda la poblacin, que es lo ms
frecuente, y se debe trabajar con slo los de la muestra, a la simple descripcin de los datos se aade el inters
por valorar hasta qu punto los resultados de la muestra son extrapolables o generalizables a la poblacin; en
consecuencia, ser necesario utilizar no slo las tcnicas de la Estadstica Descriptiva, siempre obligadas en
todo caso para la comprensin de los resultados, sino tambin otras que permiten inferir afirmaciones sobre la
poblacin a partir de los datos de la muestra y que constituyen la Estadstica Inferencial o Inferencia
Estadstica. Por ejemplo, el grupo de los varones mayores de 65 aos y residentes en una provincia que son
usuarios de bibliotecas pblicas sera una muestra de la poblacin citada en el prrafo anterior (otra cosa es que
la muestra fuese o no representativa del conjunto de tal poblacin)

Los elementos fundamentales de la descripcin de una variable son los que siguen en los apartados siguientes,
que se pueden resumir de esta forma:
En primer lugar, se har hincapi en que lo que se estudia son en realidad las variables, lo que nos
obligar a distinguir los tipos bsicos de ellas, porque tienen un tratamiento distinto en todo lo que sigue
Las distribuciones de frecuencia son necesarias en el paso siguiente para expresar los resultados
obtenidos mediante tablas estadsticas
Las grficas estadsticas dan una informacin similar a la de las tablas, pero de forma ms directa; de
ellas trata otro apartado
Finalmente, el resumen de la informacin se realiza mediante las medidas de centralizacin, dispersin y
posicin

2. TIPOS DE VARIABLES

Lo que se estudia en una muestra o poblacin es una serie de variables en cada individuo o elemento. Lo
usual es considerar primero las variables una a una, sin plantearse problemas de asociacin entre ellas, por lo
que podemos pensar slo en una variable de cuyos datos imaginamos disponer en una muestra (el nmero de
datos es el llamado Tamao de Muestra, para el que habitualmente se utiliza la letra n). Los tipos de variables, y
consecuentemente las clases de datos que se pueden encontrar, son bsicamente las siguientes:

A) Variables CUALITATIVAS, tambin llamadas CARACTERES, VARIABLES CATEGRICAS o


ATRIBUTOS, que son aquellas que no necesitan nmeros para expresarse; cada forma particular en que pueden
presentarse se denomina modalidad. Por ejemplo, el sexo de una persona es una variable cualitativa y varn o
mujer son sus nicas modalidades. En consecuencia, para una variable cualitativa, cada dato no es ms que la
informacin de que un determinado elemento de la muestra presenta una determinada modalidad. Entre la
variables cualitativas cabe distinguir:

a1) las variables cualitativas ORDINALES, que son las que teniendo ms de dos modalidades tienen
establecido un orden natural entre las mismas, de forma que sus modalidades se enuncian siguiendo una cierta
ordenacin ascendente o descendente y no de otra manera. Por ejemplo, la variable gravedad del pronstico de
lesiones traumticas podra tener como orden natural entre sus modalidades leve, moderado, grave, etc.,
pero nunca diramos grave, leve, moderado, etc. en este orden.
a2) las variables cualitativas PURAS, que no tienen un orden natural preestablecido entre sus modalidades, y
podemos utilizar cualquier ordenacin para ellas, como por ejemplo el grupo sanguneo o la nacionalidad de
una persona (no hay que confundirse con ordenaciones arbitrarias, como el orden alfabtico, pensando que
convierten en ordinales a las variables, ya que no significan una verdadera ordenacin natural de las
modalidades).

a3) las variables DICOTOMICAS, que tienen slo dos modalidades posibles, y en las que ni siquiera tiene
sentido plantearse si son o no ordinales; El hecho de tener slo dos modalidades les confiere caractersticas
especiales. Cabe citar como ejemplos el ya citado del sexo, el pertenecer o no a una asociacin, o en general
cualquier situacin que slo admita una respuesta s o no.

B) Variables CUANTITATIVAS o NUMERICAS, que son aquellas que necesitan nmeros para ser expresadas,
como la edad de alguien o el nmero de pginas de un libro. Cada forma particular en que se presentan es un
valor numrico, y un dato es en estas variables un nmero que refleja el valor de la variable en un elemento de
la muestra. Tambin pueden distinguirse al menos dos subtipos:

b1) las variables cuantitativas DISCRETAS, cuyos valores son aislados (habitualmente nmeros enteros), de
forma que pueden enumerarse y existen valores consecutivos entre los que no puede haber otro; Por ejemplo,
un resumen puede tener 349 350, pero no 349.17 palabras.

b2) las variables cuantitativas CONTINUAS, que pueden tomar cualquier valor numrico, entero o decimal, de
forma que tericamente entre dos valores posibles siempre se pueden encontrar otros (entre 65.3 Kg. y 65.4 Kg.
de peso siempre est 65.37 Kg., por ejemplo), aunque en la prctica el nmero de cifras decimales est limitado
y la variable se maneja en cierto modo como discreta.

La distincin entre los distintos tipos de variables es importante porque las tcnicas a aplicar a cada uno pueden
ser muy diferentes, y muchos parmetros y clculos tienen sentido para las variables de un tipo y no para las de
otro. Hay que tener en cuenta tambin que una misma variable de la realidad puede venir expresada de diversas
maneras, incluso como cualitativa o como cuantitativa, dependiendo de que usemos valores numricos o slo
modalidades; pinsese, por ejemplo, en que la estatura puede darse en centmetros (variable cuantitativa
continua) o diciendo de alguien que es bajo, mediano o alto (variable cualitativa ordinal). En estos casos,
debe quedar claro que la variable es en esencia cuantitativa y que su tratamiento como cualitativa supone una
prdida de calidad en la informacin, slo admisible si no podemos disponer de los datos numricos.

3. DISTRIBUCIONES DE FRECUENCIA Y TABLAS ESTADISTICAS

Sea cual sea el tipo de variable, lo que se tiene como informacin de una variable en una muestra es un
nmero finito n de datos, es decir, de valores o de anotaciones sobre qu modalidad (cualitativas) o qu valor
(cuantitativas) tiene cada elemento de la muestra; a este conjunto de datos se le llama distribucin y, salvo
cuando el tamao de muestra n sea muy pequeo, se debe resumir para que el lector pueda comprender bien los
resultados.
Un primer y obligado paso de ese resumen de datos es el simple recuento de las repeticiones de un mismo valor
o modalidad; ello nos conduce al concepto fundamental de frecuencia, con dos enfoques:

- Frecuencia absoluta es el nmero de veces que una modalidad o un valor de una variable aparece entre los
datos de una muestra; si en una muestra de la variable nivel de estudios aparecen 148 personas con nivel de
estudios superiores, diremos que 148 es la frecuencia absoluta de la modalidad superiores. Naturalmente, el
nmero total de datos es n y, por tanto, la suma de las frecuencias absolutas de todas las modalidades o valores
debe ser igual al tamao muestral n.

- Frecuencia relativa de una modalidad o valor de una variable es su frecuencia absoluta dividida entre el
tamao muestral, es decir, la proporcin de veces que aparece esa modalidad o valor entre todos los datos de la
muestra; si la frecuencia absoluta 148 del ejemplo anterior corresponde a una muestra de 2000 personas,
diremos que la frecuencia relativa de la modalidad AB es 148/2000 = 0.074. Es claro que la suma de las
frecuencias relativas de todas las modalidades o valores debe ser 1, ya que las absolutas suman n y estamos
dividiendo entre n. Es muy habitual expresar las frecuencias relativas como porcentajes (multiplicndolas por
cien) y entonces la frecuencia relativa del ejemplo sera 7.4 % y la condicin de la suma sera que deben sumar
100 %, lo que se entiende mejor (la frecuencia relativa es la parte del total de datos que corresponde a cada
valor o modalidad).

Las frecuencias absolutas y relativas son aplicables a cualquier tipo de variable, y de ah su importancia;
adems, pese a su simplicidad, dan lugar a conceptos muy importantes, como el de proporcin, y son la base
sobre la que se construye cualquier resumen de los datos. Usando como ejemplo el grupo sanguneo en una
muestra de doscientas personas, la tabla siguiente sirve para resumir lo que, si no, sera una tediosa lista de
doscientos grupos sanguneos:

Grupo sanguneo de una muestra de 200 personas.


Modalidades Frecuencia absoluta Frecuencia relativa (%)
O 85 0.425 (42.5%)
A 53 0.265 (26.5%)
B 48 0.240 (24.0%)
AB 14 0.070 ( 7.0%)
Totales 200 1.000 (100%)

Una tabla como esta se denomina distribucin de frecuencias, y puede incluir tambin las llamadas frecuencias
acumulativas, que son la suma de las frecuencias del valor o modalidad que se considere y de todos los
anteriores; puede haber frecuencias acumulativas absolutas o relativas, y en todo caso slo tienen sentido con
variables cuantitativas o cualitativas ordinales, ya que hay que poder fijar cuales son los valores o modalidades
anteriores. As, por ejemplo, las frecuencias acumulativas no son definibles en el ejemplo del grupo
sanguneo, que es una variable cualitativa pura. Veamos un ejemplo donde s lo son, de una variable cuantitativa
discreta.
En este segundo ejemplo, cuya tabla se encuentra a continuacin, el nmero n de datos es 500 y la variable toma
seis valores distintos (0,1,2,3,4 y 5) en la muestra. No se deben confundir los valores de la variable, que son el
nmero de visitas (ninguna, una, dos, etc.) de cada persona a la biblioteca en ese mes, con las frecuencias
absolutas, que son el nmero de personas cuyo nmero de visitas es uno determinado: que 210 sea la frecuencia
absoluta del valor 0 quiere decir que de entre las 500 personas consideradas en el estudio 210 no han ido
ninguna vez a la biblioteca en ese mes, es decir, que el valor de la variable es "cero" para ellas; esta frecuencia
absoluta 210 supone el 42% de 500, por lo que 0.42 42% es la frecuencia relativa del valor 0 de la variable.

Visitas mensuales a una biblioteca de una muestra de 500 usuarios inscritos

Frec.
Frec. absol.
Valores Frec. absoluta Frec. relativa relat.acumulativ
acumulativa
a
0 210 42.0% 210 42.0%
1 178 35.6% 388 77.6%
2 68 13.6% 456 91.2%
3 24 4.8% 480 96.0%
4 14 2.8% 494 98.8%
5 6 1.2% 500 100.0%
Totales 500 100%

Existen tablas de Distribucin de frecuencia con intervalos de clase de igual tamao para trabajar una gran
cantidad de datos.

Intervalo Marca de clase Frec.abs. Frec.acumulada Frec.relativa


[1, 5[ 11
[5, 9[ 35
[9, 13[ 2
[13, 17[ 15
[17, 21[ 6

Por lo que se refiere a las frecuencias acumuladas o acumulativas (es lo mismo), y usando como ejemplo las que
se recogen en la tabla, podemos observar que las frecuencias acumuladas del primer valor coinciden con las 210
y 42% ya comentadas para ese valor, lo que es lgico porque no hay ningn valor anterior con cuyas frecuencias
sumarlas; a partir del segundo rengln s tenemos acumulacin (388=210+178 y 77.6% = 42.0% + 35.6%),
para el tercer valor se suman tres sumandos y as sucesivamente. Ntese que las ltimas frecuencias acumuladas
tienen que coincidir con el nmero de datos vlidos total (en este ejemplo 500) y con el 100%, ya que se han
sumado todas las frecuencias absolutas y relativas, respectivamente.

En el caso de las variables continuas, el nmero de valores distintos que puede tomar la variable es
infinito, tericamente, y en la prctica puede ser bastante grande: pinsese que si medimos, por ejemplo, la
estatura en centmetros de una muestra de personas adultas podemos tener fcilmente sesenta o setenta valores
distintos. Esto provoca que a menudo las tablas tuvieran que ser muy extensas, con muchsimos renglones, lo
que las hara intiles por incomprensibles. Para evitarlo, se hacen agrupaciones de varios valores ( por ejemplo,
las estaturas 160, 161, 162, 163 y 164 se pueden agrupar en el intervalo 160-164); de esta forma, se pueden
encontrar tablas construdas agrupando los valores en intervalos cuando hay muchos valores entre el mnimo y
el mximo; el concepto importante es entonces el de marca de clase o valor medio del intervalo, que es, por
ejemplo, 162 en el caso citado del intervalo 160-164. Adems, es muy conveniente que los intervalos tengan
todos la misma longitud.
En las tablas as, con clases, las frecuencias se dan para cada intervalo, pero no para cada valor de la variable;
podemos saber, por ejemplo, que en una muestra hay 32 personas que miden entre 160 y 164 cm., pero no
cuntas de ellas miden en particular 163 cm.; hay, por tanto, una prdida de informacin con respecto a lo que
sera una tabla detallada. Por esta razn, y gracias a los avances de la Informtica que permiten almacenar
muchos valores y trabajar con ellos rpidamente, las tablas con intervalos ya no se usan, como hasta hace pocos
aos, para realizar clculos sobre la variable, sino que su utilidad queda reducida a la mejor comprensin de las
tablas y a la elaboracin de grficos. Todo ello significa que las ganancias en comprensin al hacer intervalos se
corresponden necesariamente con prdidas de informacin (se pierde el detalle) y por ello para los cmputos
numricos se usan los datos originales de uno en uno, mientras que para tablas y grficas es frecuente usar
intervalos.

4. GRAFICAS ESTADISTICAS

Las distribuciones de frecuencias se presentan en tablas como las anteriores, o bien en grficas. La
representacin grfica se utiliza para facilitar al lector la comprensin de los resultados, pero no aade ninguna
informacin sobre la que contendra una tabla de frecuencias; el objetivo de las grficas es que la informacin
impacte directamente al lector y que se exprese el perfil de la distribucin, pero no debe olvidarse el rigor
en aras de la esttica: las grficas deben reflejar fielmente lo que tratan de representar, fundamentalmente las
frecuencias de cada modalidad o valor. Por ello la regla fundamental para la construccin de una grfica es que:

Las reas (o longitudes) han de ser proporcionales a las frecuencias, condicin inexcusable para que una
grfica sea correcta.

Adems, con carcter general puede recomendarse que el pie de la grfica explique convenientemente de qu se
trata, que no se intente representar demasiada informacin en una sola grfica, que los detalles sean lo
suficientemente visibles, etc.

Existen diversos tipos de grficas, cada uno de ellos adecuado a un cierto tipo de variables, por lo que podemos
clasificar las grficas atendiendo a estos tipos.

As, para caracteres o variables CUALITATIVAS se pueden mencionar:

El diagrama de barras o rectngulos, consistente en asociar a cada modalidad de la variable un rectngulo


cuya superficie refleje su frecuencia: las modalidades se suelen situar en horizontal y la escala de
frecuencias absolutas o relativas en vertical. Si las bases de los rectngulos se dibujan todas iguales, par
cumplir la regla fundamental antes citada basta tomar como alturas de los rectngulos directamente las
frecuencias, sin mayor complicacin (el rectngulo de una modalidad con frecuencia 7 tendr altura 7 y
as con todas). Los rectngulos suelen representarse separados en este tipo de grficas, que tambin
pueden aparecer con las barras horizontales y las modalidades situadas verticalmente.

El diagrama de sectores, que refleja como sectores de un crculo las frecuencias de cada modalidad. Como
el radio es constante en un crculo, para cumplir la regla fundamental de proporcionalidad basta hacer al
ngulo de cada sector proporcional a la frecuencia, lo que se consigue multiplicando los 360 del crculo
por la frecuencia relativa de cada modalidad. Este tipo de grficas es muy til para comparar los
resultados de una variable cualitativa en dos o ms muestras.

Hay otras grficas menos frecuentes pero igualmente vlidas para variables cualitativas; cabe citar los
pictogramas, en los que se representa una misma figura para cada modalidad pero con tamao proporcional
a las frecuencias (pictograma por extensin) o una misma figura repetida tantas veces como sea necesario
para reflejar la frecuencia de cada modalidad (pictograma por repeticin), los cartogramas, en los que se
representa cada modalidad sobre puntos o regiones de un mapa, o los diagramas de superficie, en los que
se divide una figura geomtrica, generalmente un rectngulo, en trozos proporcionales a las frecuencias.

Por su parte, para variables CUANTITATIVAS los tipos de grficas ms importantes son los siguientes:

Para variables discretas, el diagrama de segmentos. Las variables discretas toman valores aislados, como
puntos sueltos, en la recta de los nmeros; sta suele representarse horizontalmente con los valores
negativos a la izquierda del cero y los positivos a la derecha; por esos puntos sueltos, la grfica adecuada
para las variables discretas es el diagrama de segmentos, en el que sobre cada valor de la variable se
coloca verticalmente un segmento que tiene una longitud proporcional a su frecuencia; as se consigue
que la abscisa (horizontal) refleje los valores y que la ordenada (vertical) exprese las frecuencias de la
variable. Es lo mismo usar para ello frecuencias absolutas o relativas, ya que las dos clases de
frecuencias son a su vez proporcionales por la propia definicin de frecuencia relativa; por ello podemos
hacer el diagrama con frecuencias absolutas o relativas, a voluntad. Junto con el diagrama de segmentos,
puede dibujarse una lnea quebrada que una los extremos superiores de los segmentos, que se llama
polgono de frecuencias; a veces este polgono (que matemticamente no es tal, sino una poligonal)
se representa slo, como si se hubieran borrado los segmentos verticales. El polgono de frecuencias
tambin puede usarse junto con:
El histograma o histograma de rectngulos, que es la grfica adecuada para representar variables
cuantitativas continuas. Estas variables cubren tericamente con sus valores a la recta de los nmeros
reales, o al menos de un cierto intervalo, de manera que infinitamente junto a un valor se encontrara
otro y no se producen saltos entre ellos. En la prctica, esto se traduce en que casi siempre se maneja
un gran nmero de valores distintos y ello hace poco adecuado para estas variables un diagrama de
segmentos; por ello, y para respetar la continuidad de la variable, lo que se hace es agrupar los valores
en intervalos y grficamente se representan rectngulos yuxtapuestos cuyas bases descansan sobre la
horizontal y cuyas alturas son tales que el rea de cada rectngulo sea proporcional a la frecuencia de
cada intervalo. A veces estos histogramas son llamados errneamente diagramas de barras.
5. ESTADGRAFOS DE UNA DISTRIBUCION

Se trata de resumir ms la informacin de una tabla o de una grfica, y de encontrar algunos valores lo
ms simples posible que nos permitan dar informacin sobre la muestra o comparar dos muestras entre s. Para
hacer ese resumen o informacin de los datos hay tres enfoques fundamentales:

En primer lugar, dar un valor lo ms representativo posible de todos los valores de la muestra, que no sea, por
tanto, ni de los ms bajos ni de los ms altos. As se crean las medidas estadgrafos de centralizacin,
tendencia central o posicin central.

En segundo lugar, y como complemento a lo anterior, dar una valoracin de hasta qu punto los datos se
parecen entre s o bien estn muy diferenciados (dispersos); adems, cuanto ms se parezcan entre s los
valores que nos salen, ms se parecern al representante o parmetro de centralizacin que elijamos, y mejor
sera ste. Por todo esto conviene medir las diferencias internas de los datos mediante las medidas
estadgrafos de dispersin.

Finalmente, en tercer lugar, se puede tambin tratar de medir qu valor supera a una cierta porcin o proporcin
de valores, o lo que es lo mismo, tratar de informar sobre la distribucin de la variable diciendo a cuntos de
sus valores supera uno dado. Para ello se usan los cuantiles como medidas estadgrafos de posicin.

Definiremos a continuacin los ms importantes entre todos los estadgrafos de estos tres tipos y para ilustrar su
clculo usaremos el ejemplo siguiente, donde los datos son el nmero de hermanos (excluido l mismo) de una
muestra de 13 nios; presentamos los datos ordenados de menor a mayor para mejor comprensin, pero en
principio los datos nos vendran en cualquier orden. Supongamos que son los siguientes:

0 0 0 0 1 1 1 2 2 3 4 5 7

Vamos a definir ahora las medidas ms importantes:

Primer grupo: ESTADGRAFOS DE CENTRALIZACION.

Entre los estadgrafos de centralizacin, tambin llamados de tendencia central o de posicin central, tres
son las definiciones destacables:

La MODA: es el valor de la variable que tiene mayor frecuencia en la muestra, es decir, el que se repite ms
(moda se asocia con lo ms frecuente). En nuestro ejemplo es el valor 0, que tiene una frecuencia absoluta de
cuatro, que es la ms grande. La moda puede definirse para cualquier tipo de variables. Tambin se puede hablar
de moda local o secundaria, que sera cualquier valor ms frecuente que sus adyacentes, es decir, con ms
frecuencia que la que tengan el anterior y el posterior, lo que requiere al menos orden en los datos; no hay
ninguna moda secundaria en nuestro ejemplo.

La MEDIANA: es el valor que est en el centro de la distribucin, es decir, el valor que supera a la mitad de los
de la muestra y se ve superado por la otra mitad (salvo empates en ambos casos); se calcula buscando el valor
de la muestra que ocupa el lugar (n+1)/2, con los datos ordenados. En nuestro ejemplo es el valor 1, que
corresponde al sptimo lugar (que deja seis por debajo y seis por encima). La mediana no puede definirse para
variables cualitativas puras, sino slo para ordinales y cuantitativas, ya que necesita un orden en los datos.

La MEDIA MEDIA ARITMETICA: es el centro de gravedad de la distribucin, o fiel de la balanza entre


todos los datos. Se calcula sumando los datos y dividiendo entre el tamao de la muestra, esto es, entre el
nmero de datos. En nuestro ejemplo, la suma de los datos es 26 y el nmero de ellos 13, de forma que la media
vale 26/13 = 2.00 ; por su propia naturaleza, la media slo es definible para variables cuantitativas, ya que si no
hay nmeros no se puede sumar. Es la ms importante de las medidas de centralizacin y en general de todos
los parmetros estadsticos y al ser centro de gravedad tiene la propiedad de que si hallamos las diferencias de
cada dato con ella (llamadas desviaciones), la suma de estas diferencias o desviaciones es SIEMPRE CERO
para cualquier distribucin de cualquier variable, lo que resulta clave para la definicin de las medidas de
dispersin. En nuestro ejemplo, con media de 2, las desviaciones (que se obtienen restando cada dato menos la
media) son:
-2 -2 -2 -2 -1 -1 -1 0 0 +1 +2 +3 +5

que como puede calcularse suman cero (las negativas, que proceden de datos inferiores a la media, suman 11,
y las positivas, que proceden de datos superiores a la media, suman +11, de modo que todas suman 0).
Existen otras medidas de centralizacin de uso menos frecuente, como la media ponderada (que es una media
aritmtica con distintos pesos de importancia para los distintos datos), la media geomtrica (raz ensima del
producto de los datos) o la media armnica (la inversa de la media aritmtica de los inversos de los datos).

Segundo grupo: ESTADGRAFOS DE DISPERSION.

Por su parte, las medidas de dispersin se basan en la idea de medir las diferencias entre unos datos y otros
midiendo las diferencias de cada dato con la media, esto es, usando las desviaciones; sin embargo, como stas
siempre suman cero, es preciso considerar su valor absoluto o su cuadrado para que ello no ocurra (seran ya
todas positivas). Las ms importantes medidas de dispersin son las siguientes:

La DESVIACION ABSOLUTA MEDIA: es la media aritmtica de los valores absolutos de las desviaciones,
por lo que se calcula tomando como positivas todas las desviaciones, sumndolas y dividiendo entre n; en
nuestro ejemplo la suma de los valores absolutos (no confundir con frecuencias absolutas, que no tiene nada que
ver) sale 22 y por tanto la desviacin absoluta media vale 22/13 = 1.69 ; el tener que usar valores absolutos
complica los desarrollos matemticos con este parmetro y por eso se usa poco, pese a su valor intuitivo. Es
mucho ms importante:

La VARIANZA: es la media aritmtica de los cuadrados de las desviaciones, por lo que se calcula elevando al
cuadrado cada desviacin, sumando esos cuadrados y dividiendo entre n; en nuestro ejemplo resulta 58 la suma
de cuadrados de las desviaciones, con lo que la varianza es 58/13 = 4.46 ; el cuadrado es matemticamente
mucho ms manejable que el valor absoluto, lo que hace de la varianza la reina de los parmetros de dispersin
desde un punto de vista terico. Sin embargo, el hecho de que carezca de interpretacin intuitiva y que sus
unidades sean cuadradas (hermanos cuadrados?) hace que es la prctica se use mucho ms su raz cuadrada, la
DESVIACION STANDARD o DESVIACION TIPICA, con mucho la ms usada de las medidas de
dispersin, y que en nuestro ejemplo valdra 2.11, con lo que el informe ms habitual para nuestros datos dara
una media de 2.00 y la desviacin tpica de 2.11 como parmetros ms informativos. Por motivos difciles de
explicar aqu, relacionados con cuestiones de inferencia estadstica, es ms recomendable usar el denominador
n-1 en lugar del n al calcular la varianza y la desviacin tpica de una muestra, quedndose el n para el caso en
que se conoce toda la poblacin; en nuestro ejemplo, pues, sera mejor calcular como varianza 58/12 = 4.83 y
como desviacin standard su raz cuadrada 2.20 (estos ltimos seran la varianza muestral o quasivarianza y la
desviacin tpica muestral y seran los utilizados en la prctica, aunque la definicin terica sea con
denominador n por ser la varianza una "media"). A efectos comparativos entre distintas muestras e incluso entre
distintas variables, se define:

El COEFICIENTE DE VARIACION, que es el cociente, a menudo expresado en tanto por ciento, entre la
desviacin tpica y la media de una distribucin. Es una especie de desviacin tpica relativa, y en nuestro
ejemplo valdra 2.2011/2.00 = 1.100055 bien 11005.05% (ntese que no es un verdadero porcentaje, porque
puede valer ms del 100%); este resultado indicara mucha dispersin en los datos del ejemplo en relacin con
la media.

Adems de las citadas, la ms simple de las medidas de dispersin es el RANGO, RECORRIDO


AMPLITUD, que es la diferencia entre el valor mximo y el mnimo de la muestra, y que indica qu extensin
de la recta de los nmeros ocupan los datos de nuestra muestra.

Tercer grupo: CUARTILES O PARAMETROS DE POSICION

Los cuartiles completan el cuadro de los parmetros de una distribucin. En cierto modo pueden ser
considerados como medidas de centralizacin (de hecho la mediana es uno de ellos) y tambin como medidas
de dispersin (algunas pueden construirse a partir de ellos) pero en realidad son medidas de posicin. Se define
el cuartil p como aquel valor de la variable (que puede estar o no en la muestra) que supera al p% de los datos
de la muestra; resultan tiles slo cuando la muestra es numerosa y permiten saber en que posicin se
encuentra un valor dado con respecto al conjunto de una muestra o poblacin. Se definen entre los ms
importantes:

Los CUARTILES, que definen las cuartas partes de la muestra mediante tres cortes: el primer cuartil deja
por debajo al 25% de la distribucin, el segundo coincide con la mediana y el tercero deja por debajo al 75% de
la distribucin. No tienen mucho sentido en muestras pequeas, pero en nuestro ejemplo valdran
respectivamente 0, 1 y 3.5 (que estn situados en las posiciones tercera y media, sptima y dcima y media
de los datos ordenados).
Los DECILES, que dan nueve cortes para definir de diez en diez por ciento los valores de la distribucin; as,
el primer decil deja por debajo una dcima parte de la distribucin, el segundo dos dcimas partes, etc., hasta
nueve deciles.

Los PERCENTILES, que son como los deciles pero de uno en uno por ciento, y por tanto son noventa y
nueve; por ejemplo, el percentil 37 deja por debajo al 37% de la distribucin, y est claro que no tienen sentido
en muestras tan pequeas como la de nuestro ejemplo, ya que trece elementos no se pueden partir en cien
partes.

Todos los cuartiles son definibles sobre variables cuantitativas o sobre cualitativas ordinales, porque
requieren siempre que los datos estn ordenados.

Los cuartiles ms prximos al percentil 50, como la propia mediana o los cercanos a ella, pueden
considerarse como parmetros de centralizacin y sin embargo los ms lejanos al centro ayudan a medir la
dispersin; por ejemplo, si restamos el tercer cuartil menos el primero obtenemos el RANGO
INTERCUARTLICO, que es una medida de dispersin. Con el rango intercuartlico estamos midiendo la
extensin que nos cubre la mitad central de nuestros datos; recurdese que el RANGO era la extensin cubierta
por toda la muestra ordenada (se define como mximo menos mnimo), mientras que el RANGO
INTERCUARTILICO es la extensin cubierta por la mitad central de los datos ordenados, excluyendo la cuarta
parte inicial (los que son inferiores al primer cuartil) y la cuarta parte final (los que son superiores al tercer
cuartil).

You might also like