You are on page 1of 29

UNIDAD 2

VARIABLES
Definición
Se podría conceptuar como algo susceptible de ser
medido o contado. Tiene cada una su correspondiente unidad de
información, que es aquella por la cual se identifica y la representa. Ej: para la
población de un país su unidad será: persona; de las longitudes será alguna
perteneciente al sistema métrico; de igual manera con pesos; volúmenes,
capacidad, superficie, etc.; otras concentran muchas variables: razas de
ganado (Holando Argentino, Shorton, Hereford, etc) serán cabezas de ganado;
etc.; cosechas (Trigo, maíz, cebada, etc.) serán las bolsas, o quintales o
hectáreas, etc. Los datos son las cantidades, las observaciones se hacen
respecto de cada unidad.

Clasificación:

Continua: mediciones

Cuantitativa

Discreta: conteos
Variable

Dicotómica: dos variables


ej: sexo

Cualitativa
(atributos)
Policotómica: mas de dos
variables ej: estado civil, razas
de ganado

Cuantitativa: se reconocen dos clases según el conjunto de números a los


cuales pertenezcan:
Cuantitativa Continua: pertenecen al campo de los números reales, entre uno
y otro existe infinitos números. Sus operaciones se encuentran dentro de la
integración. Son áreas.

Cuantitativa Discreta: Toman cifras numéricas enteras positivas y/o negativas


incluido el cero. Es decir, pasa de un número a otro sin existir otros
intermedios. Son conteos. Se utilizan sumatorias

Cualitativa: surgen del conteo en base al agrupamiento de los atributos o


categorías de ellos.

Dicotómica: toman dos modalidades. Ej: sexo: femenino – masculino.

Policotómica: toman mas de dos modalidades. Ej: estado civil: soltero –


casado –divorciado – viudo – unión consensual. Color de ojos: marrones –
verdes – azules – etc.

MEDIDAS CENTRALES O DE CENTRALIZACIÓN O DE


TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIÓN
Las podemos esquematizar con el siguiente cuadro

Media X

Medidas centrales Mediana X

Modo o Moda X

Rango R

Medidas de dispersión Desvío estándar S = DS

Varianza V² = S² = Var.

Antes de ingresar a ellas deberemos recordar:

Subíndices: dada una serie de números, el subíndice determinará la posición


del número. Se encuentran ubicados en la parte inferior derecha.

Ej: sea la serie 2 7 4 3 5

Se puede escribir X1 X2 X3 X4 X5
Sumatoria: si deseamos representar la suma de esta serie utilizamos de
símbolo de sumatoria

Por lo tanto X1 + X2 + X3 + X4 + X5

Se representará como Xi

Y se leerá como la sumatoria de todos los X variando i desde uno hasta 5 (en
este caso).

En forma general se escribe como Σ xi

Y se lee: sumatoria de todos los Xi , variando i desde 1 hasta n

Donde Xi : datos y N: la cantidad de datos

Series Simples
Se considerarán para el caso que nos ocupa, series finitas.
(están acotadas). Es decir, que tienen una cantidad de números limitada
(pocos) y que sea posible realizar operaciones no engorrosas utilizando
calculadoras.
Están dadas entonces, por una cantidad finita de datos
estén estos ordenados o no.

MEDIDA DE TENDENCIA CENTRAL O DE CENTRALIZACIÓN

Siempre se debe acompañar la medida de tendencia central utilizada con una


medida de dispersión. Una medida central no explica por sí misma mas que un
punto central (masa). Acompañada de una medida de dispersión explica
además, cuanto se apartan los datos del centro. Si se concentran cerca o lejos
de él.

Media Aritmética
es un simple promedio

Σ xi

N
Está dada por la expresión
Sea la serie simple: 2 3 2 1 7

Aplicando la fórmula precedente, la media aritmética será

2+3+2+1+7 15
X = =3
5 5

Propiedades de la media. Dos de las más importantes son:

a) la sumatoria de los desvíos con respecto a la media aritmética


da cero.

b) la sumatoria de los desvíos cuadráticos con respecto a la


media aritmética es un mínimo.

Simetría, Asimetría y Formas posibles

Positiva Negativa
Simétrica Asimétrica
(Normal o de Gauss)

J forme anti J forme en U


Mediana

Es el parámetro central de posición que divide a la serie en dos partes


exactamente iguales. Se la puede definir como la medida del valor central o la
semisuma de los dos valores centrales de la serie.

Los pasos a seguir son los siguientes y en este orden:

a) Ordenar la serie del valor menor al mayor o la inversa. Es imprescindible


realizarlo.

b)– Posición de la mediana – Dicha posición se obtiene por:

N+1
2

Es la ubicación en la serie ordenada. El puesto. En este momento no se


determina el valor, solo el lugar que ocupa en la serie.

Ir a la serie ordenada y visualizar el puesto

Si es una cantidad de números impar, el valor estará exactamente en el centro.


Habrá igual cantidad de números a la izquierda que a la derecha.
Si la cantidad de números es par, el valor de la mediana será la semisuma de
los dos valores centrales

c) obtener el valor de la mediana.

Ej:
Retomemos a modo de ejemplo la serie dada anteriormente para la media

2 3 2 1 7

orden 1 2 2 3 7

posición N+1 = 5+1 = 6/2 = 3


2 2

la posición corresponde (la serie es impar), al tercer valor.

1 2 2 3 7

por lo tanto la mediana será: X=2


Propiedades

a) el valor de la mediana no se ve afectada por la


existencia de algunos valores o muy pequeños o muy
altos(aberrantes o espurios). No es el caso de la
media aritmética que sí es sensible a la existencia de
ellos y modifican su valor, perturbando su posición
central. Es decir, la media se ve afectada y la
mediana no.
b) Por lo tanto, en algunos casos se procederá a elegir
la mediana como medida de tendencia central con la
desventaja de que tendremos que previamente
ordenar los datos.
c) O si elegimos la media, deberemos excluirlos de su
cálculo, con la observación al pie de que datos fueron
incluidos.

Ej: si a la serie anterior le agregaremos un número muy alto = 170

La serie quedaría 1 2 2 3 7 170

Para la mediana:
La posición será 3,5. Como es una serie par, el valor se obtendrá por la
semisuma de los dos valores centrales que en este caso son los
correspondientes al tercer y cuarto puesto dentro de la serie ordenada.
El valor de la mediana será por lo tanto X = 2.5

Para la media:
Como se explicó anteriormente será el cociente de la sumatoria de los valores
componentes de la serie con la cantidad de datos que la componen.

185/6 = 30.83 X = 30.83

que como se puede apreciar no representa genuinamente a la serie.

Conclusión: el mejor parámetro de tendencia central en este caso es la


mediana, como se ve el nº 170 no la afecta.

Modo o Moda
En las series simples es por visualización. Es el número o números que se
repite la mayor cantidad de veces.

Sea la serie presentada anteriormente:


1 2 2 3 7

el modo será X=2

Recapitulando hasta el momento sobre la serie dada hemos obtenido los tres
parámetros centrales:

X = 3

X = 2

X = 2

Como se puede observar, no obstante ser una pequeña serie, la mediana y el


modo coinciden, no es el caso de la media en la cual se aprecia
un corrimiento hacia un mayor valor.

Podemos encontrar varias clases de modo según sea la cantidad de


repeticiones:

Unimodal: un solo modo

Bimodal: dos modos

Multimodal: mas de dos modos

Curtosis: es el grado de achatamiento o apuntalamiento


de la curva que representa la serie.

Platocúrtica Mesocúrtica Leptocúrtica

(Gauss)
MEDIDAS DE DISPERSIÓN

El concepto sería: cuanto se apartan los datos del parámetro de tendencia


central elegido. Por ello, toda medida central debe ir acompañada de una
medida de dispersión. Este hecho explica con mayor completitud las
magnitudes observadas con respecto a la/s variable/s en estudio.
En series simples ya se han mencionado algunos conceptos introductorios se
trata de:

Rango
O recorrido; en una serie tanto simple como en los datos agrupados está dado
por la diferencia existente entre el mayor valor y el menor.
Es una medida grosera de dispersión y habitualmente no se lo utiliza. No es
demasiado explicativo.

Sea la serie simple: 1 2 2 3 7

Será 7–1 =6

Varianza

Se obtiene realizando el cociente de la sumatoria de los desvíos cuadráticos de


cada uno de los valores con respecto a la media y la cantidad de valores que
poseemos.

Sea la serie simple anterior

1 2 2 3 7

y la media correspondiente a esta serie X = 3

entonces:
(1-3)² + (2-3)² + (2-3)² + (3-3)² + (7-3)²

4 + 1 + 1 + 16 22
5 5

Varianza = S² = Var
V² = 4.4
Desvío Estándar:

Es la raíz cuadrada de la varianza

Si nuestra varianza es 4.4 el desvío será:

4.4 = 2.098

ajustado a un decimal S = 2.1

X S = 68.27%
X 2 S = 95.45%
X 3 S = 99.73%
-3 -2 -1 0 1 2 3

Siendo la raíz cuadrada de la varianza , en el ejemplo = 2.1, en mas menos un


desvío se encontrará el 68.27% de los datos. Cuanto mayor sea la magnitud
del desvío mas dispersos se hallarán los datos con respecto a la media o
parámetro central que se haya elegido, en el razonamiento inverso se hallarán
mas concentrados alrededor de la media.

Siendo la X = 3 y S = 2.1 3 2.1 = (1.1 ; 5.1) con el 68.27% de igual


manera con respecto a dos y tres desvíos con sus correspondientes
porcentajes.
Datos Agrupados
Hasta el momento se han desarrollado y obtenido los
parámetros centrales y de dispersión en series simples. No es habitual que se
tengan tan pocos datos como los que antecedieron, por lo tanto entraremos en
la operatoria cuando, de manera mas real, poseemos mayor cantidad de datos.

Introducción: La operación mediante la cual se inicia el trabajo estadístico es


el relevamiento o captación de datos. Es el contacto con la realidad de lo que
queremos conocer que es susceptible de ser medido o contado.
Es la correlativa experimentación que proporciona el material necesario para
poder realizar posteriormente el análisis estadístico. Es importante efectuar el
relevamiento lo mas cuidadosamente posible, en ello reside el cimiento de todo
resultado exitoso. Cualquier error, imprecisión u omisión (los hay en todo
momento: en la confección del formulario, en la deficiente instrucción de los
encuestadores, en el conteo, en el agrupamiento, etc.) proveniente de la
captación y/o manejo de los datos influirá en los resultados finales.
Por todo ello es necesario que la población esté
inequívocamente definida en espacio y tiempo. Así surge la necesidad de fijar
con precisión el territorio y la fecha de realización del trabajo estadístico. Esta
última es particularmente importante en el caso de trabajo censal, de manera
que todos los datos sean referidos a esa fecha (el censo de población se
realiza en un día determinado en todo el territorio nacional) o en un período
(Censo Económico y Censo Agropecuario) de manera que todos sean referidos
a esos tiempos y territorio, ya que el carácter dinámico de muchos atributos
que los censos contienen hace necesaria esa referencia.

Organización de la masa de datos

Una vez obtenido los datos necesarios y realizadas las


observaciones de todas las unidades contenidos en ellas, estamos en
presencia de una gran masa de datos en bruto, los cuales rara vez son
significativos sin organización ni tabulación. Se comenzará presentando un
procedimiento sencillo para mejorar una información no organizada.
Tenemos una gran cantidad de datos desorganizados
deberemos conformarlos de manera tal que podamos obtener los resultados
visualizados para cumplir el objetivo.
Para lograr el orden conveniente los agrupamos en clases
con el intervalo adecuado, las cuales por convención no son menos de 5 ni
más de 20 (salvo mejor opción).
La manera de proceder, en general:

- orden.
- observar la magnitud de los valores. Es útil obtener en este momento el
rango o recorrido.
- Comenzar con un agrupamiento en clases tentativo. Para lo cual se habrá
determinado el intervalo de clase y sus límites. Uniforme para todas las
clases o no. El agrupamiento correcto será aquel que al trazar el
Histograma o Polígono de Frecuencias se concrete una forma campanular y
no posea clases vacías (cero).
- Se construye la distribución de frecuencias contando para cada clase la
cantidad de valores que en ella caen.

Supongamos por ejemplo que hemos contado los


aspirantes atendidos en una oficina de ingreso de personal, por un lapso de 20
días la cual cuenta con tres entrevistadores y cada uno de ellos 5 horas de
trabajo. Tendremos 20 datos, los cuales por supuesto no son una gran masa
de datos, pero en este caso servirá a modo de ejemplo para desarrollar
conceptos.

30 11 42 8 30 18 25 25
17 30 29 21 23 25 15 35
26 13 21 36

Estas observaciones no tienen significado a menos que se


organicen adecuadamente. La forma mas sencilla de organizar los datos en
bruto es formar un arreglo, es decir, colocar las observaciones en orden de su
magnitud, visualizando el número menor y mayor.

Probamos utilizando el rango: R = 42 - 8 = 34 nos puede dar indicativamente


la amplitud que deberíamos utilizar para obtener la cantidad de clases que no
sean menores a 5 o mayores de 20, (no es exacto, sino solamente
aproximado).

rango
Ancho o amplitud del intervalo =
Número de clases tentativas

Si tentativamente desease 5 clases reemplazo

Amplitud = 34/5 = 6.8 ~ 7 Con una amplitud 7 obtendría 5 clases

Amplitud = 34/7 = 4.571 ~ 5  análogamente con amplitud 5 obtendría 7


clases

Un orden, confeccionando en principio un arreglo ascendente tentativo, podría


ser el obtenido en primer lugar, es decir, 5 clases con amplitud de 7. Si a su
vez trato de centrar el menor valor en el medio de la primera clase:

5 a 11 12 a 18 19 a 25 26 a 32 33 a 39 40 a 46
8 18 25 30 36 42
11 17 25 30 35
15 25 30
13 21 29
23 26
21
Si invertimos esta tabla-arreglo y tomamos las columnas de
números, ya su forma se aproxima a una campana.
Se habrán determinado entonces:
Número de Clases: 6
Intervalo de Clase: 7, siendo todas ellas de igual tamaño.
No existe ninguna clase desierta.
Si aceptamos entonces, este agrupamiento, podemos construir la distribución
de frecuencias.

Distribución de Frecuencias
La mejor forma de analizar los “datos masivos” es agruparlos en clases.
Las clases son divisiones con amplitudes o intervalos establecidas en forma
conveniente.
En resumen: una distribución de frecuencias es una tabla de resumen en
la que los datos se agrupan en clases o categorías ordenadas en forma
numérica, establecidas de modo conveniente.
Cuando los datos se agrupan o condensan en tablas de distribución de
frecuencias, el proceso de análisis e interpretación de datos se vuelve mucho
mas manejable y significativo. En esa forma resumida, se logra una
aproximación muy fácil a las características de los datos salientes, lo cual
compensa el hecho de que, cuando los datos se agrupan de ese modo, la
información inicial perteneciente a observaciones individuales que estaba
previamente disponible, se pierde en el curso del proceso de agrupamiento o
condensación. Como consecuencia de este último concepto las variables
cuantitativas discretas y cualitativas reciben tratamiento de continuas.
Se perderá la identidad de los valores individuales, se los ha condensado
dentro de cada clase para ser representados por la marca de clase o punto
medio.
El punto medio o marca de clase es el valor representativo de los datos de esa
clase. Se determina su valor mediante y dentro de los límites de las clases por:

Ls - Li
+ Li
2

Se lo puede indicar con el símbolo X, o simplemente en adelante xi

Por lo tanto, la distribución de frecuencias es en realidad, una tabla resumen en


la cual se condensan o agrupan los datos originales para facilitar el análisis de
los datos.

La construcción será, retomando el ejemplo dado:


Frecuen
Clases
cias (fi )
5 – 11 2
12 – 18 4
19 – 25 6
26 – 32 5
33 - 39 2
40 – 46 1
N= 20

Donde:

N = cantidad de datos totales.


fi = cantidad de datos de cada clase

En la construcción de esta tabla se observó que:

1. Debimos seleccionar el número de clases apropiado.


2. Obtener un intervalo de clase o ancho o amplitud para cada clase.
3. Establecimos los límites de clase evitando superposiciones (es decir, que
un dato pueda ser contado en mas de una clase).

1.- Número de Clases: dependen en forma primordial del número de


observaciones, es decir, cuanto mayor es el número de datos tanto mayor
podría llegar a ser el número de clases (mas de 5 pero menos de 20 ó 25). Si
no hay suficientes clases habrá demasiada concentración de datos y si son
muchas existirían posiblemente clases vacías y/o datos desperdigados. En
ambos casos extremos se obtiene poca información.

2.- Intervalo o Amplitud o Tamaño de Clase: al desarrollar la tabla de


distribución de frecuencias, es deseable (pero no imprescindible) que todas las
clases tengan el mismo tamaño. Para determinar el ancho de las clases, el
recorrido o rango puede ser útil (el número mayor menos el menor),
dividiéndolo por el número de clases que proponemos.
A medida que consideramos un menor número de clases, el ancho del intervalo
se hace más grande y viceversa.

3.- Establecimiento de los límites de clase: es necesario establecerlos con


claridad, a fin de que las observaciones se puedan contar en el agrupamiento
correcto evitando superposiciones.
En una clase cualquiera se distinguen dos límites: el límite inferior y el
límite superior. Entre el límite inferior de una clase y el límite superior de la
clase que la antecede existen infinitos números.
Cuando contamos datos enteros este concepto no es significativo y el
único cuidado que se debe tener es que esos dos límites mencionados no
posean el mismo número.
Pero si nuestras magnitudes son mediciones, los datos provenientes de
ellas serán decimales (campo numérico real). En este caso el concepto de
infinitos números entre el límite inferior de la clase y el superior del que la
antecede es importante. Deberemos establecer por ajuste de decimales, o el
cual convenga, a cual pertenecerán los datos sin lugar a duras.

En el caso de la primer clase del ejemplo, el límite inferior de la primer


clase es 5 y el límite superior 11. El límite real inferior será 5,00 y el superior
11,99

Ajuste de datos: el número 46,8365

redondeo al centésimo será: 46,84


al décimo 46,8
al milésimo 46,836 ó 46,837 según se haya
instituido si el 5 aumenta 1 milésimo el número o lo deja como está.
Generalmente se opta por la primera.

Gráficos para presentación y análisis de distribuciones de


frecuencias

Histograma y Polígono de Frecuencias: Son los gráficos especiales y


específicos para representar las distribuciones de frecuencias. Representan
áreas o superficies, este significado es el que los diferencia de los gráficos
comunes y va íntimamente unido al concepto de representatividad que el
agrupamiento en clases realiza de los datos en conjunto.

Histograma
Es en su forma un gráfico de barras verticales, sin separación
entre ellas. Al trazarlas, la variable o fenómeno de interés se representa a lo
largo del eje horizontal (x) y en el vertical (y) la cantidad de observaciones.
Con este gráfico no se pueden comparar dos o más conjuntos de
datos agrupados, la superposición de las barras ocasionaría dificultades en la
interpretación.
La forma de este gráfico tratará de asemejarse a una campana
(con intensión de que se acerque a la forma de la curva normal o de Gauss.
Si los intervalos de clases son iguales la base tendrá para cada una de las
barras igual longitud sobre el eje horizontal y la altura será la frecuencia de la
clase.
Si los intervalos de clase no son iguales, la longitud de la base representada en
eje x, será proporcional al tamaño de ellas entre sí.
Ya se ha convenido que el conjunto de barras que componen el
histograma es una superficie. Dado que cada barra es un rectángulo, por lo
tanto su superficie será el resultado de:
Utilizando la distribución de frecuencias del ejemplo, su histograma será:
8-

fi
5-

1-

5 12 19 26 33 40 47
clases

Polígono de Frecuencias:
Al igual que en el histograma, al trazar el polígono el
fenómeno de interés se representa a lo largo del eje horizontal y las
frecuencias en el vertical. Se forma al hacer que la marca de clase o punto
medio de cada clase represente los datos de esa clase y luego se conectan
entre si de forma lineal.
Es lineal en su construcción pero es una superficie.
Se puede usar para comparar dos o tres distribuciones de frecuencias siempre
que la estructura de ellos sea semejante.
No se construye un polígono de frecuencias a partir y sobre el histograma de
una única distribución de frecuencias.

De igual forma que la anterior ejemplifica

8-

fi
5-

1-

5 12 19 26 33 40 47
clases
Medidas de Centralización para datos Agrupados
El agrupamiento de datos en distribuciones de frecuencias
conlleva la formulación de fórmulas adecuadas a él.

Σ fi xi
Media Aritmética X
N

Se leerá como: la sumatoria de las marcas de clase multiplicadas por la


frecuencia de cada clase y dividida por la cantidad de valores que poseemos.

Donde: Xi : marcas de clase


fi : frecuencias de clase
N : cantidad de datos

Se obtiene de la siguiente forma. Volviendo a nuestro ejemplo:

Clases fi Xi fi xi

5 – 11 2 8 16
12 – 18 4 15 60
19 – 25 6 22 132
26 – 32 5 29 145
33 – 39 2 36 72
40 - 46 1 43 43
20 468

X = 23.4
X = 468/20 = 23.4

Valor que no sorprende, si visualizamos la tabla de distribución este valor de


media se encuentra contenido en la tercer clase y es donde se encuentra la
mayor frecuencia.

Frecuencias acumuladas
Aquí debemos introducir otro concepto que es el de
las frecuencias acumuladas las cuales se pueden confeccionar con valores
absolutos y/o relativos.
Se obtienen sumando acumuladamente las frecuencias de cada fila más la
anterior.
Estos conceptos serán de utilidad para obtener el siguiente parámetro central

Mediana X N/2 - fax


Li + c
fx

Donde: Li = límite real inferior de la clase que contiene a la mediana


N = cantidad de datos
fax = frecuencia acumulada anterior de la clase que contiene a la
mediana.
fx = frecuencia de la clase a que contiene a la mediana
c = intervalo de clase que contiene a la mediana

Siendo nuestra distribución de frecuencias ejemplo con sus frecuencias


acumuladas,

Clases f fa

5 – 11 2 2

12 – 18 4 6

19 – 25 6 12

26 – 32 5 17

33 – 39 2 19

40 – 46 1 20

20

Se siguen los siguientes pasos:

1. Se obtiene la posición para determinar que clase la contiene, por N + 1


2
21/2 = 10.5 ubicación de la mediana
2. Se ubica que clase contiene en mayor o igual esa cantidad entrando a la
tabla por la columna de las frecuencias acumuladas (flecha).
Será la tercera clase (19 - 25) con fa. = 12 (ya que la anterior solo contiene
6 datos acumulados en sus frecuencias).

3. La (fax ) es la referencia a la fa. anterior a la clase de la mediana, es = 6.


4. Observo el intervalo de clase que contiene la mediana. = 7. ( Ls – Li + 1)
5. El límite real inferior de la clase de la mediana = 19.
6. (fx) es la frecuencia de la clase donde se ubica la mediana.

Reemplazo en la fórmula:

20/2 - 6
X = 19 + 7 X = 23,67
6

Método gráfico para obtener la mediana, es solamente indicativo, no es


exacto, pero en algún momento nos puede resultar de utilidad.
Sobre el eje cartesiano se representa una de las frecuencias acumuladas
porcentuales de ¨menos que:¨ o ¨mas que:¨ . Se traza una paralela al eje x
hasta cortar la curva y luego una perpendicular desde ese punto de
intersección hasta el eje x donde se representan las clases, de la siguiente
manera:

Clases fi fa fa
“menos “mas
que” que”
5 – 11 2 2 20
12 – 18 4 6 18
19 – 25 6 12 14
26 – 32 5 17 8
33 – 39 2 18 3
40 – 46 1 20 1
20
20 -

fa

10 -

5 12 19 26 33 40 47
clases

Modo X = Δ1
Li + c
Δ1 + Δ2

Donde: Li = Limite inferior real de la clase con mayor cantidad de frecuencias

Δ1 = Diferencia absoluta entre la frecuencia de la clase modal y la anterior.


Δ2 = Diferencia absoluta entre la frecuencia de la clase modal y la siguiente.
c = amplitud de la clase modal (la clase que tiene la mayor cantidad de frecuencias)

siguiendo los siguientes pasos:

1. Visualizo la clase con mayor cantidad de frecuencias (clase modal), en este


caso la 19 – 25, y determino su límite real inferior = 19
2. Realizo las diferencias existentes entre la frecuencia de la clase modal y las
frecuencias anterior a ella y siguiente.
3. Reemplazando en la fórmula dada y utilizando el mismo ejemplo:

Clases fi

5 – 11 2
12 – 18 4
19 – 25 6
26 – 32 5
33 – 39 2
40 - 46 1
20
2
X = 19 + 7 X = 23,67
2 + 1

Una forma gráfica de obtenerlo es utilizando el histograma con las barras de


mayor frecuencia, anterior y posterior.

6 - M Q
Δ1 Δ2
N
R
fi 4 -

2 -

12 19 26 33
clases

- Trazo una recta de R a Q y otra de M a N cruzándose en P.


- Por ese cruce comienzo a trazar una perpendicular al eje x.

A partir de este razonamiento y por triángulos semejantes, parte el desarrollo


para obtener la fórmula utilizada.

Resumen Medidas Centrales

X = 23.4

X = 23.7

X = 23.7

Como era previsible ya sea por la conformación de la tabla de frecuencias, por


la forma tanto del histograma como del polígono de frecuencias y por la
obtención gráfica de mediana y modo; numéricamente se ha corroborado que
se trata de una población de conformación casi simétrica. Los parámetros
centrales se ubicarán: la mediana y el modo en la cúspide y la media casi
imperceptiblemente corrida.
Relación útil:

Cuando no poseemos los tres parámetros centrales (no es menester tenerlos,


solamente poseemos dos y la distribución es simétrica o levemente asimétrica.
Una relación de utilidad para obtener el tercero faltante será:

X - X = 3(X - X)

Medidas de Dispersión para datos Agrupados

Rango:
De igual forma que para las series simples es la diferencia entre el
mayor valor y el menor de los datos. En datos agrupados se ha visto que se
puede utilizar para la búsqueda de la cantidad de clases para confeccionar una
distribución de frecuencias considerando según tamaño del intervalo.

Rango = Mayor Valor - Menor Valor


de la serie

Varianza
Σ fi (xi - x)²
Var = S² = V²
N

Donde: fi = frecuencias
Xi = punto medio o marca de clase.
x = media aritmética de la distribución.
N = cantidad de datos o sumatoria de las frecuencias.

Recordemos que en nuestro ejemplo X = 23.4

Desarrollaremos la siguiente tabla de trabajo secuencial:


Clases fi xi xi - x (xi - x)² fi(xi - x)²

5 – 11 2 8 -15.4 237.16 474.32


12 – 18 4 15 -8.4 70.56 282.24
19 – 25 6 22 -1.4 1.96 11.76
26 – 32 5 29 5.6 131.36 156.8
33 – 39 2 36 12.6 158.76 317.52
40 - 46 1 43 19.6 384.16 384.16
20 1626.8

V² = 1626.8 /20 = 81.34

V² = 81.34

Otra forma de obtenerla es mediante la expresión

V² x² - (x)²

Se lee como la diferencia de la media de los cuadrados menos el cuadrado de


la media.

Clases fi xi (xi)² fi (xi)²

5 – 11 2 8 64 128
12 – 18 4 15 225 900
19 – 25 6 22 484 2904
26 – 32 5 29 841 4205
33 – 39 2 36 1296 2592
40 - 46 1 43 1849 1849
20 12578

Siendo la x = 23.4  (23.4)² = 547.56


V² = 81.34
V² = 12578/20 - 547.56 = 81.34

Igual valor al obtenido anteriormente.

Desvío Estándar:
Se obtiene como la raíz cuadrada de la varianza. O
aplicando la forma:

Σ fi (xi - x)²
N
La varianza del ejemplo tiene valor 81.34 por lo tanto su
desvío será igual

S = 9.02

Es decir nueve unidades y media de corrimiento con respecto al valor central


de la media.

Propiedades

a) Sea a un promedio distinto de la media aritmética, de todas las


desviaciones, la mínima es aquella para la que a = x, esta propiedad es
la que suministra una razón de peso para definir la desviación con la
fórmula que se ha presentado anteriormente.
b) Para las distribuciones normales resulta que:
i. 1.- el 68,27% de los casos están comprendidos entre x ± S
ii. 2.- el 95,45% “ “ entre x ± 2S
iii. 3.- el 99,73% “ “ entre x ± 3S
c) c) Suponiendo dos series de datos de N1 y N2 números (o dos
distribuciones de frecuencias con frecuencias totales N1 y N2 ) cuyas
variaciones vienen dadas por S1² y S2² , respectivamente, y que tienen
la misma media. Entonces, la varianza combinada para ambas series (o
ambas distribuciones de frecuencia) está dada por:

N1 S1² + N2 S2²
S² =
N1 + N2

Resumen Medidas Centrales y de Dispersión:

X = 23.4, X y X = 23.7 V² = 81.34 S = 9.02

Entonces a lo ya comentado podemos agregarle los desvíos con sus


correspondientes porcentajes, por lo tanto en nuestra distribución ejemplo.

X ± S = (23,4 + 9.02 ; 23,4 - 9.02) = (32.42 ; 23.4)

Da el intervalo donde se concentrará el 68.27% de los valores reales que será


el comprendido por todos aquellos entre 32.42 y 23.4
Otras Medidas de Tendencia Central

Cuartiles, Deciles y Percentiles

Si una serie de datos se colocan en orden de magnitud, el valor medio (media


aritmética) que divide al conjunto de datos en dos partes iguales es la mediana.

Por extensión se puede dividir el conjunto ordenado en cuatro partes iguales,


representados por Q1 , Q2 y Q3 se llaman primero, segundo y tercer cuartil. (el
segundo cuartil es la mediana).

Análogamente, si los valores ordenados se dividen en diez partes iguales se


llaman deciles y se representan por D1 , D2 , .............. , D9

Si los valores se dividen en cien partes iguales se llaman percentiles y se


presentan como P1 , P2 , .............. , P99

El quinto decil y el quincuagésimo percentil coinciden y se corresponden con la


mediana, junto con el segundo cuartil.

X = Q2 = D5 = P50
y

P25 y P75 se corresponden con el Q1 y Q3

Las fórmulas por las cuales se obtienen son similares a la de la mediana, ya


que su principio de orden es el mismo, solo se diferencia en el término N/2, si
lo cambiásemos a uno mas general como:

Cuartiles: qN/4 Deciles: dN/10 Percentiles: pN/100

Cuartiles Deciles
qN/4 - faq dN/10 - fad
Li + c Li + c
fq fd

Percentiles
pN/100 - fap
Li + c
fp
Otras Medidas de Dispersión

Rango Semiintercuartílico o Desviación cuartílica


De una serie de datos se define por

Q3 - Q1
Q desviación cuartílica o rango semiintercuartílico
2

Donde Q3 y Q1 son el tercer y primer cuartil de los datos.

El rango intercuartílico Q3 - Q1 se emplea a veces, pero el rango


semiintercuartílico es más utilizado como medida de dispersión.

Rango entre Percentiles 10-90


Viene definido por

Rango percentil 10-90 P90 - P10

Donde P10 y P90 son los percentiles décimo y nonagésimo.

También puede emplearse el rango semipercentil 10-90, aunque se empleo


no es corriente

P90 - P10

Coeficiente de Variación

Si la dispersión absoluta es S y x es la media, entonces la dispersión relativa


se conoce como coeficiente de variación o coeficiente de dispersión, dado por:

V S
x

y está generalmente expresado como porcentaje. El coeficiente de variación es


independiente de las unidades utilizadas. Por esta razón es útil para comparar
distribuciones donde las unidades pueden ser diferentes. Un inconveniente del
coeficiente de variación es que deja de ser útil cuando x está próxima a cero.
Variable normalizada, Referencias Tipificadas

X - X
z =
S

Mide la desviación de la media en unidades de desviación se llama variable


normalizada o tipificada y sus cantidades son adimensionales (es decir,
independientes de las unidades empleadas).
Si las desviaciones de la media vienen dadas en unidades de desviación, se
dice que están expresadas en unidades tipificadas o referencias tipificadas.
Son de gran valor en la comparación de distribuciones.

Sesgo y Curtosis

Sesgo

Es el grado de asimetría, o falta de simetría, de una distribución. Si la curva de


frecuencias (polígono de frecuencias suavizado) de una distribución tiene una
“cola” mas larga a la derecha del máximo central que a la izquierda, se dice de
la distribución que está sesgada a la derecha o que tiene sesgo positivo. Si es
al contrario, se dice que está sesgada a la izquierda o que tiene sesgo
negativo.
En distribuciones sesgadas, la media tiende a situarse con respecto al modo al
mismo lado que la cola mas larga. Así, una medida de la asimetría viene dada
por la diferencia (media – modo). Esta medida puede adimensionarse,
dividiéndola por una medida de dispersión, tal como el desvío:

media - modo X - X
Sesgo = =
desvío S

se puede evitar el empleo del modo utilizando:

3(media - mediana) 3(X - X)


Sesgo = =
Desvío S

También se pueden obtener a través de los cuartiles y de los percentiles, con


las siguientes fórmulas:

Q3 - 2Q2 + Q1
Coeficiente de sesgo cuartílico =
Q3 - Q1
P90 - 2P50 P10
Coeficiente de sesgo percentílico 10-90 =
P90 - P10

Curtosis o kurtosis

Es el grado de apuntalamiento de una distribución, normalmente se toma en


relación a la distribución normal. Una distribución que presenta un
apuntalamiento relativo alto se llama leptocúrtica, mientras que si es achatada,
se llama platocúrtica. La distribución normal no es ni lo uno ni lo otro, se llama
mesocúrtica.
Se emplean también para obtener esta medida los cuartiles y percentiles:

Q
coeficiente de curtosis percentílico k =
P90 - P10

donde Q es el rango semiintercuartílico Q = ½ (Q3 - Q1 ).

Para la distribución normal vale 0.263.


Demostración de la formula utilizada para el Modo

6 - M Q
Δ1 N Δ2

fi R
4 -

2 -

Li x Us
12 19 26 33
clases centrales

1. Tomemos las tres clases centrales las cuales poseen las mayores
frecuencias del histograma de nuestro ejemplo
2. Trazamos MN y RQ, se cortan en P.
3. La perpendicular al eje x determina la posición del x dentro del gráfico.
4. Se fijan el Li y Us como límites inferior y superior de la clase modal.
5. Δ1 y Δ2 son las diferencias con las clases anterior y posterior a la
modal.
6. Se han determinado dos triángulos semejantes MPR y QPN.
7. Trazo la altura:

EP PF EP = x - Li
MR QN PF = Us - x
Δ1 Δ2

8. x - Li Us - x
Δ1 Δ2

9. Δ2 (x - Li ) = Δ1 (Us - x) aplic. distributiva

10. Δ2 x - Δ2 Li = Δ1 Us - Δ1 x agrupando y pasando términos

11. Δ2 x + Δ1 x = Δ1 Us + Δ2 Li sacando factor común x


12. (Δ2 + Δ1 ) x = Δ1 Us + Δ2 Li despejando x

Δ1 Us + Δ2 Li
13. x =
(Δ2 + Δ1 )

14. como Us = Li + c y siendo c = amplitud de clase

entonces:

Δ1 (Li + c) + Δ2 Li
x =
(Δ2 + Δ1 )

Δ1 Li + Δ1 c + Δ2 Li
x = saco factor común
(Δ2 + Δ1 )

Li (Δ1 + Δ2 ) + Δ1 c
x =
Δ2 + Δ1

Li (Δ1 + Δ2 ) + Δ1 c
x = separo en dos términos
Δ2 + Δ1

Li (Δ1 + Δ2 ) Δ1 c
x = + simplifico y saco c afuera del segundo término
Δ2 + Δ1 Δ2 + Δ1

Δ1
x = Li + c
Δ2 + Δ1

Queda demostrada la fórmula utilizada a partir del histograma.

You might also like