Professional Documents
Culture Documents
VARIABLES
Definición
Se podría conceptuar como algo susceptible de ser
medido o contado. Tiene cada una su correspondiente unidad de
información, que es aquella por la cual se identifica y la representa. Ej: para la
población de un país su unidad será: persona; de las longitudes será alguna
perteneciente al sistema métrico; de igual manera con pesos; volúmenes,
capacidad, superficie, etc.; otras concentran muchas variables: razas de
ganado (Holando Argentino, Shorton, Hereford, etc) serán cabezas de ganado;
etc.; cosechas (Trigo, maíz, cebada, etc.) serán las bolsas, o quintales o
hectáreas, etc. Los datos son las cantidades, las observaciones se hacen
respecto de cada unidad.
Clasificación:
Continua: mediciones
Cuantitativa
Discreta: conteos
Variable
Cualitativa
(atributos)
Policotómica: mas de dos
variables ej: estado civil, razas
de ganado
Media X
Modo o Moda X
Rango R
Varianza V² = S² = Var.
Se puede escribir X1 X2 X3 X4 X5
Sumatoria: si deseamos representar la suma de esta serie utilizamos de
símbolo de sumatoria
Por lo tanto X1 + X2 + X3 + X4 + X5
Se representará como Xi
Y se leerá como la sumatoria de todos los X variando i desde uno hasta 5 (en
este caso).
Series Simples
Se considerarán para el caso que nos ocupa, series finitas.
(están acotadas). Es decir, que tienen una cantidad de números limitada
(pocos) y que sea posible realizar operaciones no engorrosas utilizando
calculadoras.
Están dadas entonces, por una cantidad finita de datos
estén estos ordenados o no.
Media Aritmética
es un simple promedio
Σ xi
N
Está dada por la expresión
Sea la serie simple: 2 3 2 1 7
2+3+2+1+7 15
X = =3
5 5
Positiva Negativa
Simétrica Asimétrica
(Normal o de Gauss)
N+1
2
Ej:
Retomemos a modo de ejemplo la serie dada anteriormente para la media
2 3 2 1 7
orden 1 2 2 3 7
1 2 2 3 7
Para la mediana:
La posición será 3,5. Como es una serie par, el valor se obtendrá por la
semisuma de los dos valores centrales que en este caso son los
correspondientes al tercer y cuarto puesto dentro de la serie ordenada.
El valor de la mediana será por lo tanto X = 2.5
Para la media:
Como se explicó anteriormente será el cociente de la sumatoria de los valores
componentes de la serie con la cantidad de datos que la componen.
Modo o Moda
En las series simples es por visualización. Es el número o números que se
repite la mayor cantidad de veces.
Recapitulando hasta el momento sobre la serie dada hemos obtenido los tres
parámetros centrales:
X = 3
X = 2
X = 2
(Gauss)
MEDIDAS DE DISPERSIÓN
Rango
O recorrido; en una serie tanto simple como en los datos agrupados está dado
por la diferencia existente entre el mayor valor y el menor.
Es una medida grosera de dispersión y habitualmente no se lo utiliza. No es
demasiado explicativo.
Será 7–1 =6
Varianza
1 2 2 3 7
entonces:
(1-3)² + (2-3)² + (2-3)² + (3-3)² + (7-3)²
4 + 1 + 1 + 16 22
5 5
Varianza = S² = Var
V² = 4.4
Desvío Estándar:
4.4 = 2.098
X S = 68.27%
X 2 S = 95.45%
X 3 S = 99.73%
-3 -2 -1 0 1 2 3
- orden.
- observar la magnitud de los valores. Es útil obtener en este momento el
rango o recorrido.
- Comenzar con un agrupamiento en clases tentativo. Para lo cual se habrá
determinado el intervalo de clase y sus límites. Uniforme para todas las
clases o no. El agrupamiento correcto será aquel que al trazar el
Histograma o Polígono de Frecuencias se concrete una forma campanular y
no posea clases vacías (cero).
- Se construye la distribución de frecuencias contando para cada clase la
cantidad de valores que en ella caen.
30 11 42 8 30 18 25 25
17 30 29 21 23 25 15 35
26 13 21 36
rango
Ancho o amplitud del intervalo =
Número de clases tentativas
5 a 11 12 a 18 19 a 25 26 a 32 33 a 39 40 a 46
8 18 25 30 36 42
11 17 25 30 35
15 25 30
13 21 29
23 26
21
Si invertimos esta tabla-arreglo y tomamos las columnas de
números, ya su forma se aproxima a una campana.
Se habrán determinado entonces:
Número de Clases: 6
Intervalo de Clase: 7, siendo todas ellas de igual tamaño.
No existe ninguna clase desierta.
Si aceptamos entonces, este agrupamiento, podemos construir la distribución
de frecuencias.
Distribución de Frecuencias
La mejor forma de analizar los “datos masivos” es agruparlos en clases.
Las clases son divisiones con amplitudes o intervalos establecidas en forma
conveniente.
En resumen: una distribución de frecuencias es una tabla de resumen en
la que los datos se agrupan en clases o categorías ordenadas en forma
numérica, establecidas de modo conveniente.
Cuando los datos se agrupan o condensan en tablas de distribución de
frecuencias, el proceso de análisis e interpretación de datos se vuelve mucho
mas manejable y significativo. En esa forma resumida, se logra una
aproximación muy fácil a las características de los datos salientes, lo cual
compensa el hecho de que, cuando los datos se agrupan de ese modo, la
información inicial perteneciente a observaciones individuales que estaba
previamente disponible, se pierde en el curso del proceso de agrupamiento o
condensación. Como consecuencia de este último concepto las variables
cuantitativas discretas y cualitativas reciben tratamiento de continuas.
Se perderá la identidad de los valores individuales, se los ha condensado
dentro de cada clase para ser representados por la marca de clase o punto
medio.
El punto medio o marca de clase es el valor representativo de los datos de esa
clase. Se determina su valor mediante y dentro de los límites de las clases por:
Ls - Li
+ Li
2
Donde:
Histograma
Es en su forma un gráfico de barras verticales, sin separación
entre ellas. Al trazarlas, la variable o fenómeno de interés se representa a lo
largo del eje horizontal (x) y en el vertical (y) la cantidad de observaciones.
Con este gráfico no se pueden comparar dos o más conjuntos de
datos agrupados, la superposición de las barras ocasionaría dificultades en la
interpretación.
La forma de este gráfico tratará de asemejarse a una campana
(con intensión de que se acerque a la forma de la curva normal o de Gauss.
Si los intervalos de clases son iguales la base tendrá para cada una de las
barras igual longitud sobre el eje horizontal y la altura será la frecuencia de la
clase.
Si los intervalos de clase no son iguales, la longitud de la base representada en
eje x, será proporcional al tamaño de ellas entre sí.
Ya se ha convenido que el conjunto de barras que componen el
histograma es una superficie. Dado que cada barra es un rectángulo, por lo
tanto su superficie será el resultado de:
Utilizando la distribución de frecuencias del ejemplo, su histograma será:
8-
fi
5-
1-
5 12 19 26 33 40 47
clases
Polígono de Frecuencias:
Al igual que en el histograma, al trazar el polígono el
fenómeno de interés se representa a lo largo del eje horizontal y las
frecuencias en el vertical. Se forma al hacer que la marca de clase o punto
medio de cada clase represente los datos de esa clase y luego se conectan
entre si de forma lineal.
Es lineal en su construcción pero es una superficie.
Se puede usar para comparar dos o tres distribuciones de frecuencias siempre
que la estructura de ellos sea semejante.
No se construye un polígono de frecuencias a partir y sobre el histograma de
una única distribución de frecuencias.
8-
fi
5-
1-
5 12 19 26 33 40 47
clases
Medidas de Centralización para datos Agrupados
El agrupamiento de datos en distribuciones de frecuencias
conlleva la formulación de fórmulas adecuadas a él.
Σ fi xi
Media Aritmética X
N
Clases fi Xi fi xi
5 – 11 2 8 16
12 – 18 4 15 60
19 – 25 6 22 132
26 – 32 5 29 145
33 – 39 2 36 72
40 - 46 1 43 43
20 468
X = 23.4
X = 468/20 = 23.4
Frecuencias acumuladas
Aquí debemos introducir otro concepto que es el de
las frecuencias acumuladas las cuales se pueden confeccionar con valores
absolutos y/o relativos.
Se obtienen sumando acumuladamente las frecuencias de cada fila más la
anterior.
Estos conceptos serán de utilidad para obtener el siguiente parámetro central
Clases f fa
5 – 11 2 2
12 – 18 4 6
19 – 25 6 12
26 – 32 5 17
33 – 39 2 19
40 – 46 1 20
20
Reemplazo en la fórmula:
20/2 - 6
X = 19 + 7 X = 23,67
6
Clases fi fa fa
“menos “mas
que” que”
5 – 11 2 2 20
12 – 18 4 6 18
19 – 25 6 12 14
26 – 32 5 17 8
33 – 39 2 18 3
40 – 46 1 20 1
20
20 -
fa
10 -
5 12 19 26 33 40 47
clases
Modo X = Δ1
Li + c
Δ1 + Δ2
Clases fi
5 – 11 2
12 – 18 4
19 – 25 6
26 – 32 5
33 – 39 2
40 - 46 1
20
2
X = 19 + 7 X = 23,67
2 + 1
6 - M Q
Δ1 Δ2
N
R
fi 4 -
2 -
12 19 26 33
clases
X = 23.4
X = 23.7
X = 23.7
X - X = 3(X - X)
Rango:
De igual forma que para las series simples es la diferencia entre el
mayor valor y el menor de los datos. En datos agrupados se ha visto que se
puede utilizar para la búsqueda de la cantidad de clases para confeccionar una
distribución de frecuencias considerando según tamaño del intervalo.
Varianza
Σ fi (xi - x)²
Var = S² = V²
N
Donde: fi = frecuencias
Xi = punto medio o marca de clase.
x = media aritmética de la distribución.
N = cantidad de datos o sumatoria de las frecuencias.
V² = 81.34
V² x² - (x)²
5 – 11 2 8 64 128
12 – 18 4 15 225 900
19 – 25 6 22 484 2904
26 – 32 5 29 841 4205
33 – 39 2 36 1296 2592
40 - 46 1 43 1849 1849
20 12578
Desvío Estándar:
Se obtiene como la raíz cuadrada de la varianza. O
aplicando la forma:
Σ fi (xi - x)²
N
La varianza del ejemplo tiene valor 81.34 por lo tanto su
desvío será igual
S = 9.02
Propiedades
N1 S1² + N2 S2²
S² =
N1 + N2
X = Q2 = D5 = P50
y
Cuartiles Deciles
qN/4 - faq dN/10 - fad
Li + c Li + c
fq fd
Percentiles
pN/100 - fap
Li + c
fp
Otras Medidas de Dispersión
Q3 - Q1
Q desviación cuartílica o rango semiintercuartílico
2
P90 - P10
Coeficiente de Variación
V S
x
X - X
z =
S
Sesgo y Curtosis
Sesgo
media - modo X - X
Sesgo = =
desvío S
Q3 - 2Q2 + Q1
Coeficiente de sesgo cuartílico =
Q3 - Q1
P90 - 2P50 P10
Coeficiente de sesgo percentílico 10-90 =
P90 - P10
Curtosis o kurtosis
Q
coeficiente de curtosis percentílico k =
P90 - P10
6 - M Q
Δ1 N Δ2
fi R
4 -
2 -
Li x Us
12 19 26 33
clases centrales
1. Tomemos las tres clases centrales las cuales poseen las mayores
frecuencias del histograma de nuestro ejemplo
2. Trazamos MN y RQ, se cortan en P.
3. La perpendicular al eje x determina la posición del x dentro del gráfico.
4. Se fijan el Li y Us como límites inferior y superior de la clase modal.
5. Δ1 y Δ2 son las diferencias con las clases anterior y posterior a la
modal.
6. Se han determinado dos triángulos semejantes MPR y QPN.
7. Trazo la altura:
EP PF EP = x - Li
MR QN PF = Us - x
Δ1 Δ2
8. x - Li Us - x
Δ1 Δ2
Δ1 Us + Δ2 Li
13. x =
(Δ2 + Δ1 )
entonces:
Δ1 (Li + c) + Δ2 Li
x =
(Δ2 + Δ1 )
Δ1 Li + Δ1 c + Δ2 Li
x = saco factor común
(Δ2 + Δ1 )
Li (Δ1 + Δ2 ) + Δ1 c
x =
Δ2 + Δ1
Li (Δ1 + Δ2 ) + Δ1 c
x = separo en dos términos
Δ2 + Δ1
Li (Δ1 + Δ2 ) Δ1 c
x = + simplifico y saco c afuera del segundo término
Δ2 + Δ1 Δ2 + Δ1
Δ1
x = Li + c
Δ2 + Δ1