Professional Documents
Culture Documents
PRACTICA 1
Conceptos previos. Manejo de Datos. Gráficas. Descripciones univariantes. Transformaciones.
CUESTIONARIO
Edad (en años) ____
Peso (en kg.) ____
Altura (en cm) ____
Residencia durante el semestre: ____________________
Tiempo que tardas (en minutos) en desplazarte desde tu domicilio actual a clase durante el curso: ____
Medio de transporte que utilizas: ___________________
Puedes observar que existen diferencias entre las variables analizadas, por ello se clasifican del siguiente
modo:
TIPOS DE VARIABLES
DISTRIBUCIONES DE FRECUENCIAS
Frecuencia absoluta fi: es el número de veces que se repite un mismo dato.
Intervalos de clase
Algunas veces es necesario agrupar los datos en un número relativamente pequeño de clases que no se
superpongan entre sí, de forma que no exista ambigüedad con respecto a la clase a que pertenece una
observación particular. El número de observaciones de una clase se llama frecuencia de clase, si
dividimos esta frecuencia por el número total de observaciones, se llama frecuencia relativa de clase. La
elección del número apropiado de clases depende del tamaño de la muestra. Para muestras de tamaño
moderado, n < 50, se suele elegir un número de clases igual a n , o bien se usa la formula de Sturtges,
(se toma el resultado de calcular el logaritmo de n, dividir por el logaritmo de 2 y sumar 1), en general el
número de clases no debe sobrepasar de 15, en casos de muestras muy grandes. Es más cómodo que la
amplitud de todas las clases sea la misma (siempre que sea posible). Las fronteras de clase se llaman
límites y el promedio aritmético entre el límite inferior y el superior se conoce como marca de clase. (x
es el valor que tomamos como representativo)
Distribución de frecuencias
Llamamos así a una tabla que contiene los diferentes valores que toma la variable de interés (o los
intervalos) y las correspondientes frecuencias.
Polígono de frecuencias
Se representa de la forma usual, mediante puntos; las frecuencias en el eje de ordenadas y la variable
en el de abscisas. Después se unen estos puntos por trozos de rectas. Es la representación gráfica de las
frecuencias acumulativas (absolutas o relativas) para datos agrupados.
Medidas de Posición
Medidas de tendencia central:
n
x fi i
n
Mediana (Median): es el valor para el cual, cuando todas las observaciones se ordenan de manera
creciente, la mitad de estas es menor que este valor y la otra mitad mayor.
Medidas no centrales
Los cuartiles dividen al conjunto de datos ordenados en cuatro partes iguales, el rango intercuartílico es
la diferencia entre el tercer y el primer cuartíl. Si tenemos muchos datos se utilizan los percentíles, que
los dividen en cien partes iguales. Todos son casos particulares de los cuantiles.
Varianza s2: es el promedio del cuadrado de las distancias entre cada observación y la media del conjunto
de observaciones
n
(x i x)2 fi
s2 i 1
x x fi
2
i
Cuasi-varianza (Variance): s *2 i 1
n 1
n N
( xi x ) 3 f i n xi x
3
g1 i 1
ó g1 i 1
ns 3
n 1n 2s 3
y el de curtosís o apuntamiento nos dice como es de achatada la distribución
n n
3n 1
2
g2 i 1
3 ó g2 i 1
ns 4 n 1n 2n 3s 4 n 2n 3
Nos sirve para mostrar los posibles datos atípicos, se construye de la forma:
1. Ordenar los datos de la muestra de menor a mayor, obtener el valor mínimo, el máximo y los cuartiles
Q1, Q2 y Q3.
2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3, y dibujar la posición de la mediana con una línea.
3. Calcular los límites admisibles superior e inferior que van a servir para identificar los valores atípicos
Q3 Q1 Q3 Q1
L.I . Q1 1.5 L.S. Q3 1.5
2 2
4. Considerar como valores atípicos los situados fuera del intervalo (L.I., L.S.), dibujarlos.
5. Dibujar una línea que vaya desde cada extremo del rectángulo central hasta el valor más alejado no
atípico.
4
PROCEDIMIENTO A SEGUIR EN ESTA PRÁCTICA
1. Observa el cuestionario, de las variables analizadas ¿son todas iguales? ¿Encuentras diferencias entre
ellas? ¿Que diferencia observas entre la variable altura y la variable residencia? ¿Y entre la altura y la
edad? Clasifica las variables del cuestionario.
Respuesta: Las variables No son iguales, estas son de tipo Cualitativo y Cuantitativo.
- La diferencia es que la variable Altura es una variable Cuantitativa de categorìa Continua, puesto que
presenta datos numericos decimales; mientras que la variable Residencia, es una variable Cualitativa que
expresa un atributo.
- La diferencia entre las variables Altura y Edad es que, la variable Altura es una variable Cuantitativa
de categorìa Continua y la Edad es una variable cuantitativa de categoría discreta además, no se expresan
en las mismas unidades de medida la altura lo hace en Cm; la Edad en Años
- Clasificaciòn de variables:
3. Haz la distribución de frecuencias para la variable edad, teniendo en cuenta que es una variable discreta.
4. Haz la distribución de frecuencias para la variable altura, teniendo en cuenta que es una variable
continua, agrupándola en 5 intervalos. Lo mismo para el peso, pero con 4 intervalos.
TABLA DE FRECUENCIAS PARA ALTURA
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 140,0 0 0,0000 0 0,0000
1 140,0 148,0 144,0 1 0,0400 1 0,0400
2 148,0 156,0 152,0 9 0,3600 10 0,4000
3 156,0 164,0 160,0 11 0,4400 21 0,8400
4 164,0 172,0 168,0 4 0,1600 25 1,0000
5 172,0 180,0 176,0 0 0,0000 25 1,0000
mayor de 180,0 0 0,0000 25 1,0000
Media = 158,04 Desviación Estándar = 5,68976
5
TABLA DE FRECUENCIAS PARA PESO
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 46,0 0 0,0000 0 0,0000
1 46,0 49,75 47,875 5 0,2000 5 0,2000
2 49,75 53,5 51,625 15 0,6000 20 0,8000
3 53,5 57,25 55,375 4 0,1600 24 0,9600
4 57,25 61,0 59,125 1 0,0400 25 1,0000
mayor de 61,0 0 0,0000 25 1,0000
Media = 51,52 Desviación Estándar = 2,81543
5. Para cada variable del cuestionario representa el gráfico que consideres más interesante para su
representación. Guarda cada uno de ellos en un archivo Word.
5
frecuencia
0
18 20 22 24
19 21 23 25
{[}
{\}
{]}
{^}
{_}
{`}
47 48 49 50 51 52 53 54 55 56 57 58 59
PESO
6
C) GRÀFICA PARA ALTURA
3 (12,00%)
2 (8,00%)
3 (12,00%)
6 (24,00%)
7
E) GRAFICA PARA TIEMPO QUE TARDA EN LLEGAR A LA U
Gráfico de Dispersión
5 10 15 20 25 30 35
TIEMPO TARDADO
BICICLETA
BUS
COLECTIVO
MOTO
NINGUNO
0 2 4 6 8 10
frecuencia
6. Contesta a las siguientes preguntas para cada variable numérica:¿Crees que la variable está muy
dispersa?. ¿Que valor (aproximadamente) darías como representativo de la variable? {[}
{\}
{]}
- Edad: Ésta variable No esta muy dispersa, puesto que tiene una desviación estándar de 1,9 con respecto
{^}
{_}
a promedio de 20,88 es decir que cuenta con un coeficiente de variación de 9,09962% Indica una medicion
{`}
muestral aceptable.
- Peso: Ésta variable No esta muy dispersa, puesto que tiene una desviación estándar de 2,81543 con
respecto a promedio de 51,52 es decir que cuenta con un coeficiente de variación 5,46474% Indica una
medicion muestral precisa.
8
- Altura: Ésta variable No esta muy dispersa, puesto que tiene una desviación estándar de 5,68976 con
respecto a promedio de 158,04 es decir que cuenta con un coeficiente de variación 3,6002% Indica una
medicion muestral precisa.
- Tiempo Tardado: Ésta variable Si esta muy dispersa, puesto que tiene una desviación estándar de
9,05575 con respecto a promedio de 15,56 es decir que cuenta con un coeficiente de variación 58,1989%
. Indica una medicion muestral no homogenia.
7. Calcula todas las medidas descriptivas que conozcas de cada una de las variables del cuestionario.
Compara las diferentes medidas de centralización. ¿Cuál es la más adecuada en cada caso?
8. Haz el gráfico de caja y bigote para la variable altura. Coméntalo. ¿Hay alguien en clase más alto de lo
normal? y ¿más bajo?
9
10