Professional Documents
Culture Documents
PRACTICA 1
Conceptos previos. Manejo de Datos. Gráficas. Descripciones univariantes. Transformaciones.
CUESTIONARIO
Edad (en años) ____
Peso (en kg.) ____
Altura (en cm) ____
Residencia durante el semestre: ____________________
Tiempo que tardas (en minutos) en desplazarte desde tu domicilio actual a clase durante el curso: ____
Medio de transporte que utilizas: ___________________
Puedes observar que existen diferencias entre las variables analizadas, por ello se clasifican del siguiente
modo:
TIPOS DE VARIABLES
DISTRIBUCIONES DE FRECUENCIAS
Intervalos de clase
Algunas veces es necesario agrupar los datos en un número relativamente pequeño de clases que no se
superpongan entre sí, de forma que no exista ambigüedad con respecto a la clase a que pertenece una
observación particular. El número de observaciones de una clase se llama frecuencia de clase, si
dividimos esta frecuencia por el número total de observaciones, se llama frecuencia relativa de clase. La
elección del número apropiado de clases depende del tamaño de la muestra. Para muestras de tamaño
moderado, n < 50, se suele elegir un número de clases igual a n , o bien se usa la formula de Sturtges,
(se toma el resultado de calcular el logaritmo de n, dividir por el logaritmo de 2 y sumar 1), en general el
número de clases no debe sobrepasar de 15, en casos de muestras muy grandes. Es más cómodo que la
amplitud de todas las clases sea la misma (siempre que sea posible). Las fronteras de clase se llaman
límites y el promedio aritmético entre el límite inferior y el superior se conoce como marca de clase. (x
es el valor que tomamos como representativo)
Distribución de frecuencias
Llamamos así a una tabla que contiene los diferentes valores que toma la variable de interés (o los
intervalos) y las correspondientes frecuencias.
Polígono de frecuencias
Se representa de la forma usual, mediante puntos; las frecuencias en el eje de ordenadas y la variable
en el de abscisas. Después se unen estos puntos por trozos de rectas. Es la representación gráfica de las
frecuencias acumulativas (absolutas o relativas) para datos agrupados.
Medidas de Posición
Medidas de tendencia central:
n
x fi i
n
Mediana (Median): es el valor para el cual, cuando todas las observaciones se ordenan de manera
creciente, la mitad de estas es menor que este valor y la otra mitad mayor.
Medidas no centrales
Los cuartiles dividen al conjunto de datos ordenados en cuatro partes iguales, el rango intercuartílico es
la diferencia entre el tercer y el primer cuartíl. Si tenemos muchos datos se utilizan los percentíles, que
los dividen en cien partes iguales. Todos son casos particulares de los cuantiles.
Varianza s2: es el promedio del cuadrado de las distancias entre cada observación y la media del conjunto
de observaciones
n
(x i x)2 fi
s2 i 1
x x fi
2
i
Cuasi-varianza (Variance): s *2 i 1
n 1
Desviación típica s: es la raíz cuadrada positiva de la varianza. (El Statgraphics calcula la cuasidesviación
típica (Std. deviation)).
3
Medidas de asimetría y curtosis
n N
( xi x ) 3 f i n xi x
3
g1 i 1
ó g1 i 1
ns 3
n 1n 2s 3
y el de curtosís o apuntamiento nos dice como es de achatada la distribución
n n
3n 1
i 2
g2 i 1
3 ó g2 i 1
ns 4 n 1n 2n 3s n 2n 3
4
Nos sirve para mostrar los posibles datos atípicos, se construye de la forma:
1. Ordenar los datos de la muestra de menor a mayor, obtener el valor mínimo, el máximo y los cuartiles
Q1, Q2 y Q3.
2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3, y dibujar la posición de la mediana con una línea.
3. Calcular los límites admisibles superior e inferior que van a servir para identificar los valores atípicos
Q3 Q1 Q3 Q1
L.I . Q1 1.5 L.S. Q3 1.5
2 2
4. Considerar como valores atípicos los situados fuera del intervalo (L.I., L.S.), dibujarlos.
5. Dibujar una línea que vaya desde cada extremo del rectángulo central hasta el valor más alejado no
atípico.
4
PROCEDIMIENTO A SEGUIR EN ESTA PRÁCTICA
1. Observa el cuestionario, de las variables analizadas ¿son todas iguales? ¿Encuentras diferencias entre
ellas? Clasifica las variables del cuestionario.
RESPUESTA: Se puede observar que las variables son diferentes, ya que estas nos brindan distinta información,
además que son medidas en unidades propias de su característica tales como: años, Kg, cm, entre otros. Estas
variables se pueden clasificar de la siguiente forma:
Edad: Variable cuantitativa continua.
Peso: Variable cuantitativa continua.
Altura: Variable cuantitativa continua.
Residencia durante el semestre: Variable cualitativa.
Tiempo que tardas en desplazarte desde tu domicilio actual a clase durante el curso: Variable cuantitativa
continua.
Medio de transporte que utilizas: Variable cualitativa.
2. Haz la distribución de frecuencias para la variable edad, teniendo en cuenta que es una variable discreta.
Interpreta la tabla.
RESPUESTA:
Tabla 1. Distribucion de frecuencia (EDAD)
Límite Límite Frecuencia Frecuencia Frecuencia
Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 17 0 0,0000 0 0,0000
17 18,0 17,5 2 0,0800 2 0,0800
18 19,0 18,5 4 0,1600 6 0,2400
19 20,0 19,5 7 0,2800 13 0,5200
20 21,0 20,5 3 0,1200 16 0,6400
21 22,0 21,5 4 0,1600 20 0,8000
22 23,0 22,5 2 0,0800 22 0,8800
23 24,0 23,5 2 0,0800 24 0,9600
24 25,0 24,5 1 0,0400 25 1,0000
mayor de 25 0 0,0000 25 1,0000
Analisis: En la tabla 1 se observa que en la muestra el 28% equivale a personas entre 19-20 años, dando a
entender que hay mayor numero de estudiantes entre esta edad, mientras que el 4% representa a las personas de
24-25 años, siendo el valor minimo encontrado entre el rango de la muestra, lo cual hace referencia a que el numero
de estudiantes entre este rango de edad es de menor proporción.
3. Haz la distribución de frecuencias para la variable altura, teniendo en cuenta que es una variable
continua, agrupándola en 5 intervalos. Lo mismo para el peso, pero con 6 intervalos. Interpreta las tablas.
5
RESPUESTA:
Tabla 2. Frecuencia (PESO)
Límite Límite Frecuencia Frecuencia Frecuencia
Analisis: En la tabla 2 podemos apreciar que el peso de los estudiantes de la Universidad de Nariño se
encuentra en mayor medida entre 48 a 51 Kg, representando un 56% de la muestra, Por otro lado, los
estudiantes que tienen pesan entre 46 a 48 Kg y de 56 a 59 Kg representan un 8% respectivamente, dando
a entender que este peso no es recurrente en la Universidad de Nariño.
Analisis: Se puede considerar que los estudiantes tienen una altura promedio entre 153 a 161 cm siendo
el 56% de la muestra, teniendo en cuenta que estos están en la altura promedio de un colombiano. Sin
embargo, no se tomo en cuneta el genero de la persona encuestada. En cuanto a la estatura máxima
encontrada se observa que representa el 16% de la muestra, siendo este un
6
4. Para cada variable del cuestionario representa el gráfico que consideres más interesante para su
interpretación.
RESPUESTA:
Diagrama 1 de barras altura
12
10
8
porcentaje
0
146 152 154 156 158 160 162 166 170
150 153 155 157 159 161 163 168
Analisis: En el diagrama se puede observar las alturas con su correspondiente porcentaje encontradas en
los estudiantes de la Universidad de Nariño. Exponiendo que la altura mas frecuente es de 158cm ya que
corresponde al 12% de la muestra, por otro lado, se evidencia que algunas alturas no son tan recurrentes
ocupando el 4% de la muestra, sin embargo, observamos que hay 6 alturas que representan cada uno un 8
% de la muestra por lo cual podríamos decir que estas representan la altur promedio de los estudiantes
7
Diagrama 2 de barras edad
30
25
20
porcentaje
15
10
0
18 20 22 24
19 21 23 25
Analisis: En el diagrama se contempla los porcentajes de las edades correspondientes a las personas
encuestadas de la Universidad de Nariño. Observando que la edad mas recurrente es de 20 años ocupando
un 28% de la muestra, con esto podíamos concluir que la mayoría de los estudiantes encuestados están
entre los 18 a 22 dado que los porcentajes de estas edades ocupan una gran parte de la muestra y los
porcentajes de 23 a 25 años son minimos al total de la muestra
8
Diagrama 3 de barras Medio de trasporte
40
30
porcentaje
20
10
0
BICICLETA BUS COLECTIVO MOTO NINGUNO
Analisis: En la gráfica se muestra que el transporte público (bus) es utilizado por aproximadamente el
37% de los estudiantes de la Universidad de Nariño, siendo el medio de transporte ms frecuente, mientras
que el 25% de la muestra no ocupa medio de transporte. Lo anterior se puede explicar en correlación a la
gráfica 4, ya que en esta se aprecia que gran parte de la muestra vive en zonas cercanas a la Universidad
(Pandiaco). Sin embargo, en aproximadamente la mitad de la muestra (44%) se alojan en lugares más
alejados (Tamasagra, Santa Mónica, etc). También podemos observar que el medio de transporte menos
utilizado es la bicicleta con un 8% que podría ser el medio empleado por las personas de barrios más
próximos como las cuadras o centro
9
Diagrama 4 de barras peso
24
20
16
porcentaje
12
0
47 49 51 53 55 59
48 50 52 54 57
Analisis: Como se evidencia en el diagrama los estudiantes encuestados de la Universidad de Nariño una
gran parte de ellos pesa 50 Kg ocupando un 24% de la muestra sin embargo también se observa que de
los datos obtenidos de 6 pesos (47, 48, 52, 54, 57, 59) ocupan un 4 % de la muestra siendo estos los pesos
mas frecuentes en conjunto con los 50 Kg
10
Diagrama 5 de barras residencia durante el semeste
24
20
16
porcentaje
12
0
CENTRO PANDIACO SANTIAGO TAMASAGRA
LAS CUADRAS SANTA MONICA SUMATAMBO
Analisis: Los datos encontrados en la grafica evidencian que los lugares donde habitan mas los estudiantes
son pandiaco y centro con el 24% y 29% respectivamente dado que estos sectores son mas cercanos a la
universidad, mientras que el sector de menor residencia por los estudiantes es Santigo ya que se encontró
que solo el 7% reside en este barrio
11
Diagrama 6 de barras tiempo en llegar a la U
20
16
porcentaje
12
0
5 7 15 25 35
6 10 20 30
Analisis: A partir de los datos encontrados en la gráfica se estima que el promedio se encuentra entre 10
y 15 minutos, debido a que sus porcentajes en conjunto representan el 40% de la totalidad de la muestra.
Por el contrario, se determina que los tiempos en Los cuales los estudiantes requieren menos tiempo, se
presenta en el 24% de los casos en un Rango de 5 a 7 minutos. Igualmente se considera menos recurrente
el tiempo de llegada a la Universidad en los tiempos de 25 a 35 minutos, los cuales en conjunto toman el
20% de la muestra. Se concluye que los tiempos de llegada varían según la residencia y el medio de
transporte empleado, puesto que en este caso los tiempos de 5 a 7 pueden considerarse para estudiantes
residentes en Pandiaco.
5. Calcula todas las medidas descriptivas que conozcas de cada una de las variables del cuestionario.
Compara las diferentes medidas de centralización. ¿Cuál es la más adecuada en cada caso?
12
El cálculo más adecuado para las variables en estudio es el promedio, ya que este nos permite conocer el
valor central en el que se encuentran los datos de cada una de ellas, dándonos a conocer un valor estándar
sobre el peso, estatura y tiempo que tarda un estudiante en ir a la Universidad
6. Haz el gráfico de caja y bigote para la variable PESO. Coméntalo. ¿Hay alguien en clase con más peso
de lo normal?
47 49 51 53 55 57 59
PESO
Analisis: En el grafico de caja y bigote se pude observar que la mediana es 51, el tercer cuartil ocupa mas
del 50% entre los 51Kg-53Kg, mientras que el 2 cuartil ocupa un 25% entre 49Kg-51Kg. El llimite inferior
es 47 y el limite superior 57 y según la atípica si hay alguien en la clase que tiene un mayor peso de lo
normal que seria 59 Kg
7. Elabora e interpreta una table de doble entrada de las variables residencia durante el semestre y medio
de transporte. Acompáñala de un gráfico.
13
Diagrama 7 de barras medio de transporte y residencia durante el semestre
15 SUMATAMBO
TAMASAGRA
10
0
BICICLETA BUS COLECTIVO MOTO NINGUNO
MEDIO DE TRANSPORTE
14