You are on page 1of 14

PRACTICAS DE ESTADÍSTICA CON STATGRAPHICS

PRACTICA 1
Conceptos previos. Manejo de Datos. Gráficas. Descripciones univariantes. Transformaciones.

Utilizaremos el siguiente cuestionario aplicado a un grupo de estudiantes de la Universidad de Nariño para


extraer algunas conclusiones: (Ver archivo SABANA PRACTICA 1)

CUESTIONARIO
Edad (en años) ____
Peso (en kg.) ____
Altura (en cm) ____
Residencia durante el semestre: ____________________
Tiempo que tardas (en minutos) en desplazarte desde tu domicilio actual a clase durante el curso: ____
Medio de transporte que utilizas: ___________________

CONCEPTOS TEÓRICOS QUE HAY QUE SABER


Población: Es el conjunto de entes o individuos en estudio.
Muestra: Es un subconjunto finito de elementos de la población.
Variables: las características que poseen los elementos de la población y que son objeto de estudio.
Dato: cada valor medido de la variable.

En nuestro caso estudiaremos un conjunto de características del colectivo de estudiantes de un programa


de la Universidad de Nariño (Población).

Tomaremos como muestra el subconjunto de dichas características correspondientes a los alumnos de la


asignatura de Estadística.

Puedes observar que existen diferencias entre las variables analizadas, por ello se clasifican del siguiente
modo:

TIPOS DE VARIABLES

 Cualitativas: aquellas que no son medibles.


 Cuantitativas: aquellas que son medibles. Estas se dividen a su vez en:
 Discretas: toman valores en un conjunto numerable.
 Continuas: toman valores en un conjunto no numerable (los números reales o un intervalo).

DISTRIBUCIONES DE FRECUENCIAS

 Frecuencia absoluta fi: es el número de veces que se repite un mismo dato.

 Frecuencia relativa hi: hi = fi / n, siendo n el número total de datos.


i
 Frecuencia acumulada : Fi   f j
j 1
i
 Frecuencia relativa acumulada: H i   h j
j 1

 Intervalos de clase

Algunas veces es necesario agrupar los datos en un número relativamente pequeño de clases que no se
superpongan entre sí, de forma que no exista ambigüedad con respecto a la clase a que pertenece una
observación particular. El número de observaciones de una clase se llama frecuencia de clase, si
dividimos esta frecuencia por el número total de observaciones, se llama frecuencia relativa de clase. La
elección del número apropiado de clases depende del tamaño de la muestra. Para muestras de tamaño
moderado, n < 50, se suele elegir un número de clases igual a n , o bien se usa la formula de Sturtges,
(se toma el resultado de calcular el logaritmo de n, dividir por el logaritmo de 2 y sumar 1), en general el
número de clases no debe sobrepasar de 15, en casos de muestras muy grandes. Es más cómodo que la
amplitud de todas las clases sea la misma (siempre que sea posible). Las fronteras de clase se llaman
límites y el promedio aritmético entre el límite inferior y el superior se conoce como marca de clase. (x
es el valor que tomamos como representativo)

 Distribución de frecuencias

Llamamos así a una tabla que contiene los diferentes valores que toma la variable de interés (o los
intervalos) y las correspondientes frecuencias.

REPRESENTACIONES GRÁFICAS USUALES


Histograma
Es la representación gráfica, mediante rectángulos unidos entre sí, de las frecuencias ordinarias
(absolutas o relativas) para datos agrupados.

Diagrama de barras (Barcharts)


Es la representación gráfica para datos sin agrupar de las frecuencias (absoluta o relativa) ordinarias.

Polígono de frecuencias
Se representa de la forma usual, mediante puntos; las frecuencias en el eje de ordenadas y la variable
en el de abscisas. Después se unen estos puntos por trozos de rectas. Es la representación gráfica de las
frecuencias acumulativas (absolutas o relativas) para datos agrupados.

Diagramas de sectores (Piecharts)


Se representan mediante círculos. A cada variable se le asocia el sector circular proporcional a su
frecuencia (es usual en atributos).

Diagramas de tallo y hojas (Stem and Leaf Display)


Es un método semigráfico para variables cuantitativas con pocos datos
1. Se redondean los datos para tener dos o tres dígitos
2. Se disponen en dos columnas separadas por una línea. La columna de la izquierda se asocia con el tallo
y la otra con las hojas.
3. Cada tallo define una clase y se representa sólo una vez. El número de hojas representa la frecuencia de
la clase.
2
DESCRIPCIÓN NUMÉRICA DE LOS DATOS
Para datos categóricos, la distribución de frecuencias proporciona un resumen conciso y completo de la
muestra, pero para variables cuantitativas puede complementarse este resumen utilizando medidas
descriptivas numéricas extraídas de los datos.

Medidas de Posición
Medidas de tendencia central:
n

 x fi i

Media (Average): es el promedio aritmético de las observaciones x  i 1

n
Mediana (Median): es el valor para el cual, cuando todas las observaciones se ordenan de manera
creciente, la mitad de estas es menor que este valor y la otra mitad mayor.

Moda (Mode): es el valor de la observación cuya frecuencia es mayor.

Medidas no centrales

Los cuartiles dividen al conjunto de datos ordenados en cuatro partes iguales, el rango intercuartílico es
la diferencia entre el tercer y el primer cuartíl. Si tenemos muchos datos se utilizan los percentíles, que
los dividen en cien partes iguales. Todos son casos particulares de los cuantiles.

Medidas de variabilidad o dispersión

Permiten conocer la dispersión de los datos.

Varianza s2: es el promedio del cuadrado de las distancias entre cada observación y la media del conjunto
de observaciones
n

 (x i  x)2 fi
s2  i 1

 x  x  fi
2
i
Cuasi-varianza (Variance): s *2  i 1

n 1

Desviación típica s: es la raíz cuadrada positiva de la varianza. (El Statgraphics calcula la cuasidesviación
típica (Std. deviation)).

Recorrido o rango muestral (Range): es la diferencia entre el valor de la observación mayor y el de la


menor.

3
Medidas de asimetría y curtosis

Comparan la distribución con la distribución normal.

El coeficiente de asimetría (Skewness) nos mide la simetría de la distribución

n N

 ( xi  x ) 3 f i n  xi  x 
3

g1  i 1
ó g1  i 1

ns 3
n  1n  2s 3
y el de curtosís o apuntamiento nos dice como es de achatada la distribución

n n

 x  x  fi nn  1 xi  x 


4 4

3n  1
i 2
g2  i 1
3 ó g2  i 1

ns 4 n  1n  2n  3s n  2n  3
4

Un gráfico basado en los cuartiles

Diagramas de caja y bigotes (Box and Whisker Plot)

Nos sirve para mostrar los posibles datos atípicos, se construye de la forma:
1. Ordenar los datos de la muestra de menor a mayor, obtener el valor mínimo, el máximo y los cuartiles
Q1, Q2 y Q3.
2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3, y dibujar la posición de la mediana con una línea.
3. Calcular los límites admisibles superior e inferior que van a servir para identificar los valores atípicos

Q3  Q1 Q3  Q1
L.I .  Q1  1.5 L.S.  Q3  1.5
2 2

4. Considerar como valores atípicos los situados fuera del intervalo (L.I., L.S.), dibujarlos.
5. Dibujar una línea que vaya desde cada extremo del rectángulo central hasta el valor más alejado no
atípico.

4
PROCEDIMIENTO A SEGUIR EN ESTA PRÁCTICA

DESPUES DE CADA PREGUNTA COLOQUE LA RESPUESTA.


AL FINALIZAR GUARDE ESTE ARCHIVO NOMBRADO CON SUS APELLIDOS.
Integrantes: Anyela Imbachi (218140108)
Juliana Bastidas ( )

1. Observa el cuestionario, de las variables analizadas ¿son todas iguales? ¿Encuentras diferencias entre
ellas? Clasifica las variables del cuestionario.

RESPUESTA: Se puede observar que las variables son diferentes, ya que estas nos brindan distinta información,
además que son medidas en unidades propias de su característica tales como: años, Kg, cm, entre otros. Estas
variables se pueden clasificar de la siguiente forma:
Edad: Variable cuantitativa continua.
Peso: Variable cuantitativa continua.
Altura: Variable cuantitativa continua.
Residencia durante el semestre: Variable cualitativa.
Tiempo que tardas en desplazarte desde tu domicilio actual a clase durante el curso: Variable cuantitativa
continua.
Medio de transporte que utilizas: Variable cualitativa.

2. Haz la distribución de frecuencias para la variable edad, teniendo en cuenta que es una variable discreta.
Interpreta la tabla.

RESPUESTA:
Tabla 1. Distribucion de frecuencia (EDAD)
Límite Límite Frecuencia Frecuencia Frecuencia
Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 17 0 0,0000 0 0,0000
17 18,0 17,5 2 0,0800 2 0,0800
18 19,0 18,5 4 0,1600 6 0,2400
19 20,0 19,5 7 0,2800 13 0,5200
20 21,0 20,5 3 0,1200 16 0,6400
21 22,0 21,5 4 0,1600 20 0,8000
22 23,0 22,5 2 0,0800 22 0,8800
23 24,0 23,5 2 0,0800 24 0,9600
24 25,0 24,5 1 0,0400 25 1,0000
mayor de 25 0 0,0000 25 1,0000

Analisis: En la tabla 1 se observa que en la muestra el 28% equivale a personas entre 19-20 años, dando a
entender que hay mayor numero de estudiantes entre esta edad, mientras que el 4% representa a las personas de
24-25 años, siendo el valor minimo encontrado entre el rango de la muestra, lo cual hace referencia a que el numero
de estudiantes entre este rango de edad es de menor proporción.

3. Haz la distribución de frecuencias para la variable altura, teniendo en cuenta que es una variable
continua, agrupándola en 5 intervalos. Lo mismo para el peso, pero con 6 intervalos. Interpreta las tablas.

5
RESPUESTA:
Tabla 2. Frecuencia (PESO)
Límite Límite Frecuencia Frecuencia Frecuencia

Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.

menor o igual 46 0 0,0000 0 0,0000

46 48,6 47,3 2 0,0800 2 0,0800

48,6 51,2 49,9 14 0,5600 16 0,6400

51,2 53,8 52,5 4 0,1600 20 0,8000

53,8 56,4 55,1 3 0,1200 23 0,9200

56,4 59,0 57,7 2 0,0800 25 1,0000

mayor de 59 0 0,0000 25 1,0000

Analisis: En la tabla 2 podemos apreciar que el peso de los estudiantes de la Universidad de Nariño se
encuentra en mayor medida entre 48 a 51 Kg, representando un 56% de la muestra, Por otro lado, los
estudiantes que tienen pesan entre 46 a 48 Kg y de 56 a 59 Kg representan un 8% respectivamente, dando
a entender que este peso no es recurrente en la Universidad de Nariño.

Tabla 3. Frecuencias (ALTURA)


Límite Límite Frecuencia Frecuencia Frecuencia
Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 145 0 0,0000 0 0,0000
145 149,167 147,083 1 0,0400 1 0,0400
149,167 153,333 151,25 4 0,1600 5 0,2000
153,333 157,5 155,417 7 0,2800 12 0,4800
157,5 161,667 159,583 7 0,2800 19 0,7600
161,667 165,833 163,75 2 0,0800 21 0,8400
165,833 170,0 167,917 4 0,1600 25 1,0000
mayor de 170 0 0,0000 25 1,0000

Analisis: Se puede considerar que los estudiantes tienen una altura promedio entre 153 a 161 cm siendo
el 56% de la muestra, teniendo en cuenta que estos están en la altura promedio de un colombiano. Sin
embargo, no se tomo en cuneta el genero de la persona encuestada. En cuanto a la estatura máxima
encontrada se observa que representa el 16% de la muestra, siendo este un

6
4. Para cada variable del cuestionario representa el gráfico que consideres más interesante para su
interpretación.

RESPUESTA:
Diagrama 1 de barras altura

Diagrama de Barras de ALTURA

12

10

8
porcentaje

0
146 152 154 156 158 160 162 166 170
150 153 155 157 159 161 163 168

Analisis: En el diagrama se puede observar las alturas con su correspondiente porcentaje encontradas en
los estudiantes de la Universidad de Nariño. Exponiendo que la altura mas frecuente es de 158cm ya que
corresponde al 12% de la muestra, por otro lado, se evidencia que algunas alturas no son tan recurrentes
ocupando el 4% de la muestra, sin embargo, observamos que hay 6 alturas que representan cada uno un 8
% de la muestra por lo cual podríamos decir que estas representan la altur promedio de los estudiantes

7
Diagrama 2 de barras edad

Diagrama de Barras de EDAD

30

25

20
porcentaje

15

10

0
18 20 22 24
19 21 23 25

Analisis: En el diagrama se contempla los porcentajes de las edades correspondientes a las personas
encuestadas de la Universidad de Nariño. Observando que la edad mas recurrente es de 20 años ocupando
un 28% de la muestra, con esto podíamos concluir que la mayoría de los estudiantes encuestados están
entre los 18 a 22 dado que los porcentajes de estas edades ocupan una gran parte de la muestra y los
porcentajes de 23 a 25 años son minimos al total de la muestra

8
Diagrama 3 de barras Medio de trasporte

Diagrama de Barras de MEDIO DE TRANSPORTE

40

30
porcentaje

20

10

0
BICICLETA BUS COLECTIVO MOTO NINGUNO

Analisis: En la gráfica se muestra que el transporte público (bus) es utilizado por aproximadamente el
37% de los estudiantes de la Universidad de Nariño, siendo el medio de transporte ms frecuente, mientras
que el 25% de la muestra no ocupa medio de transporte. Lo anterior se puede explicar en correlación a la
gráfica 4, ya que en esta se aprecia que gran parte de la muestra vive en zonas cercanas a la Universidad
(Pandiaco). Sin embargo, en aproximadamente la mitad de la muestra (44%) se alojan en lugares más
alejados (Tamasagra, Santa Mónica, etc). También podemos observar que el medio de transporte menos
utilizado es la bicicleta con un 8% que podría ser el medio empleado por las personas de barrios más
próximos como las cuadras o centro

9
Diagrama 4 de barras peso

Diagrama de Barras de PESO

24

20

16
porcentaje

12

0
47 49 51 53 55 59
48 50 52 54 57

Analisis: Como se evidencia en el diagrama los estudiantes encuestados de la Universidad de Nariño una
gran parte de ellos pesa 50 Kg ocupando un 24% de la muestra sin embargo también se observa que de
los datos obtenidos de 6 pesos (47, 48, 52, 54, 57, 59) ocupan un 4 % de la muestra siendo estos los pesos
mas frecuentes en conjunto con los 50 Kg

10
Diagrama 5 de barras residencia durante el semeste

Diagrama de Barras de RESIDENCIA DURANTE EL SEMESTRE

24

20

16
porcentaje

12

0
CENTRO PANDIACO SANTIAGO TAMASAGRA
LAS CUADRAS SANTA MONICA SUMATAMBO

Analisis: Los datos encontrados en la grafica evidencian que los lugares donde habitan mas los estudiantes
son pandiaco y centro con el 24% y 29% respectivamente dado que estos sectores son mas cercanos a la
universidad, mientras que el sector de menor residencia por los estudiantes es Santigo ya que se encontró
que solo el 7% reside en este barrio

11
Diagrama 6 de barras tiempo en llegar a la U

Diagrama de Barras de TIEMPO EN LLEGAR A LA U

20

16
porcentaje

12

0
5 7 15 25 35
6 10 20 30

Analisis: A partir de los datos encontrados en la gráfica se estima que el promedio se encuentra entre 10
y 15 minutos, debido a que sus porcentajes en conjunto representan el 40% de la totalidad de la muestra.
Por el contrario, se determina que los tiempos en Los cuales los estudiantes requieren menos tiempo, se
presenta en el 24% de los casos en un Rango de 5 a 7 minutos. Igualmente se considera menos recurrente
el tiempo de llegada a la Universidad en los tiempos de 25 a 35 minutos, los cuales en conjunto toman el
20% de la muestra. Se concluye que los tiempos de llegada varían según la residencia y el medio de
transporte empleado, puesto que en este caso los tiempos de 5 a 7 pueden considerarse para estudiantes
residentes en Pandiaco.

5. Calcula todas las medidas descriptivas que conozcas de cada una de las variables del cuestionario.
Compara las diferentes medidas de centralización. ¿Cuál es la más adecuada en cada caso?

Tabla 4: Medidas Descriptivas

Variable Promedio Mediana Moda Varianza S Coeficiente Curtosis


de asimetria
Años 20,88 20 20 3,61 0,503369106 -0,473907345
Altura(cm) 158,04 158 158 32,3733333 0,234017702 0,070557393
Peso(Kg) 51,52 51 50 7,92667 0,987724131 0,931335824
Tiempo de 15,56 15 10 82,00666667 0,790928195 -0,146206538
llegada
(min)

12
El cálculo más adecuado para las variables en estudio es el promedio, ya que este nos permite conocer el
valor central en el que se encuentran los datos de cada una de ellas, dándonos a conocer un valor estándar
sobre el peso, estatura y tiempo que tarda un estudiante en ir a la Universidad

6. Haz el gráfico de caja y bigote para la variable PESO. Coméntalo. ¿Hay alguien en clase con más peso
de lo normal?

Grafico 1 bigotes peso

Gráfico de Caja y Bigotes

47 49 51 53 55 57 59
PESO

Analisis: En el grafico de caja y bigote se pude observar que la mediana es 51, el tercer cuartil ocupa mas
del 50% entre los 51Kg-53Kg, mientras que el 2 cuartil ocupa un 25% entre 49Kg-51Kg. El llimite inferior
es 47 y el limite superior 57 y según la atípica si hay alguien en la clase que tiene un mayor peso de lo
normal que seria 59 Kg

7. Elabora e interpreta una table de doble entrada de las variables residencia durante el semestre y medio
de transporte. Acompáñala de un gráfico.

13
Diagrama 7 de barras medio de transporte y residencia durante el semestre

Diagrama de Barras para MEDIO DE TRANSPORTE según RESIDENCIA DURANTE EL SEMESTRE

25 RESIDENCIA DURANTE EL SEMESTRE


CENTRO
LAS CUADRAS
20 PANDIACO
SANTA MONICA
SANTIAGO
porcentaje

15 SUMATAMBO
TAMASAGRA

10

0
BICICLETA BUS COLECTIVO MOTO NINGUNO
MEDIO DE TRANSPORTE

Tabla 5 Relacion trasnporte y residencia durante el semestre

CENTRO LAS PANDIACO SANTA SANTIAGO SUMATAMBO TAMASAGRA Total por


CUADRA MONICA Fila
S
BICICLETA 2 0 0 0 0 0 0 2
8,33% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 8,33%
BUS 2 2 0 3 0 1 1 9
8,33% 8,33% 0,00% 12,50% 0,00% 4,17% 4,17% 37,50%
COLECTIV 0 0 0 0 0 2 2 4
O
0,00% 0,00% 0,00% 0,00% 0,00% 8,33% 8,33% 16,67%
MOTO 1 0 0 0 2 0 0 3
4,17% 0,00% 0,00% 0,00% 8,33% 0,00% 0,00% 12,50%
NINGUNO 0 0 6 0 0 0 0 6
0,00% 0,00% 25,00% 0,00% 0,00% 0,00% 0,00% 25,00%
Total por 5 2 6 3 2 3 3 24
Columna
20,83% 8,33% 25,00% 12,50% 8,33% 12,50% 12,50% 100,00%
Anaisis: El cálculo más adecuado para las variables en estudio es el promedio, ya que este nos permite
conocer el valor central en el que se encuentran los datos de cada una de ellas, dándonos a conocer un
valor estándar sobre el peso, estatura y tiempo que tarda un estudiante en ir a la Universidad

14

You might also like