You are on page 1of 10

PRACTICAS DE ESTADÍSTICA CON STATGRAPHICS

PRACTICA 1
Conceptos previos. Manejo de Datos. Gráficas. Descripciones univariantes. Transformaciones.

Utilizaremos el siguiente cuestionario aplicado a un grupo de estudiantes de la Universidad de Nariño para


extraer algunas conclusiones: (Ver archivo SABANA PRACTICA 1)

CUESTIONARIO
Edad (en años) ____
Peso (en kg.) ____
Altura (en cm) ____
Residencia durante el semestre: ____________________
Tiempo que tardas (en minutos) en desplazarte desde tu domicilio actual a clase durante el curso: ____
Medio de transporte que utilizas: ___________________

CONCEPTOS TEÓRICOS QUE HAY QUE SABER


Población: Es el conjunto de entes o individuos en estudio.
Muestra: Es un subconjunto finito de elementos de la población.
Variables: las características que poseen los elementos de la población y que son objeto de estudio.
Dato: cada valor medido de la variable.

En nuestro caso estudiaremos un conjunto de características del colectivo de estudiantes de un programa


de la Universidad de Nariño (Población).

Tomaremos como muestra el subconjunto de dichas características correspondientes a los alumnos de la


asignatura de Estadística.

Puedes observar que existen diferencias entre las variables analizadas, por ello se clasifican del siguiente
modo:

TIPOS DE VARIABLES

 Cualitativas: aquellas que no son medibles.


 Cuantitativas: aquellas que son medibles. Estas se dividen a su vez en:
 Discretas: toman valores en un conjunto numerable.
 Continuas: toman valores en un conjunto no numerable (los números reales o un intervalo).

DISTRIBUCIONES DE FRECUENCIAS
 Frecuencia absoluta fi: es el número de veces que se repite un mismo dato.

 Frecuencia relativa hi: hi = fi / n, siendo n el número total de datos.


i
 Frecuencia acumulada : Fi   f j
j 1
i
 Frecuencia relativa acumulada: H i   h j
j 1

 Intervalos de clase

Algunas veces es necesario agrupar los datos en un número relativamente pequeño de clases que no se
superpongan entre sí, de forma que no exista ambigüedad con respecto a la clase a que pertenece una
observación particular. El número de observaciones de una clase se llama frecuencia de clase, si
dividimos esta frecuencia por el número total de observaciones, se llama frecuencia relativa de clase. La
elección del número apropiado de clases depende del tamaño de la muestra. Para muestras de tamaño
moderado, n < 50, se suele elegir un número de clases igual a n , o bien se usa la formula de Sturtges,
(se toma el resultado de calcular el logaritmo de n, dividir por el logaritmo de 2 y sumar 1), en general el
número de clases no debe sobrepasar de 15, en casos de muestras muy grandes. Es más cómodo que la
amplitud de todas las clases sea la misma (siempre que sea posible). Las fronteras de clase se llaman
límites y el promedio aritmético entre el límite inferior y el superior se conoce como marca de clase. (x
es el valor que tomamos como representativo)

 Distribución de frecuencias

Llamamos así a una tabla que contiene los diferentes valores que toma la variable de interés (o los
intervalos) y las correspondientes frecuencias.

REPRESENTACIONES GRÁFICAS USUALES


Histograma
Es la representación gráfica, mediante rectángulos unidos entre sí, de las frecuencias ordinarias
(absolutas o relativas) para datos agrupados.

Diagrama de barras (Barcharts)


Es la representación gráfica para datos sin agrupar de las frecuencias (absoluta o relativa) ordinarias.

Polígono de frecuencias
Se representa de la forma usual, mediante puntos; las frecuencias en el eje de ordenadas y la variable
en el de abscisas. Después se unen estos puntos por trozos de rectas. Es la representación gráfica de las
frecuencias acumulativas (absolutas o relativas) para datos agrupados.

Diagramas de sectores (Piecharts)


Se representan mediante círculos. A cada variable se le asocia el sector circular proporcional a su
frecuencia (es usual en atributos).

Diagramas de tallo y hojas (Stem and Leaf Display)


Es un método semigráfico para variables cuantitativas con pocos datos
1. Se redondean los datos para tener dos o tres dígitos
2. Se disponen en dos columnas separadas por una línea. La columna de la izquierda se asocia con el tallo
y la otra con las hojas.
3. Cada tallo define una clase y se representa sólo una vez. El número de hojas representa la frecuencia de
la clase.
2
DESCRIPCIÓN NUMÉRICA DE LOS DATOS
Para datos categóricos, la distribución de frecuencias proporciona un resumen conciso y completo de la
muestra, pero para variables cuantitativas puede complementarse este resumen utilizando medidas
descriptivas numéricas extraídas de los datos.

Medidas de Posición
Medidas de tendencia central:
n

 x fi i

Media (Average): es el promedio aritmético de las observaciones x  i 1

n
Mediana (Median): es el valor para el cual, cuando todas las observaciones se ordenan de manera
creciente, la mitad de estas es menor que este valor y la otra mitad mayor.

Moda (Mode): es el valor de la observación cuya frecuencia es mayor.

Medidas no centrales

Los cuartiles dividen al conjunto de datos ordenados en cuatro partes iguales, el rango intercuartílico es
la diferencia entre el tercer y el primer cuartíl. Si tenemos muchos datos se utilizan los percentíles, que
los dividen en cien partes iguales. Todos son casos particulares de los cuantiles.

Medidas de variabilidad o dispersión

Permiten conocer la dispersión de los datos.

Varianza s2: es el promedio del cuadrado de las distancias entre cada observación y la media del conjunto
de observaciones
n

 (x i  x)2 fi
s2  i 1

 x  x  fi
2
i
Cuasi-varianza (Variance): s *2  i 1

n 1

Desviación típica s: es la raíz cuadrada positiva de la varianza.(El Statgraphics calcula la cuasidesviación


típica (Std. deviation)).

Recorrido o rango muestral (Range): es la diferencia entre el valor de la observación mayor y el de la


menor.

Medidas de asimetría y curtosis


3
Comparan la distribución con la distribución normal.

El coeficiente de asimetría (Skewness) nos mide la simetría de la distribución

n N

 ( xi  x ) 3 f i n  xi  x 
3

g1  i 1
ó g1  i 1

ns 3
n  1n  2s 3
y el de curtosís o apuntamiento nos dice como es de achatada la distribución

n n

  xi  x  f i nn  1 xi  x 


4 4

3n  1
2
g2  i 1
3 ó g2  i 1

ns 4 n  1n  2n  3s 4 n  2n  3

Un gráfico basado en los cuartiles

Diagramas de caja y bigotes (Box and Whisker Plot)

Nos sirve para mostrar los posibles datos atípicos, se construye de la forma:
1. Ordenar los datos de la muestra de menor a mayor, obtener el valor mínimo, el máximo y los cuartiles
Q1, Q2 y Q3.
2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3, y dibujar la posición de la mediana con una línea.
3. Calcular los límites admisibles superior e inferior que van a servir para identificar los valores atípicos

Q3  Q1 Q3  Q1
L.I .  Q1  1.5 L.S.  Q3  1.5
2 2

4. Considerar como valores atípicos los situados fuera del intervalo (L.I., L.S.), dibujarlos.
5. Dibujar una línea que vaya desde cada extremo del rectángulo central hasta el valor más alejado no
atípico.

4
PROCEDIMIENTO A SEGUIR EN ESTA PRÁCTICA

1. Observa el cuestionario, de las variables analizadas ¿son todas iguales? ¿Encuentras diferencias entre
ellas? ¿Que diferencia observas entre la variable altura y la variable residencia? ¿Y entre la altura y la
edad? Clasifica las variables del cuestionario.

Respuesta: Las variables No son iguales, estas son de tipo Cualitativo y Cuantitativo.
- La diferencia es que la variable Altura es una variable Cuantitativa de categorìa Continua, puesto que
presenta datos numericos decimales; mientras que la variable Residencia, es una variable Cualitativa que
expresa un atributo.

- La diferencia entre las variables Altura y Edad es que, la variable Altura es una variable Cuantitativa
de categorìa Continua y la Edad es una variable cuantitativa de categoría discreta además, no se expresan
en las mismas unidades de medida la altura lo hace en Cm; la Edad en Años

- Clasificaciòn de variables:

Edad: Cuantitativa Discreta


Peso: Cuantitaiva Discreta
Altura: Cuantitaiva Continua.
Residencia: Cualitativa
Tiempo Tardado: Cuantitaiva Discreta
Medio de Transporte: Cualitativa

3. Haz la distribución de frecuencias para la variable edad, teniendo en cuenta que es una variable discreta.

TABLA DE FRECUENCIA PARA EDAD


Frecuencia Frecuencia Frecuencia
Clase Valor Frecuencia Relativa Acumulada Rel. acum.
1 18 2 0,0800 2 0,0800
2 19 4 0,1600 6 0,2400
3 20 7 0,2800 13 0,5200
4 21 3 0,1200 16 0,6400
5 22 4 0,1600 20 0,8000
6 23 2 0,0800 22 0,8800
7 24 2 0,0800 24 0,9600
8 25 1 0,0400 25 1,0000

4. Haz la distribución de frecuencias para la variable altura, teniendo en cuenta que es una variable
continua, agrupándola en 5 intervalos. Lo mismo para el peso, pero con 4 intervalos.
TABLA DE FRECUENCIAS PARA ALTURA
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 140,0 0 0,0000 0 0,0000
1 140,0 148,0 144,0 1 0,0400 1 0,0400
2 148,0 156,0 152,0 9 0,3600 10 0,4000
3 156,0 164,0 160,0 11 0,4400 21 0,8400
4 164,0 172,0 168,0 4 0,1600 25 1,0000
5 172,0 180,0 176,0 0 0,0000 25 1,0000
mayor de 180,0 0 0,0000 25 1,0000
Media = 158,04 Desviación Estándar = 5,68976
5
TABLA DE FRECUENCIAS PARA PESO
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 46,0 0 0,0000 0 0,0000
1 46,0 49,75 47,875 5 0,2000 5 0,2000
2 49,75 53,5 51,625 15 0,6000 20 0,8000
3 53,5 57,25 55,375 4 0,1600 24 0,9600
4 57,25 61,0 59,125 1 0,0400 25 1,0000
mayor de 61,0 0 0,0000 25 1,0000
Media = 51,52 Desviación Estándar = 2,81543

5. Para cada variable del cuestionario representa el gráfico que consideres más interesante para su
representación. Guarda cada uno de ellos en un archivo Word.

A) GRÀFICA PARA EDAD

Diagrama de Barras de EDAD

5
frecuencia

0
18 20 22 24
19 21 23 25

B) GRÀFICA PARA PESO


Gráfico de Caja y Bigotes

{[}
{\}
{]}
{^}
{_}
{`}

47 48 49 50 51 52 53 54 55 56 57 58 59
PESO

6
C) GRÀFICA PARA ALTURA

Gráfico de Caja y Bigotes

145 150 155 160 165 170


ALTURA

D) GRÁFICA PARA RESIDENCIA DURANTE EL SEMESTRE

Diagrama de Sectores de RESIDENCIA


RESIDENCIA
3 (12,00%) CENTRO
5 (20,00%) LAS CUADRAS
PANDIACO
SANTA MONICA
3 (12,00%) SANTIAGO
SUMATAMBO
TAMASAGRA

3 (12,00%)
2 (8,00%)

3 (12,00%)
6 (24,00%)

7
E) GRAFICA PARA TIEMPO QUE TARDA EN LLEGAR A LA U

Gráfico de Dispersión

5 10 15 20 25 30 35
TIEMPO TARDADO

F) GRÁFICA PARA MEDIO DE TRANSPORTE

Diagrama de Barras de MEDIO DE TRANSPORTE

BICICLETA

BUS

COLECTIVO

MOTO

NINGUNO

0 2 4 6 8 10
frecuencia

6. Contesta a las siguientes preguntas para cada variable numérica:¿Crees que la variable está muy
dispersa?. ¿Que valor (aproximadamente) darías como representativo de la variable? {[}
{\}
{]}
- Edad: Ésta variable No esta muy dispersa, puesto que tiene una desviación estándar de 1,9 con respecto
{^}
{_}
a promedio de 20,88 es decir que cuenta con un coeficiente de variación de 9,09962% Indica una medicion
{`}
muestral aceptable.

- Peso: Ésta variable No esta muy dispersa, puesto que tiene una desviación estándar de 2,81543 con
respecto a promedio de 51,52 es decir que cuenta con un coeficiente de variación 5,46474% Indica una
medicion muestral precisa.

8
- Altura: Ésta variable No esta muy dispersa, puesto que tiene una desviación estándar de 5,68976 con
respecto a promedio de 158,04 es decir que cuenta con un coeficiente de variación 3,6002% Indica una
medicion muestral precisa.

- Tiempo Tardado: Ésta variable Si esta muy dispersa, puesto que tiene una desviación estándar de
9,05575 con respecto a promedio de 15,56 es decir que cuenta con un coeficiente de variación 58,1989%
. Indica una medicion muestral no homogenia.

7. Calcula todas las medidas descriptivas que conozcas de cada una de las variables del cuestionario.
Compara las diferentes medidas de centralización. ¿Cuál es la más adecuada en cada caso?

MEDIDAS DESCRIPTIVAS PARA EDAD MEDIDAS DESCRIPTIVAS PARA ALTURA


Recuento 25 Recuento 25
Promedio 20,88 Promedio 158,04
Mediana 20,0 Mediana 158,0
Moda 20,0 Moda 158,0
Media Geométrica 20,7988 Media Geométrica 157,942
Varianza 3,61 Varianza 32,3733
Desviación Estándar 1,9 Desviación Estándar 5,68976
Coeficiente de Variación 9,09962% Coeficiente de Variación 3,6002%
Mínimo 18,0 Mínimo 146,0
Máximo 25,0 Máximo 170,0
Rango 7,0 Rango 24,0

MEDIDAS DESCRIPTIVAS PARA PESO MEDIDAS DESCRIPTIVAS PARA TIEMPO TARDADO


Recuento 25 Recuento 25
Promedio 51,52 Promedio 15,56
Mediana 51,0 Mediana 15,0
Moda 50,0 Moda
Media Geométrica 51,4483 Media Geométrica 13,1148
Varianza 7,92667 Varianza 82,0067
Desviación Estándar 2,81543 Desviación Estándar 9,05575
Coeficiente de Variación 5,46474% Coeficiente de Variación 58,1989%
Mínimo 47,0 Mínimo 5,0
Máximo 59,0 Máximo 35,0
Rango 12,0 Rango 30,0

8. Haz el gráfico de caja y bigote para la variable altura. Coméntalo. ¿Hay alguien en clase más alto de lo
normal? y ¿más bajo?

Gráfico de Caja y Bigotes

No hay en clase más altos o muy bajos


de lo normal, en vista de que le
coeficiente de variación nos indica
que es una medicion muestral casi
homogénea.

145 150 155 160 165 170


ALTURA

9
10

You might also like