You are on page 1of 64

Unidad 1: Estadstica Descriptiva

MIP. Viridiana Snchez Vzquez

Objetivos de la unidad
El estudiante diseara un cuestionario para la obtencin de una muestra representativa de la poblacin de inters. Utilizara las tcnicas de muestreo de tipo aleatorio probabilstico para la coleccin de datos, ms apropiada a la situacin real. Analizar el conjunto de datos en la muestra, determinando estadsticamente sus parmetros y representaciones grficas. Facilitando la toma de decisiones

Estadstica descriptiva
La estadstica descriptiva es una gran parte de la estadstica que se dedica a recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente las caractersticas de este.

1.1 Introduccin, notacin sumatoria

1.1.2 Datos no agrupados


Podemos usar una serie de nmeros conocidos como estadstica sumaria para describir las caractersticas del conjunto de datos. Dos de estas caractersticas son de particular importancia para los responsables de tomar decisiones: la de tendencia central y la de dispersin.

Medidas de tendencia central


Tendencia central: la tendencia central se refiere al punto medio de una distribucin. Las medidas de tendencia central se conocen como medidas de posicin.

Para realizar los clculos


Media: Es la suma de todos los valores, dividida entre el nmero de estos. Mediana: para calcular la mediana primero se ordenan los datos de menor a mayor y luego se elige uno de los siguientes procedimientos:
Si el nmero de datos es impar, la mediana es el nmero que se localiza exactamente a la mitad de la lista. Si el numero de valores es par, la mediana se obtiene calculando la media de los dos nmeros que estn a la mitad.

Moda: en un conjunto de datos es el valor que se presenta con mayor frecuencia. Cuando dos valores se presentan con la misma frecuencia y esta es la mas alta, ambos valores son modas, por lo que el conjunto de datos es bimodal. Cuando mas de dos valores se presentan con la misma frecuencia y esta es la ms alta, todos los valores son modas, por lo que el conjunto de datos es multimodal. Cuando ningn valor se repite se dice que no hay moda.

La dispersin es importante porque:


1. Proporciona informacin adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos representativa de los datos. 2. Ya que existen problemas caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersin antes de abordar esos problemas. 3. Quiz se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersin de valores con respecto al centro de distribucin o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones ms grandes.

Media ponderada
En algunos casos los valores varan de acuerdo con su grado de importancia por lo que podemos ponderarlos y calcular su media ponderada con la siguiente formula:

Ejemplo de media ponderada :


Supongamos que se necesita la media de las tres calificaciones de una prueba (85, 90, 75), donde la primera prueba cuenta el 20%, la segunda el 30% y la tercera el 50% de la calificacin final.
20 85 : 3090 :(5075) 20:30:50

= 81.5

Medidas de variacin o dispersin

Medidas de dispersin
Medidas de dispersin. Tratan de medir el alejamiento o distanciamiento de los datos. Mientras este valor sea ms grande significa que los datos estn muy alejados, y mientras esta medida sea menor, significa que los datos estn muy juntos o compactos.

Rango
El rango de un conjunto de datos es la diferencia entre el valor mximo y el valor mnimo. Rango = (valor mximo) - (valor mnimo)

Desviacin estndar de una muestra


La desviacin estndar de un conjunto de valores muestrales es la medida de la variacin de los valores con respecto a la media.

Varianza
La varianza de un conjunto de valores es una medida de variacin igual al cuadrado de la desviacin estndar.

Medidas de posicin relativa


Estas medidas son tambin llamadas cuantilas, cuantiles o fractiles y cuyo objetivo es describir el comportamiento de una variable dividiendo la serie de valores en diferente nmero de partes porcentualmente iguales, las ms usadas son: los cuartiles (cuartas partes), los deciles (decimas partes) y los centiles o percentiles (centsimas partes).

Los Cuartiles
Son aquellos nmeros que dividen a stas en cuatro partes porcentualmente iguales. Hay tres cuartiles, Q1, Q2 y Q3. El primer cuartil Q1, es el valor en el cual o por debajo del cual queda aproximadamente un cuarto (25%) de todos los valores de la sucesin (ordenada); El segundo cuartil Q2 es el valor por debajo del cual queda el 50% de los datos (Mediana), el tercer cuartil Q3 es el valor por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Los Deciles
Son ciertos nmeros que dividen el conjunto de observaciones (ordenadas) en diez parte porcentualmente iguales. Los deciles se denotan por D1, D2, . . . , D9. El decil 5 corresponde al cuartil 2 (mediana).

Los Percentiles
Son ciertos nmeros que dividen el conjunto de datos ordenados en cien partes porcentualmente iguales. El percentil 50 equivale a la mediana. Considerando la definicin de la mediana, esta ser el segundo cuartil, el quinto decil o el 50avo percentil o centil. En cualquiera de estas medidas el valor matemtico que se obtenga ser representativo del nmero de datos o menos que corresponde al valor relativo planteado. (Ejemplo: el primer cuartil es un valor representativo del 25% o menos de los valores de una distribucin, es decir, los valores inferiores de la distribucin).

1.2 Datos agrupados

1.2.1 Tabla de frecuencia


Es una manera de organizar los datos de una muestra. La idea es agrupar los datos en pequeos grupos denominados intervalos de clase o clases. El procedimiento para hacer una tabla de frecuencias se ilustrar en el siguiente ejemplo.

Se desea analizar el peso (en gramos) de una tapa de plstico. Se tom una muestra y se obtuvieron los siguientes datos. 2.744 2.739 2.788 2.736 2.761 2.714 2.726 2.745 2.736 2.707 2.751 2.765 2.713 2.740 2.751 2.757 2.743 2.745 2.745 2.734 2.749 2.766 2.761 2.739 2.744 2.723 2.808 2.732 2.722 2.755 2.744 2.742 2.749 2.783 2.693 2.728 2.784 2.696 2.749 2.726

Ordenados en forma creciente tenemos:


2.693 2.696 2.707 2.713 2.714 2.722 2.723 2.726 2.726 2.728 2.732 2.734 2.736 2.736 2.739 2.739 2.740 2.742 2.743 2.744 2.744 2.744 2.745 2.745 2.745 2.749 2.749 2.749 2.751 2.751 2.755 2.757 2.761 2.761 2.765 2.766 2.783 2.784 2.788 2.808

1. Se debe definir el nmero de clases. Si n es la cantidad de datos (tamao de la muestra). Entonces usaremos el criterio: nmero de clases = En este caso tenemos que n = 40, luego: nmero de clases = 40 = 6.324 que se redondea a 6.

2. Luego, se debe definir la longitud de clase, que es la longitud del intervalo. Si MAX y MIN es el valor mximo y mnimo de la muetra respectivamente, entonces: longitud de clase = (MAX - MIN)/nmero de clases

En este caso tenemos que MIN = 2.693, MAX = 2.808 y nmero de clases es 6, luego: Longitud de clase = (2.808 - 2.693)/6 = 0.02 Es recomendable siempre redondear hacia arriba.

La marca de clase es el valor medio del intervalo de clase. Es decir, se obtiene promediando los lmites de clase. La frecuencia absoluta de una clase es el nmero de datos en la clase. La tabla de frecuencias absolutas tiene el siguiente aspecto.

1.2.2 Medidas de tendencia central para datos agrupados

Ejemplo. La siguiente tabla muestra los datos agrupados de la dureza de rollos de polietileno que se mide en unidades de Shore D.

1.2.3 Medidas de dispersin

1.3 Representaciones grficas

1.3.1 Diagrama de Dispersin


Un diagrama de dispersin es un tipo de diagrama matemtico que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.

Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posicin en el eje horizontal y el valor de la otra variable determinado por la posicin en el eje vertical.1 Un diagrama de dispersin se llama tambin grfico de dispersin.

1.3.2 Diagramas de tallo y hoja


El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultneamente una distribucin de frecuencias de la variable y su representacin grfica. Para construirlo basta separar en cada dato el ltimo dgito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formar el tallo). Esta representacin de los datos es semejante a la de un histograma pero adems de ser fciles de elaborar, presentan ms informacin que estos.

1.3.3 Histogramas
Es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya sea en forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o panorama, de la distribucin de la poblacin, o la muestra, respecto a una caracterstica, cuantitativa y continua, de la misma y que es de inters para el observador (como la longitud o la masa). De esta manera ofrece una visin en grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o poblacin por ubicarse hacia una determinada regin de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la caracterstica.

1.3.4 Ojivas
La ojiva es el polgono de frecuencias acumuladas, es decir, que en ella se permite ver cuntas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los nmeros asignados a cada intervalo La ojiva apropiada para informacin que presente frecuencias mayores que el dato que se est comparando tendr una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendr una pendiente positiva. Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que stas, existen las ojivas mayor que y las ojivas menor que.

Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por esto la aplicacin de la tcnica es parcial): Un extremo de la ojiva no se toca al eje horizontal, para la ojiva "mayor que" sucede con el extremo izquierdo; para la ojiva "menor que", con el derecho. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.

1.3.5 Polgonos de frecuencias

1.3.6 Diagrama de caja y ejes


Un diagrama de caja es una representacin grfica basada en los cuartiles, que ayuda a ilustrar un conjunto de datos. Para elaborar el diagrama solamente se necesitan cinco valores estadsticos: El valor mnimo, Q1, la mediana, Q3 y el valor mximo.

1.3.7 Diagrama de sectores

You might also like