Professional Documents
Culture Documents
1. Estadística Descriptiva
1.1 Introducción
¿Qué es la estadística?
El campo de la estadística tiene que ver con la recopilación, presentación, análisis y uso de
datos para tomar decisiones y resolver problemas. Cualquier persona, tanto en su carrera
profesional como en la vida cotidiana recibe información en forma de datos a través de
periódicos, de la televisión y de otros medios. A menudo es necesario obtener alguna
conclusión a partir de la información contenida en los datos, por eso será útil para cualquier
persona tener cierta comprensión de la estadística. Puesto que los ingenieros y los científicos
obtienen y analizan datos de manera rutinaria, el conocimiento de la estadística tiene una
importancia especial en estos campos. De manera especifica, el conocimiento de la
estadística y probabilidad puede constituirse en una herramienta poderosa para ayudar a los
científicos e ingenieros a diseñar nuevos productos y sistemas, a perfeccionar los existentes y
diseñar, desarrollar y mejorar los procesos de producción. Estas notas buscan dotar a los
futuros ingenieros y científicos con las herramientas estadísticas básicas que les permitan
practicar con éxito esos aspectos de sus profesiones.
El diagrama de puntos es una grafica muy útil para visualizar un conjunto pequeño de datos;
por ejemplo, de unas 20 observaciones. La grafica permite ver con rapidez y facilidad la
ubicación o tendencia central de los datos, así como su dispersión o variabilidad.
Cap 1-Estadistica Descriptiva 2
Ejemplo: Un Ingeniero Ambiental vigila la calidad del agua midiendo el monto de sólidos
suspendidos en partes por millón (p p m) en una muestra de agua de un canal. En 30 días
observó
14,14,21,21,12,12,12,30,30,30,30,30,30,28,28,29,29,29,19,20,17,17,17,17,18,18,18,19,19,17
sólidos suspendidos en p .p.m.
12 15 18 21 24 27 30
x
El diagrama de tallo y hoja es otra buena manera de obtener una presentación visual
informativa del conjunto de datos x1, x2,…xn, donde cada numero xi, esta formado al menos
por dos dígitos. Para construir un diagrama de este tipo, los números xi se dividen en dos
partes: un tallo, formado por uno o más de los dígitos principales, y una hoja, la cual contiene
el resto de los dígitos. Para ilustrar lo anterior, si los datos contienen información sobre el
porcentaje entre 0 y 100 de artículos defectuosos en lotes de pastillas de semiconductor,
entonces el valor 76 puede dividirse en un tallo 7 y una hoja 6. En general, debe escogerse un
número relativamente pequeño de tallos en comparación con el número de observaciones. Lo
usual es seleccionar entre 5 y 20 tallos. Una vez elegido el conjunto de tallos, estos se
enlistan en la parte izquierda del diagrama. Al lado de cada tallo, se ponen todas las hojas que
corresponden a los valores observados, ordenados tal como se encuentran en el conjunto de
datos.
69 84 52 93 61 74 79 65 88 63
57 64 67 72 74 55 82 61 68 77
Cap 1-Estadistica Descriptiva 3
entonces, su diagrama tallo-hojas es;
5 275
6 91534718
7 49247
8 482
Observaciones: (a) Los intervalos de clase son disjuntos por pares; es decir Ii ∩ Ij = φ
si i ≠ j .
Cap 1-Estadistica Descriptiva 4
(b) Dato Mayor = Dato Menor + k λ
75 89 66 52 90 68 83 94 77 60 38 47 87 65 97 49 65 72 73 81)
63 77 31 88 74 37 85 76 74 63 69 72 91 87 76 58 63 70 72 65
Solución:
1. n = 40 , k = 6. 40 ≈ 6
2. R = rango = 97 – 31 = 66
3. λ = Ancho de clase = R / k = 66/6 = 11
4. I1 =[31,42) , I2 =[42,53) , I2 =[53, 64) ,…, I62 =[86,97]
FRECUENCIAS
10
0
31.0 42.0 53.0 64.0 75.0 86.0 97.0
CALIFICACIONES
X = 70.475
Cap 1-Estadistica Descriptiva 5
Media
1 n
n∑
X= X i =70.475
i =1
Nótese que la media muestral X = 70.475, puede considerarse como un “punto de equilibrio”.
Esto es, si cada observación representa, por ejemplo, una kilo de masa colocada en ese
punto sobre el eje x, entonces un punto de apoyo localizado exactamente en X equilibrara
todo el sistema de pesos.
Mediana
Otra medida de tendencia central es la mediana, o punto donde la muestra se divide en dos
partes iguales. La palabra “mediana” es sinónimo de parte media.
Definición: La mediana es un número que separa a los datos en dos grupos cada uno
de 50%
Para calcular la mediana los datos deberán haber sido ordenados previamente del menor al
mayor como a continuación se representan:
⎧ X ⎛ n+1⎞ si nesimpar
⎪ ⎜⎜ ⎟⎟
⎝ 2 ⎠
⎪
Mediana de una muestra : X = ⎨ X + X
⎛ ⎞ ⎛n ⎞
⎪ ⎜⎝ n2 ⎟⎠ ⎜ +1⎟
⎝2 ⎠
⎪ si nes par
⎩ 2
La ventaja de la mediana es que los valores extremos no tienen mucha influencia sobre ella.
Para ilustrar esto, supóngase que las observaciones de una muestra son
1, 3, 4, 2, 7, 6 y 8
Cap 1-Estadistica Descriptiva 7
La media muestral es 4.4, mientras que la mediana muestral es 4. Ambas cantidades
proporcionan una medida razonable de la tendencia central de los datos. Ahora supóngase
que cambia la penúltima observación, de modo que los datos son
1, 3, 4, 2, 7, 2450 y 8
Para estos datos, la media muestral es 353.6. En este caso, es evidente que la media
muestral no dice mucho respecto a la tendencia central de la mayor parte de los datos. Sin
embargo la mediana, sigue siendo cuatro, y ésta última es, probablemente, una medida de
tendencia central más significativa para la mayor parte de las observaciones.
Moda
Definición:
3, 6, 9, 3, 5, 8, 3, 10, 4, 6, 3 , 1
es 3, puesto que este valor ocurre cuatro veces y ningún otro lo hace con mayor frecuencia.
Puede existir más de una moda. Por ejemplo, considérense las siguientes observaciones
3, 6, 9, 3, 5, 8, 3, 10, 4, 6, 3, 1, 6, 2, 5, 6
Las modas son 3 y 6, ya que ambos valores se presentan el mismo numero de veces; cuatro,
y ningún otro mas lo hace con mayor frecuencia. En este caso se dice que los datos son
bimodales.
Si los datos son simétricos, entonces la media y la mediana coinciden. Si, además, los datos
tienen solo una moda, (esto es, son uní modales), entonces la media, la mediana y la moda
coinciden. Si los datos están sesgados (esto es, son asimétricos, con una larga cola en uno
de los extremos), entonces la media, la mediana y la moda no coinciden. Generalmente se
encuentra que moda < mediana < media si la distribución esta sesgada hacia la derecha,
mientras que moda > mediana > media si la distribución esta sesgada hacia la izquierda.
La media de ambas muestras es 148 psi. Sin embargo, si dibujamos sus diagramas de
puntos, se observa que la dispersión o variabilidad de la muestra 2 es mucho mayor que la de
la muestra 1. En esta sección se definen y se ilustran varias medidas útiles de variabilidad.
Una medida muy sencilla de variabilidad es el rango de la muestra, definido como la diferencia
entre las observaciones más grande y más pequeña.
R = X ( n ) - X (1)
Para el par de muestras en las que se media la resistencia a la tensión dadas anteriormente,
el recorrido de la primera muestra es R = 165 – 130 = 35, mientras que el de la segunda
muestra es R = 205 – 90 = 115. De estos resultados es claro que entre más grande sea el
rango, mayor será la variabilidad de los datos.
El rango de la muestra es fácil de calcular, pero éste ignora toda la información que hay en la
muestra entre las observaciones más grande y más pequeña. Por ejemplo, las muestras 1, 3,
4, 8,9 y 1,5,5,5,9 tienen el mismo recorrido (R = 8). Sin embargo, en la segunda muestra solo
existe variabilidad en los valores de los extremos, mientras que en la primera los tres valores
intermedios cambian de manera considerable. Algunas veces, cuando el tamaño de la
muestra es pequeño, n<10, la pérdida de información asociada con el rango no es muy seria.
Por ejemplo, el rango se utiliza mucho en aplicaciones estadísticas al control de calidad,
donde lo común es utilizar muestras con tamaños de cuatro o cinco. En general, lo que se
desea es tener una medida de variabilidad que dependa de todas las observaciones, más que
de unas cuantas.
Al igual que las observaciones máxima y mínima de una muestran llevan información sobre la
variabilidad, el rango intercuartílico, RIC = Q3 – Q1, puede emplearse como medida de
variabilidad. El rango intercuartílico es menos sensible a los valores extremos de la muestra,
que el rango muestral ordinario.
Las unidades de medición de la varianza muestral son iguales al cuadrado de las unidades
con que se mide la variable. De esta manera, si x se mide en libras por pulgada cuadrada
(psi), las unidades de varianza muestral son (psi)2. La desviación estándar tiene la deseable
propiedad de medir la variabilidad en las unidades originales de la variable de interés, x.
75 89 66 52 90 68 83 94 77 60 38 47 87 65 97 49 65 72 73 81
63 77 31 88 74 37 85 76 74 63 69 72 91 87 76 58 63 70 72 65
Cuando la población es finita y está formada por N valores, la varianza poblacional puede
definirse como
N
∑ ( X i − X )2
σ2 = i =1
N
Anteriormente se dijo que la media muestral puede emplearse para hacer inferencias sobre la
media poblacional. De manera similar, la varianza muestral puede utilizarse para hacer
inferencias sobre la varianza poblacional.
Nótese que el denominador para la varianza muestral es el tamaño de la muestra menos uno
(n-1), mientras que para la varianza poblacional es el tamaño de la población N. Si fuese
posible conocer el verdadero valor de la media poblacional µ , entonces la varianza
muestral podría calcularse como el promedio de los cuadrados de las desviaciones alrededor
de µ de las observaciones de la muestra. En la práctica, el valor de µ casi nunca se
conoce, de modo que en lugar de lo anterior debe emplearse la suma de los cuadrados de las
desviaciones alrededor del promedio de la muestra, X . Sin embargo, las observaciones Xi
tienden a estar más cerca del promedio de la muestra, X , que la media poblacional µ .
Cap 1-Estadistica Descriptiva 10
Por consiguiente, para compensar esto se utiliza n-1 como denominador, en lugar de n. Si se
utilizara n como denominador en la varianza muestral S2, entonces se obtendría una medida
de variabilidad que es, en promedio, más pequeña que la verdadera varianza poblacional σ 2
.Otra manera de pensar lo anterior es considerar la varianza muestral S2 como basada en n-1
grados de libertad. El término grados de libertad proviene del hecho de que la suma de las n
desviaciones X 1 − X , X 2 − X ,… , X n − X siempre es cero, de modo que la especificación
de cualesquiera n – 1 de estas cantidades determina de manera automática la restante. Por
tanto, sólo n-1 de las desviaciones, X i − X , están determinadas de manera arbitraria.
S
Definición: El coeficiente de variación muestral es CV = × 100
X
Ejemplo: Con un micrómetro, se realizan mediciones del diámetro de un balero, que tienen
una media de 4.03 mm y una desviación estándar de 0.012 mm; con otro micrómetro se
toman mediciones de la longitud de un tornillo, que tiene una media de 1.76 pulgadas y una
desviación estándar de 0.0075 pulgadas. Los coeficientes de variación son
S 0.012
CVBalero = × 100 = × 100 = 0.3
X 4.03
S 0.0075
CVTornillo = × 100 = × 100 = 0.4
X 1.76
Ejercicios
1- Los datos siguientes son mediciones de intensidad solar directa (en watts/m2) realizadas
en distintos días en una localidad del sur de México: 562, 869, 708, 775, 775, 704, 809, 856,
655, 806, 878, 909, 918, 558, 768, 870, 918, 940, 946, 661, 820, 898, 935, 852, 957, 639,
835, 905, 939, 955, 960, 498, 653, 730y 753. (a)Construya un histograma para estos datos (b)
Obtenga el promedio de intensidad solar que reciben las distintas localidades del sur de
México. (c) Obtenga la desviación estándar y la mediana.
Cap 1-Estadistica Descriptiva 11
2- Construya un diagrama de tallo y hoja en pantalla para estos datos.
Los datos siguientes representan el número de ciclos transcurridos hasta que se presenta una
falla en una prueba de piezas de aluminio sujetas a un esfuerzo alternante repetido de 21000
psi, a 18 ciclos por segundo:
1115 1567 1223 1782 1055 798 1016 2100 910 1501
1310 1883 375 1522 1764 1020 1102 1594 1730 1238
1540 1203 2265 1792 1330 865 1605 2023 1102 990
1502 1270 1910 1000 1608 2130 706 1315 1578 1468
1258 1015 1018 1820 1535 1421 2215 1269 758 1512
1315 845 1452 1940 1781 1109 785 1260 1416 1750
1085 1674 1890 1120 1750 1481 885 1888 1560 1642
3 – PEMEX investiga el tiempo de arranque en frío del motor de un auto de prueba con
gasolina Premium y obtiene los siguientes tiempos en segundos:
Ingeniero A: 6 10 6 8 7 8 9 10
Ingeniero B: 6 8 10 8 6 10 6 10
Analice las calificaciones obtenidas por cada uno y decida cual de los dos debería ser
ascendido por la empresa para el puesto gerencial vacante.