You are on page 1of 7

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

FACULTAD DE QUÍMICA • ESTADÍSTICA


EJEMPLOS Y EJERCICIOS • GRUPO 19 • 2019-2

MEDIDAS DE TENDENCIA CENTRAL.


Media muestral.
Para un conjunto dado de números x1 , x2 , ..., xn , la medida más conocida y útil del centro es la media o promedio
aritmético del conjunto. Como casi siempre se pensará que los números xi constituyen una muestra, a menudo se
hará referencia al promedio aritmético como la media muestral y se le denotará por x.

DEFINICIÓN: La media muestral x de las observaciones x1 , x2 , ..., xn está dada por


x1 + x2 + ... + xn Pn xi
x= = i=1
n n
P
El numerador de x se escribe más informalmente como xi , donde la suma incluye todas las observaciones
muestrales.

EjemploS.
I.- El agrietamiento de hierro y acero provocado por corrosión producida por esfuerzo cáustico ha sido estudiado
debido a las fallas que se presentan alrededor de los remaches en calderas de acero y fallas de rotores de turbinas
de vapor. Considérense las observaciones adjuntas de x = longitud de agrietamiento (µm) derivadas de pruebas
de corrosión con esfuerzo constante en probetas de barras pulidas sometidas a tensión durante un periodo fijo. (Los
datos concuerdan con un histograma y cantidades resumidas tomadas del artı́culo “On the Role of Phosphorus in
the Caustic Stress Corrosion Cracking of Low Alloy Steels”, Corrosion Science, 1989: 53-68.)
x1 = 16,1, x2 = 9,6, x3 = 24,9, x4 = 20,4, x5 = 12,7, x6 = 21,2, x7 = 30,2
x8 = 25,8, x9 = 18,5, x10 = 10,3, x11 = 25,3, x12 = 14,0, x13 = 27,1, x14 = 45,0
x15 = 23,3, x16 = 24,2, x17 = 14,6, x18 = 8,9, x19 = 32,4, x20 = 11,8, x21 = 28,5
Construya la gráfica de tallo y hojas y luego compare con el valor de la media muestral.

II.- Una muestra aleatoria simple de cinco hombres se elige de entre una gran población de hombres y se mide
su estatura. Las cinco cifras de estatura (en pulgadas) son: 65.51, 72.30, 68.31, 67.05 y 70.68. Calcule la media
muestral.

III.- Un cientı́fico mide diez veces el diámetro de un cilindro y obtiene los valores 3.88, 4.09, 3.92, 3.97, 4.02,
3.95, 4.03, 3.92, 3.98 y 4.06 centrı́metros (cm). Calcule la media aritmética de estas mediciones.

IV.- El número de cafeterı́as Starbucks en 18 ciudades a no más de 20 millas de la Universidad de California, en


Riverside, se muestra en la tabla siguiente.
16, 7, 2, 6, 4, 1, 7, 1, 1, 1, 3, 2, 11, 1, 5, 1, 4, 12

a. Calcule la media, la mediana y la moda.

b. Compare la mediana y la media. ¿Qué puede usted decir acerca de la forma de esta distribución?

c. Trace una gráfica de puntos para los datos. ¿Esto confirma la conclusión de usted acerca de la forma de la
distribución para el inciso b)?

1
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE QUÍMICA • ESTADÍSTICA
EJEMPLOS Y EJERCICIOS • GRUPO 19 • 2019-2

Mediana.
La palabra mediana es sinónimo de medio y la mediana muestral es en realidad el valor medio una vez que
se ordenan las observaciones de la más pequeña a la más grande. Cuando las observaciones están denotadas por
x1 , ..., xn , se utilizará el sı́mbolo x̃ para representar la mediana muestral. El propósito de la mediana de la muestra
es reflejar la tendencia central de la muestra de manera que no sea influida por los valores extremos.

DEFINICIÓN: Dado que las observaciones en una muestra son x1 , x2 , ..., xn , acomodadas en orden de magnitud
creciente, la mediana de la muestra es
xn si n es impar


 2+1



x̃ =
 1 x n + x n  si n es
 par
 2

+1
2 2

EjemploS.
I.- Se utiliza cierto polı́mero para los sistemas de evacuación de los aviones. Es importante que el polı́mero sea
resistente al proceso de envejecimiento. Se utilizaron veinte especı́menes del polı́mero en un experimento. Diez se
asignaron aleatoriamente para exponerse a un proceso de envejecimiento acelerado del lote, el cual implica la expo-
sición a altas temperaturas durante 10 dı́as. Se hicieron las mediciones de resistencia a la tensión de los especı́menes
y se registraron los siguientes datos sobre resistencia a la tensión en psi (libra de fuerza por pulgada cuadrada) .

Resistencia a la tensión.
Sin envejecimiento: 227 222 218 217 225 218 216 229 228 221
Con envejecimiento: 219 214 215 211 209 218 203 204 201 205

a) Elabore la gráfica de puntos de los datos.

b) ¿En la gráfica que obtuvo parece que el proceso de envejecimiento tuvo un efecto en la resistencia a la tensión
de este polı́mero? Explique su respuesta.

c) Calcule la resistencia a la tensión de la media de la muestra en las dos muestras.

d ) Calcule la mediana de ambas. Analice la similitud o falta de similitud entre la media y la mediana de cada
grupo

II.- El riesgo de desarrollar deficiencia de hierro es especialmente alto durante el embarazo. El problema con la
detección de tal deficiencia es que algunos métodos para determinar el estado del hierro pueden ser afectados por el
estado de gravidez mismo. Considérense las siguientes observaciones ordenadas de concentración de receptores de
transferrina de una muestra de mujeres con evidencia de laboratorio de anemia por deficiencia de hierro evidente
(“Serum Transferrin Receptor for the Detection of Iron Deficiency in Pregnancy”, Amer. J. of Clinical Nutrition, 1991:
1077-1081):
7.6, 8.3, 9.3, 9.4, 9.4, 9.7, 10.4, 11.5, 11.9, 15.2, 16.2, 20.4
1) Calcule el valor medio y la media muestral de los datos.

2) Calcule el valor medio y la media muestral de los datos sin considerar la última observación.

2
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE QUÍMICA • ESTADÍSTICA
EJEMPLOS Y EJERCICIOS • GRUPO 19 • 2019-2

Moda.
La moda es la categorı́a que se presenta con más frecuencia o el valor de x que se presenta con más frecuencia.
Cuando las mediciones en una variable continua se han agrupado como histograma de frecuencia o de frecuencia
relativa, la clase con el pico más alto o frecuencia se llama clase modal, y el punto medio de esa clase se toma como
la moda.

EjemploS.
I.- En el artı́culo “Evaluation of Low-Temperature Properties of HMA Mixtures” (P. Sebaaly, A. Lake y J. Epps,
en Journal of Transportation Engineering, 2002:578-583) se midieron los siguientes valores de la tensión de fractura
(en megapascales) para una muestra de 24 mezclas de asfalto mezclado caliente (HMA).
30, 75, 79, 80, 80, 105, 126, 138, 149, 179, 179, 191, 223, 232, 232, 236, 240, 242, 245, 247, 254, 274, 384, 470
Calcule la moda de los datos anteriores.

II.- Un reproductor de discos de video es un aparato común en casi todas las casas en Estados Unidos. De hecho,
casi todas las familias los tienen y muchas tienen más de uno. Una muestra de 25 familias produjo las siguientes
mediciones en x, el número de los DV D en la casa:
DV D por familia.
1 0 2 1 1
1 0 2 1 0
0 1 2 3 2
1 1 1 0 1
3 1 0 1 1

a. La distribución de x, el número de los DV D en una familia, ¿es simétrica o sesgada? Explique.

b. Calcule la media, la mediana y la moda para estas mediciones.

c. Trace un histograma de frecuencia relativa para el conjunto de datos. Localice la media, mediana y moda a lo
largo del eje horizontal. ¿Las respuestas a los incisos a) y b) son correctas?

III.- En la representación de tallo y hoja de abajo se muestra el número de muertes en accidentes de tránsito en
2005 relacionados con el alcohol en los 50 estados y Washington, D.C. Calcule la media, la mediana y la moda de las
muertes relacionadas con el alcohol dadas en el diagrama.
Diagrama de tallo y hoja.
14 0 22334556667889
23 1 122255778
7 2 0334689
21 3 124679
15 4 22669
10 5 012448
4 6 3
3 7
3 8
3 9
3 10
3 11
3 13
3 14 7
2 15 6
1 16
1 17 1

Nota: La unidad de la hoja es 10.

3
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE QUÍMICA • ESTADÍSTICA
EJEMPLOS Y EJERCICIOS • GRUPO 19 • 2019-2

MEDIDAS DE POSICIÓN.
Las medidas de posición se utilizan para describir la posición que un dato especı́fico posee en relación con el
resto de los datos cuando están en orden por categorı́as. Cuartiles y percentiles son dos de las medidas de posición
más populares.

Cuartiles.
Son valores de la variable que dividen los datos ordenados en cuartos; cada conjunto de datos tiene tres cuartiles.
El primer cuartil, Q1 , es un número tal que a lo sumo 25 % de datos son menores en valor que Q1 y a lo sumo 75 %
son mayores. El segundo cuartil es la mediana Q2 = x̃ = M e. El tercer cuartil, Q3 , es un número tal que a lo sumo
75 % de los datos son menores en valor que Q3 y a lo sumo 25 % son mayores.

El procedimiento para determinar los valores de los cuartiles es el mismo que para percentiles y se muestra en
la siguiente descripción de percentiles. Recuerde que sus datos deben estar clasificados de menor (L) a mayor (H).

Percentiles.
Son los valores de la variable que dividen un conjunto de datos clasificados en 100 subconjuntos iguales; cada
conjunto de datos tiene 99 percentiles. El k − ésimo percentil, Pk , es un valor tal que a lo sumo k % de los datos son
menores en valor que Pk y a lo sumo (100–k) % de los datos son mayores.

Notas:

1. El primer cuartil y el 25avo percentil coinciden; es decir, Q1 =P25 . También, Q3 = P75 .

2. La mediana, el segundo cuartil, y el 50avo percentil son todos lo mismo: x̃ = Q2 = P50 . Por tanto, cuando se
requiera calcular P50 o Q2 , usamos el procedimiento para hallar la mediana.

El procedimiento para determinar el valor de cualquier k − ésimo percentil (o cuartil) comprende cuatro pasos
básicos:

1.- Ordenar los datos de menor a mayor.


nk
2.- Calcular
100
nk
3.- a) Si resulta un número entero A, entonces se considera A.5.
100
4.- a) Luego, Pk está a la mitad entre el valor de los datos de la A − ésima posición y la siguiente ( Se calcula el
punto medio con las observaciones de dichas posiciones ).
nk
3.- b) Si resulta un número con decimal, entonces se considera el entero más grande (B).
100
4.- b) Luego, Pk es el valor de los datos de la B − ésima posición.

4
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE QUÍMICA • ESTADÍSTICA
EJEMPLOS Y EJERCICIOS • GRUPO 19 • 2019-2

Ejemplo.
Usando la muestra de 50 calificaciones del examen final de estadı́stica que aparecen en la tabla de abajo, calcule
el primer cuartil, Q1 ; el 58avo percentil,P58 ; y el tercer cuartil, Q3 .

Calificaciones del examen final de Estadı́stica.


60 47 82 95 88 72 67 66 68 98 90 77 86
58 64 95 74 72 88 74 77 39 90 63 68 97
70 64 70 70 58 78 89 44 55 85 82 83
72 77 72 86 50 94 92 80 91 75 76 78

MEDIDAS DE DISPERSIÓN.
Ası́ como hay muchas medidas de tendencia central o de localización, hay muchas medidas de dispersión o va-
riabilidad. Quizá la más sencilla sea el rango de la muestra. Un defecto del rango, no obstante, es que depende de
sólo las dos observaciones más extremas y hace caso omiso de las posiciones de los n − 2 valores restantes, es decir,
podemos encontrar muestras tienen rangos idénticos, aunque cuando se toman en cuenta las observaciones entre los
dos extremos, existe mucho menos variabilidad o dispersión en la segunda muestra que en la primera (o viceversa).

DEFINICIÓN: El rango, R, de un conjunto de n mediciones se define como la diferencia entre la medición más
grande y la más pequeña, es decir, R = Rango = Xmáx − Xmı́n .

Las medidas principales de variabilidad implican las desviaciones de la media, x1 − x, x2 − x, ..., xn − x. Es decir,
las desviaciones de la media se obtienen restando x de cada una de la n observaciones muestrales. Una desviación
será positiva si la observación es más grande que la media (a la derecha de la media sobre el eje de medición) y ne-
gativa si la observación es más pequeña que la media. Si todas las desviaciones son pequeñas en magnitud, entonces
todas las xi se aproximan a la media y hay poca variabilidad. Alternativamente, si algunas de las desviaciones son
grandes en magnitud, entonces algunas xi quedan lejos de x lo que sugiere una mayor cantidad de variabilidad.

DEFINICIÓN: La varianza de una muestra de n mediciones es la suma de las desviaciones cuadradas de las
mediciones alrededor la media x dividida entre (n − 1). La varianza muestral se denota con s2 y está dada por la
expresión:
2
Pn (xi − x)
s2 = i=1
n−1
Mientras que la varianza muestral es una cantidad importante, tiene una seria desventaja como una medida de
la dispersión. Sus unidades no son las mismas que las unidades de los valores de la muestra; éstas tienen unidades
al cuadrado. Para obtener una medida de la dispersión cuyas unidades sean las mismas que las de los valores de
la muestra, simplemente se toma la raı́z cuadrada de la varianza. Esta cantidad se denomina desviación estándar
muestral. Se acostumbra denotar a la desviación estándar muestral por la letra s (la raı́z cuadrada de s2 ).

DEFINICIÓN: La desviación estándar es una cantidad que mide el grado de dispersión en una muestra. La
desviación estándar de un conjunto de mediciones es igual a la raı́z cuadrada positiva de la varianza.

s = s2

Los conjuntos de datos pueden tener el mismo centro pero con aspecto diferente por la forma en que los números
se dispersan desde el centro.

5
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE QUÍMICA • ESTADÍSTICA
EJEMPLOS Y EJERCICIOS • GRUPO 19 • 2019-2

EjemploS.
I.- Un ingeniero se interesa en probar el sesgo en un medidor de pH. Los datos se recaban con el medidor
mediante la medición del pH de una sustancia neutra (pH = 7.0). Se toma una muestra de tamaño 10 y se obtienen
los siguientes resultados:
7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08

Calcule la varianza de la muestra y la desviación estándar para los datos de pH.

II.- La cantidad de luz reflejada por las hojas ha sido utilizada para varios propósitos, incluidas la evaluación del
color del césped, la estimación del estado del nitrógeno y la medición de la biomasa. El artı́culo (“Leaf Reflectance-
Nitrogen-Chlorophyll Relations in Buffel-Grass”, Photogrammetric Engr. and Remote Sensing, 1985: 463-466) dio las
siguientes observaciones obtenidas por medio de espectrofotogrametrı́a, de la reflexión de las hojas en condiciones
experimentales.

Observaciones obtenidas por medio de espectrofotogrametrı́a.


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
15.2 16.8 12.6 13.2 12.8 13.8 16.3 13.0 12.7 15.8 19.2 12.7 15.6 13.5 12.9

Calcule lo siguiente:

a. El rango muestral.

b. La varianza muestral s2 a partir de la definición (es decir, calculando primero las desviaciones y luego elevándo-
las al cuadrado, etcétera).

c. La desviación estándar muestral.

d. s2 utilizando el método más corto.

Gráfica de Caja y Bigotes ( o bien, Diagrama de Caja ).


Un diagrama de caja constituye una gráfica que incluye la mediana, el primero y el tercer cuartil y cualquier dato
atı́pico que se presente en una muestra. Los diagramas de caja consideran cierta terminologı́a. El rango intercuartil
(RI) es la diferencia entre el tercer y el primer cuartil. Observe que debido a que 75 % de los datos son menores que
el tercer cuartil y que 25 % de los datos son menores que el primer cuartil, la mitad de los datos está entre el primero
y el tercer cuartil. Por tanto, el rango intercuartil representa la distancia necesaria para atravesar la mitad de los datos
de en medio.

Los datos atı́picos se consideran como puntos que son inusualmente grandes o pequeños. Considerando que RI
denota el rango intercuartil (rango intercuatı́lico), entonces con el propósito de dibujar diagramas de caja, cualquier
punto que está a más de 1,5 × RI por arriba del tercer cuartil, o que está a más de 1,5 × RI por debajo del primer
cuartil, se considera un dato atı́pico.

6
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE QUÍMICA • ESTADÍSTICA
EJEMPLOS Y EJERCICIOS • GRUPO 19 • 2019-2

Pasos para la construcción de un diagrama de caja.

1.- Calcule la mediana, el primero y tercer cuartil de la muestra. Indique éstos con lı́neas horizontales. Dibuje
lı́neas verticales para completar la caja.

2.- Determine el valor de la muestra más grande que no esté a más de 1,5×RI arriba del tercer cuartil y el valor de
la muestra más pequeño que no esté a más de 1,5 × RI debajo del primer cuartil. Extienda lı́neas verticales (bigotes)
desde las lı́neas de los cuartiles a estos puntos.

3.- Puntos a más de 1,5 × RI arriba del tercer cuartil, o a más de 1,5 × RI por debajo del primer cuartil, se deno-
minan datos atı́picos. Dibuje cada dato atı́pico por separado.

EjemploS.
I.- Se midió el contenido de nicotina en una muestra aleatoria de 40 cigarrillos. Los datos se presentan en la tabla
siguiente.

Valores de nicotina .
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97
0.85 1.24 1.58 2.03 1.70 2.17 2.55 2.11
1.86 1.90 1.68 1.51 1.64 0.72 1.69 1.85
1.82 1.79 2.46 1.88 2.08 1.67 1.37 1.93
1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69

Construya una gráfica de caja para los datos y determmine los resultados atı́picos. Interprete sus resultados.

II.- A medida que los consumidores estadounidenses tienen más cuidado con los alimentos que consumen, los
procesadores de alimentos tratan de ser competitivos al evitar cantidades excesivas de grasa, colesterol y sodio en los
alimentos que venden. Los datos siguientes son las cantidades de sodio por rebanada (en miligramos) para cada una
de ocho marcas de queso regular estadounidense. Construya una gráfica de caja para los datos y busque resultados
atı́picos.
340, 300, 520, 340, 320, 290, 260, 330

You might also like