Professional Documents
Culture Documents
I UNIDAD
ESTADSTICA DESCRIPTIVA
Pgina 1
PROBABILIDAD Y ESTADSTICA
PROBABILIDAD Y ESTADSTICA
I: ESTADSTICA DESCRIPTIVA
1.1 INTRODUCCIN, NOTACIN SUMATORIA
La estadstica estudia los procedimientos y tcnicas para recolectar los datos relativos a las caractersticas (variables) de inters, organizarlos, representarlos y analizarlos. Esto sirve de base para tomar decisiones en las situaciones de incertidumbre que plantean las ciencias sociales o naturales. En Estadstica usualmente interesa conocer algo sobre una caracterstica (variable) de un grupo grande (poblacin), examinando nicamente algunos de sus elementos (muestra). Para su estudio la estadstica se clasifica en: Estadstica Descriptiva y Estadstica Inferencial. La Estadstica Descriptiva se refiere a los mtodos de recoleccin, ordenamiento, clasificacin, presentacin, anlisis e interpretacin de un conjunto de datos, con el fin de resumir stos con uno o dos elementos de informacin que describan apropiadamente las caractersticas de ese conjunto. La Estadstica Inferencial se refiere al proceso de generalizar las caractersticas del conjunto de datos muestreado (muestra) a toda la poblacin, lo cual lleva implcito una serie de riesgos, analizados al estudiar la estadstica inferencial. Algunos trminos de uso frecuente en estadstica son: Datos son las observaciones recolectadas. Estos forman un conjunto de datos para cada caracterstica (variable). En general, forman el conjunto de los n datos . Datos es sinnimo de muestra. Ejemplo 1.1.- Los datos relativos a las estaturas, en centmetros, de cinco estudiantes de probabilidad, son: Variables son las caractersticas que se desea estudiar de una poblacin. Es usual denotarlas con letras maysculas, por ejemplo: X, X1, X2, Y, Z, etc. Ejemplo 1.2.- Son variables cuantitativas: la edad, la estatura, el ingreso de una persona, etc.; y son variables cualitativas: el sexo, nmero de filiacin al IMSS, la preferencia por un partido poltico, etc. Poblacin es el conjunto completo de todos los elementos de inters para un estudio.
Jaime Hernndez Mata Pgina 3
PROBABILIDAD Y ESTADSTICA
Muestra es un subconjunto de la poblacin, donde los datos estn tomados aleatoriamente. Datos es sinnimo de muestra. Muestreo aleatorio es aquel en el cual todos los elementos de la poblacin tienen igual posibilidad de ser elegidos para la muestra. Parmetro es un valor que se refiere a una caracterstica de una poblacin. Estadstico es un valor que se refiere a una caracterstica de una muestra. Anlisis estadstico es el proceso completo de organizacin, procesamiento, reduccin e interpretacin de los datos para realizar inferencias.
TIPOS DE DATOS Otro aspecto importante usado en la estadstica es el tipo de datos. Los datos estadsticos pueden ser cualitativos y cuantitativos Datos cualitativos son datos no numricos. Tambin son llamados datos categricos o de atributos. Ejemplo 1.3.- Son datos cualitativos: 1) la marca de un producto, los meses del ao, el nmero de la cartilla militar, el numero de control de los alumnos de los Institutos Tecnolgicos, etc. Debemos notar que los nmeros de cartilla y de control de alumnos en realidad no son nmeros como tales, ya que no se suman, ni se les saca un promedio, y solo son un cdigo. Estos datos cualitativos se asocian a variables que, en consecuencia, son variables cualitativas. Datos cuantitativos son datos numricos. Estos pueden ser de dos tipos: discretos y continuos. Datos discretos son aquellos que resultan de un conteo. Los datos discretos se asocian a variables que por lo tanto son llamadas variables discretas. En general, podemos decir que son nmeros que definen exactamente el valor del dato. Ejemplo 1.4.- Son variables y datos discretos
1) El nmero de habitantes por casa ( X= 0, 1, 2, 3, 11), 2) el nmero de autos vendidos diariamente en una agencia (X= 0,1, 2,..23), 3) El nmero de artculos defectuosos fabricados en una lnea de produccin (X= 0, 1, 2, 3, 4, ..8), etc.
Datos continuos son aquellos que resultan de una medicin. Estos datos son asociados a variables llamadas variables continuas.
4
PROBABILIDAD Y ESTADSTICA
En general, podemos decir que son nmeros que definen aproximadamente el valor del dato, as por ejemplo, la distancia recorrida diariamente por un taxi es un valor continuo porque la medicin estar dentro de un intervalo, digamos entre 200 km y 1000 km, que aproximamos anotando, por ejemplo, 667.8 km, es decir, que al hacer esto lo estamos discretizando. Pero no debemos perder de vista que es la medicin de una distancia y, por ende, es de tipo continuo, que ha sido aproximado a un valor, pero que lo ms probable es que sea otro tal como, digamos, 667.812345km.
REDONDEO otro aspecto importante es el redondeo de datos. El resultado de redondear 234.7 a la unidad ms cercana, es 235, debido a que est ms cerca de 235 que de 234. Igualmente, redondear 367.4513 a centsimas (dos decimales) resulta en 367.45, y redondear $ 137, 250, 000 a millones resulta en $137 millones. Cuando el digito a redondear es el 5 entonces se redondea al nmero par ms cercano. As, por ejemplo, el resultado de redondear a dcimas 146.65 es 146.6, y el de redondear 147.75 es 147.8. NOTACIN SUMATORIA, . La notacin sumatoria, denotada con la letra griega sigma mayscula, , se usa para indicar de manera general las sumas algebraicas de los datos. Es muy til cuando los datos son muchos. Para sumar los n datos de un conjunto X , usamos la notacin . Si no se causa confusin alguna puede usarse solamente , es decir:
en vez de
EJEMPLO 1.6.- Consideremos el siguiente conjunto de datos: , el cual puede representarse simblicamente como , (donde: x1=8, x2=3, x3=2; x4=4 y x5=7), entonces la sumatoria de los 5 datos (n=5) se representa y determina como sigue:
Pgina 5
PROBABILIDAD Y ESTADSTICA
= 8 + 3 + 2 + 4 + 7 = 24
= 82 + 32 + 22 + 42 + 72 = 142
2.
La sumatoria de una constante es igual que sumar la constante a s misma tantas veces como lo indique la sumatoria
3.
Propiedad distributiva.- cuando se multiplica cada uno de los trminos que componen una suma por la misma constante, es posible primero efectuar la suma de los trminos y luego multiplicar el resultado por la constante.
PROBABILIDAD Y ESTADSTICA
a) LA MEDIA, : La media aritmtica, o simplemente la media o promedio, es un valor estadstico que equilibra los datos menores y mayores que ella, cuando estos imaginariamente son puestos en un sube y baja. En la siguiente figura 1.1 se puede apreciar esto, donde la media de 5 datos es 7.2.
Ejemplo 1.7.-: La media del conjunto de datos: X = {4, 10, 5, 5, 12}, es:
LA MEDIA PONDERADA, es la media aritmtica cuando el dato x1 tiene un peso o una frecuencia f1, el dato x2 tiene un peso o una frecuencia f2, , y xn tiene un peso o frecuencia fn, de modo que la media ponderada puede calcularse por: ec. 1.2
Ejemplo 1.8.- El pasado semestre Juan y Luis cursaron el mismo nivel escolar. Las calificaciones obtenidas por ellos, as como los crditos de las asignaturas aparecen en la siguiente tabla:
Crditos 10 6 4 10
PROBABILIDAD Y ESTADSTICA
Para ambos, la media sin ponderar es la misma, puesto que el conjunto de calificaciones es el mismo para los dos, y es:
Pero el promedio ponderado por el nmero de crditos es: Para Juan: Para Luis:
Como puede verse, el promedio es 85 para ambos, pero el promedio ponderado es diferente para ellos, en razn de la importancia de los crditos de cada materia.
b) LA MEDIANA, : Cuando los datos estn ordenados por magnitud, la mediana es el valor central que divide a los datos en dos partes iguales, es decir, es el valor que divide los datos en 50% menores que ella y 50% mayores que ella. Hay dos casos: a) Cuando n es impar: la mediana,
, es el valor central, es decir:
ec. 1.3
Ejemplo 1.9.-En {4, 5, 5, 10, 12}, la mediana es Esto indica que hay 50% de datos menores o iguales a datos mayores o iguales que . y 50% de
b) Cuando n es par: la mediana es la media de los dos datos centrales. ec. 1.4
PROBABILIDAD Y ESTADSTICA
Este valor indica que hay 50% de datos menores o iguales a 50% de datos mayores o iguales a
c) LA MODA, : La moda es el valor ms frecuente en un conjunto de datos, es decir, es el que se repite ms veces. Un conjunto de datos puede no tener moda (amodal), tener una moda (unimodal), dos modas (bimodal) o varias modas (polimodal). As: Ejemplo 1.11: en X = {4, 5, 10, 12}, el conjunto es amodal,
en y en X = {4, 5, 5, 10, 12}, la moda es , .X = {4, 5, 5, 10, 12, 12, 15}, hay dos modas: y .
PROBABILIDAD Y ESTADSTICA
4.75 As entonces, al 25 % de los datos del conjunto X son menores o iguales que el valor 4.75.
Ahora se generaliza la frmula del percentil: La posicin del percentil j es: Y la magnitud del percentil j es: ec. 1.6
Donde ent(valor) indica el subndice, y es solo la parte entera del (valor)
pos=
ec. 1.5
Deciles. Los deciles son 9, D1, D2, , D9, y dividen a los datos ordenados por magnitud en 10 partes iguales, cada una con el 10% de los casos. El decil siete, denotado D7, nos indica el valor del cual 7 dcimas partes de los datos son menores o iguales que el D7, y que 3 dcimas partes son mayores que l. Para calcular los deciles tmese en cuenta que: D1=P10, D2 = P20, ,D9 = P90. Cuartiles. Los cuartiles son 3: Q1, Q2, y Q3. Cuando los datos estn en orden de magnitud, los cuartiles los dividen en 4 partes iguales, , cada una con el 25% de los casos. Para calcular los cuartiles considrese que: Q1= P25, Q2 = P50 = , y Q3 = P75.
ec 1.7
El rango puede dejarse indicado con los dos valores extremos del conjunto de datos, a fin de recordar entre qu valores se encuentran estos, o bien, puede
10
PROBABILIDAD Y ESTADSTICA
LA DESVIACIN,
, es una de las medidas de dispersin ms importantes de la estadstica, y es la distancia que tiene cada dato respecto de la media . ec 1.9 Una desviacin negativa significa que el dato se encuentra a la izquierda de la media, y una desviacin positiva significa que el dato se encuentra a la derecha de la media. La desviacin tiene la propiedad de que la suma de las desviaciones es cero: ec 1.10
LA DESVIACIN MEDIA, dm, tambin llamada desviacin promedio, es el promedio del valor absoluto de las desviaciones, es decir: ec 1.11 LA DESVIACIN ESTNDAR. Puede decirse que la desviacin estndar es una medida de desviacin de los datos que es semejante a la desviacin media. La desviacin estndar, s, de una muestra, se define como: ec 1.12 Una formula abreviada para calcular la desviacin estndar, que ayuda a simplificar los clculos, especialmente cuando la media tiene decimales, es: ec 1.13 La desviacin estndar, , de una poblacin, se define como: ec 1.14 Donde es la media de la poblacin.
Jaime Hernndez Mata Pgina 11
PROBABILIDAD Y ESTADSTICA
ec 1.15 LA VARIANZA se define como el cuadrado de la desviacin estndar. As, la varianza tiene las unidades al cuadrado. En una muestra, la varianza, , es: ec 1.16 Cuya frmula abreviada es: ec 1.17 EN una poblacin, la varianza, , es: ec 1.18 Cuya frmula abreviada es: ec 1.19
COEFICIENTE DE VARIACIN,
, de Pearson.
Es la medida de dispersin relativa ms usada. Se define como la relacin de la desviacin estndar respecto a la media, y es adimensional. Para una muestra: Para una poblacin: ec 1.20 ec 1.21
El coeficiente de variacin tiene la desventaja de que cuando las medias (divisor) tienen un valor cercano a cero, el CV tiende a ser muy grande.
PROBABILIDAD Y ESTADSTICA
la desviacin de cada dato, c) la desviacin promedio, d) la desviacin estndar, e) la varianza, y f) el coeficiente de variacin.
SOLUCIN:
a)
b) :
Lo cual significa que, de los das muestreados, el primero y quinto da se vendieron 2.2 tvs por abajo del promedio de 7.2 tvs, que el segundo da se vendieron 4.8 tvs por arriba del promedio, el tercer da muestreado 3.2 tvs menos que el promedio y el cuarto da muestreado se vendieron 2.8 tvs ms que en un da promedio. c) La desviacin media es:
Que significa que, en promedio, se vendieron 3.04 tvs por arriba o por debajo de la media de 7.2 tvs. Es decir, es la diferencia o desviacin promedio respecto de la media.. d) La desviacin estndar para una muestra es:
TVs
O, por la frmula abreviada 1.17:
TVs
Pgina 13
PROBABILIDAD Y ESTADSTICA
e)
La varianza:
TVs2
f) El coeficiente de variacin:
(o, 174%). El coeficiente de variacin permite comparar las d isp e rsio n e s de dos distribuciones distintas, siempre que sus m ed ia s sean p o sit iva s . La ma yo r d isp e rsi n corresponder al valor del coef icie n te de va ria ci n m a yo r .
= 150 y
= 40. Cul de
(o 400%), (o 375%),
Respuesta: La primera distribucin presenta mayor dispersin.
PROBABILIDAD Y ESTADSTICA
Si la cola mayor est a la derecha de la moda la curva es sesgada a la derecha (sesgo positivo)
Si los datos son equidistantes al mximo central, coinciden media, mediana y moda (sin sesgo)
Si la cola mayor est a la izquierda de la moda la curva es sesgada a la izquierda (sesgo negativo)
Se dice que la asimetra es positiva cuando la mayora de los datos se encuentran concentrados abajo del valor de la media aritmtica, la curva es Simtrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetra negativa cuando la mayor cantidad de datos se aglomeran en los valores mayores que la media. Ejemplo 1.15.- La venta de frutas en una bodega es ejemplo de sesgo
positivo, ya que en fresco estas se venden rpidamente y despus ya muy lentamente. Los salarios diarios tambin tienen sesgo positivo, ya que la mayora de los salarios son pequeos y solo unos pocos sern mayores que la media; en tanto que la venta de casas en un nuevo fraccionamiento suele tener sesgo negativo, ya que al principio las casas se venden muy lentamente.
ec 1.22
Donde representa el coeficiente de asimetra de Fisher, cada uno de los valores, la media de la muestra y la frecuencia de cada valor. Los resultados de esta ecuacin se interpretan como sigue: (-0.50 ( ( 0.50): La distribucin es Simtrica. (Hay aproximadamente igual
cantidad de datos a la izquierda y a la derecha de la media). izquierda que a la derecha de la media.)
> 0.50): La curva tiene sesgo positivo. (Cola derecha. Hay ms datos a la < 0.50): La curva tiene sesgo negativo. (Cola izquierda. Hay ms datos a la derecha que a la izquierda de la media.)
Pgina 15
PROBABILIDAD Y ESTADSTICA
Esta medida determina el grado de concentracin (apuntalamiento) que presentan los valores en la regin central de la distribucin. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentracin de valores (Leptocrtica), una concentracin normal (Mesocrtica) una baja concentracin (Platicrtica).
a) Leptocrtica
c)
c) Platicrtica
ec 1.23
Donde:
muestra y
(
representa el coeficiente de Curtosis, cada uno de los valores, la media de la la frecuencia de cada valor. Los resultados de esta ecuacin se interpretan:
= 0) la distribucin es Mesocrtica: Al igual que en la asimetra es bastante difcil encontrar un coeficiente de Curtosis de cero), por lo que se suelen aceptar los valores cercanos ( 0.5 aprox.). (Los datos tienen una dispersin normal) > 0.5) la distribucin es Leptocrtica. (Los datos tienen poca dispersin) < - 0.5) la distribucin es Platicrtica. (Los datos estn muy dispersos)
( (
Cuando la distribucin de los datos tiene con un coeficiente de asimetra ( = 0.5) y un coeficiente de Curtosis de ( = 0.5), se le denomina Distribucin Normal. Esta es de la mayor importancia en estadstica, ya que para la mayora de los procedimientos de la estadstica inferencial se requiere que los datos se distribuyan normalmente. La ventaja principal de la distribucin normal radica en el supuesto que el 95% de los datos se encuentra dentro de una distancia de dos desviaciones estndar, , desde la media aritmtica (Fig.1.4); y que el 68% de los datos se alejan de la media cuando mucho en una desviacin estndar, , es decir,
16
PROBABILIDAD Y ESTADSTICA
1.2
a) Calcule el presupuesto promedio anual para los ltimos cinco aos (2006-2010). b) Calcule el presupuesto promedio anual para los primeros cinco aos de la gestin de la seora Torres (2001-2005). c) Calcule el presupuesto promedio anual para los 5 aos de su antecesora (19962000) d) Basndose en los resultados que obtuvo en los incisos a), b) y c), podra usted concluir que ha habido una tendencia a aumentar o a disminuir en el presupuesto quinquenal? e) se ahorraron los fondos del municipio durante la administracin de la seora Torres? 1.3. La Compaa Llantas del Pacfico tiene fondos de reserva en valores negociables a corto plazo. El saldo diario de cierre (en millones de dlares) de la cuenta de valores negociables en un lapso de dos semanas es el que mostramos a continuacin: Pgina 17
PROBABILIDAD Y ESTADSTICA
Semana 1 Semana 2
$ 1,973 1,969
$ 1,970 1,892
$ 1,972 1,893
$ 1,975 1,887
$ 1,976 1,895
Cul fue la cantidad promedio invertida en valores negociables durante a) La primera semana? b) La segunda semana? c) El periodo de dos semanas? d) Un saldo promedio en las dos semanas mayor a 1.970 millones de dlares obtendra tasas de rendimiento ms altas. La cuenta recibir mayores intereses? e) Si la respuesta al inciso d) es negativa, cunto debera ascender la cantidad invertida el ltimo da para que la cuenta reciba la tasa de rendimientos ms alta? f) Si la respuesta al inciso d) fue positiva, cunto puede retirar el tesorero de la compaa del fondo de reserva el ltimo da y todava seguir recibiendo la tasa de inters ms alta? 1.4. Mara Prez recorre la parte Occidente de Mxico como representante de ventas del editor de un libro de texto. Recibe una comisin proporcional al volumen de las ventas que haga. Sus ganancias trimestrales durante los ltimos tres aos son las siguientes: 1 er. trimestre $10,000 20,000 30,000 2do. trimestre $ 5,000 10,000 15,000 3er. trimestre $25,000 20,000 45,000 4to. trimestre $15,00 0 10,000 50,000
Ao 1 Ao 2 Ao 3 a) b) c)
Calcule por separado las ganancias promedio de la representante en cada uno de los cuatro trimestres. Calcule por separado las ganancias trimestrales promedio en cada uno de los tres aos. Muestre que la media de las cuatro cantidades que obtuvo en el inciso a) es igual a la media de las tres cantidades que obtuvo en el inciso b). Adems, muestre que estas dos cantidades son iguales a la media de los 12 nmeros que se presentan en la tabla. (sta es la ganancia promedio trimestral que obtuvo la seorita Prez durante un periodo de tres aos.)
1.5.- En la redaccin de un diario, el tiempo requerido para formar la primera pgina completa fue registrado durante 50 das. Los datos, redondeados a la dcima de minuto ms cercana, se dan a continuacin: 19.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1 25.3 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5 23.7 20.3 23.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8 21.3 21.5 23.1 19.9 24.2 24.1 20.8 23.9 22.8 23.9 19.7 24.2 23.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7 Para los datos no agrupados de la tabla dada, obtenga: a) La media, mediana, moda, b) El rango, la varianza y desviacin estndar del tiempo para formar la pgina. c) El percentil 85, el decil 4 y el cuartil 1, y de la interpretacin correspondiente. d) Construya el diagrama de dispersin y anote comentarios. 1.6. Eduardo Lpez, superintendente minero de PC, tiene registro del tiempo muerto, en 18
PROBABILIDAD Y ESTADSTICA
minutos, por turno, en su Seccin de Trabajo, al hacer trabajos in situ de ajustes y reparaciones a su maquinaria. A continuacin se presentan los datos correspondientes a los ltimos 40 turnos de trabajo: 72 66 121 116 99 126 101 93 114 139 110 75 87 107 108 91 93 119 113 128 115 129 111 119 84 60 80 113 102 110 36 112 120 105 80 97 96 100 50 99
Para los datos no agrupados de la tabla dada, obtenga: a) b) c) d) La media, la mediana, y la moda, El rango, la varianza y la desviacin estndar de los tiempos muertos. El percentil 35, el decil 6 y el cuartil 3, y anote su interpretacin, Construya el diagrama de dispersin y anote comentarios.
1.7 Cconsidere los datos de la tabla de abajo, los cuales representan la resistencia a la tensin, en lb/pul2 (psi), de 80 muestras de una nueva aleacin de aluminio y litio, que est siendo evaluada como posible material para la fabricacin de elementos estructurales de aeronaves. Los datos fueron registrados conforme se realizaba la prueba. Resistencia a la tensin de 80 muestras de aleacin de aluminio-litio 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149 Para los datos no agrupados de la tabla dada, obtenga: a) b) c) d) e) La media, mediana, moda. El rango, la varianza y desviacin estndar de la resistencia. El percentil 5, el decil 6 y el cuartil 3, y anote su interpretacin, El diagrama de dispersin La tabla de frecuencias de 8 categoras iguales.
Pgina 19
PROBABILIDAD Y ESTADSTICA
1.2
DATOS AGRUPADOS
Cuando el nmero de datos recolectados en una muestra es grande es conveniente organizarlos y sintetizarlos, construyendo una tabla que enliste los datos, xi, (en forma individual o por grupos) junto con sus frecuencias correspondientes, fi. Esta tabla es llamada Distribucin de Frecuencias. Existe software que puede realizar esta tabla, adems de sus estadsticos y grficos correspondientes. Enseguida se muestra el procedimiento bsico para obtener de forma manual la distribucin de frecuencias, el clculo de sus estadsticos y sus grficos.
$ 1800-1999 12 $ 2000-2199 24 $ 2200-2399 36 $ 2400-2599 50 $ 2600-2799 34 $ 2800-2999 28 $ 3000-3199 16 Total 200 Tabla 1.1: Distribucin de frecuencias de los salarios de 200 trabajadores en las microempresas de la ciudad.
Los trminos usados en las distribuciones de frecuencias, son: Clase, Xi: es un valor o un intervalo de valores de la variable X. En la tabla 1.1 aparecen
7 clases, todas del mismo tamao, $2000, y son las de la primera columna, la (1).
Frecuencia, fi: es el nmero de casos (conteo) que se presentan en la i-sima clase. En la tabla 1.1 aparecen las frecuencias fi en la segunda columna, la (2). Lmites de clase inferiores, LI, son los valores menores de cada clase. En la tabla 1.1 los LCI son: 1800, 2000, 2200, 2400, 2600,2800, y 3000.
20
PROBABILIDAD Y ESTADSTICA
Lmites de clase superiores, LS, son los valores mayores de cada clase. En la tabla 1.1 los LS son: 1999, 2199, 2399, 2599, 2799, 2999, y 3199. Fronteras de clase, F, (o Lmites reales, LR) son los valores usados para separar dos clases contiguas. Para obtener las Fronteras de Clase: 1) Al lmite de clase inferior de la clase i-sima, LIi, restarle el lmite de la clase superior de la categora inmediata anterior, LSi-1, y dividir entre dos, es decir: ec 1.24 2) Para obtener la Frontera inferior de la clase i: El valor aj obtenido por la frmula 1.24, en 1) se resta al lmite inferior de esa clase, y 3) Para obtener la frontera superior de la clase i se suma el valor aj al lmite superior de la clase. Ejemplo 1.16.- Para la segunda clase de la tabla 1.1, las fronteras de clase son: 1)
= 0.5
Nota: la frontera de clase superior de una clase (i) es exactamente la misma que la frontera de clase inferior de la clase siguiente (i+1), ya que es el mismo valor que separa a dos clases contiguas.
Ancho de clase ci (o amplitud, o tamao de la clase): es la diferencia entre las dos fronteras de una clase, o tambin es la diferencia entre los dos lmites de clase inferiores contiguos, o los dos lmites de clase superiores contiguos. ec 1.25 ec 1.26 Marcas de clase, , son los puntos medios de cada clase. La ma rca d e cla se , , e s e l va lo r qu e re p re se nt a a t o do e l int e rva lo de la cla se p a ra el c lcu lo de a lgu n os p a rm e t ro s, e n vi rt u d d e que lo s d a t o s o rigin a le s n o ap a re ce n e n la t a b la d e d ist rib u ci n de f re cu e n cia s.
Pgina 21
PROBABILIDAD Y ESTADSTICA
1 . De cid a e l n mero d e cla se s, k, qu e d e sea te n e r. E s re co me n da b le un n me ro e nt e ro k en t re 5 y 2 0 . Ta mbi n p u ed e u sa rse la re gla d e S t u rge s , p rop u e sta p o r Herbert Sturges en 1926: K= 1 + ln(n) ec. 1.27
Donde k es el nmero de clases, redondearlo al entero ms cercano, y, n es el tamao de la muestra 2 . Ca lcu le e l ta ma o (a n ch u ra ) d e la clase , c: e c . 1 . 28 De t e rm ine c red on d ea n do a u n nm e ro a de cu ad o ma yo r qu e se a f cil d e e n t e nd e r y m a n e ja r, a n cu a nd o se mo d if iqu e e l ra n go . 3 . E st a b le zca co mo p u n to de p a rt id a p a ra e l lm it e inf erio r d e la p rim e ra cla se e l x m i n u o t ro n m e ro a d e cu a do me n o r. 4 . Usa n d o como p u nt o d e pa rt id a e l lm it e in f e rio r d e la p rim e ra cla se , sum a rle la a n chu ra d e la clase , c, un a y o t ra ve z, p a ra o b t en e r t od o s lo s lm it e s inf e rio re s de ca da cla se , a no t n do lo s a la izqu ie rd a d e la p rim e ra co lum na de la t a b la de d ist rib u ci n de f re cu e n cia s. 5 . A n o te lo s lm it e s su p e rio re s d e ca da cla se a la d e rech a , e n la p rim e ra co lu mn a . E st o s pu ed e n o bt en e rse f cilm en t e . 6 . Ha ce r e l co n te o d e lo s da t o s qu e co rre sp o nd e n a ca d a cla se , p a ra a s ob t en e r la s f re cue n cia s f i . 7 . A n o te lo s e n ca b eza d o s d e ca da u na d e la s d o s co lum n a s y e l p ie d e la ta b la. E l re su lt a do e s la t a b la d e Dist rib u ci n d e f re cu e n cia s, (seme ja n te a la t ab la 1.1 ). E J E MP LO 1 . 17 . - A c o n t i n u a c i n s e p r e s e n t a n l a s e d a d e s d e 5 0
p r of e s or e s d e l I n s t i t u t o T ec n o l g i c o de C o l i m a . S e d e s e a a g r u par e s t o s d at o s e n u n a t a b l a d e D i s t r i b u c i n d e Fr e c u e n c i a s . Edades de 51 33 40 60 44 53 28 56 43 55 5 0 p r of es o r e s d e l 56 62 35 38 56 45 52 38 45 31 46 44 28 61 43 ITC 28 48 49 55 39
46 40 36 72 32
37 42 42 26 48
55 40 74 30 31
39 44 42 35 48
Solucin: E n p r i m e r t r m i n o l o s o r d e n a m os p o r m ag n i t u d , r e s u l t a d o q u e a p ar e ce e n l a s ig u i e n t e t a b l a : 22
PROBABILIDAD Y ESTADSTICA
26 35 42 46 55
28 36 42 46 55
E d a d e s d e 5 0 p r of es o r e s d e l I T C 28 28 30 31 31 32 37 38 38 39 39 40 42 43 43 44 44 44 48 48 48 49 51 52 56 56 56 60 61 62
33 40 45 53 72
35 40 45 55 74
5 . A n o t e l o s l m i t e s s u p e r i o r e s d e c a d a c l a s e a l a d e r e c h a , e n l a p r i m e r a c o l u m n a. Es t o s p u e d e n o bt e n er s e f c i l m e n t e. Clase 26 - 35 36 45 46 55 56 65 66 - 75 6. frecuencia
H a c e r e l c o n t e o d e l o s d a t o s q u e c o r r e s p o n d e n a c a d a c la s e , p ar a a s o b t e n e r l a s f r e c u e n c i a s f i . D e l o s d a t o s o r d e n a d os p u e d e h a c e r s e f c i l m e nt e e l c o n t e o : 26 35 42 28 36 42 E d a d e s d e 5 0 p r of es o r e s d e l I T C 28 28 30 31 31 32 37 38 38 39 39 40 42 43 43 44 44 44 33 40 45 35 40 45 Pgina 23
PROBABILIDAD Y ESTADSTICA
46 55
46 55
48 56
48 56 Clase 26 - 35 36 45 46 55 56 65 66 - 75
48 56
49 60
51 61
52 62
53 72
55 74
frecuencia 11 19 12 6 2
7.
A n o t a m o s l o s e n c ab e za d o s d e c a d a un a d e l a s d o s c o l um n a s y e l p i e d e l a t a b l a . E l r e s u l t a d o e s l a t a b l a d e D i s t r i bu c i n d e f r e c u e n c i a s. E d a d d e p r of e s or e s del ITC, Xi 26 - 35 36 45 46 55 56 65 66 - 75 T ot a l N m e r o de p r of e s or e s , f i 11 19 12 6 2 50
T a b l a 1. 2 D i s t r i b u c i n d e f r e c u e nc i a s de l a s e d a d e s d e 5 0 pr of e s o r e s d e l I T C .
Una vez agrupados los datos, se pierde la identidad de cada una de las observaciones del conjunto original. Para ofrecer medidas descriptivas de los datos se salva este inconveniente determinando un representante por clase, que no es ms que el punto medio, , el cual aparece con una frecuencia de fi veces. 1 . 2 .1 . 2 . DISTRIBUCIN DE FRECUENCIAS RELATIVAS La anterior Distribucin de frecuencias tiene una variante importante que es la distribucin de frecuencias relativas. En esta la frecuencia de cada clase se sustituye por la frecuencia relativa, fri, de cada clase, obtenida al dividir la frecuencia fi entre el total de datos, n, es decir: ec. 1.29 La distribucin de frecuencias relativas tambin est formada por solo 2 columnas, en la cual la segunda columna es de las de frecuencias relativas Estas frecuencias relativas, fri, se pueden expresar como cociente, como nmero decimal o como porcentaje, y la suma de ellas es 1 o 100%-.Enseguida aparece la distribucin de frecuencias relativas del ejemplo de las edades de 50 profesores, en sus 3 versiones:
24
PROBABILIDAD Y ESTADSTICA
Edad de p rof e so re s d e l IT C, Xi 2 6 - 35 36 45 46 55 56 65 6 6 - 75 T ot a l
Edad de p rof e so re s d e l IT C, Xi 2 6 - 35 36 45 46 55 56 65 6 6 - 75 T ot a l
Fre cu e n cia re la t iva d e p rof e so re s, fi 0.22 0.38 0.24 0.12 0.04 1.00
T a b l a 1. 3 a . - D i s t r i bu c i n d e f r e c u e n c i a s r e l a t i va s , c om o numero racional.
T a b l a 1. 3 b . - D i s t r i bu c i n d e f r e c u e n c i a s r e l a t i va s , c o m o n m er o d e c im a l
E d a d d e l p rof e so r d e l IT C, (a o s) Xi 2 6 - 35 36 45 46 55 56 65 6 6 - 75 T ot a l
T a b l a 1. 3 c . - D i st r i bu c i n d e f r e c u e n c i as r e l a t i v a s , c om o p or ce n t a j e , d e l a s e d a d e s d e 5 0 p r of es o r e s d e l I T C . .
Es otra variante de la Distribucin de Frecuencias. En sta la frecuencia acumulada de una clase i, Fi, es la suma de las frecuencias previas ms la de la clase i. ec. 1.30 Y en la primera columna desaparecen los lmites superiores, siendo sustituidos por la expresin menor que o por el smbolo <, como se ve enseguida, donde la tabla 1.2 sirve de base para elaborar la tabla 1.4:
Pgina 25
PROBABILIDAD Y ESTADSTICA
Edad de p rof e so re s d e l IT C, X i 2 6 - 35 36 45 46 55 56 65 6 6 - 75 T ot a l
N m e ro d e p rof e so re s, fi 11 19 12 6 2 50
N m e ro d e p rof e so re s, 0 11 30 42 48 50
Es semejante a la distribucin de frecuencias acumuladas expresada ahora la segunda columna como frecuencia relativa acumulada ( ). Esta es relativa al total de datos de la muestra. Convirtiendo la tabla 1.4 de frecuencias absolutas acumuladas a frecuencias relativas acumuladas, expresadas como cociente, queda la siguiente tabla 1.5, o expresada en decimales queda la tabla 1.6:
Frecuencia r e l a t i va acumulada de p r of e s or e s ,
Frecuencia r e l a t i va acumulada de p r of e s or e s ,
< 26 0/50 < 36 11/50 < 46 30/50 < 56 42/50 < 66 48/50 < 76 50/50 T a b l a 1. 5 D i s t r i b u c i n d e f r e c u e n c i a s r e l a t i va s a c um u l a d a s d e l a s e d a d e s d e 5 0 p r of e s o r e s de ITC
< 26 0.00 < 36 0.22 < 46 0.60 < 56 0.84 < 66 0.96 < 76 1.00 T a b l a 1. 6 D i s t r i b u c i n d e f r e c u e n c i a s r e l a t i va s acumuladas de las edades de 5 0 p r of e s o r e s d e I T C
26
PROBABILIDAD Y ESTADSTICA
Cuando no contamos con los datos originales debido a que aparecen agrupados (o en una grfica, tal como un histograma), es posible obtener los valores estadsticos aproximados que nos permitirn tener una mejor idea de las medidas estadsticas de esa muestra. A continuacin se presentan frmulas para calcular aproximadamente estos estadsticos para las medidas de tendencia central y de posicin. 1.2.2.1 MEDIDAS DE TENDENCIA CENTRAL. 1.2.2.1.1 LA MEDIA, : Para encontrar la media aritmtica de una distribucin de frecuencias o de un histograma utilizaremos la siguiente frmula: EC. 1.31
Donde: es la frecuencia de la clase i es la marca de clase de la clase i. n= es el numero de datos de la muestra.
1.2.2.1.2 LA MEDIANA,
Para encontrar la mediana aplicamos un procedimiento de 2 pasos: 1er paso.- De las k clases, identificamos la clase mediana (que es la que contiene a la mediana), que es aquel valor que est en la posicin pos = . 2 paso. Aplicar la siguiente frmula a la clase mediana EC. 1.32 Donde:.n es la frontera inferior de la clase mediana es el nmero total de datos en la muestra es la suma de todas las frecuencias anteriores a la clase mediana es la frecuencia de la clase mediana, y es el tamao de la clase mediana.
1.2.2.1.3 LA MODA,
Para encontrar la moda de una distribucin de frecuencias o de un histograma aplicaremos la siguiente frmula a la clase con mayor frecuencia, que identificaremos como la clase modal.:
Jaime Hernndez Mata Pgina 27
PROBABILIDAD Y ESTADSTICA
EC. 1.33
Donde:.c
1.2.2.2 MEDIDAS DE POSICIN (o CUANTILES). Las distintas medidas de posicin pueden ser encontradas todas a partir de los percentiles, recordando tambin que la mediana es el percentil 50 y que, por lo tanto, la formula de la mediana puede ser usada para determinar cualquier percentil, del 1 al 99. As, adaptamos la frmula 1.32 al percentil j-simo. 1.2.2.2.1 PERCENTIL, Para encontrar el percentil j-simo usaremos un procedimiento de 2 pasos: 1er paso.- De las k clases, identificamos la clase que contiene al percentil j, que es aquel valor que est en la posicin dada por: . 2 paso. Aplicar la siguiente frmula a la clase del percentil j: EC. 1.35 Donde:.n es la frontera inferior de la clase del percentil j es el nmero total de datos en la muestra es la suma de todas las frecuencias anteriores a la clase del percentil j es la frecuencia de la clase del percentil j. es el tamao de la clase del percentil j
EC. 1.34
la expresin 1.35 puede modificarse para el proceso inverso de obtener el porcentaje de datos, j, que tiene un determinado valor . o menor que ( recuerde que el percentil .= .= x).
28
PROBABILIDAD Y ESTADSTICA
EC. 1.36
1.2.2.2.2 DECILES, D, Y CUARTILES, Q. Los deciles y los cuartiles pueden obtenerse todos por la formula 1.35 de los percentiles, considerando que: Los 9 deciles son: D1 =P10, D2 = P20, , y D9=P90. Y, los 3 cuartiles son: Q1 =P25, Q2 = P50, y Q3=P25.
EC. 1.38 Pero cuando el nmero de datos n tiende a ser grande (n ), el valor S dado por ambas formulas es prcticamente el mismo Para efectos de clculos ms fciles se tiene la siguiente frmula:
Pgina 29
PROBABILIDAD Y ESTADSTICA
EC. 1.39
Ingreso mensual por trabajador, en pesos. Xi $ 1800-1999 $ 2000-2199 $ 2200-2399 $ 2400-2599 $ 2600-2799 $ 2800-2999 $ 3000-3199 Total
Tabla 1.1 (repetida): Distribucin de frecuencias de los salarios de 200 trabajadores en las microempresas de la ciudad.
a) b) c) d) e) f) g) h) i)
El salario promedio La desviacin estndar de los salarios El salario moda La mediana El salario que gana el 65% de los trabajadores que ganan menos. El salario que gana el 20% de los que ganan ms El porcentaje de los trabajadores que gana cuando mucho $2,300. El tipo de asimetra El tipo de apuntalamiento o concentracin de los datos.
SOLUCIN
30
PROBABILIDAD Y ESTADSTICA
Para calcular los estadsticos pedidos es conveniente utilizar una tabla para mostrar los clculos:
(1) (2) (Clase) (Frecuencia ) Ingreso mensual por trabajador, Nmero de en pesos. trabajadores Xi fi $ 1800-1999 $ 2000-2199 $ 2200-2399 $ 2400-2599 $ 2600-2799 $ 2800-2999 $ 3000-3199 total 12 24 36 50 34 28 16 200 (3) Marca de clase (4) Producto columnas (2)*(3)= (5) Producto columnas 2 (2)*(3) (6) Frecuencia acumulada
F
1899.5 2099.5 2299.5 2499.5 2699.5 2899.5 3099.5
a) Para el salario promedio usaremos la frmula 1.31, donde el numerador es el total de la columna (4) y el denominador, n, es el total de la columna (2): $ 2,517.50 b) Para calcular la desviacin estndar de los salarios de la muestra usaremos la expresin 1.39, donde del numerador el primer trmino es el total de la columna (5) y el segundo termino es el total de la columna (4), y n es el total de los datos:
= $ 325.89
c) Para determinar el salario ms frecuente aplicaremos la formula 1.33 a la clase con mayor frecuencia, que es la cuarta clase, donde la frontera inferior, F1 es igual a 2,399.5, = = 50-36 =14 = = 50 34 = 16, c = 200, es el tamao de la clase modal.
= 2399.5
= $ 2, 492.83
d) Para encontrar la mediana, es decir, el valor que divide a los salarios en dos partes
iguales (cuando estn ordenados por magnitud), usaremos la frmula 1.32, pero primero (paso 1) identificamos la clase mediana, que es la que contiene a dato en la posicin pos = .= = 100.5. En la columna (6) de la tabla vemos que el dato en la posicin 100.5 pertenece a la cuarta clase, ya que esta contiene desde el dato 73 avo al 122 avo. Enseguida (2 paso) aplicamos la frmula 1.32 a esta clase mediana, donde = 72 es la Jaime Hernndez Mata Pgina 31
PROBABILIDAD Y ESTADSTICA
suma de las frecuencias anteriores a la clase mediana, como puede verse tambin en la misma columna 6.
= $ 2,513.50
e) El salario que gana el 65% de los trabajadores que ganan menos, es el percentil 65, y su clculo, al igual que la mediana, es en dos pasos: 1) por la formula 1.34 calculamos la posicin donde se encuentra el valor P65: pos =
= 130.65
En la columna (6) de la tabla vemos que el dato que ocupa la posicin 130.65 (el P65) est en la 5 clase, ya que sta contiene los datos desde el 123 avo al 156 avo, por ello, ahora (2 paso) aplicamos la formula 1.35 a la 5 clase:
=
f)
= $ 2,650.38
El salario que gana el 20% de los que ganan ms es el complemento del 80 % de los que menos ganan, es decir, el complemento del P 80. Paso 1) identificamos la clase del P80 con pos = =201 = 160.8, que puede verse en la columna (6) de la tabla que es la 6 categora la del P80, ya que esta contiene desde el 157
avo al 184 avo datos paso 2) aplicamos la formula 1.35 a la 6 clase
=
Ahora, el 20% de los que ganan mas es P80 = $ 2,833.79.
= $ 2,833.79
g) El porcentaje de los trabajadores que gana cuando mucho $2,300 se calcula por la frmula 1.36 usando un proceso inverso Paso 1 ) Identificar la clase: El valor 2300 se encuentra en la 3 clase. Paso 2) se aplica la frmula 1.36: a la 3 clase
=
El 26.91% de los trabajadores gana $2,300 o menos.
= 26.91 %
h) El tipo de asimetra se determina con el coeficiente de asimetra de Fisher, ecuacin 1.22, cuyos clculos previos aparecen en la siguiente tabla:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
32
PROBABILIDAD Y ESTADSTICA
Ingreso Nmero de mensual por trabajadores trabajador, en fi pesos. Xi (Frecuencia) (Clase) $ 1800-1999 12 $ 2000-2199 24 $ 2200-2399 36 $ 2400-2599 50 $ 2600-2799 34 $ 2800-2999 28 $ 3000-3199 16 total 200
Marca de clase
4,583,088 -2,832,348,384 4,193,376 -1,752,831,168 1,710,864 -372,968,352 16,200 -291,600 1,126,216 204,971,312 4,085,872 1,560,803,104 5,419,584 3,154,197,888 21,135,200 -38,467,200
= - 0.0056
Como = 0.0056 est en (-0.50 . 0.50) la distribucin de los salarios de los trabajadores es simtrica y no tiene sesgo.
i)
El tipo de apuntalamiento o concentracin de los datos, se determina calculando el coeficiente de curtosis, ,por la ecuacin 1.23: En la tabla anterior se calcul la sumatoria en la columna (7) y la sumatoria es el total de la columna (5):
-3 =
-3 = 2.25 3 = -0.75
Como g2 = -0.75 se cumple que ( < - 0.5) por lo que la distribucin de los salarios es Platicrtica, es decir que los datos estn muy dispersos.
1.3
REPRESENTACIONES GRFICAS.
Pgina 33
PROBABILIDAD Y ESTADSTICA
Gran parte de la utilidad que tiene la Estadstica Descriptiva es la de proporcionar un medio para informar con base en los datos recolectados. La eficacia con que se pueda realizar tal proceso de informacin depender de la presentacin de los datos, siendo la forma grfica uno de los ms rpidos y eficientes. Existen tambin varios tipos de representaciones grficas, utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est usando y los objetivos que se persiguen al presentar la informacin. Estas pueden realizarse fcil y rpidamente con el uso de distintos softwares estadsticos. A continuacin se presentan algunas de las representaciones grficas ms usuales.
34
PROBABILIDAD Y ESTADSTICA
Solucin: Para ver si hay una posible relacin entre las ventas (Y) y la inversin en publicidad (X), hacemos el siguiente diagrama de dispersin:
Ventas en pesos
(X 100000) 24 21 18 15 12 9 6 8 12 16 20 24 28 (X 1000)
Inversin en pesos
Figura 1.6: Diagrama de dispersin para las ventas de cerveza en relacin a la inversin en publicidad.
Pgina 35
PROBABILIDAD Y ESTADSTICA
Respuesta: De acuerdo al diagrama de dispersin de la figura 1.6, se aprecia que s existe una correlacin positiva y podemos pensar que las ventas mensuales de cerveza, Y, s estn relacionadas por la inversin en publicidad en televisin, X.
Ahora, en cada uno de los datos separamos las decenas de las unidades, es decir, el nmero 66 se ver como 6 | 6. De esta manera las decenas se pondrn en una primera columna, en forma vertical, con sus unidades a su derecha, quedando as el diagrama de tallo y hojas:
6 7 8 9 10 6 1 3 7 0 8 4 6 2 0 5 6 6 0 7 3 8 1 3 4 6 1
Para entenderle un poco ms, hemos de decir que el primer rengln que dice 6 | 6 8 5 quiere decir que entre la lista de datos se encuentran los valores 66, 68 y 65. Adems, si se desean tener los datos ordenados, y hay gente que lo prefiere as, se pueden ordenar las hojas en cada rengln para que la representacin quede como sigue:
6 7 8 9 10 5 0 1 1 0 6 1 3 2 0 8 4 6 6 7 3 3 4 6 6 8 7
El diagrama de tronco y hojas presenta la misma informacin que la lista original de datos, pero de una manera mucho ms compacta y manejable.
36
PROBABILIDAD Y ESTADSTICA
Sin embargo, informacin ms compleja resulta un poco ms difcil de manejar, por lo que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar las centenas u otras posiciones de los nmeros para las troncos. En cada uno de esos casos conviene hacer alguna anotacin, o poner una nota, a fin que los lectores puedan identificar las adecuaciones realizadas y as poder interpretar lo que se quiere transmitir. Para mostrar la informacin de manera ms clara, es posible modificar el nmero de posiciones del tronco, aumentndola o disminuyndola de acuerdo a las necesidades particulares de cada problema. Por ejemplo, con los datos de las calificaciones anteriores, se pueden dividir en dos cada posicin del tronco, utilizando la primera posicin para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posicin para las hojas restantes. De esta manera, se obtiene la representacin grfica de doble tronco:
6 7 7 8 8 9 9 10 5 0 6 6 1 1 7 0 6 1 6 6 3 2 0 8 4 7 8 3 3 4
Con esto se han duplicado el nmero de posiciones del tronco, con la intencin de buscar una mayor claridad en la presentacin.
1.3.3 HISTOGRAMAS.
El histograma es una representacin grfica para la tabla de Distribucin de Frecuencias. El histograma es un diagrama de rectngulos contiguos, verticales generalmente, que en el eje horizontal (el de las abscisas) lleva la variable de inters, X, representada por las marcas de clase (o por los lmites reales) y en el eje Y lleva la frecuencia de cada clase. Obvio es decir que se rotulan los ejes X e Y, el ttulo y el pie de dicho histograma, a fin de ayudar a una mejor comprensin del caso. Como ejemplo, se presenta a continuacin el histograma de frecuencias para los datos de las edades de los profesores del ITC de la tabla 1.2:
Pgina 37
PROBABILIDAD Y ESTADSTICA
Figura 1.7: Histograma del nmero de profesores del ITC, por edad..
Para una mejor lectura de la grfica se puede decir, por ejemplo, que 11 profesores del ITC tienen una edad promedio de 29 aos, (o de 26 a 35 aos) que19 profesores tienen un promedio de 39 aos (o de 36 a 45 aos) y as sucesivamente hasta la ltima clase en que 2 profesores tienen un promedio de 69 aos (o de 66 a 75 aos). El histograma tambien puede presentarse en porcentajes, que es llamado histograma porcentual o histoframa de frecuencias relativas, el cual tiene un ligero cambio en el eje Y, sustituyendo la frecuencia absoluta por la frecuencia relativa al numero total de datos, (o por el porcentaje). Este histograma es la representacin de la Distribucion de frecuencias relativas . A continuacin se presenta el histograma porcentual para los datos de la tabla 1.3, que muestra las frecuencias relativas por categora de edad de los profesores del ITC.
38
PROBABILIDAD Y ESTADSTICA
Para una mejor lectura del histograma porcentual se puede decir, por ejemplo, que el 22% de los profesores del ITC tienen una edad promedio de 29 aos (o de 26 a 35 aos), que el 38% de los profesores tienen un promedio de 39 aos (o de 36 a 45 aos) y as sucesivamente.
Para una mejor lectura de la grfica se puede decir, por ejemplo, que 11 profesores del ITC tienen una edad promedio de 29 aos, que19 profesores tienen un promedio de 39 aos y as sucesivamente hasta la ltima clase en que 2 profesores tienen un promedio de 69 aos. Anlogamente, para los datos de la distribucin de frecuencias relativas de la tabla 1.3, el polgono de frecuencias relativas queda como sigue:
Pgina 39
PROBABILIDAD Y ESTADSTICA
Cuya interpretacin es similar a la anterior, y puede decirse que el 22% de los trabajadores del ITC tiene una edad promedio de 29 aos, que un 38% tiene una edad media de 39 aos, y as sucesivamente.
1.3.5 OJIVAS.
Las ojivas son grficas de lneas rectas que unen los puntos (X,Y), donde las X son las fronteras de clase Fi y las Y son las frecuencias acumuladas . Dicho de otra forma, la ojiva es la grafica de los puntos (Fi, FI ) de la Distribucin de frecuencias acumuladas y la ojiva porcentual es la grfica de los puntos (Fi, FrI ) de la Distribucin de frecuencias relativas acumuladas. Existen dos tipos de ojivas: las ojivas mayor que y las ojivas menor que, que se presentan en la siguiente figura:
a)
b)
Siendo ms usual la ojiva de tipo menor que, en lo sucesivo slo se tratar sta. A continuacin se presenta la ojiva tipo menor que para la D i s t r i b u c i n d e f r e c u e n c i a s a c um u la d a s d e l a s e d a d e s d e 5 0 p r of e s o r es d e l I T C , dada en la tabla 1.5:
40
PROBABILIDAD Y ESTADSTICA
Edad
Figura 1.12: Ojiva de la edad de 50 profesores del ITC.
Donde, para aclarar la grfica, puede decirse que profesores menores de 26 aos son cero, que menores de 36 aos son 10, y as sucesivamente, hasta decir que menores de 76 aos son los 50 profesores. Esta grfica es importante debido a que puede interpolarse para cualquier valor X y entonces determinar el correspondiente valor de frecuencia acumulada, y viceversa. Ahora, la ojiva porcentual de tipo menor que, para la D i s t r i b u c i n d e f r e c u e n c i as r e l a t i v a s a c u m u l a d as d e l a s e d a d e s d e 5 0 p r of e s o r e s d e l I T C , dada en la
t a b l a 1 . 6, es :
Para aclarar la grfica, puede decirse que el porcentaje de profesores menores de 26 aos es cero, el de menores de 36 aos es 20%, y as sucesivamente, hasta decir que el porcentaje de profesores menores de 76 aos es el 100%. En esta grfica tambin puede interpolarse para cualquier valor X a fin de determinar el correspondiente porcentaje acumulado de profesores que tienen x edad, y
Jaime Hernndez Mata Pgina 41
PROBABILIDAD Y ESTADSTICA
viceversa; siendo esto una correspondencia grfica con las ecuaciones analticas para los percentiles, 1.35 (directa) y 1.36 (inversa).
Figura 1.14: Grfica de caja y bigotes para las edades de 50 profesores. (Forma vertical).
Figura 1.15: Grfica de caja y bigotes para las edades de 50 profesores. (Forma horizontal.)
42
PROBABILIDAD Y ESTADSTICA
ec. 1.4 0
E l d ia gra m a circula r se co n st ru ye m a nu a lm e nt e u san d o un t ra n sp o rta d o r d e n gu lo s. E je m pl o 1 . 20 : G rf ica d e se cto re s. E n un gru p o d e 4 0 a lu mn o s, 1 0 ju e ga n b a squ et b o l, 4 p ra ct ica n la n a ta ci n , 18 ju e ga n f tb o l y 8 n o p ra ct ica n n in g n d e po rt e .
T a b l a 1. 7 D i s t r i b u c i n d e f r e c u e nc i a s p a r a l a va r i a b l e c u al i t a t i va d e p o r t e p r a c t i c a d o
Pgina 43
PROBABILIDAD Y ESTADSTICA
A co n t in ua ci n se p re se n ta e l d ia gra m a d e se ct o re s para e l ca so d e la va ria b le cu a n t ita t iva e d a d d e 5 0 p rof e so re s d e l ITC. E st e e s o t ra gr f ica m s d e la ta b la 1 . 2 , qu e se rep ro d u ce nu e va m ent e a qu .
Edad de p r of e s or e s d e l ITC, Xi 26 - 35 36 45 46 55 56 65 66 - 75 T ot a l N m e r o de p r of e s or e s , fi 11 19 12 6 2 50 Figura 1.17 D i ag r am a d e s e ct o r es p a r a e l p or c e n t aj e de p r of e s o r e s d e l I T C , p o r g r u p o de e d a d .
Fin a lme n te se mue st ra n o t ro s d ia gra m a s d e se cto re s, lo s cu a le s so n im ge n e s lib re s t om a da s de In t e rne t , qu e ilu st ra n o t ra s a p lica cio ne s d e la e st ad st ica .
44
PROBABILIDAD Y ESTADSTICA
frecuencia
1 7 10 6 7 15 4 50
Obtenga: a) b) c) d) e) f) g) h) i) Los lmites reales (fronteras) de las 6 clases. La media, la mediana, y la moda, El rango, la varianza y desviacin estndar, El histograma El diagrama de sectores El polgono de frecuencias relativas La ojiva porcentual del tipo "menor que", Basado en la ojiva del inciso anterior, estime el porcentaje de primeras pginas que puede hacerse en menos de 24 minutos. Los coeficientes de asimetra y curtosis.
1.9 Considere los datos de la tabla de abajo, los cuales representan la resistencia a la compresin, en lb/pul2 (psi), de 80 tabicones, de una mezcla que est siendo evaluada como posible material para la construccin de casas. Los datos han sido agrupados en las ocho clases que se muestran. Resistencia (en psi)
76 - 97 98 - 119 120 - 141 142 - 163 164 - 185 186 207 208 229 230 251 Total
Nmero de tabicones
3 5 10 24 21 10 5 2 80
Pgina 45
PROBABILIDAD Y ESTADSTICA
Obtenga: a) b) c) d) e) f) g) h) i) Una tabla con los lmites reales (fronteras). El histograma El diagrama de sectores, La media, mediana, moda, y contextualice el significado de las tres. La varianza y la desviacin estndar El percentil 3, el decil 3 y el cuartil 3, y anote su interpretacin, El polgono porcentual. La ojiva porcentual del tipo menor que. Usando la grafica del inciso anterior y la frmula 1.36. Qu porcentaje de las muestras fallaron debajo de los 150 psi?
1.10.- En un taller, fue registrado durante 50 veces el tiempo requerido para hacer un trabajo. Los datos, redondeados a la dcima de minuto ms cercana, se dan a continuacin: 19.8 25.3 23.7 21.3 19.7 a) 22.8 20.7 20.3 21.5 24.2 21.9 22.5 23.6 23.1 23.8 22.0 21.2 19.0 19.9 20.7 20.7 23.8 25.1 24.2 23.8 20.9 23.3 25.0 24.1 24.3 25.0 20.9 19.5 20.8 21.1 22.2 22.8 22.9 23.5 24.1 24.2 23.9 22.8 20.9 21.6 20.1 19.5 21.8 23.9 22.7
Para los datos agrupados obtenidos en (a), obtenga: b) c) d) e) f) g) h) i) La media, la mediana, y la moda, El rango, la varianza y desviacin estndar, El histograma El diagrama de sectores El polgono de frecuencias relativas La ojiva porcentual del tipo "menor que", Basado en la ojiva del inciso anterior, estime el porcentaje de trabajos que puede hacerse en menos de 24 minutos. Los coeficientes de asimetra y curtosis.
1.11. Eduardo Lpez, superintendente minero de PC, tiene registro del tiempo muerto, en minutos, por turno, en su Seccin de Trabajo, al hacer trabajos in situ de ajustes y reparaciones a su maquinaria. A continuacin se presentan los datos correspondientes a los ltimos 40 turnos de trabajo: 72 66 121 116 99 a) 126 101 93 114 139 110 75 87 107 108 91 93 119 113 128 115 129 111 119 84 60 80 113 102 110 36 112 120 105 80 97 96 100 50 99
46
PROBABILIDAD Y ESTADSTICA
Para los datos agrupados obtenidos en (a), obtenga: b) c) d) e) f) g) h) i) La media, mediana, y moda, La varianza y desviacin estndar. El percentil 35, el decil 6 y el cuartil 3. El histograma, El diagrama de sectores. El polgono porcentual, La grfica de frecuencia acumulada del tipo menor que. Si Lpez tiene la creencia de que un lapso "normal" de tiempo muerto es de 108 minutos, y usando la frmula 1.36 correspondiente Cuntos de los ltimos 40 turnos de su Seccin de Trabajo se encuentran debajo de 108? cuntos exceden este lmite?
1.12. Considere los datos de la tabla de abajo, los cuales representan la resistencia a la tensin, en lb/pul2 (psi), de 80 muestras de una nueva aleacin de aluminio y litio, que est siendo evaluada como posible material para la fabricacin de elementos estructurales de aeronaves. Los datos fueron registrados conforme se realizaba la prueba. Resistencia a la tensin de 80 muestras de aleacin de aluminio-litio 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149 a) Construya una tabla de frecuencias de 8 categoras iguales.
Para los datos agrupados obtenidos en (a), obtenga: b) c) d) e) f) g) h) i) El histograma El diagrama de sectores, La media, mediana, moda, y contextualice el significado de las tres. La varianza y la desviacin estndar El percentil 5, el decil 6 y el cuartil 3, y anote su interpretacin, El polgono porcentual. La ojiva porcentual del tipo menor que. Usando la grafica del inciso anterior y la frmula 1.36. Qu porcentaje de las muestras fallaron debajo de los 120 psi?
Pgina 47
PROBABILIDAD Y ESTADSTICA
48