You are on page 1of 72

UNIVERSIDAD AUTNOMA DE COAHUILA

Facultad de Economa

Estadstica Multivariada

Unidad II

Estadstica Univariada

M.C. Flix J. Snchez P.

Unidad II Estadstica Univariada

2.1 Estadstica Descriptiva

2.1.1 Conceptos Bsicos


Qu es Estadstica? Es un conjunto de tcnicas para la coleccin, descripcin y anlisis de informacin, de manera que las conclusiones obtenidas de ella tengan un grado de confiabilidad especificado. Existen al menos dos clases de estadsticas: Estadstica descriptiva o deductiva. Estadstica inductiva o inferencial.

2.1.1 Conceptos Bsicos


Estadstica Descriptiva Se ocupa de la organizacin y presentacin de informacin estadstica a travs de grficas con el nico propsito de observar su comportamiento y anlisis. Medidas de tendencia central. Medidas de dispersin.

2.1.1 Conceptos Bsicos


Estadstica Inferencial Se enfoca al manejo de informacin estadstica a travs de tcnicas y mtodos con el propsito de, a partir de una determinada cantidad de datos, obtener una conclusin importante acerca de una poblacin. Dado que no es posible establecer tales inferencias con total certeza, se utiliza la teora de probabilidad.

2.1.1 Conceptos Bsicos


Poblacin y muestra Para el estudio de las poblaciones, se tomar una muestra de n valores de la poblacin (N).

2.1.1 Conceptos Bsicos


Poblacin y muestra Como esos n valores son difciles de estudiar y de comprender por s mismos, se puede recurrir a un procedimiento grfico que permita destacar las peculiaridades de ese conjunto de valores, as como a ciertas funciones de los valores que resuman, de alguna manera, la informacin contenida en la muestra.

2.1.1 Conceptos Bsicos


Medidas y grficos
Escala de medida Nominal Ordinal Intervalo Razn Medidas centrales
Moda, Porcentajes Mediana, Percentiles Media Media geomtrica Rango intercuartlico Desviacin tpica Coeficiente de variacin

Medidas de dispersin

Representaciones grficas
Diagrama de sectores Diagrama de barras Histograma Diagrama de dispersin, Diagrama de caja

2.1.2 Medidas de Tendencia Central


Con la obtencin de promedios lo que se consigue es determinar cual es el nivel medio de la variable de estudio (Xi, i = 1,2,3, ..., n) El nico requisito que se le exige a cualquier promedio es que su valor est comprendido entre los valores extremos de la variable. Con la condicin anterior, el nmero de promedios ms habituales son: la media aritmtica, mediana, moda, media ponderada, media armnica y media geomtrica.
9

2.1.2 Medidas de Tendencia Central


Media aritmtica La media aritmtica de n observaciones de la variable X se denotar por el smbolo X, y se define como la suma de ellas dividida por n. Simblicamente

xi X= i=1 n

10

2.1.2 Medidas de Tendencia Central


Mediana La mediana (Me) de un conjunto de "n" nmeros, ordenados de menor a mayor, es el nmero central en el arreglo. Si n es un nmero non, slo hay un valor central. Si n es un nmero par, hay dos valores centrales, y la mediana debe tomarse como la media aritmtica de estos dos valores.
Posicin de la mediana = (1 + nmero de datos) / 2

11

2.1.2 Medidas de Tendencia Central


Mediana Propiedad de la mediana. Es un estadstico robusto porque soporta perturbaciones, esto es, insensible a la presencia de datos atpicos.

12

Ejemplo 2.1
Un trabajador tiene una equivocacin a la hora de escribir en el formato de una hoja de inspeccin, se pregunta: cul es la falla al calcular el valor medio de los datos? Muestra de datos ante un cambio de 10 por 50.
Datos sin valor atpico Datos con valor atpico 6 6 3 3 10 50 7 7 8 8

13

Solucin
Aplicando la funcin mean ( ) y median ( ) en R commander solucionamos la duda del trabajador. La media y mediana de los datos sin valor atpico son: x = c(6,3,10,7,8) mean(x) 6.8 median(x) 7

14

Solucin
Ahora, la media y mediana de los datos con valor atpico son: y = c(6,3,50,7,8) mean(y) 14.8 median(y) 7 Como se observa, al cambio del valor 10 por 50 (frecuente en la captura de datos), la mediana no se altera y la media aritmtica si.
15

2.1.2 Medidas de Tendencia Central


Moda La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor nico decimos que la distribucin de frecuencias es unimodal. Si se tienen dos o ms valores con la misma frecuencia mxima decimos que la distribucin es bimodal, trimodal, etc.

16

2.1.2 Medidas de Tendencia Central


Media ponderada Esta medida es utilizada cuando se hace necesario promediar datos colectados de muestras de diferente tamao. La frmula para el clculo de dicha media es multiplicar cada uno de los nmeros (xi) de un conjunto por un valor particular llamado su peso (wi), sumar las cantidades as obtenidas, y dividir esa suma por la suma de todos los pesos.

W iXi Xp = Wi
17

2.1.2 Medidas de Tendencia Central


Media ponderada La funcin weighted.mean(X,W) en R da la media ponderada. O bien, mediante el script: Media_ponderada=sum(X*W)/sum(W) Media_ponderada

18

Ejemplo 2.2
Suponga tres empresas de la industria de lcteos que producen un artculo idntico, sus costos por artculo y sus datos de produccin se presentan a continuacin. Encuentre el costo medio por unidad de produccin en las tres empresas.
Empresa A B C Costo 1.50 1.00 1.05 Total de la produccin 200,000 400,000 800,000
19

Solucin
W=c(200000, 400000, 800000) X=c(1.50, 1.00, 1.05) # Media ponderada weighted.mean(X,W) 1.1 # Media aritmtica mean(X) 1.183333 Conclusin. Si se trabaja con la media aritmtica se tiene un error de $ 116,666.6, que es la cantidad que sobre estima el valor total de la produccin por las tres empresas, que viene siendo de $1,540,000. Lo recomendable es la media ponderada. 20

2.1.2 Medidas de Tendencia Central


Media armnica Esta medida estadstica es til para promediar ciertos tipos de relaciones o tasas, por ejemplo: tasas de nacimiento, mortalidad, velocidades en km/h, m/seg., etc. Se calcula por medio de la frmula:
Xa = n 1 i=1 xi
n

1 1 n 1 n i=1 xi

21

Ejemplo 2.3
Suponga que cuatro diferentes vehculos recorren una distancia a diferentes velocidades, imaginemos que sea de 200 Km. Un automvil lo recorre a 100 Km/h, una motocicleta a 80 Km/h, una bicicleta a 50 Km/h y un camin de carga a 25 Km/h. Se desea obtener el promedio de velocidad de los cuatro vehculos.

22

Solucin
X=c(100, 80, 50, 25) Media_armnica = (length(X))/sum(1/X) Media_armnica 48.48485 # Media aritmtica mean(X) 63.75

23

Solucin
Analicemos por que es errneo trabajar con la media aritmtica: tiempo utilizado para los cuatro vehculos fue de 2 h + 2.5 h + 4 h + 8 h = 16.5 h Si trabajamos con la media aritmtica implicara un recorrido total de (16.5 h.) (63.75 Km/h) = 1051.875 Km (No es cierto). Ahora, n 4
Xa =

x
i =1

1
i

1 1 1 1 + + + 100 80 50 25

= 48.48485 Km/h

24

Solucin
Entonces, el recorrido total es: (16.5 h) (48.48485 Km/h) = 800 Km (Qu es correcto) Lo recomendable es trabajar con la media armnica.

25

2.1.2 Medidas de Tendencia Central


Media geomtrica Esta medida estadstica es til para ciertos tipos de problemas, en los cuales la relacin entre dos nmeros consecutivos es constante o aproximadamente constante; tal como ocurre por ejemplo, con el tamao de una poblacin en intervalos consecutivos de tiempo o con el valor de una suma de dinero que se incrementa en inters compuesto. Se define

x g = n (x1) ( x 2) ( x 3), ... , (x n )


26

Ejemplo 2.4
Suponga que un ejecutivo tiene un ingreso de $ 3,000 en compensacin, recibir un aumento de 5% en este ao, y recibir uno de 15 % el prximo ao. Encontrar el aumento porcentual promedio.

27

Solucin
X=c(1.05, 1.15) p=prod(X) Media_geomtrica = p^(1/length(X))-1 Media_geomtrica 0.09886305

28

Solucin
Para comprobar lo antes calculado, seguir el proceso: Primer aumento: 3000*0.05 = $ 150.0 Segundo aumento: 3150*0.15 = $ 472.5 Aumento total a recibir: 150+472.5 = $ 622.5 Ahora, utilizando la media porcentual Xg = 0.09886305: Primer aumento: 3000*0.09886305 = $ 296.58915 Segundo aumento: 3296.58915*0.09886305 = $ 325.91085 Aumento total a recibir:296.58915 + 325.91085 = $ 622.5 Ambos razonamientos nos llevan al mismo resultado. Por lo tanto, el aumento porcentual promedio es del 9.886305 %.

29

Ejemplo 2.5
Las ganancias obtenidas por la empresa de agroqumicos R & D en cuatro aos fueron de 3%, 2%, 4% y 6%. Cul es el promedio de la ganancia?

30

Solucin
y=c(0.03, 0.02, 0.04, 0.06) g=prod(y) Media_geomtrica=g^(1/length(y)) Media_geomtrica 0.03464102 La ganancia promedio por la empresa R & D es de un 3.4641 %.

31

2.1.3 Medidas de Dispersin


El proceso de reduccin estadstica nos ha llevado a sintetizar todos los datos a un solo nmero, al que hemos llamado promedio y con el se pretende representar a la informacin. Cuando se habla de la representatividad de un promedio es ms frecuente utilizar el trmino dispersin que el de concentracin.

32

2.1.3 Medidas de Dispersin


Para medir la dispersin nos basaremos en el concepto de desviaciones existentes entre los valores de la distribucin y el promedio que estamos utilizando. Con el propsito de medir la variabilidad de las observaciones, se discutirn en este apartado cinco medidas: rango, rango intercuartlico, varianza, desviacin estndar y coeficiente de variacin.

33

2.1.3 Medidas de Dispersin


Rango El rango de un conjunto de datos es la diferencia entre las observaciones de mayor y menor valor numrico en el mismo. Es decir, Rango = Valor mximo - Valor mnimo El rango es una medida de dispersin cuya ventaja es la facilidad con que se calcula. Tiene en cambio las siguientes desventajas:

34

2.1.3 Medidas de Dispersin


Rango Al aumentar n, puede esperarse que aumente la variabilidad. Puesto que el rango no tiene en cuenta el tamao del conjunto, no es una medida adecuada para comparar la variabilidad de dos grupos de observaciones. El rango esta sujeto a la probabilidad de datos extremos errticos. Para superar esta limitacin se ha sugerido la medida de rango intercuartlico.

35

2.1.3 Medidas de Dispersin


Rango intercuartlico Un conjunto de datos tiene dos cuartiles y coloquialmente un cuartil esta aproximadamente a un cuarto del rango del grupo de nmeros, de cada uno de sus extremos. EL rango intercuartlico se obtiene como la diferencia entre el cuartil superior y el cuartil inferior.

36

2.1.3 Medidas de Dispersin


Rango intercuartlico La denominacin percentil se define como: dado un conjunto de n mediciones el p-simo percentil, designado como Xp es el valor de X tal que por lo menos P % de las mediciones son menores o iguales al valor de Xp. Primer cuartil = percentil 25. Mediana = segundo cuartil = percentil 50. Tercer cuartil = percentil 75.

37

2.1.3 Medidas de Dispersin


Desviacin cuartlica (DC) Es la mitad del rango intercuartlico. Mide la dispersin del 50% central de las observaciones respecto a la mediana. Es posible tener una DC negativa. Es raro, pero podra tener un valor igual a 0, en el caso que los percentiles sean iguales (P75 = P25). Cuando mayor sea la diferencia entre los percentiles, mayor ser el valor de la DC.
P75 P25 DC = 2
38

Ejemplo 2.6
A continuacin se presentan 20 observaciones en orden del tiempo de falla, en horas, de un eje de pin cnico de una maquinaria. 204, 228, 252, 300, 324, 444, 624, 720, 816, 912, 1176, 1296, 1392, 1488, 1512, 2520, 2856, 3192, 3528, 3710 Calcular el rango, rango intercuartlico y la desviacin cuartlica.

39

Solucin
# Datos y = c(204, 228, 252, 300, 324, 444, 624, 720, 816, 912, 1176, 1296, 1392, 1488, 1512, 2520, 2856, 3192, 3528, 3710) # Rango rango=max(y)-min(y) rango 3506 # Rango intercuartlico rango_inter=quantile(y,0.75)-quantile(y,0.25) rango_inter 1350
40

Solucin
# La desviacin cuartlica DC=IQR(y)/2 675 La diferencia entre la mayor y la menor falla del pin es 3506 horas. El 50% de las fallas intermedias se encuentran entre 414 y 1764 horas. El rango intercuartlico es de 1350 horas. 50% central de las observaciones vara en 675 horas con respecto a la mediana.
41

2.1.3 Medidas de Dispersin


Varianza La varianza muestral (s) de un conjunto de datos se define como la suma de los cuadros de las desviaciones de las observaciones con respecto a su media aritmtica, dividida por el nmero de observaciones menos una. Su ecuacin es:
n 1 2 ) ( X S2 = X i n - 1 i=1

2 2 n X X = i n -1 i =1 n
42

2.1.3 Medidas de Dispersin


Desviacin estndar Puesto que la varianza es una medida que tiene como unidades el cuadrado de las unidades originales de medicin, se acostumbra definir tambin a su raz cuadrada para tener una medida de dispersin en las unidades originales. As, tenemos la desviacin estndar:
Xi2 - nX 2 S= n-1 i=1
n

43

2.1.3 Medidas de Dispersin


Coeficiente de variacin Es una medida de dispersin que se obtiene dividiendo la desviacin estndar entre su media aritmtica de un conjunto de datos. Simblicamente:

S C.V. = 100 X
El C.V. tiene las siguientes caractersticas:

44

2.1.3 Medidas de Dispersin


Coeficiente de variacin Puesto que tanto la desviacin estndar como la media se miden en las unidades originales, el C. V. es una medida independiente de las unidades de medicin. Debido a la propiedad anterior, el C. V. es la cantidad ms adecuada para comparar la variabilidad de dos conjuntos de datos. En reas de investigacin donde se tienen datos de experimentos previos, el C. V. es muy usado para evaluar la precisin de un experimento, comparando el C. V. del experimento en cuestin con los valores del mismo en experiencias anteriores.
45

Ejemplo 2.6
Una empresa desea decidir entre dos tipos de valores. Para su decisin cuenta con la siguiente informacin acerca del rendimiento, expresado como porcentaje:
Valor B Valor C 7.8 9.2 10.5 7.9 8.7 9.5 8.9 9.1 11.1 8.8 9.8

Sugieren estos datos que los valores C tiene mayor variacin que los valores B?

46

Solucin
B=c(7.8,10.5,7.9,8.7,9.5,8.9) C=c(9.2,9.1,11.1,8.8,9.8) Coeficiente_variacin_B=sd(B)/mean(B) Coeficiente_variacin_B 0.1144496 Coeficiente_variacin_C=sd(C)/mean(C) Coeficiente_variacin_C 0.09518577

Para los valores B, la desviacin estndar representa el 11.44 % de la media y para los valores C, la desviacin estndar representa 9.51 % de la media, por lo tanto son ms variables los valores B.
47

2.1.4 Presentacin Grfica de Datos


Introduccin La informacin contenida en un grupo de datos es la base de las acciones y decisiones en el control de los procesos. En este contexto, el histograma, diagrama de dispersin y diagrama de caja son herramientas de mucha utilidad para describir un conjunto de datos. Las caractersticas que pueden observarse a partir de los diagramas son: localizacin o tendencia central, forma, asimetra y dispersin.
48

2.1.4 Presentacin Grfica de Datos


Tabla de frecuencias Para la representacin grfica del histograma, se construye la llamada tabla de frecuencias. Para ello se establece un nmero reducido (5 a 20) de intervalos de valores denominados clases y se registra el nmero de veces que aparece un dato de la muestra en cada una de las clases. A ese nmero de veces se le denomina frecuencia.

49

2.1.4 Presentacin Grfica de Datos


Tabla de frecuencias Para determinar el intervalo de clase, se calcula la diferencia entre el mayor y menor valor numrico de los datos, y luego se divide entre el nmero de clases. Adems, es conveniente elegir un nmero que represente a cada una de las clases comnmente se elige el punto central, que se denomina valor medio de clase, el cual se obtiene dividiendo la suma de los lmites de clase entre dos.
50

2.1.4 Presentacin Grfica de Datos


Tabla de frecuencias Tambin resulta conveniente calcular las frecuencias relativas de clase; estas ltimas indican que proporcin del total de observaciones pertenecen a cada clase. Resulta de importancia adicionar a la tabla, informacin sobre el nmero de datos cuyo valor numrico es menor o igual que el lmite superior de cada clase; este nmero recibe el nombre de frecuencia acumulada.

51

2.1.4 Presentacin Grfica de Datos


Histograma Llamamos histograma a la grfica de barras verticales sin espaciamiento entre ellas, construida colocando en el eje vertical a las frecuencias absolutas o relativas y en el eje horizontal a los lmites de clase de una tabla de frecuencias.

52

Qu se observa en un histograma? En un histograma se puede observar caractersticas de los datos, tales como las siguientes: La medicin o grupo de mediciones ms comunes. Estas suelen encontrarse en el intervalo que corresponde a la barra ms alta.

53

Histograma

La dispersin o esparcimiento. Una posible mejora del proceso es reducir la variabilidad de los datos alrededor del valor objetivo, ya que en la medida en que se alejan de este valor, disminuye la calidad del producto.

Pequea variabilidad

Gran variabilidad

54

Histograma

La simetra o sesgo. La falta de simetra puede ser sntoma de algn problema, como calentamiento de los equipos o descalibramiento de los instrumentos de medicin o cansancio de los operadores.

Positivamente asimtrica

Negativamente asimtrica

55

Histograma

Que tan centrado est el proceso. De nada sirve un proceso con variabilidad mnima si ste no est centrado sobre el valor objetivo.

Proceso centrado

Proceso descentrado

56

Histograma

Nmero de picos. La existencia de varios picos en el histograma puede deberse a cambios de material, a diferentes proveedores, operadores e instrumentos de medicin.

Unimodal

Bimodal

57

Polgono de Frecuencias
Un polgono de frecuencias es una grfica de lneas rectas que unen los puntos obtenidos al colocar en el eje horizontal a los valores medios de clase y en el vertical a las frecuencias relativas o absolutas. Razones para usar el polgono de frecuencias: Cuando han de compararse varias distribuciones sobre el mismo grfico. Sugiere el uso de una curva suave como una representacin idealizada de la distribucin de la poblacin.
58

Ojiva
Una ojiva o Polgono Frecuencias Acumuladas es una grfica construida con segmentos de lneas rectas que unen los puntos obtenidos al colocar en el eje horizontal a los lmites superiores de clase y en el vertical a las frecuencias acumuladas absolutas o relativas. Una ojiva se usa principalmente para interpolaciones. Para contestar preguntas como esta: Cul es el valor que divide toda la serie en dos partes iguales?
59

2.1.4 Presentacin Grfica de Datos


Diagrama de caja Con los cuartiles Q1, Q2 y Q3 puntos encontrados en una muestra, podemos hacer un grfico de caja. El diagrama incluye la mediana (Q2) los Q1 y Q3, y una serie de valores (atpicos, extremos) que junto con la mediana y la propia caja proporcionan informacin bastante completa sobre, entre otras cosas, el grado de dispersin de los datos y el grado de asimetra de la distribucin.
60

2.1.4 Presentacin Grfica de Datos


Grfica de Barras La grfica de barras, se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representacin de series cronolgicas o histricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificacin utilizada. Cada clase se representa con una barra cuya altura resulta proporcional a la frecuencia que representa.
61

Ejemplo 2.7
El departamento de servicio de un fabricante de refrigeradores tiene registrada las quejas que ha recibido de sus clientes durante el ltimo mes. Los resultados se muestran en la tabla siguiente
Tipo de defecto Mal el compresor No produce cubos de hielo Soportes de charolas rotos Fugas de agua en mangueras Otros problemas Frecuencia 12 28 25 24 9
62

Solucin
Mediante el archivo barra.xls representamos la informacin de la tabla. Obtenemos que el defecto ms comn es que el refrigerador no produce cubos de hielo.
30 25 20 15 10 5 0 Mal el No hielo compresor Charolas Fugas de Otros rotas agua problemas

63

2.1.4 Presentacin Grfica de Datos


Grfica de sectores Denominada tambin grfica de pastel, se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. Se forma al dividir un crculo en sectores circulares de manera que: - Cada sector circular equivale al porcentaje correspondiente al dato o grupo que representa. - La unin de los sectores circulares forma el crculo y la suma de sus porcentajes es 100.
64

Ejemplo 2.8
Realizar un grfico de sectores con la informacin de la tabla
Defecto Fractura Rayado Mancha Rajadura TOTAL Frecuencia absoluta 10 42 104 6 162
65

Solucin
Se puede observar en la grfica de sectores, que el 64% de los defectos fue en mancha, en segundo lugar fue el rayado con un 26%.
Rajadura 4% Fractura 6% Rayado 26%

Mancha 64%

66

2.1.4 Presentacin Grfica de Datos


Diagrama de Pareto Es importante aclarar el patrn de la distribucin de la prdida en calidad. La mayora de las prdidas se debern a unos pocos tipos de defectos, y estos defectos pueden atribuirse a un nmero muy pequeo de causas. Si se identifican las causas de estos pocos defectos vitales, podremos eliminar casi todas las prdidas, concentrndonos en esas causas particulares y dejando de lado por el momento otros muchos defectos triviales. El diagrama de Pareto es un mtodo para identificar los pocos vitales.
67

Ejemplo 2.9
Construya un diagrama de Pareto con la informacin
No. 1 2 3 4 5 6 Datos Frecuencias 202 114 92 45 19 16
68

Falta de mantenimiento Programa inadecuado Interrupcin de la energa elctrica Manejo incorrecto del operador Virus en el sistema Otros

Solucin
DIAGRAMA DE PARETO

488 438 388 338 FRECUENCIAS 288 238 188 138 88 38 -12 1 2 3 4 5 6 7 8 CAUSAS 9 10 11 12 13 14 15

100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% % ACUMULADO

69

2.1.4 Presentacin Grfica de Datos


Diagrama de dispersin Generalmente el diagrama de dispersin se utiliza para estudiar una posible relacin causa-efecto entre dos variables, es decir, se supone que la variable graficada en el eje X es en parte responsable (causa) del comportamiento de la variable graficada en el eje Y (efecto).

70

Ejemplo 2.10
La tabla siguiente presenta datos de la antigedad del empleado en aos (X) y los errores presentados en un mes.
X Y 1 15 2 13 3 14 4 12 5 10 6 11 7 12 8 10 9 8 10 10 11 9 12 7 13 6 14 7 15 4 16 5 17 3 18 4 19 2 20 2

Construir un diagrama de dispersin.

71

Solucin
DIAGRAMA DE DISPERSIN
16 14 12 10 8 6 4 2 0
0 5 10 15 20 25

Errores presentados

Antigedad del empleado

72

You might also like