You are on page 1of 66

CURSO DE PROBABILIDAD Y ESTADISTICA

UNIVERSIDAD AUTNOMA CHAPINGO DEPARTAMENTO DE IRRIGACIN DR. MARIO ALBERTO VZQUEZ PEA Chapingo Mxico Agosto del 2009

Mtodos tabulares y graficos para la organizacin y presentacin de datos

Probabilidad y Estadstica

Construccin de una tabla de frecuencias


Minutos empleados en el telfono

102 71 103 105 109

124 104 116 97 99

108 86 103 112 118 87 85 122 87 107 67 78 105 99 101

82 95 100 125 92

Construir una tabla de frecuencias con cinco clases. Valores clave:

Valor mnimo = Valor mximo =

67 125

Distribucin de frecuencias
l Decidir el nmero de clases (En este caso usar 5). l Calcular el ancho de clase:
q

(125 - 67) / 5 = 11.6 Redondeando a 12

l Determinar los limites de clase. l Marcar en la clase respectiva para cada valor.
Limites de Clase 67 79 91 103 115 78 90 102 114 126 Marca f 3 5 8 9 5 f =30 p 0.1 0.167 0.266 0.30 0.167 p =1.0
4

Colocar los limites inferiores primero.

Histograma de frecuencias
Clase 67 - 78 79 - 90 91 - 102 103 -114 115 -126

f
3 5 8 9 5

Limites 66.5 - 78.5 78.5 - 90.5 90.5 - 102.5 102.5 -114.5 115.5 -126.5 f Tiempo usado en el telfono

minutos

Polgono de frecuencia
Clase 67 - 78 79 - 90 91 - 102 103 -114 115 -126

f
3 5 8 9 5 f Tiempo empleado en el telfono

72.5

84.5

96.5

108.5

120.5

minutos Marcar el punto medio en la parte alta de cada barra. Conectar con segementos de lnea recta. Extender el polgono al eje horizontal.

Informacin adicional
Punto medio : (lmite inferior + lmite superior) / 2 Frecuencia relativa: frecuencia de la clase/frequencia total Frecuencia acumulativa:Nmero de valores en la clase o inferior a ella. Frecuencia Acumulativa Frecuencia Absoluta relativa PuntoMedio Clase f relativa f p
i i

67 - 78 79 - 90 91 - 102 103 -114 115 -126

3 5 8 9 5

(67+ 78)/2 72.5 84.5 96.5 108.5 120.5

3/30 0.10 0.17 0.27 0.30 0.17

3 8 16 25 30

3/30=0.1 8/30=0.267 16/30=0.533 25/30=0.833 30/30=1.0007

Histograma de frecuencia relativa


Tiempo en el tlefono
.30

Frecuencia relativa

.30 .27

.20

.17 .10

.17

.10

66.5

78.5

90.5

102.5 114.5 126.5

Tiempo en minutos Frecuencia relativa en la escala vertical

Ojiva o polgono de frecuencia acumulada


Una ojiva permite obtener aquel nmero para el cual los valores del conjunto de datos son menores o iguales al valor, x en un cierto porcentaje dado por la frecuencia relativa acumulada.
Minutos en el telfono
30
25

El 72.42% de los datos tienen un valor inferior a 110 minutos

Frecuencia relativa

30

20
8 3 0

16

10

En frecuencia relativa acumulada, le corresponde un valor de 0.7242


114.5 126.5

66.5

78.5

90.5

102.5

minutos X=110
9

Grfica de tallo y hoja


El valor ms bajo es 67 y el ms alto es 125, el tallo inicia desde 6 y termina en el valor 12.
102 Tallo Hoja 124 108 86 103 82

6 | 7 | 6 8 | 9 | 10| 2 11| 4 12|

2 8 3
10

Grfica de tallo y hoja


6 |7 7 |1 8 8 |2 5 6 7 7 9 |2 5 7 9 9 10 |0 1 2 3 3 4 5 5 7 8 9 11 |2 6 8 12 |2 4 5
Clave: 6 | 7 significa 67

11

tallo
Clave: 6 | 7 significa 67 6|7 7|1 7|8 8|2 8|5677 9|2 9|5799 10 | 0 1 2 3 3 4 10 | 5 5 7 8 9 11 | 2 11 | 6 8 12 |2 4 12 | 5

1er lnea digitos 0 1 2 3 4 2a lnea digitos 5 6 7 8 9

1er lnea digitos 0 1 2 3 4 2a lnea digitos 5 6 7 8 9

12

Grfica de puntos

Telfono
66 76 86 96 106 116 126

minutos

13

Grfica de pastel
l Usada para describir partes de un todo l Angulos centrales para cada segmento

nmero en categoria o 360 nmero total


The 1995 NASA budget (billions of $) divided among 3 categories.
Billions of $ Human Space Flight 5.7 Technology 5.9 Mission Support 2.7

Construir una grfica de pastel.


14

Grfica de Pastel
Billions of $ Angle(deg.) Human Space Flight 5.7 143 Technology 5.9 149 Mission Support 2.7 68 14.3
NASA Budget (Billions of $)

Total
Mission Support 19%

5.7/14.3*360o = 143o 5.9/14.3*360o = 149o


Human Space Flight 40%

Technology 41%

15

Medidas de Tendencia Central


Media: La suma de todos los datos dividios por el nmero de datos Para una poblacin:
x = N

Para una muestra:

x x= n

Mediana: El punto en el cual se tiene igual nmero de valores por arriba y por abajo. Moda: El valor con la ms alta frecuencia
16

Un instructor registra el nmero promedio de ausencias por sus estudiantes en un semetre. Para una muestra aleatoria los datos son: 2
Media: Mediana:

40
x=63

3
n=9

6
63 x= =7 9

Calcular la media, la mediana, y la moda


x x= n

Ordenados los datos

El valor medio es 3, entonces la mediana es 3. Moda: La moda es 2 dado que ocurre con mayor frecuencia.

40

17

Suponiendo que el estudiante con 40 ausencias se elimina de los datos del curso. Calcular la media, mediana y moda de los restantes valores. Compare el efecto en el cambio de cada tipo de medida.

0 2

Calcule la media, la mediana, y moda


Media:
x x= n

x=23

n =8

x=

23 =2 . 875 8

Mediana:

Datos ordenados

Los valores medios son 2 y 3, por lo tanto la mediana es 2.5

Moda:La moda es 2 dado que esta ocrrure con mayor frecuencia.


18

Formas de distribuciones
Simtrica Uniforme

10

11

12

Media = mediana

Sesgada a la izquierda

Sesgada a la derecha

10

11

12

10

11

12

Media > mediana

Media < mediana

19

Media Ponderada
l La media ponderada es aquella media de un conjunto de datos, donde cada dato tiene diferentes pesos.
n i=1 x = n

x iwi wi
i=1

l Donde wi es el peso de cada dato

20

Ejemplo del clculo de la media ponderada


l Supngase que un maestro de la materia X decide obtener la calificacin de su curso dando diferentes pesos a las diferentes evaluaciones que realizar a lo largo del semestre, dado por lo siguiente: 15% primer examen, 50% segundo examen, 15% de tercer examen, 10% de tareas y 10% de practicas de laboratorio. Para el estudiante Y cuyas calificaciones fueron las siguientes: Evaluacin Calificacin Primer examen 86 Segundo examen 96 Tercer examen 82 Tareas 100 21 Prcticas 98

Clculo de la media ponderada


Evaluacin Primer examen Segundo examen Tercer examen Tareas Prcticas Calificacin Peso (wi) 86 96 82 100 98 0.15 0.5 0.15 0.10 0.10 wi=1.0 xi*wi 12.9 48.0 12.3 10.0 9.8 (xi*wi)=93.0

El valor de la media ponderada es 93.0


22

Estadsticas Descriptivas
Se reportan los precios de dos lotes de producto al cierre de diez das de ventas consecutivos (Viernes de cada semana). Calcular la media, mediana y moda para cada uno.

Lote A

Media = 61.5 Mediana =62 Moda= 67

56 56 57 58 61 63 63 67 67 67

33 Lote B 42 48 52 57 67 67 77 Media = 61.5 82 Mediana =62 90 Moda= 67

23

Medidas de Variacin
Rango = Valor Mximo Valor Mnimo
Rango para A = 67 - 56 = $11 Rango para B = 90 - 33 = $57 El rango solo utiliza 2 numeros del conjunto de datos.

La desviacin para cada valor x es la diferencia entre el valor de x y la media del conjunto de datos.
En una poblacin, la desviacin para cada valor de x es:

x 24

En una muestra, la desviacin para cada valor de x es:

x x

Lote A 56 56 57 58 61 63 63 67 67 67

Desviacin -5.5 -5.5 -4.5 -3.5 -0.5 1.5 1.5 5.5 5.5 5.5

Desviaciones
56 - 61.5 56 - 61.5 57 - 61.5 58 - 61.5

= 61.5

( x - ) = 0

La suma de las desviaciones es cero.

25

Varianza Poblacional
Lote A 56 56 57 58 61 63 63 67 67 67
x ( x 2 )

Varianza Poblacional: La suma de los cuadrados de las desviaciones, dividida por N.


-5.5 -5.5 -4.5 -3.5 -0.5 1.5 1.5 5.5 5.5 5.5 30.25 30.25 20.25 12.25 0.25 2.25 2.25 30.25 30.25 30.25 188.50

x 2 ( ) 2 = N

188.50 = = 18.85 10
2

Suma de los cuadrados de las desviaciones

26

Desviacin estndar poblacional


Desviacin estndar poblacional La raz cuadrada de la varianza poblacional.

= 18.85=4.34
La desviacin estndar poblacional es $4.34

27

Desviacin estndar muestral


Para calcular la varianza muestral, la suma de los cuadrados de las desviaciones se divide por n-1. 2 x x 2 2 188 . 50 s = s= =20 . 94 9 n1
La desviacin estndar muestral, s se calcula al obtener la raz cuadrada de la varianzamuestral. 2

s= s

s= 20.94=4.58
Calcular las medidas de variacin para el lote B
28

Resumen
Rango = Valor Mximo Valor Mnimo Varianza Poblacional
x = N
2 2

Desv. Estndar Poblacional Varianza muestral Desv. Estndar muestral

2
2

x x 2 s = n1

s= s

2
29

Coeficiente de variacin

s CV X = x
Donde: S, es la desviacin estndar
x ,es la media muestral

30

Caractersticas del coeficiente de variacin


l Puesto que tanto la desviacin estndar como la media se miden en las unidades originales, el CV es una medida independiente de las unidades de medicin. l Debido a la anterior propiedad, el CV es la cantidad ms adecuada para comparar la variabilidad de dos conjuntos de datos. l En reas de investigacin donde se tienen datos de experimentos previos, el CV es muy usado para evaluar la precisin de un experimento, comparando el CV del experimento en cuestin con los valores 31 del mismo en experiencias anteriores.

Ejemplo de clculo del CV


Para los datos de los precios de los dos lotes de producto al cierre de diez das de ventas, se tiene que: SA=4.57651 y SB=18.31362, donde la media es la misma =61.5, por lo tanto: CV(Lote A)=4.57651/61.5*100=7.44% CV(Lote B)=18.31362/61.5*100=29.77%.
l Puede verse claramente a partir de lo anterior, que los datos que corresponden al lote B tienen una mayor variabilidad que los que pertenecen al lote A.

32

Regla Empirica: Regla 68- 95- 99.7%


Datos con distribucin simtrica en forma de campana tienen las siguientes caractersticas.

13.5% 2.35%
4 3 2 1

68%
0 1

13.5% 2.35%
2 3 4

Cerca del 68% de los datos quedan comprendidos dentro de una desviacin estndar con respecto a la media Cerca del 95% de los datos quedan comprendidos dentro de dos desviaciones estndar. Cerca del 99.7% de los datos se encuentra dentro de tres desviaciones estndar.

33

Usando la regla empirica


El valor medio de un departamento en una cierta ciudad es de $125 mil pesos con una desviacin estndar de $5 mil. Los datos del precio de los departamentos tienen una distribucin en forma simtrica y de campana. Estimar el porcentaje de que el costo de un departamento se encuentre entre $120 y $135 mil.

68% 68%
105 110 115 120

68%

13.5%

125

130

135

140

145

$120 es una desviacin estndar por abajo de la media y $135 mil se encunetra a dos 2 desviaciones estndar con respecto=a81.5% 68% + 13.5% la media. Por lo tanto, 81.5% de los departamentos tienen un valor entre $120 y 34 $135 mil pesos .

Teorema de Chebyshev
Para cualquier distribucin independientemente de su forma, la proporcin de datos que caen dentro de k desviaciones estndar (k >1) con respecto a la media es al menos 1 - 1/k2.

=6 =3.84

10

11

12

Para k = 2, al menos 1-1/4 = 3/4 o 75% de los datos caen dentro de 2 desviaciones estndar de la media. Para k = 3, al menos 1-1/9 = 8/9= 88.9% de los datos quedan comprendidos dentro de 3 desviaciones estndar con respecto 35 a la media.

lEl teorema de Tchebysev permite inferir la proporcin de valores que deben quedar dentro de una cantidad especfica de desviaciones estndar respecto a la media

36

Teorema de Chebyshev
El tiempo promedio en la carrera de 400 metros para mujeres es de 52.4 segundos con una desviacin estndar de 2.2 s, Aplicar el teorema de Chebyshev para k = 2. Marcar en una lnea numerada k
desviaciones estndar con respecto a la media 2 desviaciones estndar=2 * 2.2 = 4.4

45.8 48 50.2 52.4 54.6 56.8 59 Al menos 75% de los tiempos empleados para correr los 400 metros por mujeres caen dentro del intervalo de 48 y 56.8 segundos. 37

Medidas de tendencia central para datos agrupados

lMedia. lMediana. lModa.

38

Datos agrupados
Para aproximar la media de un conjunto de datos presentados en una distribucin de frecuencia, se considera como si los valores de cada clase ocurrieran en el punto medio de su clase. x = Punto medio de la clase.
Clase 67- 78 79- 90 91- 102 103-114 115-126 f 3 5 8 9 5 Punto medio (x) 72.5 84.5 96.5 108.5 120.5 x*f 217.5 422.5 722.0 976.5 602.5

(x f ) x= n

30

2991

Media

2991 x= = 99.7 30

39

Mediana
l Para calcular la mediana en una tabla de frecuencias procdase como sigue: l A) Localcese la clase de la mediana. sta es una clase tal que la frecuencia relativa acumulada hasta la clase que le precede, y la frecuencia relativa acumulada hasta ella, son respectivamente menor que, y mayor o igual a 0.5.

40

ba 0 .5c Me=a d c

l B) Calclese la mediana mediante la anterior ecuacin, donde: a=Lmite inferior de la clase de la mediana. b=Lmite superior de la clase de la mediana. c=Frecuencia relativa acumulada hasta la clase que precede a la de la mediana. d=Frecuencia relativa acumulada de la clase de la mediana. l Ejemplo:

41

Se detecta la clase de la mediana.

Clase 67- 78 79- 90 91- 102 103-114 115-126

f 3 5 8 9 5

frecuencia relativa acum 3/30=0.1 8/30=0.267 Clase de la mediana 16/30=0.53 25/30=0.833 30/30=1.0

30
10291 0 . 50 .267 Me=91 =100 .745 0 . 530 . 267

2991
42

Moda: La clase con la mayor frecuencia lSi es un valor nico se dice que la distribucin de frecuencias es unimodal.

lSi se tienen dos o ms valores con la misma frecuencia mxima se dice que la distribucin es bimodal, trimodal, etc.

43

Aspectos a tener en cuenta al usar las medidas de tendencia central


l Si la distribucin no es muy asimtrica, la moda, media y mediana tienen aproximadamente el mismo valor, por lo que puede reportarse cualquiera de la tres. l Para distribuciones asimtricas, la mediana puede ser mejor medida de tendencia central. l Si va a procederse a hacer estadstica inductiva, la media es indispensable por sus excelentes propiedades terica que se vern posteriormente. l Si se trata slo de describir un conjunto, es conveniente reportar las tres medidas, ya que cada una puede indicar ms informacin al investigador.
44

Clculo de varianzas a partir de datos agrupados


l Para calcular la varianza en una tabla de frecuencias se opera bajo las mismas suposiciones que, en el caso de la media, por lo tanto se tiene:

1 2 s= x i f i x n1 i=1
2
45

tambin se puede emplear:

1 2 s = n1

x 2f i i
i =1

xi f i
i=1

]
46

Ejemplo de clculo
Para aproximar la desviacin estndar de los datos En una distribucin de frecuencias, Se usa xi = punto medio de la clase.

x x 2f s= n1
x 2f x

x =99 .7
Clase 67- 78 79- 90 91- 102 103-114 115-126 f 3 5 8 9 5 xi 72.5 84.5 96.5 108.5 120.5
x 2 x

739.84 231.04 10.24 77.44 432.64

2219.52 1155.20 81.92 696.96 2163.2

30

6316.8 s= = 217.8207 = 14.76 29

6316.8
47

Aspectos a tener en cuenta al usar las medidas de dispersin


l Las tres medidas de dispersin que se usan en la prctica son el rango, la desviacin estndar y el coeficiente de variacin. l El rango o amplitud se usa por ser muy fcil de calcular. Por estar basada slo en dos valores, es la medida de dispersin ms sensible a observaciones extremas. l La desviacin estndar tiene las ventajas y desventajas de la media muestral. Es indispensable en estadstica inductiva. l Por ser independiente de las unidades de medicin, el coeficiente de variacin es la medida apropiada para comparar la variabilidad de dos conjuntos de datos.
48

Cuartiles
3 cuartiles Q1, Q2 and Q3 dividen los datos en cuatro partes iguales. Q2 es lo mismo que la mediana. Q1 es la mediana de los datos abajo de Q2 Q3 es la mediana de los datos arriba de Q2

A continuacin se muestran los datos que corresponden al nmero de aspersores vendidos en 27 das del ao seleccionados de manera aletoria para una empresa de riego. Encontrar Q1, Q2 y Q3... 28 43 48 51 43 30 55 44 48 33 45 37 37 42 27 47 42 23 46 39 20 45 38 19 17 35 45

49

Cuartiles
Los datos ordenados (n = 27) son: 17 19 20 23 27 28 30 33 35 37 37 38 39 42 42 43 43 44 45 45 45 46 47 48 48 51 55 .

Rango medio (27 +1)/2 = 14. La mediana = Q2 = 42. Existen 13 valores abajo de la mediana. Q1 rango = 7. Q1 es 30. Q3 es el rango 7 contando desde el ltimo valor. Q3 es 45. El rango Intercuartil es Q3 - Q1 = 45 - 30 = 15
50

Grfica de cajas y ejes


Se construye a partir del uso de 5 valores claves para describir un conjunto de datos. Q1, Q2 y Q3, el valor mnimo y mximo.

Q1 Q2 = la mediana Q3 Valor mnimo Valor Mximo


17

30 42 45 17 55
30 42 45 55

15

25

35

45

55
51

Rango Intercuartil

Percentiles
Los percentiles dividen los datos en 100 partes iguales. Hay 99 percentiles: P1, P2, P3P99 .
P50 = Q2 = la mediana P25 = Q1 P75 = Q3

El 63o percentil indica aquel valor del conjunto de datos para el cual se cumple que el 63% de las observaciones o datos son menores o iguales y 37% de los datos son superiores a ese valor.

52

Percentiles
30 25 30

20 16

10 3 0 0 66.5 78.5

90.5

102.5

114.5

126.5

La distribucin acumulativa puede ser usada para encontrar los percentiles. Para el valor de 114.5 se tiene que 25 de los 30 valores se encuentran por abajo, es decir: 25/30 = 83.33%. Se puede aproximar que 114 = P83 .

53

Descripcin simultnea de dos conjuntos de datos.


Cuando se estudian dos caractersticas, una pregunta que surge con frecuencia es si existe alguna relacin entre ellas, A continuacin se presentan dos medidas que son tiles para describir el grado de asociacin entre dos conjuntos de datos.

l Covarianza l Correlacin

54

Definicin de covarianza (SXY)


l Sean (x1,y1), (x2,y2), ,(xn,yn) n pares de observaciones de dos caractersticas X y Y, y sean

Sus respectivas medias muestrales La covarianza entre las dos caractersticas se define como:

1 S XY = x y x i y i n1 i=1

55

Ecuacin para calcular la covarianza de una poblacin de tamao N


n

XY = i=1

x i x y i y
N

56

Otra expresin equivalente para SXY

1 S XY = n1

xi yi
i=1

n i=1

xi
n

n i =1

yi

]
57

Ejemplos de asociacin usando SXY


Y . . . . . . . . . . . . X

S XY 0
S XY 0

S XY 0
Y . X . . . . . . . . . . . .

. . .

. . . .

. . . . . . .
58

Ejemplo de clculo de SXY


xi

x i x

yi

yi y

y xi x yi

56 56 57 58 61 63 63 67 67 67

-5.5 -5.5 -4.5 -3.5 -0.5 1.5 1.5 5.5 5.5 5.5

33 42 48 52 57 67 67 77 82 90

-28.5 -19.5 -13.5 -9.5 -4.5 5.5 5.5 15.5 20.5 28.5

156.75 107.25 60.75 33.25 2.25 8.25 8.25 85.25 112.75 156.75 =731. 5 S XY =731. 5 =81 . 27 9

59

Tambin se tiene que:


n

x i y i=56335642. ..6790=38554
i=1
n

i =1 n i =1

x i =56 56 . . .67 = 615 y i= 33 42 . . . 90 =615

1 S XY = n1 1 = 9

i=1

xi yi

n i =1

xi

n i=1

yi

]
60

615615 38554 =81 . 27 10

Propiedades de la covarianza
l A) Cuando los valores de la variable X crecen con los de la variable Y, la covarianza es positiva. l B) Cuando los valores de la variable X decrecen al aumentar los de la variable Y, la covarianza es negativa. l C) Al comparar las ecuaciones que sirven para el 2 clculo de la covarianza SXY y de la varianza s X , se puede observar que la expresin para calcular la varianza se obtiene al obtener la covarianza de la misma variable X, es decir se puede ver a la varianza como un caso particular de la covarianza.
61

Principales desventajas de la covarianza


l La covarianza como medida de asociacin entre dos variables depende de las unidades en que se miden las variables de inters. l No existen valores de referencia que indiquen el grado de asociacin entre las dos variables, solo que entre ms alejados de cero indica mayor asociacin lineal.

62

Definicin de correlacin (rXY)


l Sean (x1,y1), (x2,y2), ,(xn,yn) n pares de observaciones hechas de dos caractersticas X y Y, y sean

Sus respectivas medias muestrales y

S XY

La covarianza entre las dos caractersticas

El coeficiente de correlacin rXY, o simplemente la correlacin entre las dos variables, tiene como expresin:

r xy=

S xy

S xS y

63

De manera ms explicita se tiene:

r XY =

xi yi
i=1


n n

xi yi
i=1 i=1

]
2

{[

i=1

i=1 2 xi

xi
n

][

n i=1

i=1 2 yi

yi
n

]}

1 2

64

Ejemplo de clculo
Para los datos de los precios de los dos lotes de producto al cierre de diez das de ventas, se tiene que: SA=4.57651 y SB=18.31362, adems SAB =81.27.

81 .27 r xy = = = S xS y 4 .5765118 .31363 0 . 9697


65

S xy

Propiedades de la correlacin
l Es independiente de las medidas utilizadas en las variables. l Valores positivos del coeficiente indican que las variables tienden a crecer (o decrecer) simultneamente, y valores negativos indican que una aumenta cuando la otra disminuye. l Toma valores exclusivamente entre -1 y 1. l Entre ms cercano se encuentre el valor de la correlacin a -1 +1 ms fuerte la asociacin lineal entre las dos variables y valores cercanos a cero indican una pobre asociacin lineal.

66