Professional Documents
Culture Documents
Prof. Francisco Parreo Torres Tutoras: Martes 16:00-19:00 16:00Mircoles 10:00-13:00 10:00fparreno@info-ab.uclm.es fparreno@infohttp://www.info-ab.uclm.es/asignaturas/20212 http://www.info- ab.uclm.es/asignaturas/20212
06/02/2007
QU ES LA ESTADSTICA?
La estadstica puede definirse como: recopilacin, presentacin, anlisis y uso de datos para tomar decisiones y resolver problemas En el caso de la ingeniera para:
Disear nuevos productos y sistemas, Perfeccionar los ya existentes Disear, mejorar y controlar los procesos de produccin.
ME en la I Tema 1. Muestra y Poblacin. Estadstica descriptiva
por qu?
La estadstica (y la probabilidad) proporcionan mtodos tanto para describir y modelizar la variabilidad como para tomar decisiones en presencia de sta.
ME en la I Tema 1. Muestra y Poblacin. Estadstica descriptiva
Podemos distinguir:
Estadstica descriptiva: mtodos para resumir y organizar los datos (primer paso del anlisis) Inferencia estadstica: obtener conclusiones vlidas para la poblacin de inters a partir del estudio de una parte: muestra. (Objetivo fundamental del curso)
ME en la I
Plantear hiptesis
Disear experimento
Obtener conclusiones
06/02/2007
Poblacin y muestra
Poblacin (population) conjunto de todas las observaciones posibles de la caracterstica de inters (variable). Normalmente es demasiado grande para poder abarcarlo. No es una poblacin fsica. Muestra (sample) es un conjunto de observaciones obtenidad en un experimento. Debera ser representativo Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales). Nmero de observaciones de la muestra: tamao muestral.
Muestreo Aleatorio
Poblacin
ME en la I Tema 1. Muestra y Poblacin. Estadstica descriptiva
Muestra
Inferencia
6
Tipos de variables
Cuantitativa (nmerica):
Continua, cualquier valor en intervalo: Temperatura, presin, velocidad. Discreta, slo un nmero finito de valores. Nmero de mquinas en funcionamiento Nmero de empleados
Cualitativa (categrica):
Nominales: Si sus valores no se pueden ordenar Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)
Ordinales: Si sus valores se pueden ordenar Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor
ME en la I Tema 1. Muestra y Poblacin. Estadstica descriptiva
20
15
y c n e u q10 e r F
Duracin en horas
ME en la I
Tabla de frecuencias
Exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca).
Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad Frecuencias relativas (porcentajes): Idem, pero dividido por el total Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas
Duracin (horas) Nm. Dispositivos 0-200 17 200-400 9 400-600 7 600-800 7 800-1000 6 1000-1200 2 1200-1400 1 1400-1600 1 Marca de clase Frec.relativa Frec. Acum. 100 34,00% 34,00% 300 18,00% 52,00% 500 14,00% 66,00% 700 14,00% 80,00% 900 12,00% 92,00% 1100 4,00% 96,00% 1300 2,00% 98,00% 1500 2,00% 100,00%
ME en la I
No usarlo con variables ordinales. El rea de cada sector es proporcional a su frecuencia (abs. o rel.)
Pictogramas
ME en la I
10
375
300
Recuento
255 215
200
127
100
54 24 23 17
7 Ocho o ms
Nmero de hijos
El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
14
12
10
y c n8 e u q e r F
6
ME en la I
10
N otas
11
Parmetros y estadsticos
Parmetro: Es una cantidad numrica calculada sobre una poblacin
La altura media de los individuos de un pas La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros).
Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre una muestra y confiamos en que sean prximos. Ms adelante veremos como elegir muestras para que el error sea confiablemente pequeo.
Tema 1. Muestra y Poblacin. Estadstica descriptiva
ME en la I
12
Estadsticos de localizacin:
Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral. x i Datos sin agrupar: x1, x2, ..., xn x = i Media n
Datos organizados en tabla
Si en vez de valores individuales, tenemos una tabla de frecuencias usamos la marca de clase (valor central de cada intervalo y la fx frecuencia de la clase, en este caso la media es un valor aproximado) x= i i i
Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el n es par, se elige la media de los dos datos centrales, si es impar se elige el valor central.
13
Estadsticos de localizacin:
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada . Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%
Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75
Tema 1. Muestra y Poblacin. Estadstica descriptiva
ME en la I
14
Algunos ejemplos
Altura mediana
ME en la I
15
Estadsticos de dispersin:
Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa.
Amplitud o Rango (range): Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.
Es la distancia entre primer y tercer cuartil. Rango intercuartlico = Q3 Q1 Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores. No es tan sensible a valores extremos
ME en la I
16
Mximo
10,00 8,00 6,00 4,00 2,00
Q3 Mediana Q1
0,00
Mnimo
Notas de Junio 2006
Mecnicos Clase
Elctricos
ME en la I
17
Estadsticos de dispersin:
Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
x i ( xi x ) xi i n 2 i i S = = n 1 n 1
2 2 2
Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para un principiante. La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la informacin geomtrica relevante en muchas situaciones donde la energa interna de un sistema depende de la posicin de sus partculas.
Energa de rotacin (va el coeficiente de inercia): patinadores con brazos extendidos (dispersos) o recogidos (poco dispersos) Energa elstica: Muelles estirados con respecto a su posicin de equilibrio (dispersos) frente a muelles en posicin cercana a su posicin de equilibrio (poco dispersos)
ME en la I Tema 1. Muestra y Poblacin. Estadstica descriptiva
18
Estadsticos de dispersin:
Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza
S = S2
Tiene las misma dimensionalidad (unidades) que la variable. Versin esttica de la varianza.
Cierta distribucin que veremos ms adelante (normal o gaussiana) quedar completamente determinada por la media y la desviacin tpica. A una distancia de una desv. tpica de la media hay ms de la ms de la mitad. A una distancia de dos desv. tpica de la media las tendremos casi todas.
20
15
Recuento
10
Consumo l/100 km
ME en la I
19
Estadsticos de dispersin:
Dispersin en distribuciones normales: Centrado en la media y a una desv. tpica de distancia hay aproximadamente el 68% de las observaciones. A dos desviaciones tpicas tenemos el 95% (aprox.) A tres desviaciones tpicas tenemos el 99.7% (aprox.)
0.05 0.04
0.04 0.05
0.03
0.02
0.01
xs 68.5 %
0.01
0.02
0.03
x 2s 95 %
0.00
150
160
170
180
190
0.00 150
160
170
180
190
ME en la I
20
10
Estadsticos de dispersin:
Coeficiente de variacin, es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media Tambin se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes
CV =
S x
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso).
ME en la I Tema 1. Muestra y Poblacin. Estadstica descriptiva
21
Asimetra o sesgo
Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.
ME en la I
22
11