Professional Documents
Culture Documents
ESTADSTICAS
para asegurar la comparabilidad
en la calidad analtica
CADENA DE COMPARACIN
RESULTADO
DE UNA
MEDIDA
REFERENCIA
Trazabilidad
Es la propiedad del resultado de una medida o
del valor de un patrn, mediante la cual puede
relacionarse con referencias establecidas
(normalmente patrones nacionales o
internacionales) mediante una cadena
ininterrumpida de comparaciones (cada una de
ellas con una incertidumbre calculada)
Vocabulario Internacional de Metrologa (ISO,
1993)
Incertidumbre
Es el intervalo dentro del cual esperamos
encontrar (con una gran probabilidad) el
valor real de aquello que se mide
parmetro asociado con el
Es un p
resultado de la medida que caracteriza la
dispersin del resultado
Se expresa como un intervalo y engloba
tanto errores aleatorios como la parte no
controlada de los errores sistemticos
Trazabilidad e Incertidumbre
MUESTRA Y POBLACIN
{ x1 , x2 ,... xi ,... xn }
Medidas descriptivas
Las medidas descriptivas son valores numricos
calculados a partir de la muestra y que nos resumen la
informacin contenida en ella.
Medidas de Centralizacin
Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar
como representativo de todos los datos. Hay diferentes modos para definir el
"centro" de las observaciones en un conjunto de datos. Por orden de importancia,
son:
MEDIA : (media aritmtica o simplemente media). es el promedio aritmtico de
las observaciones
MEDIANA :es el valor que separa por la mitad las observaciones ordenadas de
menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el
otro 50% son mayores. Si el nmero de datos es impar la mediana ser el valor
central, si es par tomaremos como mediana la media aritmtica de los dos valores
centrales.
MODA : es el valor de la variable que ms veces se repite, es decir, aquella cuya
frecuencia absoluta es mayor. No tiene porque ser nica.
Clculo de la mediana
Si n es impar: x0.5 = x n +1
2
Si n es par: x0.5
1
= xn + xn
+1
2 2
2
Medidas de Dispersin
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersin nos dicen hasta que punto estas
medidas de tendencia central son representativas como sntesis de la informacin. Las
medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los
valores de la distribucin respecto al valor central. Distinguimos entre medidas de
dispersin absolutas, que no son comparables entre diferentes muestras y las relativas
que nos permitirn comparar varias muestras.
MEDIDAS DE DISPERSIN ABSOLUTAS
VARIANZA ( s2 ): es el promedio del cuadrado de las distancias entre cada
observacin y la media aritmtica del conjunto de observaciones.
DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades que la
variable pero al cuadrado
cuadrado, para evitar este problema podemos usar como medida de
dispersin la desviacin tpica que se define como la raz cuadrada positiva de la
varianza
RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las
observaciones mayor y el menor. Re = xmax - xmin
MEDIDAS DE DISPERSIN RELATIVAS
COEFICIENTE DE VARIACIN DE PEARSON: Cuando se quiere comparar el grado
de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o
que las medias no son iguales se utiliza el coeficiente de variacin de Pearson que se
define como el cociente entre la desviacin tpica y el valor absoluto de la media
aritmtica
CV representa el nmero de veces que la desviacin tpica contiene a la media
aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la
representatividad de la media.
Medidas de Forma
Comparan la forma que tiene la representacin grfica, bien sea el histograma
o el diagrama de barras de la distribucin, con la distribucin normal.
ASIMETRA
Diremos que una distribucin es simtrica cuando su mediana, su moda y su
media aritmtica coinciden.
Diremos que una distribucin es asimtrica a la derecha si las frecuencias
(absolutas o relativas) descienden ms lentamente por la derecha que por la
izquierda.
Si las frecuencias descienden ms lentamente por la izquierda que por la
derecha diremos que la distribucin es asimtrica a la izquierda.
APUNTAMIENTO O CURTOSIS
Media Geomtrica
Se utiliza en el caso de distribuciones lognormales
xG =
i =1
Media armnica
Se emplea para no tener en cuenta valores extremadamente altos
xH =
1
1 n 1
n i =1 xi
Estimaciones no paramtricas de
la tendencia central y la dispersin
Son estimaciones independientes del
conocimiento de la funcin de distribucin de
los datos
La mediana es el parmetro utilizado para
estimar la tendencia central
El recorrido intercuartil, x0.75 x0.25 es la
estimacin no paramtrica de la dispersin
Mximo
Mnimo
X1/4 (primer cuartil)
X3/4 (tercer cuartil)
X0.5 (mediana)
X 1/ 4
X 1/ 2
Primer cuartil
X 3/ 4
Segundo cuartil o
mediana
Tercer cuartil
Mediana
Mximo
Mnimo
Niveles de plasma
Los niveles de protena en plasma en 20 hombres y
20 mujeres (mg/100 mL) fueron:
9 13
11 3
18
2 4
6 2
1 14
2 11
3 11
3 2
4 8
10
Median
25%-75%
Min-Max
0
Hombre
Mujer
11
Errores tipo I y II
Cuando se contrasta H0 siempre existe
una probabilidad de rechazarla siendo
cierta, que se llama nivel de significacin
La probabilidad de no
no equivocarnos
equivocarnos , es
decir, aceptar H0 cuando es cierta, 1-, es
el nivel de confianza
es una medida del llamado error tipo I o
de FALSO NEGATIVO
Errores tipo I y II
En principio, podramos tomar 0 para evitar
la probabilidad de falsos negativos, pero
podramos acabar aceptando H0 siendo falsa
(cuando en realidad se da la hiptesis
alternativa)
El error correspondiente a la proporcin de
FALSOS POSITIVOS se llama tipo II o .
Si queremos disminuir la probabilidad de error
tipo I disminuyendo , aumentar el riesgo de
un error tipo II
Errores tipo I y II
Certeza sobre la
poblacin
H0 CIERTA H0 FALSA
Decisin H0
Error I
basada RECHAZADA
en la
Decisin
muestra H0
ACEPTADA
correcta
Decisin
correcta
Error II
12
H0: A B
H1: A <B
Una cola, mitad +
H0: A B
H1: A >B
Una cola, mitad -
H0: A = B
H1: A <B o A> B
Dos colas
13
ERRORES TIPO I y II
14
EJEMPLOS
Comparacin de la dispersin de dos
conjuntos de datos
15
Pruebas t de Student
Las pruebas t de Student se aplican
generalmente en dos casos:
C
Comparar llos valores
l
promedio
di d
de d
dos
conjuntos de datos
Comparar diferencias entre resultados
emparejados (muestras dependientes)
16
EJEMPLOS
Comparacin entre valores promedio
17
EJEMPLOS
Ensayo de resultados emparejados
Valores extremos
Se denominan valores extremos a aquellas
observaciones tan alejadas del resto de las medidas que
parece que proceden de una poblacin diferente o bien
son el resultado de un error en la medida.
Estos valores pueden subdividirse en
stragglers (valores rezagados) que aparecen
entre el 95-99% del nivel de confianza de la
distribucin
outliers (resultados aberrantes) que surgen ms
all del 99% del nivel de confianza y por lo tanto
podra asumirse que pertenecen a otra poblacin
18
19
Criterio de Bartlett
El estadstico es:
K
T=
( N K ) ln S p2 ( Ni 1) ln Si2
i =1
1 K 1
1
1+
3( K 1) i =1 Ni 1 N K
N = numero total de medidas
( Ni 1)Si2
N K
i =1
K
S p2 =
Criterio de Bartlett
H 0 : 1 = 2 = ... = K
Si T 2 ( , K 1), H 0 se admite
Este criterio es muy sensible a las
desviaciones de la normalidad de los
datos
Ensayo de Levene
El estadstico es
K
W=
( N K ) N i ( Z i. Z.. ) 2
i =1
K Ni
( K 1)) ( Z ij Z i. ) 2
i =1 j =1
Z ij = X ij X i
Ni
Zi. =
Z
j =1
Ni
ij
Z.. =
Ni
Z
i =1 j =1
ij
20
Ensayo de Levene
H0 es igual que en el ensayo anterior
Si W F ( , K 1, N K ) H 0 se acepta
Admite que la distribucin es normal
Test de Hartley
En este caso se supone que todas las
series tienen el mismo nmero de datos
Ni=n y siguen la distribucin normal
Usa como estadstico
F=
2
S max
2
S min
Criterio de Cochran
En principio, como el anterior est
pensado para series con el mismo nmero
de datos Ni=n
El estadstico es
C=
2
S max
K
S
i =1
2
i
21
Criterio de Cochran
En lugar de comprobar si hay
homogeneidad en las varianzas, permite
ensayar si la varianza sospechosa ha de
considerarse como outlier
outlier
Funciona bien con desviaciones de la
normalidad
Puede aplicarse tambin cuando Ni no es
constante
Criterio de Cochran
Se compara C con el valor tabulado
C(K,n,) con = 1% y ensayo de 1 cola
Si Ni no es constante se calcula
K
n=
N
i =1
Outliers centrales
22
Observaciones
3a7
8-10
11-13
x1 sospechoso
xn sospechoso
x x
Q= 2 1
xn x1
Q=
xn xn 1
xn x1
x2 x1
xn 1 x1
Q=
xn xn1
xn x2
Q=
Q=
14-25
Q=
x3 x1
xn 1 x1
x3 x1
xn 2 x1
Q=
xn xn 2
xn x2
Q=
xn xn 2
xn x3
23
Ensayos de Grubbs
No hay uno, sino tres ensayos de Grubbs:
G1, cuando el resultado sospechoso es uno
(situacin a de la figura 1)
G2 cuando hay un par de resultados sospechosos
en los
l extremos
t
opuestos
t (situacin
( it
i b)
G3, cuando la pareja de datos sospechosos est a
un mismo lado de la media (caso c)
Ensayos de Grubbs
S es la desviacin estndar del conjunto completo,
xi es un resultado sospechoso nico, x es la media,
n el nmero de resultados, xn y x1 son los valores
extremos de la serie y sn-2 es la desviacin estndar para
El conjunto de datos excluyendo la pareja de resultados
sospechosos
Los valores calculados de los estadsticos se comparan
con los valores crticos tabulados para un 99% de nivel
De confianza
24
ANOVA
Hasta ahora hemos estudiado pruebas
estadsticas para la comparacin de dos series
de datos. En el caso de comparaciones
mltiples (tres o ms series) hay que acudir a
otros procedimientos o realizar combinaciones
binarias.
La tcnica fundamental para realizar mltiples
comparaciones es el Anlisis de la Varianza
(ANOVA)
ANOVA
Para contrastar las dispersiones de varias series de
datos procederemos a realizar cualquiera de los
ensayos que se practicaron para la deteccin de outliers
dispersivos, como el criterio de Bartlett, Levene, Hartley
o Cochran
Para
P
comparar llos valores
l
centrales
t l d
de ms
d
de d
dos
series de datos independientes, emplearemos el
ANOVA de un factor en diseo completamente
aleatorizado
Para realizar comparaciones entre ms de dos series de
datos apareados (dependientes) utilizaremos el ANOVA
de un factor en diseo por bloques aleatorizados
25
ANOVA
Consideraremos que en la realizacin de la
medida solamente hay una variable
experimental influyente o FACTOR, el cual se
investiga hacindolo actuar a diversos valores
(niveles o tratamientos).
Al material soporte (muestras, especmenes,
individuos...) donde se realiza el experimento se
le llama unidad experimental y se le mide el
efecto producido por el tratamiento.
ANOVA
Designemos por xij a la j-sima unidad experimental sometida al isimo tratamiento (j =1, ...,n; i=1,...p)
Nivel
Observaciones
Medias
x11
x12
x1j
x1n
x1
x21
x22
x2j
x2n
x2
xi1
xi2
xij
xin
xi
xp1
xp2
xpj
xpn
xn
ANOVA
Para contrastar H0: 1=2=...=p es
necesario aceptar las suposiciones:
La poblacin de las p muestras es normal
Las p poblaciones son homocedsticas
(tienen la misma dispersin)
Las p poblaciones son independientes
Las muestras tomadas son aleatorias
26
ANOVA
El factor que induce las posibles
diferencias entre las series de muestras
puede ser el modo diferente en que han
sido medidas o su diversa procedencia,...
El efecto de la variacin (ti) se
superpondr a la desviacin aleatoria pura
(eij) de la medida, de manera que se
separar de su hipottico valor verdadero
() segn el modelo
xij = + ti + eij
ANOVA
Si asimilamos
x
ti efecto de la variacin = xi x
eij desviacin respecto a la media = xij xi
xij x = xi x + xij xi
ANOVA
p
( x
i =1 j =1
ij
x ) 2 = ( xi x ) 2 + ( xij xi ) 2
TSS (Total)
i =1 j =1
i =1 j =1
27
ANOVA
TSS registra la dispersin total existente
en los datos
BSS es la suma de cuadrados debida a
los cambios ENTRE niveles.
niveles Refleja el
sesgo debido a la variacin en los niveles
WSS es la suma de cuadrados DENTRO
de cada nivel y se adscribe al error
aleatorio puro
ANOVA
Si la varianza entre niveles es
significativamente mayor que la varianza
de error puro puede comprobarse
aplicando la prueba F de Snedecor
Snedecor-Fisher:
Fisher:
F=
S B2
BSS / ( p 1)
=
2
SW WSS / p (n 1)
ANOVA
Si el resultado del ANOVA fue rechazar H0, esto
nos indica que las medias no son iguales por
causa de la variacin de los tratamientos.
Pero en realidad no sabemos q
qu medias son
las que realmente difieren, pues puede suceder
que:
Una media sea diferente de las restantes
Todas sean distintas
Se encuentren agrupadas
28
xk xl t p ( n 1); / 2
2WSS
n
xk xl qr , p ( n 1);
SEE
n
29
EJEMPLO ANOVA
Cuatro laboratorios han aplicado el mismo
mtodo a una misma muestra y han
realizado un triplicado de la medida. Los
resultados se indican en la tabla adjunta
adjunta.
Hay diferencias significativas entre los
resultados obtenidos por los laboratorios?
EJEMPLO ANOVA
Lab
Rplicas
Medias
102
100
101
101
101
101
104
102
97
95
99
97
90
92
94
92
p= 4, n = 3, N=np = 12
30
EJEMPLO ANOVA
Fuente de
variacin
Niveles
(Labs)
Residual
(Error aleat.)
Total
Suma de
Grados de Varianzas
cuadrados libertad
BSS= 186 4-1 = 3
186/3 = 62
11-3 = 8
WSS =
210-186 =
24
TSS = 210 12-1 = 11
24/8 = 3
EJEMPLO ANOVA
F = 62/3 = 20.7 > F3,8;0.05 = 4.07
Se rechaza H0: Las medias difieren
significativamente, pero Cules?
Utili
Utilicemos
ell mtodo
t d post-hoc
th d
de T
Tukey
k
1/2
HSD = q4,8;0.05 (3/3) = 4.529
Las diferencias entre medias son:
EJEMPLO ANOVA
x1
x1
x2
x3
x2
x3
x4
10
5
x4
Todas las medias difieren excepto las del
laboratorio 1 y el 2 y las del laboratorio 1 y
el 3
31