You are on page 1of 13

Estadstica Descriptiva

TEMA 4: OUTLIERS. MTODOS


SIMPLES DE DETECCIN Y
ACOMODACIN

4.1-INTRODUCCIN
En Estadstica, la informacin debe ser de mayor precisin
y fiabilidad posible. Debe existir una depuracin de los
datos experimentales.
Elementos de un experimento estadstico:
Una Poblacin( ), objeto del estudio que se est realizando.
Un Subconjunto(M), de elementos de la poblacin, que sern
observados.
Una Variable(X), que actuando sobre los elementos de M, los transforma
o valora.
El Experimentador(E), encargado de observar y manipular los datos.

4.2-ERRORES EN LAS OBSERVACIONES MUESTRALES


Errores en las Observaciones Muestrales
Errores o variables que pueden existir en X(M):
a) Variabilidad de la fuente o inherente: comportamiento natural de los datos.
b) Errores del Medio: Cuando no se dispone de la tcnica adecuada o cuando no
existe un procedimiento para realizar la transformacin de una forma exacta. Ej:
Redondeo forzoso con variables continuas.
Error del experimentador:
a) Error de la Informacin: cuando un modelo o estructura matemtica no adecuada
o precisa a la poblacin, o al considerar informacin o hiptesis iniciales incorrectas.
b) Error de Planificacin: cuando no se delimita correctamente la poblacin , se
experimenta con una poblacin distinta
c) Error de realizacin: por una valoracin errnea de los elementos de M( es decir,
el paso de la informacin de un instrumento a otro, Ej: de la libreta al ordenador.).

O'
En las observaciones extraas o anmalas:
a) Observacin Atpica: es aquel valor de X(M) que presenta
una gran variabilidad de tipo inherente.
b) Observacin Errnea: es el valor que presenta un
gran error del medio y/o un gran error del experimentador.
Outliers e Inliers
Outlier: Se llamar Outlier a aquella observacin que siendo atpica y/o
errnea, tiene un comportamiento muy diferente respecto de los datos,
frente al anlisis que se desea realizar sobre las observaciones
experimentales.
Inlier: Se llamar Inlier a aquella observacin atpica y/o errnea que no
tiene el comportamiento de Outlier. Es decir, se comporta casi igual o
igual que los datos de nuestro anlisis.
4.2-ERRORES EN LAS OBSERVACIONES MUESTRALES
4.3-METODOS SIMPLES DE IDENTIFICACIN DE OUTLIERS
Mtodo basado en la Desviacin Tpica
Desigualdad de CHEBYSHEV:



al menos contiene el


al menos contiene el
{ } ( )
2
i i
k
1
k x x / x fr > >
{ } ( )
2
i i
k
1
r k x x / x fr > s
S) 3 x S, 3 x ( 3 k + =
88,88% 100%
3
1
1
2
= -
|
.
|

\
|

S) 4 x S, 4 x ( 4 k + =
% 75 , 93 100%
4
1
1
2
= -
|
.
|

\
|

De las
observaciones
4.3-METODOS SIMPLES DE IDENTIFICACIN DE OUTLIERS
Mtodo basado en el Recorrido Intercuartlico
IQR = Q
3
- Q
1

Las vallas interiores de la variable estadstica X:
f
1
= Q
1
- 15 IQR [f
1
,f
2
] f
2
= Q
3
+ 15 IQR
25% 25%
Q
1
Q
2
=Me Q
3

Q
1

IQR
Q
3
f
1
f
2

15 IQR 15 IQR
4.3-METODOS SIMPLES DE IDENTIFICACIN DE OUTLIERS
Las vallas exteriores de la variable estadstica X:
F
1
= Q
1
- 3 IQR [F
1
,F
2
] F
2
= Q
3
+ 3 IQR
Q
1

IQR
Q
2
f
1
f
2

15 IQR 15 IQR
F
1
F
2

INLIER
OUTSIDE
Far-OUTSIDE
4.3-METODOS SIMPLES DE ACOMODACIN DE OUTLIERS
Mtodo de Recorte
ELIMINA
T
n se
reduce
x
T
, S
2T
, Me
T

Datos TRIMMING
4.3-METODOS SIMPLES DE ACOMODACIN DE OUTLIERS
Datos WINSORIZING
Mtodo de Reemplazamiento




Nmero de observaciones:
a) NO AGRUPADAS EN INTERVALOS: de las menores / de las mayores
b) AGRUPADAS EN INTERVALOS: y
Quin es el ltimo de los que quedan?
a) La menor y mayor de las observaciones que quedan.
b) es el extremo inferior del primer intervalo.
SUSTITUIR
W
x
w
, S
2w
, Mo
w

La observacin
menor de los
que quedan
La observacin
mayor que
queda
| |
1
n
| |
2
n
(
1
n
(
2
n
1

X
4.4-REPRESENTACIONES GRFICAS
Diagrama de Caja y Bigotes
1) Min x
i
y Max x
i


2) Q
1
, Q
2
= Me, Q
3
3) Valores Adyacentes:

4) OUTSIDES: FAR-OUTSIDES: *
Q
1
Q
3

Min x
i

Va
Q
2

Max x
i

Va

| |
2 1
, f f Minx
i
e | |
2 1
, f f Maxx
i
e
4.4-REPRESENTACIONES GRFICAS
Diagrama de Vallas
f
1
f
2

15 IQR
F
1
F
2

4.4-REPRESENTACIONES GRFICAS
Diagrama de Esquemas




RI(xi) = posicin que ocupa, cuando los datos estn
ordenados de menor a mayor.
RS(xi) = posicin que ocupa, cuando los datos estn
ordenados de mayor a menor.
IQR Q
3

Prof(Me)
n
Min x
i
Rg
Me
Prof(Q
i
)
Prof(Min)
Q
i

Max x
i

2
1 Prof(Me)
) Prof(Q
i
+
=
{ } ) RS(x ), RI(x min ) Prof(x
i i i
=
FIN
Jos Antonio Cortegana Camez 2001-2002

You might also like