Professional Documents
Culture Documents
Anlisis Exploratorio de
Datos Sesin 2 -3
Tacna, 01 Octubre del 2016
Introduccin AED
29/09/2016
Introduccin
Mtodos Univariantes
Mtodos Bivariantes
Introduccin
29/09/2016
Distribucin de Frecuencia
F. absoluta(fa)
Un resumen de los datos, que muestra
el numero de observaciones en cada
distinto tipo de categora o clase
F. Relativa(fr)
La proporcin segn el total que
representa una categora o clase.
Total
Clases
29/09/2016
Ejemplo:
Las transacciones de bienes races a finales de 2008, los Estados Unidos experimentaron un
importante deterioro econmico que se considera debida a los prstamos de alto riesgo que muchas
instituciones de crdito realizadas durante los ltimos pocos aos. Cuando la burbuja inmobiliaria
estall, muchas instituciones experimentaron problemas graves. Como resultado, los prestamistas
se volvieron mucho ms conservadora en la concesin de prstamos para la vivienda, que a su vez
hacen la compra y venta de viviendas ms desafiante.
Para demostrar la magnitud del problema en Kansas City, la Asociacin de Promotores
Agentes inmobiliarios llevaron a cabo un estudio de 16 agencias en el rea y se recogieron datos
sobre el nmero de transacciones de bienes races cerrados en diciembre de 2008. Se observaron los
siguientes datos:
29/09/2016
W=(max-min)/k , (30-0)/8=3.75
Numero de clases
sturges
Solucin
29/09/2016
HISTOGRAMA
29/09/2016
Cdigo Python
import numpy as np
import pandas as pd
# importando dataset
titanic.head(5)
Tab_fr=pd.crosstab(index=[titanic['Class']], columns=['Frecuencia'],margins
=True)
Medidas estadsticas
29/09/2016
Posicin
Dispersin
Centralizacin
Forma
Asimetra
Apuntamiento o curtosis
Estadsticos de posicin
29/09/2016
Estadsticos de posicin
La mediana es el percentil 50
Ejemplos
15
10
5
0
frecuencia
20
25
29/09/2016
Ejemplos
Qu peso es superado slo por el 25% de los individuos?
20
15
10
0
frecuencia
25
30
50
55
60
65
70
75
80
85
Ejemplos
El colesterol se distribuye simtricamente en la poblacin. Supongamos
que se consideran patolgicos los valores extremos. El 90% de los
individuos son normales Entre qu valores se encuentran los individuos
normales?
10
5
0
frecuencia
15
20
Percentiles 5 y 95
180
200
220
240
260
10
29/09/2016
Ejemplos
Percentiles 25 y 75
15
10
0
frecuencia
20
150
160
170
180
190
0.06
P25
Mn.
P50
P75
Mx.
0.00
0.04
densidad
0.02
0.08
Diagramas de Tukey
55
60
65
0.03
0.04
0.02
50
0.01
45
P25
Mn.
P50
P75
Mx.
0.00
40
densidad
80
90
100
110
120
130
140
11
29/09/2016
Ejemplo
Estadsticos
Nmero de aos de escolarizacin
N
Vlidos
1508
Perdidos
0
Media
12, 90
Mediana
12, 00
Moda
12
Percentiles 10
9, 00
20
11, 00
25
12, 00
30
12, 00
40
12, 00
50
12, 00
60
13, 00
70
14, 00
75
15, 00
80
16, 00
90
16, 00
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Tot al
Frec uencia
5
5
6
12
25
68
56
73
85
461
130
175
73
194
43
45
22
30
1508
Porc entaje
,3
,3
,4
,8
1, 7
4, 5
3, 7
4, 8
5, 6
30, 6
8, 6
11, 6
4, 8
12, 9
2, 9
3, 0
1, 5
2, 0
100,0
Porc entaje
acumulado
,3
,7
1, 1
1, 9
3, 5
8, 0
11, 7
16, 6
22, 2
52, 8
61, 4
73, 0
77, 9
90, 7
93, 6
96, 6
98, 0
100,0
20%?
90%?
Estadstic
a
23
Estadsticos de centralizacin
Aaden unos cuantos casos particulares a las medidas de posicin. En este caso son
medidas que buscan posiciones (valores) con respecto a los cuales los datos
muestran tendencia a agruparse.
Mediana (median) Es un valor que divide a las observaciones en dos grupos con el
mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige
la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a valores
extremos.
12
29/09/2016
Altura mediana
Estadstic
a
25
Mediana y Media
13
29/09/2016
Algunas frmulas
fr.
fr. ac.
Media
Cuantil de orden
L0 L1
x1
n1
N1
L1 L2
x2
n2
N2
xk
nk
Nk
=0,5 es mediana
...
Lk-1 Lk
Variable
Media
Ca Li 1
a n N i 1
ni
xn
i
i i
( Li Li 1 )
M.
Clase
frec
Fr.
acum.
40 50
45
50 60
55
10
15
60 70
65
21
36
70 - 80
75
11
47
80 - 90
85
52
90 - 100
95
55
100 130
115
58
14
29/09/2016
Ejemplo (continuacin)
Peso
M. Clase
Fr.
Fr. ac.
40 50
45
50 60
55
10
15
60 70
65
21
36
70 - 80
75
11
47
80 - 90
85
52
90 - 100
95
55
100 130
115
58
xn
i
i i
45 5 55 10 115 3
69,3
58
0,5 58 N i 1
( Li Li 1 )
ni
0,5 58 15
60
(70 60) 66,6
21
Mediana C0,5 Li 1
58
P75 C0,75 Li 1
0,75 58 N i 1
43,5 36
( Li Li 1 ) 70
(80 70) 76,8
ni
11
Cada libro ofrece una frmula diferente para la moda (difcil estar al da.)
Variabilidad o dispersin
Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. Las notas seran las mismas en todos? Seguramente No.
15
29/09/2016
P50
Mx.
P75
0.04
P25
0.03
Mn.
25%
0.02
0.05
Medidas de dispersin
25% 25%
25%
- P25
Rango
0.00
0.01
Rango intercuartlico
150
160
170
180
190
16
29/09/2016
S2
1
( xi x ) 2
n i
Energa elstica: Muelles estirados con respecto a su posicin de equilibrio (dispersos) frente
a muelles en posicin cercana a su posicin de equilibrio (poco dispersos)
S S
50
40
30
20
10
Desv. tp. = 568,43
Media = 2023
0
N = 407,00
50
0
90
0
1.
1
2.
2.
2.
3.
30 . 70
10
50
90
30
0
0
0
0
0
0
Estadstic
34partos gemelares
Peso recin nacidos en
a
17
29/09/2016
0.01
0.01
0.02
0.02
0.03
0.03
0.04
0.04
0.05
0.05
x s
x 2s
68.5 %
0.00
0.00
95 %
150
160
170
180
190
150
160
170
180
190
Y entre los bigotes y dos desviaciones tpicas? Podras caracterizar las observaciones anmalas?
0.2
densidad
95 %
x s
x 2s
71 %
94 %
0.0
x 2s
66 %
0.1
0.2
x s
0.0
0.1
densidad
0.3
0.3
-2
-1
-3
-2
-1
0.2
densidad
0.1
0.2
0.1
x s
68 %
x s
x 2s
70 %
94 %
0.0
x 2s
94 %
0.0
densidad
0.3
0.3
0.4
-3
-3
-2
-1
-3
-2
-1
18
29/09/2016
Coeficiente de variacin
S
CV
x
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en
peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea
una cantidad fijada arbitrariamente
Por ejemplo 0C 0F
Asimetra o Sesgo
38
19
29/09/2016
0.15
0.05
0.1
0.05
0.2
0.10
0.10
0.3
0.15
0.4
0.20
0.5
0.20
x s
x s
78 %
0.00
x s
66 %
0.0
0.00
78 %
10
12
14
16
18
20
-2
-1
39
8
10
12
14
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribucin con respecto a la distribucin normal o gaussiana. Es adimensional.
Platicrtica (aplanada): curtosis < 0
En el curso sern de especial
inters las mesocrticas y
simtricas (parecidas a la normal).
Apuntada
0.4
x s
x s
0.4
0.6
0.8
1.0
Estadstic
a
-2
3
82 %
40
0.0
0.0
0.0
Tema 2: Estadsticos
0.2
x s
68 %
57 %
0.0
0.2
0.5
0.1
1.0
0.2
0.6
1.5
0.3
0.8
2.0
Aplanada
-3
-2
-1
-1
20
29/09/2016
Cdigo Python
import pandas as pd
import numpy as np
frame=pd.DataFrame(np.arange(40).reshape((10,4)),
columns=['ball','pen','pencil','paper'])
#funciones estadisticas
frame
frame.describe()
frame.mean()
Cdigo Python
frame['ball'].mean()
frame['ball'].std()
frame['ball'].min()
frame['ball'].max()
frame['ball'].median()
frame['ball'].quantile([.25,.5,.75])
def estadistica(x):
return pd.Series([x.min(),x.max(),x.mean(),x.std()],index=['min','max','Media','Desviacion'])
frame.apply(estadistica)
21
29/09/2016
import numpy as np
# Creando el subgrafico
ax = fig.add_subplot(111)
bp = ax.boxplot(datos_graf)
Anlisis Bivariado
Categrico
Nominal
Numrico
Categrico
ordinal
Numrico
22
29/09/2016
Correlacin
Coeficiente de Sperman
Correlacin de Pearson
23
29/09/2016
import numpy as np
import pandas as pd
# importando dataset
titanic.head(5)
pd.crosstab(titanic['Class'],titanic['Sex'],
24
29/09/2016
Cdigo - Python
import statsmodels.api as sm
import pandas as pd
df =
pd.read_csv('http://vincentarelbundock.github.io/Rdatasets/csv/datasets/longley
.csv', index_col=0)
y = df.Employed # Respuesta
X = df.GNP # Predictor
X_1 = sm.add_constant(X_1)
25
29/09/2016
#Correlacin de sperman
stats.spearmanr([1,2,3,4,5], [5,6,7,8,7])
stats.chisquare([16, 18, 16, 14, 12, 12], f_exp=[16, 16, 16, 16, 16, 8])
Clases siguientes
26
29/09/2016
Referencias
Libro completo:
David F. Groebner, Patrick W. Shannon, Phillip C. Fry, Kent D. Smith-Business Statistics (8th
Edition) -Prentice Hall _ Pearson (2010)
En la Web
http://www.scipy.org/install.html#scientific-python-distributions
https://www.continuum.io/downloads
https://www.youtube.com/watch?v=z5I0WsmYFMs
http://pydev.sourceforge.net/manual_101_install.html
http://www.pythondiario.com/2013/06/eclipse-y-pydev-configuracion-del-ide.html
https://blogs.oracle.com/geertjan/entry/python_in_netbeans_ide_81
https://www.python.org/
GRACIAS
Preguntas?
27