You are on page 1of 54

TEMA 1. ESTADSTICA DESCRIPTIVA 1.1 Introduccin: conceptos bsicos 1.2 Tablas estadsticas y representaciones grficas 1.

3 Caractersticas de variables estadsticas unidimensionales 1.3.1 Caractersticas de posicin 1.3.2 Caractersticas de dispersin 1.3.3 Caractersticas de forma 1.4 Concepto de v.e. bidimensional 1.5 Distribuciones marginales y condicionadas 1.6 Covarianza 1.7 Dependencia e independencia estadstica 1.8 Regresin y correlacin. Introduccin 1.9 Rectas de regresin 1.10 Coeficiente de determinacin y coeficiente de correlacin lineal 1.11 Otros tipos de ajuste
1

1.1. Introduccin : conceptos bsicos


ESTADSTICA: Estudio de los mtodos de recogida

y descripcin de datos, as como del anlisis de esta informacin

Etapas de un estudio estadstico 1 2 3 4 Recogida de datos Ordenacin, tabulacin y grficos* Descripcin de caractersticas* Anlisis formal

* Estadstica descriptiva: parte de la


estadstica que se ocupa de las etapas 2 y 3

Individuo, Poblacin, Muestra


Poblacin: Conjunto de elementos a los que se les

estudia una caracterstica Individuo: Cada uno de los elementos de la poblacin Muestra: Subconjunto representativo de la poblacin
2

Variables estadsticas. Modalidades

Variable estadstica (v.e.): Caracterstica propia

del individuo objeto del estudio estadstico Ejemplos: - Estatura - Peso - Color del pelo - Nivel de colesterol - N de hijos de una familia

Modalidad: Cada una de las posibilidades o

estados diferentes de una variable estadstica Exhaustivas e incompatibles

Ejemplo: color del pelo: - castao - rubio - negro

Tipos de variables estadsticas


Cualitativas: Las caractersticas no son cuantificables

Ejemplos: Profesin Color del pelo


Cuantitativas: Caractersticas cuantificables o numricas

9 Discretas: Numricas numerables

Ejemplos: N de hijos N de viviendas


9 Continuas: Numricas no numerables

Ejemplos: Talla Peso Nivel de colesterol


4

1.2. Tablas estadsticas y representaciones

grficas
Variables discretas 9 Frecuencias
Absolutas, ni (n individuos modalidad i) Absolutas acumuladas, Ni = n1 + n2 + ... + ni Relativas, fi (proporcion indiv. modalidad i) Re lativas acumuladas, F i = f1 + f 2 + ... + fi

xi ni x1 ... xi ... xk

Ni

fi

Fi

Absolutas, ni Absolutas acumuladas, Ni

n1 N1 f1 F1 ... ... ... ... ni Ni fi Fi ... ... ... ... nk Nk fk Fk n 1

Relativas f i = ni / n Relativas acumuladas Fi = Ni / n


5

Variables continuas: Intervalos

Intervalo Ii

xi x1 ... xi ... xk

ni n1 ... ni ... nk n

Ni N1 ... Ni ... Nk

fi f1 ... fi ... fk 1

Fi F1 ... Fi ... Fk

eo- e1 ... ei-1- ei ... ek-1- ek

Amplitud ai (distancia entre los extremos) Extremos [ ... )

Marca de clase xi (punto medio de cada intervalo)

Grficos estadsticos

V. e. Cualitativas: Grfico rectangular Color Plumaje Negro Gris Blanco Rojo Violeta 20 N de Aves (ni) 10 14 20 6 4

10

Negro

Gris

Blanco

Rojo

Violeta
7

V. e. Cualitativas: Grfico de sectores Color Plumaje Negro Gris Blanco Rojo Violeta N de Aves (ni) 10 14 20 6 4
Grados de cada sector = 360 fi

violeta rojo negro

gris blanco

V. e. Discretas: Grfico de barras

N de cras N animales: n i 2 3 4 5 6 20 30 25 15 10 n = 100


35 30 25 20 15 10 5 0 2 3 4

fi 0.20 0.30 0.25 0.15 0.10

Fi 0.20 0.50 0.75 0.90 1

V. e. Discretas: Curva acumulativa

de distribucin N de cras N animales: n i 2 3 4 5 6 20 30 25 15 10 n = 100 fi 0.20 0.30 0.25 0.15 0.10 Fi 0.20 0.50 0.75 0.90 1

1 0.90 0.75 0.50


0.20

6
10

V. e. Continuas: Histograma

Estatura 140-160 160-170 170-180 180-190 190-200

ni 30 22 20 18 10 100

hi = ni / a i 1.5 2.2 2 1.8 1

hi
2.2 2 1.8 1.5 1

El rea de cada rectngulo es proporcional a la frecuencia

140

160 170 180 190 200


11

V. e. Continuas: Curva

acumulativa de distribucin
Talla 140-160 160-170 170-180 180-190 190-200

ni 30 22 20 18 10 100

fi
0.30 0.22 0.20 0.18 0.10

Fi 0.30 0.52 0.72 0.90 1

1 0.90 0.72 0.52 0.30

140

160

170

180

190

200
12

1.3. Caractersticas de variables

estadsticas unidimensionales
1.3.1

Caractersticas de Posicin

Media aritmtica

x = fi xi = i =1
i =1

ni xi
n

Estatura 140-150 150-160 160-180 180-200

N Personas M. Clase

ni
20 100 80 10 n = 210
k

xi
145 155 170 190

nixi
2900 15500 13600 1900 33900

Media : x = i =1

ni xi
n =

33900 210

= 161.42
13

Moda Valor de la variable ms frecuente 9 Puede haber ms de una moda Plurimodal Variables discretas

Datos en serie
2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3

Datos en tabla

Ejemplo

xi 1 2 3 4 5

ni 34 36 45 22 17
Mo = 3

14

Variables continuas

Mo = ei 1 +

( h i h i 1 ) + ( hi h i +1 )
xi ni
30 22 20 18 10 100

h i h i 1

ai

Ejemplo

hi =ni / ai
1.5 2.2 2 1.8 1

140-160 160-170 170-180 180-190 190-200

Mo = 160 +

( 2.2 1.5) 10 = 167.777 ( 2.2 1.5) + ( 2.2 2 )

Observaciones:

1. Puede utilizarse la frecuencia relativa 2. Si las amplitudes son iguales se puede proceder directamente con las frecuencias
15

Mediana Valor de la variable que ocupa el lugar central en una serie de datos ordenados. El 50% de los elementos de la poblacin tienen un valor de la variable menor de la mediana. El 50% de los elementos de la poblacin tienen un valor de la variable mayor. Variables discretas

Datos en serie

Ejemplos N impar de observaciones: 2, 2, 2, 3, 5, 6, 7, 7, 8 N par de observaciones: 4, 6, 6, 6, 7, 8, 8, 9

Me = 5

Me = 6 7

Indeterminado entre 6 y 7
16

Variables discretas

Datos en tabla
Ejemplo

xi 0 1 2 3 4

ni 4 6 10 5 3 28

Ni 4 10 20 25 28

fi 0.142 0.214 0.357 0.178 0.107 1

Fi 0.142 0.357 0.714 0.892 1

n/2 =14 Fi= 1/2

Me = 2

Observacin: Si n/2 coincide con un Ni

la mediana est indeterminada entre xi y xi+1

17

Variables continuas

n 1 Ni 1 Fi 1 Me = ei 1 + 2 ai = ei 1 + 2 ai ni fi
Ejemplo

Tallas
140-150 150-160 160-170 170-180 180-200

ni
15 30 25 20 100

Ni

fi

Fi

15 0.15 0.15 45 0.30 0.45 70 0.25 0.70 90 0.20 0.90 1

n/2 = 50 Fi = 1/2

10 100 0.10

Me = 160 +

0.5 0.45 10 = 160 + 2 = 162 0.25

Observacin: Si n/2 coincide con un Ni

la mediana es el extremo superior del intervalo que le corresponde


18

Percentiles Definicin: Pk, k:1,2,...,99, percentil k, valor de la variable que deja por debajo, el k% de los valores de la variable Q1 = P25 Cuartil 1 Q2 = P50 Cuartil 2 = Me Q3 = P75 Cuartil 3 D1 = P10 Decil 1 D2 = P20 Decil 2
.

Cuantiles, an ms general

D9 = P90 Decil 9

Clculo para v.e. discretas:


Igual que la mediana, cambiando n/2 por nk/100

Clculo para v.e. continuas:


nk k Ni1 Fi1 Pk = ei 1 + 100 ai = ei1 + 100 ai ni fi
19

Ejemplos percentiles v.e. discreta

xi
2 3 4 5 6

ni
20 30 44 20 10 124

Ni
20 50 94 114 124 nk/100 = 124x95/100 = 117.8 nk/100 = 124x40/100 = 49.6

Percentil 40, P40 = 3 nk/100 = 124x25/100 = 31 nk/100 = 124x50/100 = 62 nk/100 = 124x75/100 = 93

Percentil 95, P95 = 6 Percentil 25, P25 = 3 = Q1 Percentil 50, P50 = 4 = Me = Q2 Percentil 75, P75 = 4 = Q3

20

Ejemplos percentiles v.e. continua

Tallas 140-150 150-160 160-170 170-180 180-200

ni
15 30 25 20 100

Ni

fi

Fi
P40 P75

15 0.15 0.15 45 0.30 0.45 70 0.25 0.70 90 0.20 0.90 1

10 100 0.10

nk k Ni 1 Fi 1 ai = ei 1 + 100 ai Pk = ei 1 + 100 ni fi
40 15 0.4 0.15 P40 = 150 + 10 = 150 + 10 = 158.33 30 0.30

P75 = 170 +

75 70 0.75 0.70 10 = 170 + 10 = 172.5 = Q3 20 0.20

21

1.3.2.

Caractersticas de Dispersin

9 Miden la Homogeneidad de las observaciones

Rango o recorrido

Valor mximo menos valor mnimo de la variable

Recorrido intercuartlico

Q3 Q1

22

Varianza

= i =1

ni x i x
n

= i =1

2 n x ii

Desviacin tpica

= 2

Coeficiente de variacin

C. V . =

23

Ejemplo

xi
4 6 8 10 12

ni
20 40 44 36 22 162

nixi
80 240 352 360 264 1296

nixi2
320 1440 2816 3600 3168 11344

2 = Var [ X ] = i =1

ni xi 2
n

2 11344 1296 x = = 6.02 162 162 2

= 2 = 6.02 = 2.4535

24

Momentos no centrales (Respecto al origen)

r n x ii k m r = fi x i r = i =1 n i =1
k

r = 1 m1 = fi xi = i =1
i =1

ni xi
n =x

r = 2 m 2 = fi xi 2 = i =1
i =1

2 n x ii

= i =1

2 n x ii

x = m 2 m1

( )

25

Momentos centrales (Respecto a la media)

r = i =1

ni ( x i x )
n

r = 1 1 = i =1

ni ( x i x )
n

=0

r = 2 2 = i =1

ni ( x i x )
n

=2

26

1.3.3

Caractersticas de forma

Coeficiente de Sesgo (Asimetra)

1 =

3 3

Si

1 = 0

Distribucin simtrica

Si

1 > 0

Distribucin sesgada a la derecha

Si

1 < 0

Distribucin sesgada a la izquierda

27

Coeficiente de Curtosis (Aplastamiento)

2 =

4
4

Si

2 =0

Distribucin igual de aplastada que la distribucin Normal

Si

Distribucin menos aplastada 2 >0 que la distribucin Normal

Si

2 <0

Distribucin ms aplastada que la distribucin Normal

28

1.4 Concepto de variable estadstica

bidimensional

Ejemplo . X: Peso, Y: Estatura X\Y 40-60 60-80 80-100


Marginal Y

140-160 160-180 10 8 1 19 6 12 8 26

180-200 >200 Marginal


X

2 6 10 18

0 2 6 8

18 28 25 71

9 Frecuencias Marginales Frecuencias Marginales de X Frecuencias Marginales de Y 9 Frecuencias Condicionadas Frecuencias Condicionadas de X Frecuencias Condicionadas de Y

29

1.5 Distribuciones marginales y

condicionadas
Distribucin marginal de X

Distribucin de la variable X: Peso

X \Y 40-60 60-80 80-100 Marginal Y

140-160 160-180 10 8 1 19 6 12 8 26

180-200 >200 Marginal X 2 0 18 6 10 18 2 6 8 28 25 71

30

Distribucin marginal de X Distribucin de la variable X: Peso

X 40-60 60-80 80-100

Frecuencias Marginales 18 28 25 71

9 Media Marginal de X 9 Mediana Marginal de X 9 Moda Marginal de X 9 Varianza Marginal de X

31

Distribucin marginal de Y

Distribucin de la variable Y: Estatura

X\Y 40-60 60-80 80-100


Marginal Y

140-160 160-180 10 8 1 19 6 12 8 26

180-200 >200 Marginal


X

2 6 10 18

0 2 6 8

18 28 25 71

32

Distribucin marginal de Y Distribucin de la variable Y: Estatura Y 140-160 160-180 180-200 >200 Frecuencias Marginales 19 26 18 8 71 9 Media Marginal de Y 9 Mediana Marginal de Y 9 Moda Marginal de Y 9 Varianza Marginal de Y

33

Distribuciones de X

condicionadas a valores de Y

Ejemplo . Distribucin de X condicionada a 160 < Y < 180

X\Y 40-60 60-80 80-100 Marginal Y

140-160 160-180 10 8 1 19 6 12 8 26

180-200 >200 Marginal X 2 0 18 6 10 18 2 6 8 28 25 71

34

Ejemplo . Distribucin de X condicionada a 160 < Y < 180

X 40-60 60-80 80-100

Frecuencias condicionadas 6 12 8 26

9 Medias condicionadas de X

9 Varianzas condicionadas de X

35

Distribuciones de Y

condicionadas a valores de X

Ejemplo . Distribucin de Y condicionada a 60 < X < 80

X\Y 40-60 60-80 80-100


Marginal Y

140-160 160-180 10 8 1 19 6 12 8 26

180-200 >200 Marginal


X

2 6 10 18

0 2 6 8

18 28 25 71

36

Ejemplo . Distribucin de Y condicionada a 60 < X < 80

Y 140-160 160-180 180-200 >200

Frecuencias condicionadas 8 12 6 2 28

9 Medias condicionadas de Y

9 Varianzas condicionadas de Y

37

1.6 Covarianza

Cov [ X , Y ] = x y =

n ij ( xi x ) ( y j y )
i j

nij xi y j
=
i j

x y

38

1.7 Dependencia e

independencia estadstica

Independencia estadstica No hay relacin entre las variables

Si n ij =

n i.n. j n

i, j

Dependencia estadstica Hay relacin entre las variables El grado de relacin se mide mediante un coeficiente de asociacin

39

Ejemplo. Variables X e Y independientes

X\Y X1 X2

Y1

Y2

Y3

Y4

ni n1
= 20

n11
=2

n12
=6

n13
=4

n14
=8

n21
=3

n22
=9

n23
=6

n24
= 12

n2
= 30

X3

n31
=1

n32
=3

n33
=2

n34
=4

n3
= 10

n j

n 1
=6

n 2
= 18

n 3
= 12

n 4
= 24

n
= 60

Independencia estadstica

Si nij =
n 23 = n 31 = n 2. n.3 n n 3. n.1 n = = 30 12 =6 60 10 6 =1 60

ni. n. j n

i, j

40

Ejemplo. Variables X e Y no independientes X\Y X1 X2 Y1 Y2 Y3 Y4

ni n1
= 21

n11
=3

n12
=6

n13
=4

n14
=8

n21
=3

n22
= 10

n23
=6

n24
= 12

n2
= 31

X3

n31
=1

n32
=3

n33
=2

n34
=4

n3
= 10

n j

n 1
=7

n 2
= 19

n 3
= 12

n 4
= 24

n
= 62

Independencia estadstica

n 23 = n 31

n 2. n.3 n n 3. n.1 n

Si nij =
= 31 12 =6 62

ni. n. j n

i, j

10 7 = = 1.129 1 62
41

Ejemplo. Dependencia Funcional .- Dadas las siguientes distribuciones bidimensionales: 1. Son independientes las variables X e Y? 2. Dependen funcionalmente las variables X e Y? a. X\Y 1 2 3 4 b. X\Y 1 2 3 c. X\Y 1 2 3 d. X\Y 1 2 3 10 0 1 0 0 10 0 0 2 10 0 3 0 10 3 1 0 15 3 0 0 1 15 3 0 0 15 5 0 0 15 2 0 1 20 0 0 5 0 20 0 1 0 20 0 0 2 20 0 2 1 25 4 0 0

42

1. Son independientes las variables X e Y? a. X\Y 1 2 3 4


Marginal Y

10 0 1 0 0 1

15 3 0 0 1 4

20 0 0 5 0 5

Marginal X

3 1 5 1 10

n12

n 1. n.2 n

3 4 = = 1.2 3 10

Las variables X e Y no son independientes b. X\Y 1 2 3


Marginal Y

10 0 0 2 2

15 3 0 0 3

20 0 1 0 1

25 4 0 0 4

Marginal X

7 1 2 10

n 23

n 2. n.3 n

11 = 0.1 1 10

Las variables X e Y no son independientes

43

1. Son independientes las variables X e Y? c. X\Y 1 2 3


Marginal Y

10 0 3 0 3

15 5 0 0 5

20 0 0 2 2

Marginal X

5 3 2 10

n11

n 1. n.1 n

53 = = 1.5 0 10

Las variables X e Y no son independientes d.

X\Y 1 2 3
Marginal Y

10 3 1 0 4

15 2 0 1 3

20 0 2 1 3

Marginal X

5 3 2 10

n 21

n 2. n.1 n

3 4 = 1.2 1 10

Las variables X e Y no son independientes


44

2. Dependen funcionalmente las variables X e Y? a. X\Y 1 2 3 4 10 0 1 0 0 15 3 0 0 1 20 0 0 5 0

Y Depende funcionalmente de X X No Depende funcionalmente de Y

b.

X\Y 1 2 3

10 0 0 2

15 3 0 0

20 0 1 0

25 4 0 0

Y No Depende funcionalmente de X X Depende funcionalmente de Y

45

2. Dependen funcionalmente las variables X e Y? c. X\Y 1 2 3 10 0 3 0 15 5 0 0 20 0 0 2

X Depende funcionalmente de Y Y Depende funcionalmente de X

d.

X\Y 1 2 3

10 3 1 0

15 2 0 1

20 0 2 1

X No Depende funcionalmente de Y Y No Depende funcionalmente de X

46

1.8 Regresin y correlacin.

Introduccin

Regresin

Bsqueda de una funcin que relacione ambas variables y sirva para predecir una variable a partir de la otra

y = f(x)

Correlacin Estudio del nivel de relacin entre las variables

9 Nube de puntos (diagrama de dispersin): grfico de las observaciones (datos bidimensionales)

9 Lnea o funcin de regresin: tipo de funcin que mejor se ajuste a la nube de puntos: Lineal ; Cuadrtica; Exponencial
47

1.9 Rectas de regresin

Recta de mnimos cuadrados de Y / X

Y yj * yj
*

y = a + bx
*

* *

eij

* *

(xi, yj* ) (xi, yj ) X

xi
Residuos = eij = y j ( a + bxi )

min eij = min


2

(
)

2 * yj yj =

= min
i j

y j ( a + bxi )

Ecuaciones normales
48

Recta de mnimos cuadrados de Y / X

y = f ( x) = a + b x

Cov [ X , Y ] xy b= = = 2 Var [ X ] x a = y bx

ni x i yi x y
n ni xi 2 n x
2

y y =b xx

b = coeficiente de regresin de Y / X Variacin de Y si X aumenta en una unidad

49

Recta de mnimos cuadrados de X / Y

x = f ( y) = c + d y

Cov [ X , Y ] xy d= = = 2 Var [Y ] y
c = xd y

ni x i yi x y
n ni y i 2 n y
2

xx=d y y

d = coeficiente de regresin de X / Y Variacin de X si Y aumenta en una unidad

50

1.10 Coeficiente de determinacin y

coeficiente de correlacin lineal


Coeficiente de determinacin Proporcin de la varianza explicada por la regresin
2 xy 2 2 x y

r2 =

0 r2 1

Coeficiente de correlacin lineal de Pearson

r=

xy x y

1 r 1

r=0 r>0 r<0 r = 1

Independencia Dependencia directa Dependencia inversa Dependencia funcional lineal


51

Ejemplo. X= Estatura, Y= Peso

xi
160 172 174 176 180

yi
52 64 65 72 78

x i yi
8320 11008 11310 12672 14040

x2i
25600 29584 30276 30976 32400

y 2i
2704 4096 4225 5184 6084

=862 = 331 = 57350 = 148836 = 22293

x=

862 = 172.4 ; 5

y=

331 = 66.2 5

xy

ni x i yi 57350 = xy = 172.4 n 5

66.2 = 57.12

2 n x 2 148836 i i 2= x = 172.42 = 45.44

y2 =

2 n y i i

y =

22293 66.22 = 76.16 5

52

y = a + bx

b=

Cov [ X , Y ] Var [ X ]

xy x2

57.12 = 1.257 45.44

a = y bx = 66.2 1.257 172.4 = 150.5068


y = a + b x = 150.5068 + 1.257 x
Para x = 170

y = a + bx = 150.5068 + 1.257 170 = 63.1832

xy 57.12 r= = = 0.9708 x y 45.44 76.16

53

1.11 Otros tipos de ajuste

Parablico

y = ax 2 + bx + c

Exponencial

y = a bx

Potencial

y = a xb

Hiperblico

y=

a x

54

You might also like