You are on page 1of 62

Estadística Descriptiva

Jesús M. Rodríguez Rodríguez


(jesusmro@eio.uva.es)
Dpto. de Estadística e I.O.
Universidad de Valladolid

Noviembre-Diciembre 2009
La Estadística
Ciencia que se ocupa del estudio de
fenómenos de tipo genérico, normalmente
complejos y enmarcados en un universo
variable, mediante el empleo de modelos de
reducción de la información y de análisis de
validación de los resultados en términos de
representatividad.
Gonzalo Sánchez-Crespo Benitez y Vicente Manzano Arrondo

Ciencia que se encarga de la recopilación,


representación y el uso de datos sobre una o
varias características de interés para, a partir
de ellos, tomar decisiones o extraer
conclusiones generales.
Proceso Estadístico
Planteamiento del problema definiendo la
población objeto del estudio, lo que hay que
estudiar (variables) y lo que se quiere obtener.
Diseño del proceso
Extracción de muestras (si es necesario)
Descripción de los datos obtenidos (de la muestra
o de la población)
Confección de modelos estadísticos y en su caso
prueba de los mismos.
Conclusiones e inferencias
La Estadística Descriptiva
De los pasos indicados anteriormente la
Estadística Descriptiva es la parte de la
estadística que nos proporciona las
herramientas para la descripción de los datos,
de forma que sea posible obtener información
comprensible y transmisible.

Para los otros pasos son la Probabilidad, el


Muestreo, la Inferencia Estadística y el Sentido
Común, entre otros, los que nos proporcionan
las herramientas necesarias para abordarlos.
Conceptos básicos
Población: Conjunto de individuos o entes sobre
los que se va a realizar el estudio.
Muestra: Conjunto de individuos o entes de la
población que se seleccionan para
las mediciones.
Variable: Característica de interés.
Datos: El conjunto de mediciones de las
variables de interés que se han
realizado sobre la muestra o la
población.
Variables
Las variables se pueden clasificar en Cualitativas y
Cuantitativas
Cualitativas: Se obtienen datos no numéricos y pueden
clasificarse en Nominales (no hay orden
entre sus valores) u Ordinales (existe un
orden)

Cuantitativas: Se obtienen datos numéricos y pueden


clasificarse en Discretas (número de
posibles valores finitos o bien infinitos
numerables) o Continuas (los posibles
valores son no numerables)
Escalas de medida
Se pueden distinguir los siguientes tipos de escalas de medida, en
función de las que se van a poder aplicar a los datos unas técnicas u
otras.

Nominal: Datos sobre un conjunto generalmente finito


y no numérico,, sin relaciones de orden.
Ordinal: Datos sobre un conjunto generalmente finito
y no numérico,, con relaciones de orden.
Intervalo: Datos numéricos en los existe una relación
de orden y en los que las diferencias tienen
sentido, no existe un cero natural.
Razón: Datos numéricos en los existe una relación de
orden y en los que las diferencias y los
cocientes tienen sentido, existe un cero
natural.
Datos
Negro Azul Azul Negro Azul Verde Verde Negro
Azul Negro Negro Azul Azul Verde Verde Marrón
Marrón Negro Azul Marrón Negro Negro Marrón Marrón
Marrón Verde Marrón Marrón Marrón Azul Azul Marrón
Negro Verde Verde Verde Verde Marrón Marrón Azul
Marrón Negro Marrón Verde Verde Negro Negro Marrón
Verde Verde Verde Negro Azul Azul Azul Azul
Marrón Azul Azul Marrón Negro Negro Verde Verde
. Verde Marrón Negro Azul Marrón Negro Negro Negro
Negro Verde Azul Verde Marrón Marrón Azul Azul
Verde Negro Marrón Verde Verde Azul Marrón Azul
Verde Marrón Marrón Azul Marrón Marrón Marrón Marrón
Marrón Azul Verde Marrón Negro Azul Negro Negro
Marrón Azul Negro Verde Azul Negro Azul Azul
Marrón Marrón Marrón Negro Azul Marrón Azul Marrón
Azul Negro Verde Negro Marrón Azul Negro Negro
Datos
198 126 120 168 135 145 186 193 162 135 127 112
234 101 139 165 142 161 187 122 169 194 153 136
211 165 201 175 140 147 210 184 192 159 189 123
179 77 178 176 172 155 169 182 105 138 209 158
156 157 131 179 185 152 154 214 190 130 157 189
125 180 200 142 141 182 120 147 145 213 167 149
148 118 175 144 198 134 179 125 157 184 180 167
.
173 200 149 136 146 171 141 157 204 137 132 155
188 116 184 179 183 201 160 187 193 162 154 176
169 108 156 136 152 155 259 166 176 136 120 172
166 180 150 166 190 157 194 133 112 128 197 176
140 179 118 157 143 188 196 220 162 115 158 196
130 230 151 162 172 140 228 151 165 193 201 130
146 146 170 190 136 154 151 160 129 157 157 121
157 175 136 229 136 177 176 172 154 175 154 133
Frecuencias

xi Frecuencia Absoluta (ni) Frecuencia Relativa (fi)


Negro 31 0,2422
Azul 33 0,2578
Verde 26 0,2031
. Marrón 38 0,2969
128 1,0000
Frecuencias
Frecuancia Frecuencia
Absoluta Relativa
Frecuencia Acumulada Frecuencia Acumulada
xi Absoluta (ni) (Ni) Relativa (fi) (Fi)
( ; 100] 1 1 0,0056 0,0056
( 100 ; 120] 12 13 0,0667 0,0722
( 120 ; 140] 32 45 0,1778 0,2500
. ( 140 ; 160] 47 92 0,2611 0,5111
( 160 ; 180] 43 135 0,2389 0,7500
( 180 ; 200] 30 165 0,1667 0,9167
( 200 ; 210] 6 171 0,0333 0,9500
( 210 ; 220] 4 175 0,0222 0,9722
( 220 ; 240] 4 179 0,0222 0,9944
( 240 ; 260] 1 180 0,0056 1,0000
( 260 ; ] 0 180 0,0000 1,0000
180 1,0000
Gráficos
Diagrama de barras

40

35

30
.
25

20 Frecuencia Absoluta (ni)

15

10

0
Negro Azul Verde Marrón
Gráficos
Diagrama de barras
0,3500

0,3000

0,2500

.
0,2000
Frecuencia Relativa (fi)

0,1500

0,1000

0,0500

0,0000
Negro Azul Verde Marrón
Polígono de frecuencias

0,3500

0,3000

0,2500

0,2000

0,1500

0,1000

0,0500

0,0000
Negro Azul Verde Marrón
0.000 0.002 0.004 0.006 0.008 0.010 0.012
Histograma

100
150

Altura
200
250
0.000 0.002 0.004 0.006 0.008 0.010 0.012

0
50
Histograma

100
150

Altura
200
250
300
Frecuencias acumuladas
Función de Distribución empírica

1.0
0.8
Frecuencia Relativa Acumulada

0.6
0.4
0.2
0.0

100 150 200 250

Altura
Gráficos
Pictograma

40

35

30

.
25

20 Frecuencia Absoluta (ni)

15

10

0
Negro Azul Verde Marrón
Gráficos
Pictograma
40

35

30

. 25

20 Frecuencia Absoluta (ni)

15

10

0
Negro Azul Verde Marrón
Gráficos
Pictograma

.
Gráficos
Diagrama de sectores

24,22%
29,69%

. Negro
Azul
Verde
Marrón

25,78%
20,31%
Cartograma o mapa temático
Medidas de posición
Dan una idea de alrededor de donde se mueven
los datos
k
Medidas de posición Datos sin agrupar Datos agrupados n=∑ ni 
i=1
n k
1 1
Media aritmética X = ∑ x i X = ∑ ni⋅xi
n i =1 n i =1
Me= el primer x tal que el 50% de N
−N i−1
Mediana los valores de la variable son 2
Me=M m−1 ⋅a i
menores o iguales que x ni
n
Media Geométrica G=n x 1⋅x 2⋅...⋅x n G= x n1 ⋅x n2 ⋅...⋅x nk
1 2 k

1 1
H= H= k
Media Armónica 1
n
1 1 ni

n i =1 x i

k i=1 x i
n k
1 1
Media ponderada
X w = n ∑ w i⋅x i X w = k ∑ w i⋅n i⋅x i
∑ w i i=1 ∑ w i⋅ni i=1
i=1 i=1

Moda Valor con más frecuencia Intervalo con más frecuencia


Propiedades de la media aritmética
Si Y =a⋅X b  Y =a⋅X b
La media es el valor que minimiza la suma de
las distancias al cuadrado a los datos
∑  x i −m2

Si se tienen dos variables X e Y la media de la


suma de ambas es la suma de las medias

La media se ve muy afectada por


observaciones extremas
Cuantiles
Los cuantiles son medidas de posición que se
caracterizan por ser el primer valor que supera a
una proporción determinada de datos.
La mediana el el cuantil 50% o 0,5

Los deciles son los cuantiles 10, 20, ..., 90 y 100%


Los cuartiles son los cuantiles 25, 50, 75 y 100%

A veces se les llama en general percentiles,


aunque esta denominación corresponde a los
cuantiles 1, 2, ..., 100%
Boxplot
Tomando los cuartiles, en particular en primero,
segundo (la mediana) y tercero, se hace un
gráfico que permite ver la distribución de los
datos:El Boxplot o Diagrama de Cajas
Máximo
8.0
7.5
7.0
6.5

Tercer cuartil
6.0

Mediana
5.5

Primer cuartil
5.0
4.5

Mínimo
Boxplot
Es útil para comparar la distribución de distintas
variables
8
6
4
2
0

Sepal.Length Sepal.Width Petal.Length Petal.Width Species


Diagrama de tallo hojas
Es una forma de representar los datos en formato
de texto.

-2 | 443110
-1 | 8755
-1 | 33333221
-0 | 999888877766666
-0 | 4444433333222222111100
0 | 111112244444
0 | 55567777788
1 | 0111112234444
1 | 5557
2 | 03334
Boxplot
Tomando los cuartiles, en particular en primero,
segundo (la mediana) y tercero, se hace un
gráfico que permite ver la distribución de los
datos:El Boxplot o Diagrama de Cajas
Máximo
8.0
7.5
7.0
6.5

Tercer cuartil
6.0

Mediana
5.5

Primer cuartil
5.0
4.5

Mínimo
Medidas de dispersión
Dan una idea de la variabilidad de los datos
Medidas de dispersión
n n
1 1
Varianza  = ∑ x i− X 2
2 2
 =
n−1 ∑ x − X  2
n i=1 n−1 i =1 i
Desviación típica = 
2
 n−1=  2n−1
n n
1 1
Desviación media da= ∑
n i=1
∣xi −Me∣ da= ∑
n i=1
∣xi − X∣

Rango Rango=máx {x i }−mín{x i }


Rango intercuartílico Ri=Q 3−Q1 Qi =cuartil i

Coficiente de Variación CV =
X
Varianza y Desviación típica
La media es el valor que hace mínimo
n
2 1 2
 = ∑  xi −v
n i=1
Cuando se multiplica una variable por un número
la varianza queda multiplicada por su cuadrado y
la desviación típica por el número
Si se suma una cantidad a la variable la varianza
y la desviación típica no se modifica
La varianza tiene como unidades el cuadrado de
las unidades de la variable.
Estandarización de una variable
Estandarizar una variable es restarla la media
y dividirla entre la desviación típica.
 X −X 
X est =

De esta forma la media de la variable


estandarizada es 0 y su varianza 1
Desigualdad de Chebyshev
Si un conjunto de datos posee una varianza pequeña
no existirán "muchos valores" alejados de la media.
x−k⋅≤x i ≤xk⋅

La desigualdad de Chebyshev establece que la frecuencia


relativa de los valores que caen fuera del intervalo
anterior está acotada por el inverso de k al cuadrado

1
∑ f i≤ 2
k
i /∣xi − x∣k
Asimetria
n
1

n i=1
 xi −x3
 x−Mo
A Fisher = A Pearson =
 3 
Histogram of x
Histogram of x
600

Histogram of x

500
500

80

400
400

60
Frequency

Frequency

Frequency
300

300
40
200

200
20
100

100
0

0
0 5 10 15 20 25
-3 -2 -1 0 1 2 3
-5 0 5 10 15 20
x
x
x
Apuntamiento o Kurtosis
n n
1 4 1

n i=1
 x i −x ∑
n i=1
 x i −x4

K= 4 K= 4
−3
 
0.6

leptocúrtica
dcauchy(x, scale = 0.5)

0.5
0.4

mesocúrtica
0.3
0.2
0.1

platocúrtica
0.0

-3 -2 -1 0 1 2 3

x
Momentos respecto de la media
de una distribución
n
1
mk = ∑  x i − x k
n i=1
● Media: m1 respecto del 0
● Varianza: m2

m3
● Apuntamiento: 1,5
m 2
m4
● Kurtosis: 2
−3
m 2
Índice de concentración de Gini
Las medidas de concentración tratan de poner de
relieve el mayor o menor grado de igualdad en el
reparto del total de los valores de la variable.

Entre ellas está el índice de concentración de Gini.


Índice de concentración de Gini
Se parte de unos datos relativos a la variable y que
se han ordenado de menor a mayor:
x1 , x2, ...., xk
k−1

∑  pi −qi 
i=1
I G= k−1

∑ pi
i=1

pi es la proporción de individuos hasta el i-ésimo


qi es la proporción de la variable acumulada hasta el
individuo i-ésimo
Índice de concentración de Gini

Ni ui
xi ni xini Ni ui pi = ⋅100 qi = ⋅100 pi-qi
n uk

Ni - Frecuencia absoluta acumulada

u i =x 1⋅n1x 2⋅n 2...x i⋅ni


Índice de concentración de Gini
Sueldos (Miles de euros) Empleados
3,5 10
4,5 12
6 8
8 5 83,99
10 3 I G= =0,19
15 1 435
25 1

xi ni xi·ni Ni ui pi qi Pi-qi
3,5 10 35 10 35 25 14,17 10,83
4,5 12 54 22 89 55 36,03 18,97
6 8 48 30 137 75 55,47 19,53
8 5 40 35 177 87,5 71,66 15,84
10 3 30 38 207 95 83,81 11,19
15 1 15 39 222 97,5 89,88 7,62
25 1 25 40 247 100 100 0
Curva de Lorentz
Curva de Lorentz

100
80
60
q

40
20
0

0 20 40 60 80 100

p
Curva de Lorentz
Curva de Lorentz

100
80

El Índice de
60

Gini es
proporcional
q

a este área
40
20
0

0 20 40 60 80 100

p
Curva de Lorentz
Curva de Lorentz Curva de Lorentz
100

100
80

80
60

60
q

q
40

40
20

20
0
0

0 20 40 60 80 100 0 20 40 60 80 100

p p
Más de una variable
y1 y2 … yj … yk
x1 n11 n12 n1j n1k n1·
x2 n21 n22 n2j n2k n2·

xi ni1 ni2 nij nik ni·

xl nl1 nl2 nlj nlk nl·
n·1 n·2 n·j n·k n··
Diagrama de puntos
6

0
0 20 40 60 80 100 120 140 160
Barras

140

120

100

80
M
60 V

40 Total general

20

0
Azul Marrón Negro Verde Total
general
Barras

140
120
100
80 M
60 V
40 Total general
20
0 M
Azul Negro Total
general
Barras
100%
90%
80%
70%
60% Total general
50% V
40% M
30%
20%
10%
0%
Azul Marrón Negro Verde Total
general
Burbujas
6

0
-20 0 20 40 60 80 100 120 140
-1
Distribuciones Marginales
Son las distribuciones de cada una de las variables
por separado.

Las frecuencias absolutas son los totales de fila o


de columna (dependiendo de la variable)

M V Total general
Azul 13 20 33
Marrón 16 22 38
Negro 15 16 31
Verde 16 10 26
Total general 60 68 128
Distribuciones condicionadas
La distribución condicionada de una variable
respecto a un valor fijo de la otra se representa
por X/y=y
Corresponde a una fila o una columna de la tabla
original
Sexo/Color=Azul
M V Total general M V Total general
Azul 13 20 33 Azul 0,394 0,606 1
Marrón 16 22 38 Marrón 0,421 0,579 1
Negro 15 16 31 Negro 0,484 0,516 1
Verde 16 10 26 Verde 0,615 0,385 1
Total general 60 68 128 Total general 0,469 0,531 1
Covarianza y Correlación
Cuando se tienen dos o más variables una pregunta
habitual es ¿Tienen relación entre ellas?

Covarianza Correlación
n  XY
 XY =∑  x i −x ⋅ yi − y   XY =
 X⋅ Y
i=1

● La correlación se mueve entre -1 y 1.


● Si está cerca de 1 o -1 hay una gran relación
entre las variables
● Cuando es 0 se dice que las variables son
“Incorreladas”
Correlación
4 4

3 3

2 2

1 1

0 0
-3 -2 -1 0 1 2 3 -2 -1 0 1 2 3 4

-1 -1

-2 -2

~-1 -3 -3 ~1
4

-4 -3 -2 -1
0
0 1 2 3 ~0
-1

-2

-3

-4
Recta de regresión
La recta de regresión de Y sobre X es la recta
y=ax+b que hace mínimo

n
2
d =∑  y i −a⋅x i b
i=1

Una vez hechos los cálculos se obtiene


 XY
a= 2 b= y−a⋅x
 X
Recta de regresión
La recta de regresión se puede escribir como
y− y x− x
= XY
y X

Cambiando el papel de X e Y se obtiene la recta de


regresión de X sobre Y

Se puede comprobar que ambas rectas pasan por el


punto  x , y
Recta de regresión
4

f(x) = -0,97x - 0,08 3

0
-3 -2 -1 0 1 2 3

-1

-2

-3
Recta de regresión

2
1
0
-1
Y

-2
-3
-4

-1 0 1 2 3

X
Números índice
Podemos definir un numero índice como una
medida estadística (o indicador) de la
variación de una magnitud a lo largo del
tiempo (o en el espacio) con respecto a un
momento dado del mismo(o punto de
referencia) que se toma como base.

Para su calculo más elemental se toma uno de los


valores de la variable como referencia (por ejemplo
el valor de un año) y el Índice se calcula dividiendo el
valor entre el valor de referencia, y multiplicando por
100 si se da en %
Números Índice
Vt
Índices simples I t = ⋅100
V0

∑ wi⋅I i , t
i=1
Índices complejos I t= n

∑ wi
i=1
Propiedades Ideales de los Números
Índice
Suponiendo los índices en tanto por 1
● Identidad: I0 ha de ser 1
● Inversión: si It0 es el índice en el periodo t con base el
0 entonces It0 =1/I0t
● Transitividad: It0 =Itt' It'0 (cambio de base)
● Homogeneidad: El índice no ha de depender de las
unidades de medida
Algunos índices
Índice de Laspeyres n n
pit
∑ p i0
p i0⋅qi0 ∑ pit⋅qi0
i=1 i=1
Lt = n
⋅100= n
⋅100
∑ pi0⋅qi0 ∑ pi0⋅qi0
i=1 i=1

Índice de Paasche n n
pit
∑ p i0
p i0⋅qit ∑ pit⋅qit
i=1 i=1
Pt= n
⋅100= n
⋅100
∑ pi0⋅qit ∑ pi0⋅qit
i=1 i=1

Índice de Fisher F t = Lt⋅P t


Índices encadenados
Suponiendo los índices en tanto por 1
Vt
Ie t =
V t −1

Es fácil establecer la relación con los índices en una


base
I t = Ie t⋅Ie t−1⋅...⋅Ie 1

You might also like