You are on page 1of 19

TEMA 3: DESCRIPCIÓN NUMÉRICA DE VARIABLES

CUANTITATIVAS (I)

● Hasta ahora hemos visto técnicas que permiten una

descripción de la distribución de una variable mediante

tablas y gráficos.

● La información sobre una variable puede resumirse de

forma más sencilla empleando valores numéricos que nos

den una idea de:

- ubicación o centro de los datos → medidas de posición

- concentración de observaciones alrededor del centro →

medidas de dispersión

- otros rasgos de la distribución (asimetría,

apuntamiento…)

● En este tema veremos medidas de descripción numérica

que se construyen sumando cantidades.

1
La Media

● La media es una medida de posición (o de centralización)

que formaliza la idea intuitiva de centro de las

observaciones.

● La media de un conjunto de observaciones numéricas se

calcula sumando todos los valores y dividiéndolo por el

total de observaciones, es decir:

Dado un conjunto de observaciones: x1 , x 2 ,..., x N −1 ,x N , la

media se representa como x y se calcula:

x + x 2 + . . .+ x + x ∑ xi
x = 1 N −1 N
= i=1
N N

2
Ejemplo:

Los salarios anuales (en euros) de los jefes de ventas de

una empresa pequeña son:

34.500 30.700 32.900 36.000 34.100 33.800

32.500

El salario medio de la plantilla de jefes de ventas será:


7

x + x2 + x3 + x4 + x5 + x6 + x7 ∑ xi
x = 1 = i=1
7 7

es decir,

3 . 54 0 + 30 . 70 0 + 30 . 92 0 + 30 . 06 0 + 30 . 14 0 + 30 . 83 0 + 30 . 52 0 0
x =
7

= 3 . 53 0 0

3
Propiedades de la media:

- La suma de las desviaciones de un conjunto de

observaciones respecto a su media es cero, es decir:


N
( x 1 − x ) + ( x 2 − x ) + . . .+ ( x N −1 − x) + (x N − x) = ∑
i=1
(xi − x ) = 0

Ejemplo: Salarios

xi − x

34.500-33.500= 1.000

30.700-33.500=-2.800

32.900-33.500= -600

36.000-33.500= 2.500

34.100-33.500= 600

33.800-33.500= 300

32.500-33.500=-1.000


i=1
( x i − x ) =0

4
- Si se multiplican (o dividen) todas las observaciones de

una variable por la misma cantidad, la media de los

nuevos datos es la media de los datos originales

multiplicada (o dividida) por esa cantidad:

a =x a x

Ejemplo: Salarios

Supongamos que multiplicamos los salarios de los jefes

de ventas por 167 para expresarlos en pesetas:

1 6x i 7

34.500x167=5.761.500

5.126.900

5.494.300

6.012.000

5.694.700

5.644.600

5.427.500

∑ 1 6x i 7
i=1
= 5 .5 9 . 5 4 0 = 10 6 × 37 . 53 0 = 10 6 x 7
7

5
- Si sumamos varias variables, la media de esa suma es

igual a la suma de las respectivas medias:

x + y + . . . z = x + y + . . .+ z

Ejemplo: Salarios

Además del salario anual de los jefes de ventas sabemos

también lo que cobran anualmente en especie (comidas,

coches, etc)

18.000 16.700 15.000 17.900 17.200 15.800

16.300

El salario en especie medio será:


7

y + y2 + y3 + y4 + y5 + y6 + y7 ∑ yi
y = 1 = i=1
= 1 . 76 0 0
7 7

El salario total (metálico+especie) medio será:

( x 1 + y 1 ) + . . .+ ( x 7 + y 7 )
x + y = = 5 . 20 0 = 03 . 53 0 + 10 . 76 0 = 0x + y
7

El salario medio en metálico es aproximadamente el

doble que el salario medio en especie.

6
La desviación típica

● La desviación típica es una medida de dispersión que

trata de medir la variabilidad de los datos alrededor de

la media.

● Veamos con un ejemplo por qué es importante:

Supongamos que tenemos los salarios en metálico de los

jefes de ventas de otra empresa:

34.000 27.500 31.600 39.700 35.300 33.800

31.700

- Su media es 33.500, la misma que los de la primera

empresa.

- Si nos basamos en la media no tendríamos elementos

para distinguir la distribución de salarios en las dos

empresas

¿Es la misma la distribución de los salarios en las dos

empresas?

7
NO, los de la segunda empresa están mucho más

dispersos (ver otro ejemplo en Figura 4.1 de Peña y

Romo)

● Una medida de posición, como la media, casi nunca es

suficiente por sí sola para resumir adecuadamente las

características de un conjunto de datos, necesitaremos

alguna medida de dispersión como la desviación típica.

● La desviación típica se define como:

∑ (x )
2
i − x
Sx = i=1
N

● Siempre toma valores positivos y mide la dispersión

alrededor de la media:

- Mayor Sx → mayor dispersión (ver Figura 4.2 de Peña y

Romo)

- En el caso extremo, si todos los datos fueran iguales,

(xi − x ) = 0 y la desviación típica sería cero.

8
● El cuadrado de la desviación típica se llama varianza y se

2
representa por S x

● La desviación típica también puede calcularse como:

∑ x i2
Sx = i=1
− x 2

Ejemplo: Ejercicio 4.3 de Peña y Romo

Calcule la media y la desviación típica de los datos del

ejercicio 3.2 (nº de bibliotecarios en las bibliotecas públicas

españolas):

4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8

12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12

x 1 + x 2 + . . .+ x 5 0 4 + 7 + . . .+ 1 2
x = = = 4 ,9 4
5 0 5 0

5 0


i=1
x i2 = 4 2 + 7 2 + . . . + 1 2
2 = 1 .7 5 9

9
1 .7 5 9
Sx = − 4 ,9 2
4 = 3 ,2 8
5 0

● Si transformamos una variable x en ax+b, la desviación

típica de la nueva variable será:

S a +x b = a S x

donde a representa el valor absoluto de a, es decir a

siempre con signo positivo.

● Regla de Chebychev: Para cualquier conjunto de datos,

 1 
al menos el 1 0 × 0 1 − 2  por ciento de las
 m 

observaciones están a una distancia de la media inferior

a m veces la desviación típica (ver Figura 4.3 de Peña y

Romo).

- Esta regla permite una interpretación de la desviación

típica como medida de concentración.

- Es una regla válida para cualquier conjunto de datos,

por lo que es bastante conservadora.

10
Ejemplo: GTINE: gasto total de 75 hogares

(pag. 15 Tema 2)

G T I= Nx = 2E 7. 6 5 6 3

S G T = S Ex = 1
I N 7. 2 8 1 9

Si multiplicamos la variable GTINE por 5 tendremos:

5 × G T I= 1N . 3 E7. 3 8 1 = 5 × 2 7. 6 5 6 = 53 × G T I N E

S 5×G T = 8 E 9. 0 1 9 = 5 × 1
I N 7. 2 8 1 = 95 × S G T I N E

Si a la variable GTINE le sumamos 2 tendremos:

2 + G T I= N2 7. E6 5 6 = 52 + 2 7. 6 5 6 = 32 + G T I N E

S 2+G T = 1 E 7. 2 8 1 = 9S
I N G T I N E

Si a la variable GTINE la multiplicamos por 5 y le

sumamos 2:

2 + G T I× 5N = 1 E. 3 7. 3 8 1 = 72 + 2 7. 6 5 6 × 53 = 2 + G T I× 5N E

S 2 +5×G T = 8 E 9. 0 1 9 = 5 × 1
I N 7. 2 8 1 = 95 × S G T I N E

11
Según la regla de Chebychev el 75% de los datos

 1 
1 0 × 0 1 − 2  distan menos de 2 desviaciones típicas de la
 2 

media.

En el caso de GTINE están a menos de 2 desviaciones

típicas de la media 70 observaciones es decir el 93%.

12
El Coeficiente de Variación

● La desviación típica depende de las unidades de medida

y de la magnitud de los valores de la variable. Sin

embargo no es lo mismo una variabilidad de 100.000

pesetas si hablamos de la renta de los jóvenes que si

hablamos de la renta de un país.

● El Coeficiente de variación es una medida de dispersión

que no depende ni de las unidades de medida ni del

tamaño de los datos que se define como:

S
C x V= x

Ejemplo:

Si comparamos las variables GTINE (gasto total de los

hogares) y G4 (gasto en menaje) tenemos:

G T I= N2 7. E6 5 6 3 G 4 = 1 . 89 8 0

S G T I N = 1 E 7. 2 8 1 9 S G 4 = 2 . 55 0 5

1 7. 2 8 1 9
C G V T =
I N E = 0 ,6 5 C V = 1 ,2
G 4 8
2 7. 6 5 6 3

13
Ejercicio 4.10 (Peña y Romo)

Una empresa compra frutos secos en bolsas de 10 kilos y

los envasa y luego los vende en bolsas de 100 gramos. Se

dispone de datos reales en gramos del peso de 15 bolsas

de frutos secos de las que vende la empresa (las de 100

gramos) (X) y de datos reales en gramos del peso de 20

bolsas de las que compra la empresa (las de 10 kilos)

(Y).

a) Hallar la media y la desviación típica de cada uno de

los conjuntos de datos.

b) ¿Tiene sentido comparar las dos desviaciones típicas?

c) ¿Qué debe utilizarse para comparar la variabilidad de

ambos conjuntos de datos?

d) ¿Cuál de ellos tiene mayor variabilidad?

14
Xi Xi2 Yi Yi2
98 9.604 9.834 96.707.556
106 11.236 9.912 98.247.744
88 7.744 9.657 93.257.649
91 8.281 9.734 94.750.756
94 8.836 9.978 99.560.484
93 8.649 9.852 97.061.904
95 9.025 10.122 102.454.884
89 7.921 9.935 98.704.225
97 9.409 9.654 93.199.716
87 7.569 9.899 97.990.201
93 8.649 9.845 96.924.025
96 9.216 9.898 97.970.404
84 7.056 9.932 98.644.624
99 9.801 9.945 98.903.025
90 8.100 9.846 96.943.716
1 5 1 5
9.911 98.227.921

i=1
X i = 1 .4 0 ∑0
i=1
X i
2
= 1 1 3. 0 9 6

9.952 99.042.304
9.923 98.465.929
9.934 98.684.356
9.834 96.707.556
2 0 2 0


i=1
Yi =1 9. 5 7 9 7 ∑
i=1
Y i 2 = 1 .9 5 . 4 2 4. 9 8 7 9

1 5 2 0

∑ X i
1 .4 0 0 ∑ Yi
1 9. 5 7 9 7
X = i=1
= = 9 ,3 3 Y = i=1
= = 9 .8 7,8 9 5
N 1 5 N 2 0

15
1 5

∑ X i
2
2 1 3. 0 1 9 6
S X = i=1
− X = − 9 ,3 23 = 5 ,4 1
N 1 5

2 0

∑ Yi2
2 1 .9 5 . 4 2 4. 9 8 7 9
SY = i=1
−Y = − 9 .8 7 , 8 92 5 = 1 0, 9 4 4
N 2 0

S 5 ,4 1
C X V= X
= = 0 ,0 5 8
X 9 ,3 3

SY 1 0, 9 4 4
C Y V= = = 0 ,0 1 1
Y 9 .8 7, 8 9 5

Es menor la variabilidad de la variable Y

16
El Coeficiente de Asimetría

● El Coeficiente de Asimetría trata de medir la simetría de la

distribución alrededor de la media.

● El Coeficiente de Asimetría se define como:


N

∑ (x i − x )3
C x A= i=1
3
N x S

Nótese que tiene en cuenta la distancia de cada

observación a la media (centro de simetría) conservando la

información sobre el signo de esa distancia.

● El Coeficiente de Asimetría no tiene unidades.

● El Coeficiente de Asimetría toma valor 0 cuando la

distribución es simétrica:

CA>0 → Asimétrica a la derecha

CA<0 → Asimétrica a la izquierda

Ver Figura 4.5 de Peña y Romo

17
El Coeficiente de Apuntamiento o kurtosis

● El Coeficiente de Apuntamiento trata de medir lo picuda o

plana que es la distribución.

● El Coeficiente de Apuntamiento se define como:


N

∑ (x i − x )4
C Ax = p i = 1 4
N x S

● Se suele dar su valor relativo respecto a una distribución

que se toma como referencia (generalmente la distribución

normal).

Ver Figura 4.6 de Peña y Romo

18
Descripción numérica de distribuciones de frecuencia

● En algunas ocasiones no conocemos los datos originales y

sólo tenemos la distribución de frecuencias.

● A partir de la distribución de frecuencias pueden definirse

cantidades análogas a las vistas hasta ahora que permitan

la descripción numérica de la distribución.

● Supongamos que queremos estudiar una distribución con

marcas de clase c1, c2, …, ck y con frecuencias relativas

f1, f2, …, fk se pueden definir medidas análogas a las vistas:

k
Media: x c = ∑
i=1
ci fi

∑ ( )
2
Desviación típica: S c = ci − x c fi
i=1

∑ (c − xc) fi
3
i
Coeficiente de Asimetría:
C c A= i=1
3
S c

∑ (c − xc) fi
4
i
Coeficiente de Apuntamiento:
C Ac = p i=1
4
S c

19

You might also like