Descripción numérica de variables (I

TEMA 3: DESCRIPCIÓN NUMÉRICA DE VARIABLES
CUANTITATIVAS (I)
● Hasta ahora hemos visto técnicas que permiten una
descripción de la distribución de una variable mediante
tablas y gráficos.
● La información sobre una variable puede resumirse de
forma más sencilla empleando valores numéricos que nos
den una idea de:
- ubicación o centro de los datos → medidas de posición
- concentración de observaciones alrededor del centro →
medidas de dispersión
- otros rasgos de la distribución (asimetría,
apuntamiento…)
● En este tema veremos medidas de descripción numérica
que se construyen sumando cantidades.
1
La Media
● La media es una medida de posición (o de centralización)
que formaliza la idea intuitiva de centro de las
observaciones.
● La media de un conjunto de observaciones numéricas se
calcula sumando todos los valores y dividiéndolo por el
total de observaciones, es decir:
Dado un conjunto de observaciones: x1 , x 2 ,..., x N −1 ,x N , la
media se representa como x y se calcula:
x + x 2 + . . .+ x + x ∑ xi
x = 1 N −1 N
= i=1
N N
2
Ejemplo:
Los salarios anuales (en euros) de los jefes de ventas de
una empresa pequeña son:
34.500 30.700 32.900 36.000 34.100 33.800
32.500
El salario medio de la plantilla de jefes de ventas será:

7
x + x2 + x3 + x4 + x5 + x6 + x7 ∑ xi
x = 1 = i=1
7 7
es decir,
3 . 54 0 + 30 . 70 0 + 30 . 92 0 + 30 . 06 0 + 30 . 14 0 + 30 . 83 0 + 30 . 52 0 0
x =
7
= 3 . 53 0 0
3
Propiedades de la media:
- La suma de las desviaciones de un conjunto de
observaciones respecto a su media es cero, es decir:

N
( x 1 − x ) + ( x 2 − x ) + . . .+ ( x N −1 − x) + (x N − x) = ∑
i=1
(xi − x ) = 0
Ejemplo: Salarios
xi − x
34.500-33.500= 1.000
30.700-33.500=-2.800
32.900-33.500= -600
36.000-33.500= 2.500
34.100-33.500= 600
33.800-33.500= 300
32.500-33.500=-1.000
∑
i=1
( x i − x ) =0
4
- Si se multiplican (o dividen) todas las observaciones de
una variable por la misma cantidad, la media de los
nuevos datos es la media de los datos originales
multiplicada (o dividida) por esa cantidad:
a =x a x
Ejemplo: Salarios
Supongamos que multiplicamos los salarios de los jefes
de ventas por 167 para expresarlos en pesetas:
1 6x i 7
34.500x167=5.761.500
5.126.900
5.494.300
6.012.000
5.694.700
5.644.600
5.427.500
∑ 1 6x i 7
i=1
= 5 .5 9 . 5 4 0 = 10 6 × 37 . 53 0 = 10 6 x 7
7
5
- Si sumamos varias variables, la media de esa suma es
igual a la suma de las respectivas medias:
x + y + . . . z = x + y + . . .+ z
Ejemplo: Salarios
Además del salario anual de los jefes de ventas sabemos
también lo que cobran anualmente en especie (comidas,
coches, etc)
18.000 16.700 15.000 17.900 17.200 15.800
16.300
El salario en especie medio será:

7
y + y2 + y3 + y4 + y5 + y6 + y7 ∑ yi
y = 1 = i=1
= 1 . 76 0 0
7 7
El salario total (metálico+especie) medio será:
( x 1 + y 1 ) + . . .+ ( x 7 + y 7 )
x + y = = 5 . 20 0 = 03 . 53 0 + 10 . 76 0 = 0x + y
7
El salario medio en metálico es aproximadamente el
doble que el salario medio en especie.
6
La desviación típica
● La desviación típica es una medida de dispersión que
trata de medir la variabilidad de los datos alrededor de
la media.
● Veamos con un ejemplo por qué es importante:
Supongamos que tenemos los salarios en metálico de los
jefes de ventas de otra empresa:
34.000 27.500 31.600 39.700 35.300 33.800
31.700
- Su media es 33.500, la misma que los de la primera
empresa.
- Si nos basamos en la media no tendríamos elementos
para distinguir la distribución de salarios en las dos
empresas
¿Es la misma la distribución de los salarios en las dos
empresas?
7
NO, los de la segunda empresa están mucho más
dispersos (ver otro ejemplo en Figura 4.1 de Peña y
Romo)
● Una medida de posición, como la media, casi nunca es
suficiente por sí sola para resumir adecuadamente las
características de un conjunto de datos, necesitaremos
alguna medida de dispersión como la desviación típica.
● La desviación típica se define como:
∑ (x )
2
i − x
Sx = i=1
N
● Siempre toma valores positivos y mide la dispersión
alrededor de la media:
- Mayor Sx → mayor dispersión (ver Figura 4.2 de Peña y
Romo)
- En el caso extremo, si todos los datos fueran iguales,
(xi − x ) = 0 y la desviación típica sería cero.
8
● El cuadrado de la desviación típica se llama varianza y se
2
representa por S x
● La desviación típica también puede calcularse como:
∑ x i2
Sx = i=1
− x 2
Ejemplo: Ejercicio 4.3 de Peña y Romo
Calcule la media y la desviación típica de los datos del
ejercicio 3.2 (nº de bibliotecarios en las bibliotecas públicas
españolas):
4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8
12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12
x 1 + x 2 + . . .+ x 5 0 4 + 7 + . . .+ 1 2
x = = = 4 ,9 4
5 0 5 0
5 0
∑
i=1
x i2 = 4 2 + 7 2 + . . . + 1 2
2 = 1 .7 5 9
9
1 .7 5 9
Sx = − 4 ,9 2
4 = 3 ,2 8
5 0
● Si transformamos una variable x en ax+b, la desviación
típica de la nueva variable será:
S a +x b = a S x
donde a representa el valor absoluto de a, es decir a
siempre con signo positivo.
● Regla de Chebychev: Para cualquier conjunto de datos,
 1 
al menos el 1 0 × 0 1 − 2  por ciento de las
 m 
observaciones están a una distancia de la media inferior
a m veces la desviación típica (ver Figura 4.3 de Peña y
Romo).
- Esta regla permite una interpretación de la desviación
típica como medida de concentración.
- Es una regla válida para cualquier conjunto de datos,
por lo que es bastante conservadora.
10
Ejemplo: GTINE: gasto total de 75 hogares
(pag. 15 Tema 2)
G T I= Nx = 2E 7. 6 5 6 3
S G T = S Ex = 1
I N 7. 2 8 1 9
Si multiplicamos la variable GTINE por 5 tendremos:
5 × G T I= 1N . 3 E7. 3 8 1 = 5 × 2 7. 6 5 6 = 53 × G T I N E
S 5×G T = 8 E 9. 0 1 9 = 5 × 1
I N 7. 2 8 1 = 95 × S G T I N E
Si a la variable GTINE le sumamos 2 tendremos:
2 + G T I= N2 7. E6 5 6 = 52 + 2 7. 6 5 6 = 32 + G T I N E
S 2+G T = 1 E 7. 2 8 1 = 9S
I N G T I N E
Si a la variable GTINE la multiplicamos por 5 y le
sumamos 2:
2 + G T I× 5N = 1 E. 3 7. 3 8 1 = 72 + 2 7. 6 5 6 × 53 = 2 + G T I× 5N E
S 2 +5×G T = 8 E 9. 0 1 9 = 5 × 1
I N 7. 2 8 1 = 95 × S G T I N E
11
Según la regla de Chebychev el 75% de los datos
 1 
1 0 × 0 1 − 2  distan menos de 2 desviaciones típicas de la
 2 
media.
En el caso de GTINE están a menos de 2 desviaciones
típicas de la media 70 observaciones es decir el 93%.
12
El Coeficiente de Variación
● La desviación típica depende de las unidades de medida
y de la magnitud de los valores de la variable. Sin
embargo no es lo mismo una variabilidad de 100.000
pesetas si hablamos de la renta de los jóvenes que si
hablamos de la renta de un país.
● El Coeficiente de variación es una medida de dispersión
que no depende ni de las unidades de medida ni del
tamaño de los datos que se define como:
S
C x V= x
Ejemplo:
Si comparamos las variables GTINE (gasto total de los
hogares) y G4 (gasto en menaje) tenemos:
G T I= N2 7. E6 5 6 3 G 4 = 1 . 89 8 0
S G T I N = 1 E 7. 2 8 1 9 S G 4 = 2 . 55 0 5
1 7. 2 8 1 9
C G V T =
I N E = 0 ,6 5 C V = 1 ,2
G 4 8
2 7. 6 5 6 3
13
Ejercicio 4.10 (Peña y Romo)
Una empresa compra frutos secos en bolsas de 10 kilos y
los envasa y luego los vende en bolsas de 100 gramos. Se
dispone de datos reales en gramos del peso de 15 bolsas
de frutos secos de las que vende la empresa (las de 100
gramos) (X) y de datos reales en gramos del peso de 20
bolsas de las que compra la empresa (las de 10 kilos)
(Y).
a) Hallar la media y la desviación típica de cada uno de
los conjuntos de datos.
b) ¿Tiene sentido comparar las dos desviaciones típicas?
c) ¿Qué debe utilizarse para comparar la variabilidad de
ambos conjuntos de datos?
d) ¿Cuál de ellos tiene mayor variabilidad?
14
Xi Xi2 Yi Yi2
98 9.604 9.834 96.707.556
106 11.236 9.912 98.247.744
88 7.744 9.657 93.257.649
91 8.281 9.734 94.750.756
94 8.836 9.978 99.560.484
93 8.649 9.852 97.061.904
95 9.025 10.122 102.454.884
89 7.921 9.935 98.704.225
97 9.409 9.654 93.199.716
87 7.569 9.899 97.990.201
93 8.649 9.845 96.924.025
96 9.216 9.898 97.970.404
84 7.056 9.932 98.644.624
99 9.801 9.945 98.903.025
90 8.100 9.846 96.943.716
1 5 1 5
9.911 98.227.921
∑
i=1
X i = 1 .4 0 ∑0
i=1
X i
2
= 1 1 3. 0 9 6
9.952 99.042.304
9.923 98.465.929
9.934 98.684.356
9.834 96.707.556
2 0 2 0
∑
i=1
Yi =1 9. 5 7 9 7 ∑
i=1
Y i 2 = 1 .9 5 . 4 2 4. 9 8 7 9
1 5 2 0
∑ X i
1 .4 0 0 ∑ Yi
1 9. 5 7 9 7
X = i=1
= = 9 ,3 3 Y = i=1
= = 9 .8 7,8 9 5
N 1 5 N 2 0
15
1 5
∑ X i
2
2 1 3. 0 1 9 6
S X = i=1
− X = − 9 ,3 23 = 5 ,4 1
N 1 5
2 0
∑ Yi2
2 1 .9 5 . 4 2 4. 9 8 7 9
SY = i=1
−Y = − 9 .8 7 , 8 92 5 = 1 0, 9 4 4
N 2 0
S 5 ,4 1
C X V= X
= = 0 ,0 5 8
X 9 ,3 3
SY 1 0, 9 4 4
C Y V= = = 0 ,0 1 1
Y 9 .8 7, 8 9 5
Es menor la variabilidad de la variable Y
16
El Coeficiente de Asimetría
● El Coeficiente de Asimetría trata de medir la simetría de la
distribución alrededor de la media.
● El Coeficiente de Asimetría se define como:

N
∑ (x i − x )3
C x A= i=1
3
N x S
Nótese que tiene en cuenta la distancia de cada
observación a la media (centro de simetría) conservando la
información sobre el signo de esa distancia.
● El Coeficiente de Asimetría no tiene unidades.
● El Coeficiente de Asimetría toma valor 0 cuando la
distribución es simétrica:
CA>0 → Asimétrica a la derecha
CA<0 → Asimétrica a la izquierda
Ver Figura 4.5 de Peña y Romo
17
El Coeficiente de Apuntamiento o kurtosis
● El Coeficiente de Apuntamiento trata de medir lo picuda o
plana que es la distribución.
● El Coeficiente de Apuntamiento se define como:

N
∑ (x i − x )4
C Ax = p i = 1 4
N x S
● Se suele dar su valor relativo respecto a una distribución
que se toma como referencia (generalmente la distribución
normal).
Ver Figura 4.6 de Peña y Romo
18
Descripción numérica de distribuciones de frecuencia
● En algunas ocasiones no conocemos los datos originales y
sólo tenemos la distribución de frecuencias.
● A partir de la distribución de frecuencias pueden definirse
cantidades análogas a las vistas hasta ahora que permitan
la descripción numérica de la distribución.
● Supongamos que queremos estudiar una distribución con
marcas de clase c1, c2, …, ck y con frecuencias relativas
f1, f2, …, fk se pueden definir medidas análogas a las vistas:
k
Media: x c = ∑
i=1
ci fi
∑ ( )
2
Desviación típica: S c = ci − x c fi
i=1
∑ (c − xc) fi
3
i
Coeficiente de Asimetría:
C c A= i=1
3
S c
∑ (c − xc) fi
4
i
Coeficiente de Apuntamiento:
C Ac = p i=1
4
S c
19

Descripción numérica de variables (I

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Descripción numérica de variables (I

Uploaded by

Copyright:

Available Formats

TEMA 3: DESCRIPCIÓN NUMÉRICA DE VARIABLES

● Hasta ahora hemos visto técnicas que permiten una

descripción de la distribución de una variable mediante

● La información sobre una variable puede resumirse de

forma más sencilla empleando valores numéricos que nos

den una idea de:

- ubicación o centro de los datos → medidas de posición

- concentración de observaciones alrededor del centro →

- otros rasgos de la distribución (asimetría,

● En este tema veremos medidas de descripción numérica

que se construyen sumando cantidades.

● La media es una medida de posición (o de centralización)

que formaliza la idea intuitiva de centro de las

● La media de un conjunto de observaciones numéricas se

calcula sumando todos los valores y dividiéndolo por el

total de observaciones, es decir:

Dado un conjunto de observaciones: x1 , x 2 ,..., x N −1 ,x N , la

media se representa como x y se calcula:

Los salarios anuales (en euros) de los jefes de ventas de

una empresa pequeña son:

34.500 30.700 32.900 36.000 34.100 33.800

El salario medio de la plantilla de jefes de ventas será:

- La suma de las desviaciones de un conjunto de

observaciones respecto a su media es cero, es decir:

una variable por la misma cantidad, la media de los

nuevos datos es la media de los datos originales

multiplicada (o dividida) por esa cantidad:

Supongamos que multiplicamos los salarios de los jefes

de ventas por 167 para expresarlos en pesetas:

igual a la suma de las respectivas medias:

Además del salario anual de los jefes de ventas sabemos

también lo que cobran anualmente en especie (comidas,

18.000 16.700 15.000 17.900 17.200 15.800

El salario en especie medio será:

El salario total (metálico+especie) medio será:

El salario medio en metálico es aproximadamente el

doble que el salario medio en especie.

● La desviación típica es una medida de dispersión que

trata de medir la variabilidad de los datos alrededor de

● Veamos con un ejemplo por qué es importante:

Supongamos que tenemos los salarios en metálico de los

jefes de ventas de otra empresa:

34.000 27.500 31.600 39.700 35.300 33.800

- Su media es 33.500, la misma que los de la primera

- Si nos basamos en la media no tendríamos elementos

para distinguir la distribución de salarios en las dos

¿Es la misma la distribución de los salarios en las dos

dispersos (ver otro ejemplo en Figura 4.1 de Peña y

● Una medida de posición, como la media, casi nunca es

suficiente por sí sola para resumir adecuadamente las

características de un conjunto de datos, necesitaremos

alguna medida de dispersión como la desviación típica.

● La desviación típica se define como:

● Siempre toma valores positivos y mide la dispersión

- Mayor Sx → mayor dispersión (ver Figura 4.2 de Peña y

- En el caso extremo, si todos los datos fueran iguales,

(xi − x ) = 0 y la desviación típica sería cero.

● La desviación típica también puede calcularse como:

Ejemplo: Ejercicio 4.3 de Peña y Romo

Calcule la media y la desviación típica de los datos del

ejercicio 3.2 (nº de bibliotecarios en las bibliotecas públicas

● Si transformamos una variable x en ax+b, la desviación