Professional Documents
Culture Documents
Tema IV
Estadstica
Aplicada
TEMA IV. Descripcin estadstica de variables.
Diagramas de caja. Transformaciones de los datos. Distribuciones de
frecuencias multivariantes. Medidas de dependencia lineal. Rectas de
regresin.
OBJETIVOS GENERALES.
En este tema continua y termina la explicacin de los contenidos de estadstica descriptiva.
OBJETIVOS ESPECFCOS.
1) Entender el significado de un diagrama de caja.
2) Aprender a construir un diagrama de caja.
3) Entender las razones que justifican la transformacin de los datos.
4) Entender el efecto que las transformaciones lineales tienen en los resultados de
las medidas estadsticas.
5) Obtener con las medidas estadsticas resultantes de la transformacin lineal de
los datos, las correspondientes a los datos originales.
6) Comprender el efecto de las diversas transformaciones no lineales.
7) Conocer las caractersticas fundamentales del anlisis descriptivo multivariante.
8) Comprender el significado de las medidas de dependencia y como se obtienen.
9) Entender el significado correcto de una recta de regresin.
METODOLOGA Y ACTIVIDADES.
Como siempre en fichero de PowerPoint tienes una explicacin resumida del tema. En las pginas de
este texto se ofrece un detalle mayor, que tal vez te facilite su estudio.
Es recomendable un repaso de alguno de los textos de la bibliografa que se cita, donde puedes
obtener explicaciones ms detalladas y un mayor desarrollo del material.
No olvides realizar los ejercicios propuestos y el cuestionario de autoevaluacin.
BIBLIOGRAFA.
PEA, D., 1994. Estadstica. Modelos y mtodos 1. Fundamentos. Alianza Editorial, pp.64-69, 79-82.
NEWBOLD, P., 1997. Estadstica para los negocios y la economa. Prentice Hall, pp.48-50.
Estadstica Aplicada
Tema IV
calcio %
4,0
3,5
3,0
edad plantacin
2,5
Vieja
2,0
Joven
1.997
1.998
1.999
ao de la muestra
El cuerpo de cada caja nos muestra los tres cuartiles de la distribucin de los datos y las
patillas llegan hasta el menor y el mayor de los datos no atpicos (segn sea por debajo o
por arriba). Los datos atpicos se representan como crculos o estrellas.
Para entender el significado del diagrama de caja es til imaginar que representa algo as
como el histograma de los datos a vista de pjaro. Las colas del histograma corresponderan
a las patillas y los atpicos, mientras que su cuerpo central lo dara la caja. De esta manera
es fcil tambin juzgar la posible asimetra de la distribucin.
Los diagramas de caja se emplean muchas veces para mostrar el comportamiento de una
determinada variable en distintas subpoblaciones (edad y ao, en el ejemplo).
En definitiva podemos resumir sus principales caractersticas en los siguientes aspectos:
Es una representacin semigrfica de los datos.
til para detectar valores atpicos.
til para comparar una variable en distintas poblaciones
Escuela Universitaria de Ingeniera Tcnica Agrcola I.N.E.A. (U. Valladolid)
Estadstica Aplicada
Tema IV
(6 1) 1
1,75
Q1 = 7,5
4
(6 1) 2
3,5
Segundo cuartil :
Q2 = 13
4
(6 1) 3
5,25
Tercer cuartil:
Q3 = 25
4
Con esos valores ya se podra dibujar la caja.
Primer cuartil :
Q2
Q3
55
10
20
30
40
50
Estadstica Aplicada
Tema IV
(ejercicio)
Dato transformado
y = a + b x
Datos originales
Media aritmtica
Datos transformados
y a bx
Mediana
Me (x)
Cuartiles
Q (x)
Q (y) = a + b Q (x)
Desviacin tpica
s (x)
s (y) = b s (x)
Varianza
s2 (x)
s2 (y) = b2 s2 (x)
CA (x)
CA (y) = CA (x)
Coeficiente asimetra
Estadstica Aplicada
Tema IV
Coef. apuntamiento
CA p (x)
CA p (y) = CA p (x)
De acuerdo con la tabla anterior, la media aritmtica, la mediana y los cuartiles (y en general
los cuantiles) de los datos transformados, son esas mismas medidas de los datos originales
sumndoles y/o multiplicndoles las mismas constantes con las que habamos transformado
los datos.
En el caso de la desviacin tpica, es la misma desviacin tpica de los datos originales
multiplicada por la constante b que habamos utilizado (la constante a que sumamos no
afecta al resultado).
En el caso de la varianza, es la varianza de los datos originales multiplicada por la constante
b al cuadrado. La constante a no afecta al resultado.
Finalmente, en el caso de los coeficientes de asimetra y de apuntamiento, este tipo de
transformaciones no afecta a los resultados.
Conocida la relacin entre unas y otras es sencillo proceder a la inversa: una vez calculadas
las medidas estadsticas correspondientes a los datos transformados (ms fciles de
obtener), no habra dificultades para sacar las de los datos originales.
Ejemplo. Al trabajar con nuestro banco de datos de rendimientos en el cultivo del maiz, los
datos de cosechas obtenidas en la campaa (en toneladas) los hemos pasado a quintales
mtricos, multiplicando por 10. Adems hemos restado a esos resultados la cifra 100 para
que los nmeros fueran ms pequeos y cmodos de operar.
- Lo primero de todo es identificar las constantes empleadas.
En este caso, a = -100 y b = 10
- Supongamos que los resultados obtenidos, trabajando con los datos transformados,
hubieran sido los siguientes:
Media aritmtica = 13,2
Mediana = 10,8
Primer cuartil = 7,5
Tercer cuartil = 20
- Segn lo anterior, los resultados de esas medidas para los datos originales
(toneladas) seran:
Media aritmtica = 11,32
Mediana = 11,08
Primer cuartil = 10,75
Tercer cuartil = 12,0
13,2 = -100 + 10 x
luego x
s 2 ( x)
13,2100
11,32
10
15,2
0,152
10 2
Estadstica Aplicada
Tema IV
Transformacin recomendable
y x2
Asimetra a la izquierda
Asimetra a la derecha (media)
y ln x
y 1
(cuadrado)
(raz cuadrada)
(logartmica)
(inversa)
Precios de la vivienda
Zona Centro 1.992
400
Frecuencia
300
200
100
Miles de ptas.
Escuela Universitaria de Ingeniera Tcnica Agrcola I.N.E.A. (U. Valladolid)
Estadstica Aplicada
Tema IV
Es evidente la asimetra hacia la derecha en el histograma de los datos originales. Por tanto
vamos a aplicar las transformaciones recomendadas. Comenzaremos con la transformacin
raz cuadrada. El nuevo histograma nos muestra el resultado:
Precios de la vivienda
Zona Centro 1.992
Frecuencia
300
200
100
La mejora obtenida en cuanto a simetra es evidente. Sin embargo puede caber la duda
sobre si una transformacin ms enrgica no hubiera resultado mejor. Por ello, probamos a
continuacin con la transformacin logartmica.
Precios de la vivienda
Zona Centro 1.992
Frecuencia
300
200
100
Estadstica Aplicada
Tema IV
Para confirmarlo sera recomendable obtener el coeficiente de asimetra. Pero, si hay que
juzgar por la impresin visual, parece que la transformacin raz cuadrada sera la mejor. La
logartmica parece corregir en exceso.
(autoevaluacin)
(ejercicio)
(OE)
P E S O E N K IL O S
90
80
70
60
yi
50
40
150
xi
160
170
180
190
ESTATURA EN CM
Estadstica Aplicada
Tema IV
Cov ( x, y )
xi x y i y
i 1
x y
i 1
n x y
n
100
P E S O E N K IL O S
90
II
80
70
III
60
I
V
yi
50
40
150
xi
160
170
180
190
ESTATURA EN CM
En todos los puntos situados en los cuadrantes I y III los productos cruzados de la frmula
de la covarianza que se incluyen en el sumatorio, tienen signo positivo (pues resultan de
multiplicar un nmero positivo por otro positivo, o bien un nmero negativo por otro tambin
negativo).
Por el contrario, en todos los puntos de los cuadrantes II y IV esos mismos productos son
negativos (resultan de multiplicar un nmero negativo por otro positivo, o bien un nmero
positivo por otro negativo).
Estadstica Aplicada
Tema IV
Cov ( x, y )
sx s y
10
Estadstica Aplicada
Tema IV
180
r = 0,46
1800
Velocidad mxima
2000
1600
1400
160
r = 0,68
140
1200
120
1000
800
100
0
10
20
30
40
50
50
(autoevaluacin)
100
150
200
250
Potencia (CV)
(ejercicio)
11
Estadstica Aplicada
Tema IV
60.000
50.000
40.000
30.000
20.000
10.000
0
0
3.000
6.000
9.000
12.000
15.000
18.000
En el ejemplo del grfico, la recta de regresin (de color azul) pasa por el centro de
gravedad de la nube de puntos, delimitado por la media de una y otra variable. En este caso
entre ambas variables existe una relacin o dependencia lineal positiva.
En este otro ejemplo la relacin lineal entre las variables es, por el contrario, negativa.
Relacin peso-aceleracin
Aceleracin 0 a 100 km/h (segundos)
30
25
20
15
10
0
400
600
800
1000
1200
1400
1600
1800
12
Estadstica Aplicada
Tema IV
Valor W (fuerza)
250
200
150
100
50
0
40
60
80
100
120
140
160
Valor L (extensibilidad)
En este tercer caso la relacin o dependencia lineal es muy dbil. Obsrvese el reparto de
los puntos en los cuatro cuadrantes y su separacin respecto a la recta de regresin
ajustada.
20
10
0
0
10
20
30
40
50
60
Finalmente conviene observar que no siempre una recta es la funcin que mejor se ajusta a
las observaciones de la nube de puntos. En el ejemplo de la figura, tanto la covarianza como
el coeficiente de correlacin lineal indicaran ausencia o muy dbil dependencia lineal. Sin
embargo esto no implica independencia: simplemente sucede que la relacin no es lineal.
AAAA(autoevaluacin)
Escuela Universitaria de Ingeniera Tcnica Agrcola I.N.E.A. (U. Valladolid)
13
Estadstica Aplicada
Tema IV
Ejercicios de autoevaluacin.
1) Indica si es verdadera [V] o falsa [F] cada una de las afirmaciones siguientes:
[
[
[
[
[
3) Una de las siguientes afirmaciones acerca del coeficiente de correlacin lineal es falsa. Cul?
[
[
[
[
4) Indica el tipo de relacin entre variables que corresponde, o cabe esperar, en los siguientes
casos:
[ 1 ] : relacin lineal positiva
[ 3 ] : ausencia de relacin
[
[
[
[
[
[
[
[
Ejercicios.
1) Construye el diagrama de caja de la distribucin constituida por los siguientes datos:
5, 3, 1, 7, 11.
14
Estadstica Aplicada
Tema IV
2) En una empresa se estudia subir el sueldo de sus empleados. Se barajan tres posibilidades:
A) Subida lineal e idntica para todos los empleados de 1.000 euros anuales.
B) Subida porcentual idntica para todos los empleados de un 5%
C) Subida lineal de 500 euros anuales combinada con otra porcentual del 3%
Analiza el efecto de cada una de esas medidas por separado, en trminos del sueldo
medio(media y mediana de los salarios pagados) y en trminos de la dispersin o variabilidad
de los salarios (desviacin tpica y coeficiente de variacin).
PESOT
Media aritmtica
Cuasidesviacin tpica
Coeficiente de variacin
Valor mnimo
Primer cuartil
Mediana
Tercer cuartil
Valor mximo
Varianza muestral
Coeficiente de asimetra
Coeficiente de apuntamiento
ALTURA
ALTURAT
29,087
11,098
0,3816
4
23
30
35
55
117,82
- 0,0060
0,4254
25,043
8,5306
0,3406
9
20
26
33
40
69,607
- 0,1759
- 0,7922
12
19
23
34
54
62
15