Professional Documents
Culture Documents
NDICE
Temas
Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Tema 6 Tema 7 Tema 8 Tema 9 Tema 10
Ttulo
Introduccin. Distribucin de tablas de frecuencia. Medidas de Tendencia o Posicin. Medidas de Dispersin. Medidas de Asimetra y Curtosis. Medidas de Concentracin. Series estadsticas de dos variables. Ajuste y Regresin de dos variables. Anlisis de la Correlacin. Nmeros ndices. Ejercicios. Test.
Pgina
1 6 13 25 31 39 43 49 56 64 72 96
TEMA 1 - INTRODUCCIN
1- DEFINICIN DE ESTADSTICA
La Estadstica es la ciencia que tiene por objeto recoger de forma agrupada la informacin que se produce de fenmenos reiterativos o no ocasionales. Se utiliza en mltiples reas del conocimiento humano: ciencias naturales, bioestadstica, ciencias sociales, estadstica econmica, etc. La Estadstica ha centrado su desarrollo sobre todo en la economa. Hasta mediados del siglo XIX, la palabra estadstica se usaba como referencia a las informaciones de tipo socioeconmico sobre la realidad de un Estado. Etimolgicamente alude a Ciencia de los Estados. Dos definiciones ms comunes: 1. La ciencia que se ocupa de la obtencin de informacin y que proporciona instrumentos para la toma de decisiones cuando prevalecen condiciones de incertidumbre. 2. La rama del mtodo cientfico que se ocupa de los datos obtenidos contando o midiendo las propiedades de determinados colectivos (poblaciones). Cabe destacar que en la actualidad muchas veces existe un exceso de informacin que es preciso sintetizar mediante la utilizacin de tcnicas estadsticas; esta informacin debidamente tratada da una posibilidad de tomar decisiones en un entorno de incertidumbre. Por ejemplo, la OMT (Organizacin Mundial del Turismo) recoge datos sobre el nmero de visitantes, ingresos y pagos debidos al turismo, etc., para la mayora de los pases del mundo. Con estos datos se pueden analizar las tendencias de movimientos de turistas en diferentes zonas del mundo y hacer previsiones de futuro; evidentemente no existe nunca una certeza total puesto que aunque existan ciertas tendencias, y puedan darse pautas de actuacin en funcin de las mismas, estas pueden variar de improviso si ocurren circunstancias no previstas, como por ejemplo, guerras, catstrofes naturales, cambios en los gustos de los consumidores, etc.
2- CLASIFICACIN DE LA ESTADSTICA
La estadstica se divide en dos partes: a) Estadstica Descriptiva. Tcnica o mtodo que se sigue para recoger, organizar, resumir, presentar y analizar los resultados de las observaciones de los fenmenos reales. Describe y analiza las caractersticas de una poblacin o de una muestra, deduciendo de esta descripcin conclusiones sobre su estructura y composicin y sobre las relaciones existentes con otros colectivos diferentes, con los cuales se compara.
________________________________________________________________________________________________________________________ Pgina 1
AJR
En el campo del turismo esta parte de la estadstica sirve para: Anlisis univariente. Conocer las caractersticas individuales de un colectivo, por ejemplo, proporcin de mujeres, edad media, de los visitantes de un museo, etc.; para conocer el tipo de bebida ms consumida en el bar, en las habitaciones de un hotel, etc. Anlisis bivariante. Relacionar dos variables, por ejemplo, la influencia de la devaluacin monetaria sobre el nmero de visitantes de un pas, para el anlisis histrico de variables como: nmero de visitantes, ingresos por turismo, ventas de una agencia de viajes, etc. Anlisis multivariante. Relacionar mas de dos variables, por ejemplo, agrupar los visitantes de un parque natural en diferentes tipologas tomando en consideracin varias variables, para que a cada tipo puedan ofrecrsele diferentes productos o servicios, etc. b) Inferencia Estadstica. Ciencia que utilizando como instrumento el clculo de probabilidades estudia las leyes de comportamiento de aquellos fenmenos que dependen del azar. En una segunda fase, generaliza leyes, es decir, basndose en los resultados obtenidos del anlisis de una muestra de la poblacin, infiere (deduce) o estima las leyes generales del comportamiento de esa poblacin. En turismo, igual que en otros campos, se utiliza para: Realizar estudios de mercado, por ejemplo, para conocer si un producto turstico tendr aceptacin. Realizar un control de calidad, por ejemplo, conocer el grado de satisfaccin sobre sus servicios, de los clientes de un hotel. Realizar otros tipos de estudios, por ejemplo, tipo de visitantes de una determinada zona, etc. En todos estos casos, dada la imposibilidad de conocer la opinin de toda la poblacin slo se utiliza una muestra representativa de la misma y los resultados se generalizan a toda la poblacin. La teora matemtica de la probabilidad es la base en que se apoya la inferencia estadstica. Algunos de los modelos de probabilidad (binomial, normal, etc.) pueden tener aplicacin en el mundo del turismo, puesto que proporcionan la probabilidad de que ocurra un determinado hecho, lo cual puede ayudar a decidir s una determinada accin debe realizarse. Por ejemplo, si existe una elevada probabilidad de que un grupo de alemanes alojados en un hotel tomen cerveza, el hotel procurara tener un volumen de existencias suficientes de esta bebida, para dar satisfaccin a sus clientes, y a la vez, obtener unas ganancias.
________________________________________________________________________________________________________________________ Pgina 2
AJR
________________________________________________________________________________________________________________________ Pgina 3
AJR
Parmetros: - Caractersticas poblacionales que deseamos investigar y que suelen ser desconocidas a priori. - Por ejemplo: la nacionalidad de los visitantes a un museo. - Las caractersticas poblacionales de los parmetros, pueden ser: 1. Variables: cuando estas caractersticas son numricas, es decir, que se pueden medir. Por ejemplo: aos de edad, renta anual en euros, etc. Y a la vez se subdividen las variables en: a) Continuas: si toman un nmero infinito no numerable. Por ejemplo: temperatura, edad, el peso o la altura de las personas, la distancia entre dos puntos, etc. La mayor parte de las variables continuas pueden tratarse como discretas, por ejemplo, si valoramos la edad de las personas en aos, despreciando las unidades de tiempo menores (das, horas...). Una variable continua se convierte en variable discreta. b) Discretas: si toman un nmero finito de valores en un intervalo. Por ejemplo: nmero de hijos de una familia, nmero de coches de un pas, etc. 2. Atributos: cuando las caractersticas de la poblacin no son susceptibles de medirse. Por ejemplo: color del pelo, profesin, estado civil, sexo, etc. Presentan modalidades o categoras, como por ejemplo, sexo puede adoptar las modalidades de hombre o mujer. Los atributos pueden clasificarse en: a) Ordenables: los que sugieren una ordenacin. Por ejemplo: el grado de satisfaccin con el trato recibido (excelente, bueno, regular, malo). b) No ordenables: son los que slo admiten una ordenacin alfabtica o casual. Por ejemplo: estado civil, nacionalidad de un turista, etc. El atributo ms simple es el que slo presenta dos modalidades. Por ejemplo: presencia/ausencia, favorable/desfavorable, etc. Las variables o caractersticas estudiadas pueden estar referidas o no a un determinado perodo de tiempo, entonces tendremos dos tipos de datos: 1. Variables temporales o histricas: son las referidas a distintos momentos del tiempo y adoptan en general la forma de serie, por ejemplo, serie mensual de visitantes a un museo. 2. Variables atemporales o de corte transversal: estn referidas a un momento o perodo concreto y ms o menos largo, por ejemplo, las personas que visitaron Toledo el mes de agosto de 2.004.
________________________________________________________________________________________________________________________ Pgina 4
AJR
Fuentes de informacin estadstica: - Son aquellas que proporcionan los datos sometidos al anlisis estadstico. - Se clasifican en dos tipos: 1. Fuentes de informacin primarias: son las elaboradas con un fin determinado (ad hoc) para la propia investigacin. 2. Fuentes de informacin secundarias: son las ya existentes y han sido elaboradas por otros agentes o investigadores ajenos a nuestra investigacin. En cualquier estudio estadstico es conveniente comenzar realizando una investigacin sobre las posibles fuentes de informacin secundarias porque el coste de la informacin primaria es normalmente ms caro e incluso a veces evita la recogida de cierta informacin inicialmente prevista y que se descubre que ya est disponible.
________________________________________________________________________________________________________________________ Pgina 5
AJR
________________________________________________________________________________________________________________________ Pgina 6
AJR
CONSTRUCCIN DE TABLAS DE FRECUENCIAS NO UNITARIAS EN DISTRIBUCIONES DE TIPO II Se realizan de la siguiente forma: 1. 2. 3. 4. Ordenacin de los datos. Recuento de las frecuencias absolutas. Agrupacin de los datos. Construccin de una tabla estadstica de frecuencias: ni, Ni, fi, Fi
Por ejemplo: Las puntuaciones, de 0 a 10, otorgadas por 30 clientes de un hotel sobre la percepcin de la limpieza general: 344298921567816746439980888937 Ordenacin de datos: 011223334444566677788888899999 Tabla de frecuencias: Xi 0 1 2 3 4 5 6 7 8 9 ni 1 2 2 3 4 1 3 3 6 5 30 Ni 1 3 5 8 12 13 16 19 25 30 fi 1/30 2/30 2/30 3/30 4/30 1/30 3/30 3/30 6/30 5/30 1 Fi 1/30 3/30 5/30 8/30 12/30 13/30 16/30 19/30 25/30 30/30 = 1
________________________________________________________________________________________________________________________ Pgina 7
AJR
CONSTRUCCIN DE TABLAS DE FRECUENCIAS NO UNITARIAS EN DISTRIBUCIONES DE TIPO III. CON DATOS AGRUPADOS EN INTERVALOS La amplitud del intervalo es la diferencia entre los dos extremos del intervalo. En estas distribuciones interesa elegir una amplitud lo suficientemente pequea para que la prdida de informacin sea lo menor posible, pero lo suficientemente grande para que la distribucin no tenga demasiados intervalos. Por tanto, a menor amplitud mejor informacin se obtiene, a mayor amplitud la informacion es menos interesante. La notacin para los intervalos es la siguiente: L i - 1 = Lmite inferior del intervalo L i = Lmite superior del intervalo ai = amplitud de un intervalo = L i - L i - 1 Marca de clase: es el punto medio de cada intervalo.
Por ejemplo: Una sociedad del sector maderero ha adquirido troncos de cierta variedad forestal para su posterior transformacin. Al recibirlos, ha decidido clasificarlos segn tramos de metros cbicos por unidad. El resultado de esta operacin ha sido recogido en la siguiente tabla. Se pide completar la tabla de frecuencias.
Para calcular las marcas de clase: L i-1 - L i 0 0,25 0,25 0,5 0,5 1 12 25 xi 0,125 0,375 0,75 1,5 3,5 ni 1235 187 50 18 10 1500
________________________________________________________________________________________________________________________ Pgina 8
AJR
2- REPRESENTACIN GRFICA
1. Diagrama de barras. Es una representacin grfica que se utiliza para distribuciones de frecuencia de tipo II. Se dibuja un sistema de ejes de coordenadas; en el eje de abcisas se representa los valores de las variables, y en el eje de ordenadas los valores de ordenadas los valores de las frecuencias absolutas. Se construyen unas columnas de altura igual a la frecuencia de cada uno de los valores. Xi 1 3 5 8 11 ni 2 7 5 4 1
2. Histogramas. Es una representacin grfica que se utiliza con frecuencia para distribuciones del tipo III. Se dibuja un sistema de ejes de coordenadas, en el eje de abcisas se representan los valores de los intervalos de las variables y en el eje de ordenadas los valores de las alturas (hi), siendo hi = ni / ai. Se construyen unos rectngulos cuya rea ser igual a la frecuencia absoluta del intervalo en estudio. L i-1 - L i 0 - 10 10 30 30 50 50 80 80 - 110 ni 2 7 5 4 1 hi = ni /ai 0,20 0,35 0,25 0,13 0,03
________________________________________________________________________________________________________________________ Pgina 9
AJR
3. Polgonos de Frecuencias. Es una representacin grfica que se utiliza con frecuencia para distribuciones del tipo II y del tipo III. Consiste en unir mediante una lnea quebrada los extremos superiores de las columnas, si se trata de una distribucin del tipo II, o los puntos medios de las bases superiores de los rectngulos del histograma, si se trata de una distribucin del tipo III.
8 7 6 5 4 3 2 1 0 1 2 3 4 5
9 8 7 6 5 4 3 2 1 0 ni
________________________________________________________________________________________________________________________ Pgina 10
AJR
4. Superficies Representativas, Diagrama de Sectores o Sectores Circulares. Es una representacin grfica en la que los datos vienen sustituidos por superficies de rea proporcional al valor de las frecuencias.
________________________________________________________________________________________________________________________ Pgina 11
AJR
5. Pictogramas y Cartogramas. Los pictogramas consisten en representar mediante figuras alegricas las cantidades de la serie estadstica. Cada figura representa un cierto nmero de unidades. Algunas veces el pictograma adopta otros mtodos comparativos, especialmente cuando se trata de comprar dos o tres valores solamente. En estos casos se realiza un dibujo en tamao proporcional a los valores. Este tipo de grfico es ms bien de tipo publicitario que cientfico ya que muchas veces es poco preciso. Por ejemplo: el nmero de viajeros de un tren turstico durante los meses de Julio, Agosto, Septiembre del pasado ao, ha sido de 100, 600 y 300 respectivamente.
Julio
Agosto
Septiembre
Los cartogramas son mapas en los que, mediante signos convenientes, se representan la distribucin geogrfica de los hechos estudiados. Los signos que se emplean pueden ser colores, nmeros, figuras geomtricas, etc. Este tipo de grficos tiene el inconveniente de que, instintivamente, a las zonas ms extensas les asociamos intensidades mayores del fenmeno, y por tanto errores de interpretacin.
________________________________________________________________________________________________________________________ Pgina 12
AJR
x =
xi
Por ejemplo: calcular la media aritmtica de la siguiente distribucin correspondiente a la renta en unidades monetarias que perciben cinco familias. xi 150 175 200 250 300
x= 150 + 175 + 200 + 250 + 300 = 215u.m 5
________________________________________________________________________________________________________________________ Pgina 13
AJR
x=
x n
N
i i
Por ejemplo: calcular la media aritmtica con los datos de la siguiente tabla: xi ni 0 1 2 3 4 10 4 1 4 1
x= (0 4) + (1 10) + (2 4) + (3 1) + (4 1) = 1'25 20
Por ejemplo: calcular la media aritmtica con los datos de la siguiente tabla: L i-1 L i 5.000 9.000 9.000 13.000 13.000 17.000 17.000 21.000 21.000 25.000 xi
ni 3 4 7 5 6
Li 1 + Li 2
Cuando la serie estadstica presenta valores de la variable muy grandes, se pueden aplicar mtodos abreviados de clculo: a) Cuando el salto de la variable es no constante o igual a la unidad:
x = OX
+
(x O )n
i x
donde Ox , conviene que sea el valor central de los que toma la variable, para reducir al mximo los clculos.
________________________________________________________________________________________________________________________ Pgina 14
AJR
Por ejemplo: calcular la media aritmtica con los datos de la siguiente tabla: xi 70.132 70.133 70.134 70.135 70.136 Si Ox = 70.134
x = 70.134 +
1 = 70.133,95 20
ni 2 4 8 5 1 20
xi Ox -2 -1 0 1 2
(xi Ox) ni -4 -4 0 5 2 -1
x = OX
xi Ox ni a ai N
donde Ox , conviene que sea el valor central de los que toma la variable, para reducir al mximo los clculos. Por ejemplo: calcular la media aritmtica con los datos de la siguiente tabla: xi 40.000 40.100 40.200 40.300 ni 3 2 5 1 11
xi OX a
xi Ox ni a
-2 -1 0 1
-6 -2 0 1 -7
Si Ox = 40.200 y a i = 100
x = 40.200 + 7 100 = 40.136,36 11
________________________________________________________________________________________________________________________ Pgina 15
AJR
Propiedades de la media aritmtica A la media aritmtica se la considera el centro de gravedad de la distribucin, ya que la suma de las desviaciones de los valores con respecto a su media aritmtica es igual a cero. Se demuestra asi:
( x i x ) ni = x i ni - x ni = N x x N = 0
x=
x n
N
i i
N x = x i ni
Si se multiplican o dividen todos los valores de la variable por una constante, la media de los mismos queda multiplicada o dividida por dicha constante. Es decir: Media de a xi =
axi x = a i = ax N N
Si se suman o restan todos los valores de la variable por una constante, la media de los mismos queda aumentada o disminuida en ese mismo valor. Es decir: Media de a + xi = Por ejemplo:
xi 2 4 8 10 12 = 36 (xi 7,2 ) - 5,2 - 3,2 0,8 2,8 4,8 =0 3 xi 6 12 24 30 36 = 108 5 + xi 7 9 13 15 17 = 61
(a + xi )
N
Na xi + =a+x N N
x=
3 x =
x n
N
i i
N xi ni
= = =
5+ x=
x n
N
i i
________________________________________________________________________________________________________________________ Pgina 16
AJR
3 - LA MEDIA GEOMETRICA
Se define la media geomtrica, como la raz de ndice igual al nmero de factores que se promedian, del producto de todos ellos.
G=
x x ... x
n1 1 n2 2
nr r
=N
x
r 1
19
= 4,02
G = 19 1 2 3 7 5 5 8 4 11 1
Por ejemplo: calcular la media geomtrica de la siguiente distribucin: xi ni 7.000 11.000 15.000 19.000 23.000 3 4 7 5 6
25
________________________________________________________________________________________________________________________ Pgina 17
AJR
4 - LA MEDIA ARMONICA
La media armnica se define como el inverso de la media aritmtica, de los inversos de los valores de la variable.
H= N
1 xi
en distribuciones tipo I. H =
ni xi
Por ejemplo: Un automvil realiza los siguientes recorridos 200, 300 y 400 kilmetros a las velocidades medias de 50, 60 y 80 Km/hora. Calcule la velocidad media para el recorrido total. xi 50 60 80 ni 200 300 400 900
En este ejemplo los valores de la variable xi son las velocidades medias del vehculo en cada recorrido, y los recursos producidos son las distancias que se han recorrido.
H= 900 = 64km / hora 200 300 400 + + 50 60 80
Por ejemplo: Cuatro fincas han producido 100, 120, 150 y 200 quintales mtricos de trigo con unos rendimientos de 10, 15, 12 y 18 quintales mtricos de trigo por hectrea. Calcular el rendimiento medio. xi 10 12 15 18 ni 100 150 120 200 570
H= 570 = 13, 69Qm / Ha 100 150 120 200 + + + 10 12 15 18
________________________________________________________________________________________________________________________ Pgina 18
AJR
5- LA MEDIA CUADRATICA
La media cuadrtica se define como la raz cuadrada de la media aritmtica, de los cuadrados de los valores de la variable.
C=
x
N
2 i
en distribuciones tipo I. C =
2 i
ni
Por ejemplo:
xi 1 3 5 8 11 ni 2 7 5 4 1 19
C=
x i ni
2 21 25 32 11 91
ni
ni xi
2 1 7 3 5 5 4 8 1 11
xi2 ni
2 63 125 256 121 567
5,924
2 i
567 = 5, 46 19
H=
ni xi
19 = 3,207 G = 19 1 2 3 7 5 5 8 4 11 1 5,924
= 4,02
x=
x n = 91 = 4,78
i i
19
C=
2 i
ni
567 = 5, 46 19
________________________________________________________________________________________________________________________ Pgina 19
AJR
7- LA MODA
La moda se define como el valor de la variable que ms veces se repite. En una distribucin de frecuencias es el valor de la variable que viene afectado por la mxima frecuencia de la distribucin. Clculo de la Moda en las distribuciones del tipo II. xi 1 ni 2
3
5 8 11
7
5 4 1 19
La Mo = 3, ya que es el valor de la variable que ms veces se repite, al ser su frecuencia absoluta igual a 7.
Clculo de la Moda en las distribuciones del tipo III, con amplitud constante. L i-1 - L i 0 20 20 40 ni 20 30
40 60
50
60 80 80 100
10 20
Mo = Li 1 +
10 ni +1 20 = 45 ai = 40 + ni +1 + ni 1 10 + 30
Clculo de la Moda en las distribuciones del tipo III, con amplitud no constante. L i-1 - L i 0 10
ni
2
hi =
ni ai
10 30
0,35
0,25 0,13 0,03
0,20
30 50 50 80 80 110
5 4 1
Mo = Li 1 +
________________________________________________________________________________________________________________________ Pgina 20
AJR
8 - LA MEDIANA
La mediana se define como el valor central de los valores de la variable, una vez que estos han sido ordenados en sentido creciente o decreciente. Por tanto, la mediana, grficamente deja el 50% de los elementos a la izquierda y el 50% de elementos a la derecha. Clculo de la Mediana en distribuciones del tipo I, impares
xi 1 3
La Me = 5, ya que ordenados los valores de la variable el valor 5 deja igual nmero de valores a su alrededor.
8 11
Me =
N N 20 , en nuestro ejemplo = = 10 . 2 2 2 Buscamos en la columna de frecuencias absolutas acumulada N i el siguiente valor superior a 10. En este caso es Ni =14 que se corresponde con xi =1, por lo tanto la mediana es M e = 1
La frecuencia total ser: N = 20 . Ahora calculamos
________________________________________________________________________________________________________________________ Pgina 21
AJR
Clculo de la Mediana en distribuciones del tipo III Los ingresos mensuales de 50 familias se recogen en la siguiente tabla, calcular la Mediana. L i-1 - L i 40 100 100 200 200 500 500 1.000 ni 10 20 15 5 50 Ni 10 30 45 50
N 50 = = 25 . El valor de Ni = 30 es el siguiente mayor a 25, el intervalo mediano ser 2 2 N N i 1 2 [100 - 200] y la mediana se calcula a travs de: Me = Li 1 + ai siendo ai la ni
9 - LOS CUANTILES
La generalizacin del concepto de mediana da lugar a unas nuevas medidas de posicin llamadas cuantiles: las que ms se utilizan son los cuartiles, deciles y centiles. Existen tres cuartiles: el primer cuartil deja a su izquierda el 25% de los elementos y el otro 75% a la derecha; el segundo cuartil deja el 50% de los valores a la izquierda y el otro 50 % a la derecha; y el tercer cuartil deja el 75% de los valores a la izquierda y el 25% de valores a la derecha. Existen nueve deciles: el octavo decil es, por ejemplo, aquel valor de la variable que deja el 80% de valores a la izquierda y el 20% de datos a la derecha. Existen noventa y nueve centiles: el 30 centil es, por ejemplo, aquel valor de la variable que deja el 30% de valores a la izquierda y el 70% de datos a la derecha.
________________________________________________________________________________________________________________________ Pgina 22
AJR
Como es evidente, la Mediana coincide con el 2 cuartil, el 5 decil y el 50 centil. El clculo de los cuantiles se hace de forma semejante al clculo de la mediana pero con el cociente
pN pN pN para los cuartiles, para los deciles, y para los centiles; donde p es el 4 10 100
nmero del cuantil que queremos calcular. Clculo de los Cuantiles en distribuciones del tipo II En la siguiente distribucin determinar el 3 cuartil, el 7 decil y el 99 centil. xi 1 3 4 5 7 9 ni 20 30 20 40 7 3 120 Ni
3 cuartil: 7 decil:
3 120 = 90 Q 3 = 5 4
99 centil:
________________________________________________________________________________________________________________________ Pgina 23
AJR
Clculo de los Cuantiles en distribuciones del tipo III Se calculan utilizando las siguientes frmulas:
pN N i 1 Para los Cuartiles: Qp = Li 1 + 4 ai ni pN N i 1 10 Para los Deciles: Dp = Li 1 + ai ni pN N i 1 100 Para los Centiles: Cp = Li 1 + ai ni
p = 1, 2, y 3
p = 1, 2, .. 9
p = 1, 2, 99
2 9 14 18 19
D3 = 10 +
5,7 2 20 = 20,57 7
________________________________________________________________________________________________________________________ Pgina 24
AJR
2- RECORRIDO O RANGO
El recorrido se define como la diferencia entre el valor de la variable numricamente superior y el inferior. Su clculo es muy sencillo y, aunque su informacin es imperfecta, nos orienta en ciertas ocasiones de una forma rpida. Por ejemplo: calcular el recorrido de la siguiente distribucin:
xi
-4
-2
Re = 9 ( 4) = 13
DX =
x ni N
Desviacin a la Mediana, se define como la media aritmtica de los valores absolutos de las diferencias entre los valores de la variable y su mediana. Y su frmula es:
DMe =
Me ni N
________________________________________________________________________________________________________________________ Pgina 25
AJR
Por ejemplo: calcular la desviacin media de la siguiente serie estadstica, respecto a la media aritmtica y a la mediana.
xi
1 3 5 8 11
ni
2 7 5 4 1 19
i
x i ni
2 21 25 32 11 91
Ni 2 9 14 18 19
xi x
3,78 1,78 0,22 3,22 6,22
xi x ni
7,56 12,46 1,10 12,88 6,22 40,22
xi Me
4 2 0 3 6
xi Me ni
8 14 0 12 6 40
x=
ni
(x =
x)
x =
N
2 i
xi N
(x =
2 i
x ) ni
2
N
2
(x =
2
2 i
+ x 2 2 x i x ni N ni
x =
2 i
2 i
ni
+ x2
n
N
2
2x
x n
i
x =
ni
+ x 2x
x =
2 i
x (x ) =
2
ni
x i ni N
Cuanto ms elevado sea el valor de la varianza, ms dispersin existir, y la media ser menos representativa. La desviacin tpica, se define como la raz cuadrada positiva de la varianza. Y se simboliza con S X .
________________________________________________________________________________________________________________________ Pgina 26
AJR
xi
ni
x i ni
xi2
xi2 ni
( xi x )
- 3,789 - 1,789 0,211 3,211 6,211
(xi x )2
14,256 3,20 0,044 10,31 38,57
(xi x )2 ni
28,713 22,403 0,222 41,24 38,57 131,148
1 3 5 8 11
2 7 5 4 1 19
x=
2 21 25 32 11 91
i i
1 9 25 64 121
xn
N
91 = 4,789 19
2
2 X
(x =
x ) ni N
2 X
x n =
N
2 i i
xi ni N
Para distribuciones del tipo II y III, y con cambio de escala o de origen se calculan:
d 2n d n x Ox i i i i 2 di = i SX = a2 N a N
2
Por ejemplo: calcular la media, la varianza y la desviacin tpica de la siguiente serie estadstica.
ni 10 12 14 9 6 2 53
di =
xi O x a
d i ni
d i2 ni
-2 -1 0 1 2 3
- 20 - 12 0 9 12 6 -5
40 12 0 9 24 18 103
di =
xi O X xi 2004 = a 2
________________________________________________________________________________________________________________________ Pgina 27
AJR
x = OX
xi OX ni a ai = O X + N
2
d n
N
i i
5 ai = 20.004 + 2 = 20.003,81 53
d 2n d n i i i i S =a N N
2 X 2
Este cociente cumple el cometido de permitir comparar dos o ms distribuciones entre s, ya que al dividir la desviacin tpica entre la media aritmtica se elimina la influencia de la escala de medida, convirtindose en una medida abstracta susceptible de comparaciones. Tambin es un coeficiente que se utiliza con mucha frecuencia en el estudio de una distribucin aislada. Por ejemplo: La media del precio diario de las habitaciones de un hotel Ingls es de 30 libras con desviacin tpica igual a 10. Otro hotel de categora anloga en la Costa Clida tiene una media de precios de 50 diarios, con una desviacin tpica igual a 9 . Donde es mayor la dispersin de precios?
Cv Ingls = CvCosta = SX 10 100 = 100 = 33,33% x 30 SY 9 100 = 100 = 18% y 50
________________________________________________________________________________________________________________________ Pgina 28
AJR
Esta trasformacin recibe el nombre de tipificacin de una variable. La media aritmtica de Z, y su desviacin tpica son iguales a 0 y a 1, respectivamente. a) Media:
xi x ni SX
z n z=
N
i i
1 SX
(x
x ) ni =0
b) Desviacin Tpica:
x x 1 2 iS ni S 2 2 (zi z ) ni = zi ni = X = X 2 SZ = N N N
2
(x
x ) ni
2
1 2 SX = 1 2 SX
SZ = 1
Por ejemplo: Calcular las variables tipificadas de la siguiente serie estadstica y comprobar las dos propiedades de las variables tipificadas. xi 2 4 6 8 10 30
x= z= xi2 Zi = xi 6 2,828 Z i2
4 16 36 64 100 220
2 0,5 0 0,5 2 5
30 220 2 = 6 SX = 6 2 = 8 S X = 8 = 2,828 5 5 0 5 2 = 0 SZ = 02 = 1 S X = 1 = 1 5 5
________________________________________________________________________________________________________________________ Pgina 29
AJR
Por ejemplo: un estudiante obtiene en Economa 80 puntos, siendo 75 el nmero medio de puntos obtenidos y 10 la desviacin tpica. En Geografa, obtiene 98 puntos, siendo la nota media 90 puntos y la desviacin tpica 15 puntos. En qu asignatura obtiene una mejor posicin? En Economa:
xi = 80, x = 75, S X = 10 zi =
80 75 = 0,5 10
En Geografa:
y j = 98, y = 90, SY = 15 z j =
98 90 = 0,53 15
________________________________________________________________________________________________________________________ Pgina 30
AJR
1- DISTRIBUCIN NORMAL
Hay un cierto nmero de elementos de la naturaleza que se rigen por una distribucin normal de frecuencias y que debido a su generalidad, se llamo distribucin normal o campana de Gauss.
Debemos destacar de la distribucin normal, que: 1. Es una curva simtrica. 2. El rea situada bajo la curva coincide con el tamao de la muestra. 3. Tiene una cota mxima en el centro y decrece constantemente hacia los extremos, pero nunca corta el eje de abcisas. 4. En la distribucin normal, la media aritmtica, la mediana y la moda coinciden. 5. La distribucin normal tiene tres puntos de inflexin. El primero coincide con el valor de la desviacin tpica de la distribucin. El segundo con dos veces el valor de la desviacin tpica y el tercer punto con el de la desviacin tpica, multiplicado por tres.
________________________________________________________________________________________________________________________ Pgina 31
AJR
Nos encontraremos entonces con los siguientes casos: As = 0 x = Mo Simtrica As > 0 x > Mo Asimetra positiva, donde la parte principal de la distribucin queda a la derecha. As < 0 x < Mo Asimetra negativa, donde la parte principal de la distribucin queda a la izquierda.
y
y
12
10
5 4
3
4
2
2
1
0
0 1 2 3 4 5
As = 0 x = Mo
y
As > 0 x > Mo
12
10
0 1 2 3 4 5
As < 0 x < Mo
________________________________________________________________________________________________________________________ Pgina 32
AJR
El Coeficiente de Asimetra de Pearson, es vlido para distribuciones en forma de campana, cuando no es as, se utiliza otro coeficiente, denominado Coeficiente de Asimetra de Fisher, y se simboliza como m3 , cuya expresin es:
1 m3 = S X
3
(x
x ) ni
3
x3n xn xn x2n i i 3 i i i i + 2 i i N N N N
Para distribuciones del tipo II y III, y aplicando el cambio de escala o de origen, la expresin sera la siguiente:
a m3 = S X
3
d 3n dn dn d 2n i i 3 i i i i + 2 i i N N N N
3- RELACIN EMPIRICA ENTRE LA MEDIA, LA MEDIANA Y LA MODA En las distribuciones de frecuencias de forma de campana y tan slo moderadamente asimtricas, se cumple la siguiente relacin emprica:
x Mo = 3 ( x Me )
por lo que podemos calcular el Coeficiente de Asimetra de Pearson, tambin de la siguiente forma:
As = x Mo 3 ( x Me) = SX SX
teniendo en cuenta que nunca va a coincidir el valor de ambos resultados, pero si debe coincidir el signo.
________________________________________________________________________________________________________________________ Pgina 33
AJR
Leptocrtica
Mesocrtica
Platocrtica
El parmetro que define esta caracterstica se denomina Coeficiente de Apuntamiento o Curtosis y se simboliza como m4 , cuya expresin es:
1 m4 = S X
(x
x ) ni
4
Si m 4 > 3 Leptocrtica Si m 4 = 3 Mesocrtica Si m 4 < 3 Platocrtica Para distribuciones del tipo II y III, y desarrollando la expresin anterior:
1 m4 = S X
4
x4n x3n xn x 2n i i 4 i i i i + 6 i i N N N N
xi ni N
xn 3 i i N
2
Para distribuciones del tipo II y III, y aplicando el cambio de escala o de origen, la expresin sera la siguiente:
a m4 = S X
4
d 4n d 3n dn d 2n i i 4 i i i i + 6 i i N N N N
d i ni N
dn 3 i i N
2
________________________________________________________________________________________________________________________ Pgina 34
AJR
x i ni
(xi x ) (xi x )2
-2 0 2 4 4 0 4 16
40 36 28 16 120
x x=
ni
120 (xi x ) ni = 40 = 4 S = 4 = 2 2 = = 12 S X = X N 10 10
2
1 m3 = S X 1 m4 = S X
(x
x ) ni
3
N
4
(x
x ) ni
4
x i ni
(xi x ) (xi x )2
- 10 -5 -1 5 12 100 25 1 25 144
x x=
ni
1 m3 = S X 1 m4 = S X
(x
x ) ni
3
N
4
(x
x ) ni
4
________________________________________________________________________________________________________________________ Pgina 35
AJR
40 36 28 16 120
x=
ni
120 = 12 10
2 SX
x n =
N
3
2 i i
xi ni N
1.480 120 2 = = 4 SX = 4 = 2 10 10
3
1 m3 = S X
x3n xn xn x2n i i 3 i i i i + 2 i i N N N N
1 = 2
1 m4 = S X
x4n x 3n xn x2n i i 4 i i i i + 6 i i N N N N
xi ni N
xn 3 i i N
2
1 = 2
________________________________________________________________________________________________________________________ Pgina 36
AJR
Ejemplo, del 3 caso: L i-1 - L i 0-50 50-100 100-150 150-200 200-250 xi 25 75 125 175 225 ni 30 40 90 70 20 250
di d i ni d i2 ni d i3 ni d i4 ni
Ni
hi =
ni ai
-2 -1 0 1 2
- 60 - 40 0 70 40 10
120 40 0 70 80 310
di =
xi O X xi 125 = 50 a
a) Media x = O X +
d n
N
i i
d 2n d n i i i i S =a N N
2 X 2
310 10 2 = 50 2 = 3.096 S X = 3.096 = 55,64 250 250 SX 55,64 100 = 100 = 43,81% 127 x
As =
As =
________________________________________________________________________________________________________________________ Pgina 37
AJR
g) Asimetra de Fisher
a m3 = S X
d 3n dn dn d 2n i i 3 i i i i + 2 i i N N N N
50 = 55,64
h) Asimetra de Pearson
a m4 = S X
d 4n i i 4 d i3 ni d i ni + 6 d i2 ni d i ni N N N N N
dn 3 i i N
2
50 = 55,64
2 4 910 50 10 310 10 10 4 + 6 = 2,4 Platoctica 3 250 250 250 250 250 250
________________________________________________________________________________________________________________________ Pgina 38
AJR
(1) Salario Semanal en miles de u.m. (2) Marca de clase. (3) N de obreros. (4) Volumen de salarios. (5) N de obreros en porcentaje. (6) Volumen de salarios en porcentaje. (7) Porcentaje acumulado de obreros. (8) Porcentaje acumulado de volumen de salarios. (9) = (7) (8)
Si ponemos en relacin las columnas (7) y (8), obtenemos una informacin que nos indica el reparto de los salarios, poniendo de relieve la concentracin de los mismos. En efecto, ordenados los salarios de los trabajadores de mayor a menor, resulta que el 10% de los trabajadores se reparte el 3,16% del total de los salarios de la empresa; el 38% de los trabajadores recibe solamente el 20,88% del total de los salarios; el 68% solo el 49,36%, etc.
________________________________________________________________________________________________________________________ Pgina 39
AJR
Si la distribucin fuese igualitaria (Equidistribucin), el 10% de los trabajadores percibira el 10% del salario, el 38% debera repartirse el 38% del total, etc. La Curva de Lorenz es un indicador de la concentracin (mayor o menor igualdad en el reparto). Si la Curva de Lorenz est cerca de la diagonal nos indica poca concentracin, a medida que se aleja de la diagonal, la concentracin es mayor.
Por tanto se pueden presentar dos casos extremos: a) rea = 0,5 (reparto no equitativo)
________________________________________________________________________________________________________________________ Pgina 40
AJR
(p
i =1 i =1
k 1
qi )
i
k 1
Es decir, que el Indice de Gini, mide la concentracin, por medio de las diferencias existentes entre los pi y los qi . Tngase en cuenta que el sumatorio se extiende hasta:
k 1 , ya que el ltimo valor p K = q K = 100 y por tanto p K q K = 0 .
El Indice de Gini puede tomar dos valores extremos: 1) Si existe concentracin nula (Ig = 0), es por que todos los individuos reciben la misma cantidad, por tanto, se verifica que pi = qi , consiguientemente pi qi = 0 , y el Ig = 0. (Los individuos tienen el mismo grado de riqueza y el reparto es equitativo).
Ig =
(p
i =1 i =1
k 1
qi )
i
k 1
=0
2) Si existe mxima concentracin (Ig = 1), es por que el total de los salarios est en manos de un solo individuo, por tanto: q1 = q2 = ...... = q K 1 = 0
Ig =
( p i qi ) pi
i =1
k 1
k 1 i =1 k 1 i =1
p
i =1
k 1
=1
As pues, a medida que el Indice de Gini se aproxima a 0, indicar una menor concentracin (mxima igualdad en el reparto), mientras que cuanto ms se aproxime a 1, reflejar una mayor concentracin (mnima igualdad o reparto no equitativo). En el ejemplo que estamos estudiando el Indice de Gini ser:
Ig =
(p
i =1 i =1
k 1
qi )
i
k 1
El rea valdr : AT =
________________________________________________________________________________________________________________________ Pgina 41
AJR
Por ejemplo: los salarios mensuales (en miles de u.m.) de los trabajadores de un hotel, son los siguientes:
Salarios 10 - 20 20 - 30 30 - 40 40 - 50
xi
15 25 40 60
ni
40 30 20 10 100
qi )
i
x i ni
600 750 800 600 2.750
% ni
% xi ni
pi
40 70 90 100 200
qi
21,818 49,09 78,18 100
p i qi
18,182 20,91 11,82 0 50,912
40 30 20 10
Ig =
(p
i =1 i =1
k 1
k 1
El rea valdr : AT =
________________________________________________________________________________________________________________________ Pgina 42
AJR
Distribuciones de tipo I, donde algunos valores de la variable X puede repetirse, pero con distinto valor de la variable Y, y viceversa. Distribuciones de tipo II, donde los valores de estas variables vienen acompaadas de sus frecuencias; tambin aqu algunos valores de X puede repetirse, pero con distinto valor de Y, y viceversa. xi x1 x2 x3 . . xn yj y1 y2 y3 . . yn xi x1 x2 x3 . . xn yj y1 y2 y3 . . yn Tipo II
ni
n 11 n 12 n 13 . . n 1k
Tipo I
________________________________________________________________________________________________________________________ Pgina 43
AJR
Distribuciones de tipo III, en las cuales los datos se suelen presentar en tablas de doble entrada, donde en la primera fila se colocan los valores de la variable X, y en la primera columna se colocan los valores de la variable Y; en la confluencia de la columna x i con la fila de y j se coloca la frecuencia conjunta ni j. Esta tabla se completa frecuentemente con una ltima fila, que recoge el sumatorio de cada columna; y con una ltima columna, donde recoge el sumatorio de cada fila.
xi y1 y2 y3 . . . yk Totales x1 n 11 n 12 n 13 . . . n 1k x2 n 21 n 22 n 23 . . . n 2k x3 n 31 n 32 n 33 . . . n 3k . . . xn n n1 n n2 n n3 . . . n nk N Totales . . .
yj
________________________________________________________________________________________________________________________ Pgina 44
AJR
Por ejemplo: Calcula la media, varianza y desviacin tpica marginales de la variable X y de la variable Y, respectivamente.
xi yj 10 5 3 Totales 2 4 1 2 7 4 3 3 2 8 6 2 1 1 4 Totales 9 5 5 19
1. Distribucin marginal de X
xi
2 4 6
nij
7 8 4 19
xi nij
14 32 24 70
xi2 nij
28 128 144 300
x=
nij
70 = 3,68 19
2 = 300 70 = 2,216 S X = 2,216 = 1,488 19 19 2
2 X
x n =
N
2 i ij
xi nij N
2. Distribucin marginal de Y
yj
10 5 3
nij
9 5 5 19
y j nij
90 25 15 130
y 2 nij j
900 125 45 1.070
y=
nij
N
2 j ij
2 Y
y =
y j nij N
________________________________________________________________________________________________________________________ Pgina 45
AJR
Por la simple observacin de la nube de puntos resultante de representar la variable X y la variable Y, podemos observar el tipo de dependencia existente entre las dos variables. Si la representacin grfica da lugar a una serie de puntos que unidos por una lnea da lugar a la expresin grfica de una funcin matemtica, estaremos ante una dependencia exacta entre las dos variables. Si lo que obtenemos es una nube de puntos de forma alargada, y de inclinacin positiva, la dependencia estadstica ser de tipo lineal y recta; si la inclinacin es negativa, la dependencia estadstica ser de tipo lineal e inverso; si la nube de puntos presenta forma parablica, la dependencia vendr dada por una funcin parablica; si la nube de puntos no presenta ninguna forma, diremos que las variables son independientes entre si, estn incorrelacionadas.
________________________________________________________________________________________________________________________ Pgina 46
AJR
El parmetro matemtico que estudia la dependencia estadstica entre las dos variables se denomina Covarianza. La Covarianza, se define como la media aritmtica de los productos de las desviaciones de cada una de las variables con respecto a su media aritmtica.
S XY =
(x
i =1 j =1
x )( y j y ) N
(x
S XY =
i =1 j =1
x )( y j y ) nij N
Para el clculo, estas frmulas se presentan de una forma ms prctica, de la siguiente forma:
S XY =
x y
i =1 j =1 i
xi
i =1
y
j =1
S XY =
x y n
i =1 j =1 i j
ij
xi nij
i =1
y n
j =1 j
ij
= xy x y
S XY = 0 No existe dependencia estadstica. S XY > 0 Dependencia estadstica de tipo directo. S XY < 0 Dependencia estadstica de tipo inverso.
________________________________________________________________________________________________________________________ Pgina 47
AJR
Por ejemplo: Calcula la media, varianza y desviacin tpica de las variables X y de la variable Y, y la Covarianza.
xi yj 10 5 3 Totales 2 4 1 2 7 4 3 3 2 8 6 2 1 1 4 Totales 9 5 5 19
xi
2 4 6 2 4 6 2 4 6
yj
10 10 10 5 5 5 3 3 3
nij
4 3 2 1 3 1 2 2 1 19
xi nij
8 12 12 2 12 6 4 8 6 70
xi2 nij
y j nij
40 30 20 5 15 5 6 6 3 130
y 2 nij j
xi y j nij
16 48 72 4 48 36 8 32 36 300
x=
nij
70 = 3,68 19
2 = 300 70 = 2,216 S X = 2,216 = 1,488 19 19 2
2 X
x n =
N
j
2 i ij
xi nij N =
y=
nij
N
2 j ij
2 Y
y =
h
N
k
y j nij N
h
S XY =
x y n
i =1 j =1 i j
ij
xi nij
i =1
y n
j =1 j
ij
________________________________________________________________________________________________________________________ Pgina 48
AJR
Por tanto, el concepto de ajuste lo podemos definir como la sustitucin de la dependencia de tipo estadstico existente entre dos variables por una dependencia de tipo funcional o exacto, que implica la determinacin de los parmetros que caracterizan a tal funcin analtica. El concepto de regresin es paralelo al concepto de ajuste, de forma que en general hablamos de rectas de regresin y, en general, de lneas de regresin.
________________________________________________________________________________________________________________________ Pgina 49
AJR
(y
yi*
= Mnimo
donde yi son los valores observados e yi* , los valores ajustados. La diferencia entre los valores observados ( yi ) y los valores ajustados ( yi* ) se denomina error o residuo, ei ; por tanto, el mtodo de los mnimos cuadrados ordinarios se basa en que:
(y
yi*
) = e
2
2 i
= Mnimo
Si lo que se quiere es ajustar la nube de puntos a una recta del tipo yi* = a + b xi , a partir de esta expresin y mediante un tratamiento matemtico llegamos al sistema de ecuaciones normales.
f a, b = yi (a + b x)
= Mnimo
________________________________________________________________________________________________________________________ Pgina 50
AJR
A continuacin, minimizamos esta expresin. mediante la igualacin a cero de sus derivadas con respecto a a y b. Por tanto. queda:
d f d a d f d b
= 2 ( y a bx ) ( 1) = 0
y
i
= aN + b xi = a x i + b xi2
= 2 ( y a bx ) ( x ) = 0
x y
Estas ecuaciones reciben el nombre de ecuaciones normales, y el parmetro b (pendiente de la recta de regresin) recibe el nombre de coeficiente de regresin de la variable y con respecto a la variable x e indica en cunto variar y cuando x vare en una unidad. Tenemos entonces, tres mtodos, para calcular los parmetros o coeficientes de la recta de regresin yi* = a + b xi : 1. Del MMCO, y para distribuciones tipo II y III, llegamos al sistema de ecuaciones normales:
y n = aN + b x n x y n = a x n + b x n
j ij i ij
ij
i ij
2 i ij
S XY 2 SX a = y bx S XY 2 SY
a ' = x b' y
3. Mediante las Rectas de Regresin (ecuaciones de la recta que pasan por dos puntos):
Y X X Y
(y y)
= b (x x )
(x x ) = b' ( y y )
________________________________________________________________________________________________________________________ Pgina 51
AJR
Por ejemplo: calcular, mediante el MMCO, la recta de regresin de los siguientes valores:
xi
3 3 5 6 7 7 9 9
yj
3 5 5 6 6 7 8 10
nij
2 4 8 9 7 5 3 2 40
xi nij
6 12 40 54 49 35 27 18 241
xi2 nij
y j nij
6 20 40 54 42 35 24 20 241
y 2 nij j
xi y j nij
x=
nij
241 = 6,025 40
2 X
x n =
N
j
2 i ij
y= S
2 Y
xi nij N =
nij
2 j ij
N n N
k j =1
241 = 6,025 40
y =
i =1 h
y j nij N
h
S XY =
xi y j nij
xi nij
i =1
y n
j =1 j
ij
y n = aN + b x n x y n = a x n + b x n
j ij i ij
ij
i ij
2 i ij
yi* = a + b xi
y * = 1,724 + 0,714 x i i
________________________________________________________________________________________________________________________ Pgina 52
AJR
yj
1 1 2 2 5
nij
3 5 6 4 2 20
xi nij
3 10 18 16 10 57
xi2 nij
xi3nij
xi4 nij
y j nij
3 5 12 8 10 38
xi y j nij
xi2 y j nij
3 20 54 64 50 191
3 10 36 32 50 131
yi* = a + b xi + c xi2
y n
i
j ij
x y n x
2 i
j ij
38 = 20a + 57b + 191c a = 1,7197 131 = 57 a + 191b + 711c b = 0,9231 509 = 191a + 711b + 2.843c c = 0,29435
________________________________________________________________________________________________________________________ Pgina 53
AJR
yj
2,0 1,6 1,5 1,2 1,0 0,8 0,3 8,4
1 xi
0,1000 0,0833 0,0667 0,0556 0,0500 0,0400 0,0333 0,4289
1 xi2
0,0100 0,0069 0,0044 0,0031 0,0025 0,0016 0,0011 0,0297
yi* = a + b
1 xi
y n x
yj
i
j ij
= aN + b
1 nij xi
nij = a
1 1 nij + b 2 nij xi xi
yi* = a + b
________________________________________________________________________________________________________________________ Pgina 54
AJR
Por ejemplo: Ajustar a una funcin exponencial, la siguiente serie estadstica, por el MMCO.
xi
1,6 1,7 2,0 2,1 2,2 2,5 2,6 14,7
yj
2,0 2,1 2,4 2,4 2,5 2,8 3,0
T
0,693147 0,741937 0,875469 0,875469 0,916291 1,029619 1,098612 6,230544
xi T
1,10904 1,26129 1,75094 1,83848 2,01584 2,57405 2,85639 13,40603
yi* = a ebxi
Ln y = Ln a + Ln ebx Ln y = Ln a + bx Ln e
T = A+ B X
T = A N + B x x T = A x + B x
i i i
2 i
________________________________________________________________________________________________________________________ Pgina 55
AJR
2- LA VARIANZA RESIDUAL
Cuando ajustamos la lnea de regresin y * a una nube de puntos, vimos que se produca una diferencia entre los valores ajustados y los valores observados, denominndose a esta diferencia error o residuo ei . Por tanto, tenemos que: y j y* = ei Una vez conocido este concepto, podemos definir la varianza residual como la varianza de la serie de errores o residuos. Se simboliza como Se2 . Con lo cual, la varianza residual, resulta: S
2 e
(y =
y* ) nij
2
________________________________________________________________________________________________________________________ Pgina 56
AJR
La utilizacin prctica de esta frmula no es cmoda, ya que tendramos que calcular los errores y elevarlos al cuadrado, lo cual es bastante laborioso. Pero a partir de sta podemos obtener otra frmula, de mayor inters desde el punto de vista prctico. Partiendo de la definicin, aunque podemos llegar a la expresin de la varianza residual correspondiente a diferentes tipos de dependencia, vamos a considerar el caso de la regresin lineal. . Si consideramos la variable x como variable dependiente. Para distribuciones del tipo I:
S
2 e
y =
2 j
a y j b xi y j
N
y n =
2 j ij
a y j nij b xi y j nij
N
Como es lgico, una varianza residual grande indica que el sumatorio de los errores al cuadrado es elevado, con lo cual la representatividad de la lnea de regresin ser pequea, mientras que si obtenemos una varianza residual pequea, la bondad de ajuste de la funcin a la nube de puntos ser grande. Si este coeficiente fuese cero, estaramos ante una dependencia perfecta entre las variables x e y, puesto que esto implicara que ei2 = 0 , lo cual indica que no existe diferencia entre los valores observados y los ajustados.
Esta relacin tiene validez general para cualquier tipo de funcin analtica ajustada, y precisamente en esta generalidad se fundamenta el coeficiente de determinacin y su utilidad en el anlisis de la dependencia entre dos variables.
________________________________________________________________________________________________________________________ Pgina 57
AJR
4- EL COEFICIENTE DE DETERMINACION La medida cuantitativa de la bondad o representatividad del ajuste de la funcin a la nube de puntos nos lo da el coeficiente de determinacin:
R =
2 2 S y* 2 Sy
2 S y Se2 2 SY
= 1
Se2 2 Sy
Al ser una medida de tipo abstracto, es susceptible de comparaciones con otras distribuciones bidimensionales. Es un coeficiente que muchas veces se expresa en porcentaje. Vamos a pasar a considerar cundo este coeficiente toma estos valores extremos y su significacin prctica. 1. Este coeficiente ser igual a uno cuando la varianza residual sea cero, ya que:
2 Se 0 Si S = 0 R = 1 2 = 1 2 = 1 Dependencia o Correlacin Perfecta Sy Sy
2 e
2. Este coeficiente ser igual a cero cuando la varianza residual sea igual a la varianza de los valores observados, ya que:
2 Si Se2 = S y R 2 = 1
S2 Se2 = 1 y = 0 Incorrelacin 2 2 Sy Sy
Por tanto, podemos concluir que mayor ser la bondad de ajuste cuanto ms cercano est el coeficiente de determinacin a la unidad; si este coeficiente es igual a 0, no indica una incorrelacin de la funcin a la nube de puntos; si fuese este coeficiente igual a 1, nos indica una dependencia exacta. Como hemos indicado anteriormente, es un coeficiente que se presenta frecuentemente en porcentajes, fijndose empricamente el 75 por 100 como lmite inferior para considerar la funcin representativa del fenmeno en estudio. Para el ajuste lineal el coeficiente de determinacin se puede calcular tambin de la siguiente forma:
R =
2
(S )
xy
S S
2 x
2 y
0 R2 1
________________________________________________________________________________________________________________________ Pgina 58
AJR
Por ltimo, la varianza residual, conocido el coeficiente de determinacin, tambin de la siguiente forma:
2 2 Se2 S y Se 2 2 2 2 2 2 2 2 2 2 R =1 2 = R S y = S y Se Se = S y R S y = S y 1 R Sy SY2 2
S xy Sx S y
1 r +1
Este coeficiente vara entre los valores -1 y + 1; de manera que cuando el coeficiente vale + 1 la correlacin es positiva y mxima, es decir, cuando la variable independiente crece, tambin lo hace la variable dependiente, y viceversa. Cuando el coeficiente vale 0, nos indica una falta de relacin entre ambas variables. Si el coeficiente vale - 1, la correlacin vuelve a ser mxima, pero negativa, cuando una variable crece, la otra decrece y viceversa. Si el valor de este parmetro est prximo a 1 a - 1, aunque no exista una correlacin perfecta, se considera como vlida. El coeficiente de correlacin lineal es una medida de tipo cualitativo que slo nos indica el grado de la intensidad de la relacin lineal existente entre las dos variables, mientras que el coeficiente de determinacin es una medida de tipo cuantitativo que mide el grado de dependencia estadstica existente entre ambas variables.
________________________________________________________________________________________________________________________ Pgina 59
AJR
Cuestin 2. Responder verdadero o falso a las siguientes preguntas sobre series estadsticas de dos variables.
Se ha obtenido como ajuste entre las variables siguientes: nmero de establecimientos (x) y nmero de plazas tursticas (y), la siguiente recta de regresin: y = 899 + 67x, con un coeficiente de correlacin lineal r = 0,99. a) Como el Coeficiente de Regresin, b = 67, es mayor que cero, la relacin estadstica es inversa. b) El Coeficiente de Determinacin es el cuadrado del Coeficiente de Correlacin, R2 = 0,98, cuyo valor, prximo a la unidad, indica alto grado de dependencia entre las dos variables. c) El Coeficiente de Determinacin R2, puede variar entre + 1 y - 1, segn que la relacin estadstica sea directa o inversa. d) El signo de los Coeficientes de Regresin Lineal (b) y de Correlacin Lineal (r), dependen del signo de la Covarianza. e) El nmero de plazas que corresponde a 100 establecimientos, aplicando el ajuste realizado, es 7.600, aproximadamente.
Cuestin 3. Se ha estudiado la correlacin lineal existente entre una variable X, que representa los gastos mensuales en publicidad para la promocin de un determinado artculo, y la variable Y, que mide las ventas del mismo en el mes siguiente, y se ha obtenido como coeficiente r = + 0,9. Interprtese el efecto de la publicidad en la venta del artculo.
El signo positivo de r nos indica que entre las variables X e Y existe dependencia lineal de tipo directo, cuanto ms se invierta en publicidad, mayores sern las ventas. El coeficiente de determinacin es R2 = 0,92 = 0,81, que en trminos de porcentaje es el 81%, lo que indica que el 81% de los clientes que han comprado el artculo lo han hecho debido a la publicidad, mientras que el 19% restante lo han hecho por otras causas.
________________________________________________________________________________________________________________________ Pgina 60
AJR
xi
3 3 5 6 7 7 9 9
yj
3 5 5 6 6 7 8 10
nij
2 4 8 9 7 5 3 2 40
i
xi nij
6 12 40 54 49 35 27 18 241
xi2 nij
18 36 200 324 343 245 243 162 1.571
y j nij
6 20 40 54 42 35 24 20 241
y 2 nij j
18 100 200 324 252 245 192 200 1.531
xi y j nij y * = a + b xi
18 60 200 324 294 245 216 180 1.537 3,866 3,866 5,295 6,008 6,722 6,722 8,150 8,150
y j y*
(y
y*
) (y
2
y * nij
x=
nij
241 = 6,025 40
2 X
x n =
N
j
2 i ij
y= S
2 Y
xi nij N =
nij
2 j ij
N n
241 = 6,025 40
2
y =
S XY
y j nij 1.531 241 2 N = 40 40 = 1,974 SY = 1,974 = 1,405 N 1.537 241 241 Dependecia Lineal = = 2,124 Directa 40 40 40
S XY 2,124 = = 0,714 2 2,974 SX
yi* = a + b xi b =
a) S
2 e
(y =
y * ) n ij
2
b) S
2 e
y n =
2 j ij
a y j nij b xi y j nij
N
R2 = 1
r=
S xy
2 S x2 S y
________________________________________________________________________________________________________________________ Pgina 61
AJR
10 1
20 3
30 2
40 5
50 2 1
Gj
vj
v jG j
v 2G j j
Bj
vj Bj
50 40 30 20 10
Hi ui ui H i ui2 H i Ai ui Ai
6 4 3 10 -2 - 20 40 -4 8 7 -1 -7 7 -1 1
5
2 1 8 0 0 0 2 0 7 1 7 7 3 3
5 8 2 16 32 -6 - 12
5 8 12 6 9 40 -4 86 0
2 1 0 -1 -2
10 8 0 -6 - 18 -6
20 8 0 6 36 70
2 2 - 10 -2 4
4 2 0 2 -8 0
Ai = v j nij B j = ui nij
1) Medias
ui = xi O X x OX u= u c1 = x O X c1 c1 x = O X + u c1 = O X + y j OY c2
u H
i
4 c1 = 30 + 10 = 29 40
vj =
v=
y OY v c2 = y OY c2
y = OY + v c2 = OY +
v G
j
6 c2 = 30 + 10 = 28,5 40
________________________________________________________________________________________________________________________ Pgina 62
AJR
v 2G v G j j j j S =c N N
2 Y 2 2
3) Covarianza
u i Ai u i H i S XY = c1 c 2 N N v jG j N = 10 10 0 4 6 = 1,5 Dependencia Lineal Inversa 40 40 40
4) Rectas de Regresin
Y X
(y y)
= b ( x x ) y 28,5 =
xi = 29,247 0,00868 yi
5) Coeficiente de Determinacin
R2 =
(S XY )2
2 2 S X SY
( 1,5)2
214 172,75
0,00006 Incorrelacin
________________________________________________________________________________________________________________________ Pgina 63
AJR
Simples
o Sin Ponderar De la media aritmtica simple De la media agregativa simple
Complejos
o Ponderados De Laspeyres De Paasche De Fisher
________________________________________________________________________________________________________________________ Pgina 64
AJR
t
2.001 2.002 2.003 2.004 2.005 2.006
y
4.100 4.600 5.100 4.900 6.000 6.900
I (2.001 = 100 )
4.100 100 = 100% 4.100 4.600 100 = 112,19% 4.100 5.100 100 = 124,39% 4.100 4.900 100 = 119,51% 4.100 6.000 100 = 146,34% 4.100 6.900 100 = 168,29% 4.100
________________________________________________________________________________________________________________________ Pgina 65
AJR
St =
yt
o
100 =
I
n
Por ejemplo: calcula el ndice de Sanerbeck de las siguientes variables, referentes a los beneficios obtenidos por unas empresas de alquiler de vehculos en los ltimos aos (en miles de euros). [Perodo base 2.001 = 100] Aos 2.001 2.002 2.003 2.004 A 120 230 310 350 B 140 210 280 390 C 110 175 220 280 D 150 240 340 360 yi 520 855 1.150 1.380 S t (2.001=100) 100 % 165,1 % 221,2 % 266,1 %
b) Mtodo de la media agregativa simple. Indice de Bradstrest y Dutot Este mtodo, que es muy sencillo, consiste en sumar o agregar todos los valores yi para cada tiempo ti y con el agregado resultante se calculan los ndices simples. La frmula para calcular el ndice de Bradstrest y Dutot es:
Bt =
y y
100
Por ejemplo: calcula el ndice de Bradstrest y Dutot del conjunto de valores del ejemplo anterior. Aos 2.001 2.002 2.003 2.004 yi 520 855 1.150 1.380 B t (2.001=100) 100 % 164,4 % 221,2 % 265,4 %
________________________________________________________________________________________________________________________ Pgina 66
AJR
4- NUMEROS INDICES COMPLEJOS DE PRECIOS Y CANTIDADES: LASPEYRES, PAASCHE Y FISHER Los nmeros ndices complejos sin ponderar, en contra de la ventaja de la sencillez de su clculo y del escaso nmero de datos que necesitan para el mismo, tienen el inconveniente de que en muchos casos son poco representativos; en ocasiones nos interesa conocer la importancia intrnseca de cada una de las variables que componen nuestro estudio. El diferente peso o importancia que tiene cada una de nuestras variables viene expresado por unos coeficientes denominados coeficientes de ponderacin. En general se consideran como coeficientes de ponderacin los precios o las cantidades, segn cules sean las variables en estudio. Si la variable que estamos estudiando son los precios, el coeficiente de ponderacin ser las cantidades; sin embargo, si estamos estudiando las cantidades de diferentes productos, el coeficiente de ponderacin ser los precios de dichos productos. Los diferentes ndices complejos ponderados que vamos a estudiar se distinguen por la diferente forma de ponderacin. a) Indice de Laspeyres Para el clculo de este ndice, se considera siempre como coeficiente de ponderacin para cada variable el del perodo base. De esta forma tenemos el ndice de Laspeyres para precios, cuya expresin es:
p Ln =
p p
n o
qo qo
q q
n o
po po
________________________________________________________________________________________________________________________ Pgina 67
AJR
Por ejemplo: calcula el ndice de Laspeyres de precios y de cantidades de los siguientes artculos (tomando como perodo base 2.001).
Aos 2.001 2.002 2.003 2.004 Artculo A P Q 2 12 4 15 6 10 8 10 Artculo B P Q 5 9 7 10 7 5 8 5 Artculo C P Q 4 6 5 4 6 4 10 5
p p
n o
qo qo
93 2 12 + 5 9 + 4 6 100 = 100 = 100% 93 2 12 + 5 9 + 4 6 4 12 + 7 9 + 5 6 141 100 = 100 = 151,61% 2 12 + 5 9 + 4 6 93 6 12 + 7 9 + 6 6 171 100 = 100 = 183,87% 2 12 + 5 9 + 4 6 93 8 12 + 8 9 + 10 6 228 100 = 100 = 245,16% 2 12 + 5 9 + 4 6 93
q q
n o
po po
12 2 + 9 5 + 6 4 93 100 = 100 = 100% 12 2 + 9 5 + 6 4 93 15 2 + 10 5 + 4 4 96 100 = 100 = 103,22% 12 2 + 9 5 + 6 4 93 10 2 + 5 5 + 4 4 61 100 = 100 = 65,59% 12 2 + 9 5 + 6 4 93 10 2 + 5 5 + 5 4 65 100 = 100 = 69,89% 12 2 + 9 5 + 6 4 93
________________________________________________________________________________________________________________________ Pgina 68
AJR
b) Indice de Paasche Para el clculo de este ndice, se considera siempre como coeficiente de ponderacin para cada variable el correspondiente al de cada perodo en estudio. El ndice de Paasche para precios, cuya expresin es: Pnp =
pn qn
o
qn
qn pn
o
pn
Por ejemplo: calcula el ndice de Paasche de precios y de cantidades, del ejemplo anterior. b.1) Indice de Paasche para precios:
n 2.001 2.002 2.003 2.004
Pnp =
p p
n o
qn qn
q q
n o
pn pn
12 2 + 9 5 + 6 4 93 100 = 100 = 100% 12 2 + 9 5 + 6 4 93 15 4 + 10 7 + 4 5 150 100 = 100 = 106,38% 12 4 + 9 7 + 6 5 141 10 6 + 5 7 + 4 6 119 100 = 100 = 69,59% 12 6 + 9 7 + 6 6 171 10 8 + 5 8 + 5 10 170 100 = 100 = 74,56% 12 8 + 9 8 + 6 10 228
________________________________________________________________________________________________________________________ Pgina 69
AJR
c) Indices de Fisher El ndice de Fisher se define como la media geomtrica de los nmeros ndices de Laspeyres y de Paasche. El ndice de Fisher para precios sera: Fnp = LP Pnp n La expresin del ndice de Fisher para cantidades es: Fnq = Lq Pnq n Por ejemplo: calcula el ndice de Fisher de precios y de cantidades, del ejemplo anterior. c.1) Indice de Fisher para precios:
n 2.001 2.002 2.003 2.004
Fnp = LP Pnp n
Por ltimo, vamos a considerar las diferencias existentes entre los ndices complejos ponderados que acabamos de ver. El ndice de Laspeyres tiene la ventaja de que su clculo es sencillo; sin embargo, presenta el inconveniente de que considera siempre como peso el del ao base. Si nos encontramos con un caso muy dinmico, la situacin puede cambiar rpidamente. Al utilizar coeficientes de ponderacin que poco nos dicen de la situacin actual, la solucin puede resultar falseada. El ndice de Paasche no presenta el inconveniente del ndice de Laspeyres, ya que los coeficientes de ponderacin utilizados estn siempre actualizados; sin embargo, su clculo es ms complicado y se necesita mayor informacin. El ndice de Fisher es el ms costoso de elaborar, pero tambin se le considera el ms perfecto.
________________________________________________________________________________________________________________________ Pgina 70
AJR
________________________________________________________________________________________________________________________ Pgina 71
AJR
EJERCICIO N 01
Li-1 0 8 10 16 22
Li 8 10 16 22 30
xi 4 9 13 19 26
ni 3 4 9 7 2 25
Ni 3 7 16 23 25
di =
xi O X x 13 = i a 6
a) Media x = O X +
d n
N
i i
4,167 ai = 13 + 6 = 14 25
e) Asimetra de Fisher
________________________________________________________________________________________________________________________ Pgina 72
AJR
EJERCICIO N 02
xi 52,5 57,5 62,5 67,5 72,5 77,5 82,5 87,5 92,5 97,5 102,5 107,5 112,5 117,5
ni 1 2 3 5 14 23 51 35 19 16 15 10 9 2 205
di -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
di3ni -216 -250 -192 -135 -112 -23 0 35 152 432 960 1.250 1.944 686 4.531
di4ni 1.296 1.250 768 405 224 23 0 35 304 1.296 3.840 6.250 11.664 4.802 32.157
Ni 1 3 6 11 25 47
96 10,20 128 142 169 184 194 203 205 7,00 3,80 3,20 3,00 2,00 1,80 0,40
________________________________________________________________________________________________________________________ Pgina 73
AJR
di =
xi O X xi 82,5 = a 5
a) Media x = O X +
d n
i
hi +1 35 ai = 80 + 5 = 83,017 hi +1 + hi 1 35 + 23
d 2n d n i i i i S =a N N
2 X 2
1.425 205 2 = 52 = 148,78 S X = 148,78 = 12,19 205 205 SX 12,19 100 = 100 = 13,93% x 87,5
As =
g) Asimetra de Fisher
5 m3 = 12,19
3 4.531 1.425 205 205 3 + 2 = 0,224 Asimetra Positiva 205 205 205 205
h) Asimetra de Pearson
4 2 4 4531 205 1.425 205 5 32.157 205 m4 = 4 + 6 = 3,03 Leptoctica 3 205 205 205 205 205 12,19 205
________________________________________________________________________________________________________________________ Pgina 74
AJR
EJERCICIO N 03
xi 137.900 147.900 219.900 229.900 261.000 282.000 296.000 469.000 1.780.000 2.730.000 ni 1 3 2 2 1 2 3 2 1 3 20 di -1.231 -1.131 -411 -311 0 210 350 2.080 15.190 24.690 di ni -1.231 -3.393 -822 -622 0 420 1.050 4.160 15.190 74.070 88.822 di2ni 1.515.361 3.837.483 337.842 193.442 0 88.200 367.500 8.652.800 230.736.100 1.828.788.300 2.074.517.028 Ni 1 4 6 8 9 11 14 16 17 20
di =
xi O X xi 261.000 = a 100
a) Media x = O X +
d n
i
S X = 848.024.822.000 = 916.528,68
c) Coeficiente de Variacin Cv =
________________________________________________________________________________________________________________________ Pgina 75
AJR
EJERCICIO N 04
ni 21 12 7 3 5 8 14 17 87
di -3 -2 -1 0 1 2 3 4
di ni -63 -24 -7 0 5 16 42 68 37
Ni 21 33 40 43 48 56 70 87
di =
xi O X x 375 = i a 50
d n
a m3 = S X
________________________________________________________________________________________________________________________ Pgina 76
AJR
EJERCICIO N 05
di =
xi O X x 150 = i 100 a
a) Media x = O X + b) Mediana
d n
N
i i
N 38.540 = = 19.270 2 2 N N i 1 (19.270 12.335) 100 = 162,66 2 Me = Li 1 + ai = 100 + ni 11.067 hi +1 162,28 ai = 12 + 36 = 35,328 hi +1 + hi 1 162,28 + 68,91
c) Moda Mo = Li 1 +
100 m3 = 192,36
3 739.210,04 161.503,51 26.978 26.978 3 + 2 = 1,554 Asimetra Positiva 38.540 38.540 38.540 38.540
________________________________________________________________________________________________________________________ Pgina 77
AJR
EJERCICIO N 06
Li-1 15 21 25 35 45 60
Li 21 25 35 45 60 70
xi 18 23 30 40 53 65
ni 36 40 39 36 30 26 207
di =
xi O X x 30 = i 10 a
a) Media x = O X +
d n
i
10 m3 = 15,609
3 1.416,541 577,815 123,3 123,3 3 + 2 = 0,5989 Asimetra Positiva 207 207 207 207
________________________________________________________________________________________________________________________ Pgina 78
AJR
EJERCICIO N 07
Li-1 15 19 22 26 36 46 61 Li 18 21 25 35 45 60 70 xi 16,5 20,0 23,5 30,5 40,5 53,0 65,5 ni 10 9 19 27 42 42 27 176 xini 165,00 180,00 446,50 823,50 1.701,00 2.226,00 1.768,50 7.310,50 xi2ni 2.722,50 3.600,00 10.492,75 25.116,75 68.890,50 117.978,00 115.836,75 344.637,25 xi3ni 44.921,250 72.000,000 246.579,625 766.060,875 2.790.065,250 6.252.834,000 7.587.307,125 17.759.768,125 Ni 10 19 38 65 107 149 176 hi 3,3 4,5 6,3 3,0 4,6 3,0 3,0
a) Media x =
hi +1 3 ai = 22 + 3 = 23,2 hi +1 + hi 1 3 + 4,5
e) Asimetra de Fisher
1 m3 = 15,529
3 17.759.768,125 344.637,25 7.310,5 7.310,5 3 + 2 = 0,0608 As. Positiva 176 176 176 176
________________________________________________________________________________________________________________________ Pgina 79
AJR
EJERCICIO N 08
xi 55 65 75 85 95 105 115
ni 8 10 16 14 10 5 2 65
di -3 -2 -1 0 1 2 3
di2ni 72 40 16 0 10 20 18 176
Ni 8 18 34 48 58 63 65
hi +1 14 ai = 70 + 10 = 75,83 hi +1 + hi 1 14 + 10
e) Asimetra de Fisher
10 m3 = 15,6
h) Asimetra de Pearson
10 m4 = 15,6
________________________________________________________________________________________________________________________ Pgina 80
AJR
EJERCICIO N 09
Li-1 100 110 120 130 140 150 160 170 180 190
Li 110 120 130 140 150 160 170 180 190 200
xi 105 115 125 135 145 155 165 175 185 195
ni 4 7 18 32 26 21 16 10 4 2 140
di -4 -3 -2 -1 0 1 2 3 4 5
di2ni 64 63 72 32 0 21 64 90 64 50 520
di3ni -256 -189 -144 -32 0 21 128 270 256 250 304
hi 0,40 0,70 1,80 3,20 2,60 2,10 1,60 1,00 0,40 0,20
di =
xi O X x 145 = i 10 a
c) Asimetra de Fisher
10 m3 = 19,27
d) Asimetra de Pearson
10 m4 = 19,27
2 4 5.272 4 520 4 304 4 3 + 6 4 = 2,71 Platoctica 140 140 140 140 140 140
________________________________________________________________________________________________________________________ Pgina 81
AJR
EJERCICIO N 10
Cierto profesor de estadstica de una Escuela de Turismo a la hora de la puntuacin final, calificaba a los alumnos siguiendo el siguiente criterio: Suspensos: 40%; Aprobados: 30%; Notables: 15%; Sobresalientes: 10%; Matriculas: 5% Si las notas obtenidas pos sus alumnos vienen dadas en la siguiente tabla, se pide calcular la nota mxima para conseguir: Suspenso, Aprobado, Notable, Sobresaliente y Matricula. Notas 0-1 12 23 34 45 56 67 78 89 9 10 N de alumnos ni 36 74 56 81 94 70 41 28 16 4 500 Ni 36 110 166 247 341 411 452 480 496 500
SOLUCIN: Debemos calcular los percentiles o centiles: 40, 70, 85, 95.
pN N i 1 (200 166) 1 = 3,419 pN 40 500 100 1) = = 200 P40 = Li 1 + ai = 3 + 100 100 ni 81 pN N i 1 (350 341) 1 = 5,128 pN 70 500 100 2) = = 350 P70 = Li 1 + ai = 5 + 100 100 ni 70 pN N i 1 (425 411) 1 = 6,341 pN 85 500 100 3) = = 425 P85 = Li 1 + ai = 6 + 100 100 ni 41 pN N i 1 (475 452 ) 1 = 7,821 pN 95 500 100 4) = = 475 P95 = Li 1 + ai = 7 + 100 100 ni 28
De estos datos se puede deducir: Suspensos: Nota igual o inferior a 3,419. Aprobados: Desde 3,42 a 5,128 inclusive. Notables: Desde 5,13 a 6,341 inclusive. Sobresalientes: Desde 6,35 a 7,821 inclusive. Matrculas: Desde 7,83 a 10 inclusive.
________________________________________________________________________________________________________________________ Pgina 82
AJR
EJERCICIO N 11
Li-1 0 4 10 16 20 24 32 36 42
Li 4 10 16 20 24 32 36 42 60
xi 2 7 13 18 22 28 34 39 51
ni 2 5 8 15 30 16 7 6 1 90
di ni -10,00 -18,75 -18,00 -15,00 0,00 24,00 21,00 25,50 7,25 16,00
di2 ni 50,000 70,313 40,500 15,000 0,000 36,000 63,000 108,375 52,563 435,750
di 3 ni -250,000 -263,672 -91,125 -15,000 0,000 54,000 189,000 460,594 381,078 464,875
di4 ni 1.250,000 988,770 205,031 15,000 0,000 81,000 567,000 1.957,523 2.762,816 7.827,141
Ni 2 7 15 30 60 76 83 89 90
di =
xi OX xi 22 = 4 a
hi +1 2 ai = 20 4 = 21,39 hi +1 + hi 1 2 + 3,75
e) Coeficiente de Variacin Cv =
________________________________________________________________________________________________________________________ Pgina 83
AJR
f) Asimetra de Pearson
As =
As =
g) Asimetra de Fisher
3 d 3n i i 3 d i ni d i2 ni + 2 d i ni = N N N N 3 3 16 437 ,75 4 464,875 16 3 + 2 = 0,246 Asimetra Positiva = 90 90 90 8,77 90
a m3 = S X
h) Asimetra de Pearson
a m4 = S X
d 4n d 3n dn d 2n d n i i 4 i i i i + 6 i i i i N N N N N
dn 3 i i N
2
4 = 8,77
________________________________________________________________________________________________________________________ Pgina 84
AJR
i) ndice de Gini
Li-1 0 4 10 16 20 24 32 36 42
Li 4 10 16 20 24 32 36 42 60
xi 2 7 13 18 22 28 34 39 51
ni 2 5 8 15 30 16 7 6 1 90
%ni 2,222 5,556 8,889 16,66 7 33,33 3 17,77 8 7,778 6,667 1,111
20,205 13,128 52,495 14,172 74,413 10,032 86,057 97,505 6,165 1,384 0,000 62,447
Ig =
(p
i =1 i =1
k 1
qi )
i
k 1
El rea valdr : AT =
Ig 0,155 = = 0,0775 2 2
________________________________________________________________________________________________________________________ Pgina 85
AJR
EJERCICIO N 16 2 Variables
Hallar los datos que faltan en la siguiente distribucin bidimensional, calcular la Varianza Residual y el Coeficiente de Determinacin, sabiendo que: x = 3,125 , y = 2,0625 y la S XY = 1,1796875
xi
1 2 3 x4 5
yj
1 1 2 y4 y5
nij
2 3 5 3 n5 16
xi nij
2 6 15 3x4 15 38+3x4
xi2 nij
y j nij
2 3 10 3y4 3y5 15+3y4+3y4
xi y j nij
y 2 nij j
2 12 45 48 75 182
2 3 20 12 48 85
1 Paso 13 + n5 = 16 n5 = 3
2 Paso x =
xi
N
nij
3,125 =
38 + 3x4 50 = 38 + 3x4 x4 = 4 16
y=
yj
N
nij
2 ,0625 =
15 + 3 y4 + 3 y5 33 = 15 + 3 y4 + 3 y5 y4 + y5 = 6 16
S XY =
1,1796875 =
122 = 38 + 12 y4 + 15 y5 12 y4 + 15 y5 = 84 4 y4 + 5 y5 = 28
y 4 + y5 = 6 4 y4 + 5 y5 = 28
y4 = 2 y5 = 4
________________________________________________________________________________________________________________________ Pgina 86
AJR
(y y)
y 2 ,0625 =
2 Se
________________________________________________________________________________________________________________________ Pgina 87
AJR
EJERCICIO N 23 2 Variables
OX
Xi Yj
75 3 4 11 1 19 -1 - 19 19 -9 9
105 2 6
Gj
vj
v jG j
v 2G j j
Bj
vj Bj
15 25 35 45
Hi ui ui H i ui2 H i Ai ui Ai
4
--12 0 0 0 - 10 0
5 16 18 1 40 - 10 28 3
-2 -1 0 1
- 10 - 16 0 1 - 25
20 16 0 1 37
-3 2 -8 -1
6 -2 0 -1 3
1) Medias
ui =
xi O X xi 105 ui H i c = 105 + 10 30 = 97 ,5 = x = OX + 1 30 c1 N 40
vj =
y j OY c2
y j 35 10
y = OY +
v jG j c
N
25 = 35 + 10 = 28,75 40
2 SX
2 c1
ui2 H i N
2 2 ui H i 2 28 10 = 30 = 573,75 40 40 N
2 SY
2 c2
v 2G j j N
v jG j N
2 2 37 25 = 10 = 53,4375 40 40
________________________________________________________________________________________________________________________ Pgina 88
AJR
3) Covarianza
(y y)
y 28,75 =
( x x ) = b' ( y y )
x 97 ,5 =
xi = 110,61 0,456 yi
(S XY )2 =
S xy
2 2 Sx S y
2 2 S X SY
( 24 ,375)2
573,75 53,4375
0,0206 Incorrelacin
r=
________________________________________________________________________________________________________________________ Pgina 89
AJR
EJERCICIO N 24 2 Variables
OX
Xi Yj
1,6 3 6 4 1 14 -1 - 14 14 3 -3
1,7 2
1,8 --4 5 8 17 1 17 17 21 21
Gj
vj
v jG j
v 2G j j
Bj
vj Bj
60 70 80 90
Hi ui ui H i ui2 H i Ai ui Ai
10
11 6 29 0 0 0 21 0
5 20 20 15 60 3 31 8
-1 0 1 2
-5 0 20 30 45
5 0 20 60 85
-3 -2 1 7
3 0 1 14 18
1) Medias
ui = vj =
v jG j c
N
45 = 70 + 10 = 77 ,5 60
2 SX
2 c1
ui2 H i N
2 2 ui H i 2 31 3 = 0,10 = 0,00514 N 60 60
2 SY
2 c2
v 2G j j N
v jG j N
2 2 85 45 = 10 = 85,4167 60 60
________________________________________________________________________________________________________________________ Pgina 90
AJR
3) Covarianza
u A u H v j G j 3 45 18 = 0,1010 = 0,2625 S XY = c1 c2 i i i i 60 60 60 N N N
4) Rectas de Regresin
(y y)
y 77 ,5 =
xi = 1,4724 + 0,003 yi
(S XY )2 =
S xy
2 2 Sx S y
2 2 S X SY
(0,2625)2
0,00514 85,4167
0,1564 Incorrelacin
r=
________________________________________________________________________________________________________________________ Pgina 91
AJR
EJERCICIO N 30 2 Variables
OX
Xi Yj
2,5 15 10 5 --30 -1 - 30 30 - 10 10
7,5 20
15 6 6 2 7 21 1,5 31,5
30 1 9 4 --14 4,5 63
Gj
vj
v jG j
v 2G j j
Bj
vj Bj
10
3 2 35 0 0
42 35 14 9 100 64,5
-1 0 1 3
- 42 0 14 27 -1
1,5 0 16 31,5 49
1) Medias
ui = vj =
v jG j c
N
1 = 7 ,5 + 5 = 7 ,45 100
2 SX
2 c1
ui2 H i N
2 SY
2 c2
v 2G j j N
v jG j N
________________________________________________________________________________________________________________________ Pgina 92
AJR
3) Covarianza
(y y)
y 7 ,45 =
xi = 8,025 + 0,36 yi
(S XY )2 =
S xy
2 2 Sx S y
2 2 S X SY
(12,411)2
79 ,7868 34 ,24
0,05638 Incorrelacin
r=
________________________________________________________________________________________________________________________ Pgina 93
AJR
EJERCICIO N 31 2 Variables
OX
Xi Yj
17,5 1 5
Gj
vj
v jG j
v 2G j j
Bj
vj Bj
3
--2 11 0 0 0 3 0
7 10 6 4 3 30 -5 43 - 17
2 1 0 -1 -2
14 10 0 -4 -6 14
28 10 0 4 12 54
-8 -1 2 4 -2
- 16 -1 0 -4 4 - 17
1) Medias
ui = vj =
xi O X xi 17 ,5 ui H i c = 17 ,5 + 5 5 = 16,67 x = OX + = 1 5 c1 N 30 y j OY c2 = y j 1.980 5
y = OY +
v jG j c
N
2 SX
2 c1
ui2 H i N
2 2 ui H i 2 43 5 = 5 = 35,139 N 30 30
2 SY
2 c2
v 2G j j N
v jG j N
2 2 54 14 = 5 = 39 ,56 30 30
________________________________________________________________________________________________________________________ Pgina 94
AJR
3) Covarianza
(y y)
y 1.982 ,33 =
xi = 628,81 0,3088 yi
(S XY )2 =
S xy
2 2 Sx S y
2 2 S X SY
( 12 ,22)2
35,139 39 ,56
0,1074 Incorrelacin
r=
________________________________________________________________________________________________________________________ Pgina 95
AJR
= 25 = 95
= 20
a) S XY = 10 S X = 5
b) S XY = 10 S X = 5 c) S XY = 10 S X = 5
5- Cul de las siguientes medidas no es de tendencia central? a) La mediana. b) El tercer cuartel. c) La media armnica. 6- El ndice de Gini sirve para determinar a) La dispersin de un conjunto de observaciones. b) La igualdad en el reparto de una magnitud. c) La forma en que debemos repartir los salarios de los trabajadores de una empresa. 7- El precio de un bien se ha incrementado en un 1% en cada uno de los meses del ao 2.003 Cul ha sido su incremento total durante este ao? a) 12,22% b) 12,55% c) 12,66%
2
________________________________________________________________________________________________________________________ Pgina 96
AJR
8- El salario medio de los trabajadores de una empresa A es de 10.000 y el de la empresa B 15.000 . Si el nmero de trabajadores de A es la mitad que el de B. Cul es el salario medio de las dos empresas? a) 12.000 b) 12.666 c) 13.333 9- Al jefe de ventas de una empresa exportadora de vino le plantean el objetivo anual de vender 1 milln de unidades a un precio medio de 5 . Si durante el primer semestre ha logrado vender 400.000 unidades a un precio medio de 5,65 A que precio medio debe vender el resto de las unidades para lograr su objetivo? a) 4,535 b) 4,567 c) 4,525 10- En el anlisis de un modelo de regresin Cul de los siguientes resultados puede ser aceptable? a) Y = 3 2X con r = 0,96.
11- En un estudio sociolgico se clasifica la clase social de cada encuestado con los valores 0, 1 y 2 (baja, media y alta). Si sabemos que la media es 0,75 y la moda vale 1, se puede afirmar: a) Un 75% de los encuestados es de clase baja. b) Se ha encontrado ms gente de clase alta que de clase baja. c) Se ha encontrado ms gente de clase baja que de clase alta. 12- Si dada una variable todos los valores los multiplicamos por una constante K: a) La varianza queda multiplicada por dicha constante. b) La desviacin tpica queda multiplicada por dicha constante c) La desviacin tpica no vara. 13- Dadas las observaciones: - 10 ; 3 ; X ; 10 ; 1 ; 0, se sabe que la desviacin tpica coincide con el Coeficiente de Variacin de Pearson. Cunto vale X? a) 2 b) 4 c) 3 14- Un alumno responde que si los coeficientes de regresin de una distribucin bidimensional son -3 y 1 3 , entonces la correlacin es perfecta, es decir r = - 1 Es correcto este razonamiento? a) Si. b) No. c) Depende de los valores que tomen las variables.
________________________________________________________________________________________________________________________ Pgina 97
AJR
15- Al realizar la regresin entre las variables X e Y se ha obtenido el siguiente resultado: Y= 5 + 3X. Si sabemos que X = 2 Cunto vale Y ? a) 11 b) 12 c) 13 16- Si dos variables X e Y tienen un coeficiente de correlacin negativo. Podemos afirmar que: a) Cuando la variable X crece la variable Y crece. b) Cuando la variable X decrece la variable Y crece. c) Cuando la variable X decrece la variable Y decrece. 17- El ndice de Gini es una medida que nos informa de a) La evolucin de los salarios de los empleados de una determinada empresa. b) La forma ms o menos equitativa en que se ha realizado el reparto de una determinada magnitud. c) La dispersin que presenta un determinado conjunto de datos. 18- Dada una recta de regresin de X/Y: X = 2 - 0,4Y , y la recta de regresin de Y/X: Y = 2 0,1X, el Coeficiente de Correlacin Lineal entre las variables es igual a: a) 0,2 b) 0,2 c) 0,04 19- Una variable estadstica tiene concentracin mxima cuando: a) El ndice de Gini vale 1. b) La curva de Lorenz esta lo mas alejada posible de la bisectriz del primer cuadrante. c) Las dos anteriores son ciertas. 20- En una clase de preescolar, 5 nios no tiene ningn hermano, 10 tienen 1 hermano, 12 tienen 2 hermanos y 3 nios tienen 3 hermanos. La mediana del nmero de hermanos es: a) 1 b) 2 c) 1,5 21- La Varianza de una distribucin de frecuencias es un indicador de: a) El grado de concentracin de la variable. b) El grado de dispersin de los valores de la variable entorno a un valor medio. c) El grado de dispersin de los valores de la variable respecto de la Mediana. 22- Un hotel espera aumentar sus ventas del prximo ao en un 20%, en que porcentaje debe incrementar los precios para que el ingreso total se incremente en un 30%? a) En un 9,222% b) En un 8,333% c) En un 7,444% 23- Cul de las siguientes propiedades cumple la media aritmtica? a) Si a todos los valores de una variable le sumamos la cantidad fija K la media de esta nueva variable disminuye en esa misma cantidad. b) La suma de las desviaciones de los valores de la variable respecto a la media es cero. c) La suma de las desviaciones al cuadrado de los valores de la variable respecto a la media es cero.
________________________________________________________________________________________________________________________ Pgina 98
AJR
24- Cul es el ndice de Gini de la siguiente distribucin: xi: 1 5 10 ni: 5 5 5 a) 0,5624 b) 0,2823 c) 0,3845 25- La media, la mediana y la moda de una distribucin: a) Pueden calcularse cuando es una variable cualitativa. b) Pueden calcularse cuando es una variable cuantitativa. c) En todas las distribuciones su valor coincide. 26- Tipificar una variable sirve para: a) Comparar la dispersin de varias distribuciones. b) Comparar valores que pertenecen a distintas distribuciones. c) Obtener una distribucin de media igual a 1. 27- Cul de las siguientes distribuciones sobre los precios de las habitaciones de un hotel es ms homognea? a) Una que tiene de media 30 y desviacin tpica 5 . b) Una de media 30 y desviacin tpica 64 . c) Una de media 30 y coeficiente de desviacin 42%. 28- Si estudiamos la relacin entre las variables Precio y Demanda, de un artculo: a) La variable dependiente puede ser el Precio. b) La variable dependiente puede ser la Demanda. c) La pendiente de la recta de regresin puede ser negativa. 29- Existe una relacin causa-efecto entre dos variables: a) Existe una relacin cuantitativa entre ambas variables. b) Existe una relacin cualitativa entre ambas variables. c) Cuando existe relacin cuantitativa y la teora soporta esta relacin. 30- Si al realizar la regresin entre los precios de los mens de diferentes restaurantes y el nmero de clientes que lo han solicitado nos da el Coeficiente de Determinacin igual al 95%, esto quiere decir: a) Que el 95% de los clientes eligen el men del da. b) Que pueden realizarse predicciones con un 95% de fiabilidad. c) Que el 5% de la variacin de una variable puede explicarse por el ajuste realizado.
SOLUCIONES TEST
01 B 02 B 03 B 04 A 05 B 06 B 07 C 08 C 09 B 10 C 11 C 12 B 13 A 14 B 15 A 16 B 17 B 18 A 19 C 20 B 21 B 22 B 23 B 24 A 25 B 26 B 27 A 28 B 29 C 30 B
________________________________________________________________________________________________________________________ Pgina 99
AJR