Proyecto Cristina Taboada Chambo

2011
PROYECTO-PRACTICAS
Cristina Taboada Chamb Master en estadstica Aplicada
Los datos que voy a estudiar son sobre dos de las variables econmicas ms importantes, las cuales son la inflacin y el desempleo. He decidido estudiar estas dos variables porque en la actualidad existe un problemas econmico y amabas son las ms relevantes. La inflacin, en economa, se refiere al aumento de precios de bienes y servicios en un periodo de tiempo, es decir, es la disminucin del valor del dinero respecto a la cantidad de bienes o servicios que se pueden comparar con dicho dinero. Por ejemplo, si tenemos un servicio, como puede ser el autobs de Madrid a Barcelona, y el precio de este servicio aumenta con el tiempo, tenemos inflacin. La inflacin es un aspecto muy importante en la economa, ya que algunos de los desastres econmicos ms importantes que ha habido en el mundo se debieron a una descontrolada inflacin. La inflacin se calcula como Inflacin2010 = (IPC2010 IPC2009/IPC2009) La tasa de desempleo es el porcentaje de la poblacin activa que no tiene trabajo. La poblacin activa son aquellas personas que estn en edad de trabajar y que, en principio, estaran dispuestos a trabajar si encontraran un trabajo conveniente. Ambas variables generan muchos problemas, no slo para la gente, sino tambin para las empresas, que no tienen un marco estable para prosperar y acaban desapareciendo junto con el incremento del desempleo. Algunos economistas han observado la relacin entre la tasa de inflacin y la del desempleo, observando que cuando un pas tena baja inflacin, tenda a experimentar tasas de desempleo altas, y viceversa. Por lo que la sociedad deba de elegir entre uno de dos males: inflacin o desempleo. Por lo que el objetivo de este trabajo es ver las diferencias y similitudes entres las diferentes CCAA en Espaa sobre amabas variable en el periodo 2010 y ver si es cierto que existe una relacin entre ambas variables observndolo a travs de la evolucin del estas durante el periodo 1997 a 2010. Adems los datos que voy a manejar son porcentajes.
Para llevar a cabo el anlisis he decidido utilizar el programa SPSS el cual es un programa con una amplia variedad de anlisis estadsticos. El cual contiene los anlisis que voy a utilizar para este trabajo de investigacin. Para los datos de la poblacin en desempleo lo obtenemos del siguiente modo Los datos estn recogidos por la EPA (encuesta de poblacin activa). Esta encuesta1 va dirigida a la poblacin que reside en viviendas familiares principales, es decir, las utilizadas todas o la mayor parte del ao como residencia habitual o permanente. Se excluyen de estas los llamados hogares colectivos, que son por ejemplo los hospitales, hoteles, cuarteles, conventos, etc. Aunque se incluyen las familias que forman un grupo independiente residan en estos establecimientos (directores de centros, conserjes y porteros). El mbito geogrfico es todo el territorio nacional. Para definir el marco de la encuesta es necesario empezar con la divisin administrativa de Espaa, la cual es: La nacin se encuentra dividida en 17 comunidades autnomas y dos ciudades autnomas. Las comunidades autnomas se dividen en 50 provincias de las cuales 47 son peninsulares y 3 insulares. Las provincias se encuentran divididas en municipios y estos en distritos municipales. A partir de lo anterior se hace una nueva subdivisin de los distritos municipales en secciones censales. Por lo que la seccin censal puede considerarse como un rea geogrfica con lmites perfectamente definidos. Los datos son recogidos por el EPA, cuyo objetivo es el conocimiento de la actividad econmica del pas. Su diseo est orientado a proporcionar informacin de
La encuesta introducida por el EPA est incluida en el anexo
las principales categoras poblacionales en relacin con el mercado de trabajo as como obtener clasificaciones de estas categoras segn distintas variables. Esta encuesta est diseada para dar resultados detallados a nivel nacional. Para las comunidades autnomas y las provincias se ofrece informacin sobre las principales caractersticas al nivel de desagregacin que permiten los coeficientes de de variacin de los estimadores. La encuesta considera como poblacin econmicamente activa la constituida por las personas de 16 y ms aos que en la semana de referencia satisfacen las condiciones necesarias para su inclusin entres las personas ocupadas o paradas. Se utiliza un muestreo bietpico con estratificacin de las unidades de primera etapa. Las unidades de primera etapa estn constituidas por las secciones censales. La muestra de secciones permanece fija indefinidamente con las excepciones siguientes: a) Salen de la muestra aquellas secciones en las que ya se han visitado todas las viviendas encuestables. b) Cuando en el proceso de actualizacin del seccionado a algunas secciones les corresponda salir de la muestra, bien por los clculos probabilsticos, bien por cambios en la afijacin por estratos. En todos los casos las secciones que salen de la muestra son sustituidas por otras. Las unidades de segunda etapa estn constituidas por las viviendas familiares principales (ocupadas permanentemente) y los alojamientos fijos (chabolas, cuevas, etc.). No se consideran encuestables las viviendas secundarias ni las disponibles para alquiler o venta, ya que no forma parte del mbito poblacional definido anteriormente. Dentro de las unidades de segunda etapa no se realiza submuestreo alguno, recogindose informacin de todas las personas que tengan su residencia habitual en las mismas. Las unidades de primera etapa se estratifican atendiendo a un doble criterio:
A. Criterio geogrfico: Las secciones se agrupan en estratos dentro de cada provincia, de acuerdo con la importancia demogrfica del municipio al que pertenecen. B. Criterio socioeconmico: Las secciones censales se agrupan en subestratos dentro de cada uno de los estratos, segn las caractersticas socioeconmicas de las mismas. Para llegar a la formacin de los estratos se consideran los siguientes tipos de municipios: 1. Municipios autorrepresentados: Son aquellos que dada su categora dentro de la provincia deben tener siempre secciones en la muestra. (la capital de provincia, municipios que tienen un nmero de habitantes elevada y municipios que tiene una demogrfica destacada) 2. Municipios correpresentados: son aquellos que dentro de la misma provincia forma parte de un grupo de municipios demogrficamente similares y que son representados en comn.
Para los datos de la inflacin En primer lugar la inflacin se obtiene a travs del IPC. El IPC incluye a toda la poblacin que reside en viviendas familiares en Espaa, se excluyen los gastos de las personas que residen en hogares colectivos o instituciones y los gastos de los no residentes. El campo de consumo es el conjunto de los bienes y servicios que los hogares del estrato de referencia destinan al consumo; por lo que no se consideran los gastos en bienes de inversin, los autoconsumos y los autosuministros, ni los alquileres imputados, ni los gastos subvencionados por las administraciones pblicas. Tampoco forman parte del campo de consumo algunos impuestos no considerados consumo. Cada parcela de consumo est representada por uno o ms artculos en el IPC, de forma que la evolucin de los precios de estos artculos representa la de todos los elementos que integran dicha parcela. El IPC se trata de un diseo no probabilstico.
Los artculos estn distribuidos en grandes grupos de la siguiente forma.
Grupos Alimentos y bebidas no alcohlicas Bebidas alcohlicas y tabaco Vestido y calzado Vivienda Menaje Medicina Transporte Comunicaciones Ocio y cultura Enseanza Hoteles, cafs y restaurantes Otros bienes y servicios Total
Nmero de artculos 176 12 67 18 60 13 31 3 43 7 23 38 491
Podemos ver que las partidas ms abundantes son los alimentos y bebidas no alcohlicas y vestido y calzado. Y las partidas menos abundantes son comunicacin y enseanza. Los datos de la evolucin del IPC e inflacin en Espaa y el clculo de la inflacin son los siguientes: Inflacin2010 = (IPC2010 IPC2009/IPC2009)
Aos 2002 2003 2004 2005 2006 2007 2008 2009 2010
IPC 88,024 90,699 93,456 96,604 100 102,787 106,976 106,668 108,588
inflacin 4 3,04 3,04 3,37 3,52 2,79 4,08 -0,29 1,80
Luego analizaremos los datos de la inflacin. Los datos que vamos analizar son los siguientes:
Por comunidades autnomas en el ao 2010

CCAA Andaluca Aragn Asturias Balears Canarias Cantabria Castilla y Len Castilla la mancha Catalua Valencia Extremadura Galicia Madrid Murcia Navarra Pas Vasco Inflacin 3,2 2,9 3,2 2,7 2 3,1 3,2 3,4 3 2,9 3 3,1 3 3 2,8 2,8 Desempleo 27,97 14,77 15,97 20,37 28,7 13,87 15,78 20,99 17,75 23,3 23,04 15,4 16,08 23,35 11,85 10,55
Rioja Ceuta Melilla
3 1,9 2,4
14,27 24,12 23,75
En este caso podemos ver que por la parte de la inflacin vemos que las Comunidades con ms inflacin son Castilla la mancha, Andaluca y Castilla y len. Y los que menos son Ceuta y Canarias. Aunque podemos ver que no hay mucha diferencia entre comunidades que va desde el 3.4 (Castilla la mancha) hasta 1.9 (Ceuta).
En el tema del desempleo podemos ver que, en este caso si hay una diferencia considerable entre comunidades desde un 10.55% hasta 28.7%. Siendo las comunidades con ms desempleo Andaluca, Canarias y Ceuta. Y las que tiene menos desempleo son Pas Vasco, Navarra y Cantabria. Ahora, antes de realizar cualquier tcnica multivariantes lo que vamos a llevar a cabo es un anlisis previo de los datos que nos indique con qu tipo de datos trabajamos as como las caractersticas que estos poseen. El anlisis nos permitir deducir la posibilidad de aplicar o no determinadas tcnicas estadsticas multivariantes. En un primer lugar vamos a dar una descripcin numrica de los datos. Vamos a hacer un resumen univariado para ambas variables en una nica tabla y calcular los valores tipificados. Por defecto muestra los estadsticos descriptivos bsicos para cada variable, es decir, medidas de tendencia central (media) y de dispersin (desviacin tpica, varianza, mximo y mnimo). Teniendo como resultado el siguiente.
DESCRIPTIVES VARIABLES=INFLACIN PARO /STATISTICS=MEAN STDDEV MIN MAX.
Estadsticos descriptivos N INFLACIN PARO N vlido (segn lista) 19 19 19 Mnimo 1,90 10,55 Mximo 3,40 28,70 Media 2,8737 19,0463 Desv. Tp. ,39135 5,34667
Vemos que en este la variable inflacin dato mnimo es 1.90, el mximo 3.40, como media es de 2.8737 y desviacin tpica es de 0.39135, por lo que observamos que no hay mucha diferencia. En cuanto al desempleo vemos que el dato mnimo es de 10.55, el mximo es de 28.70, como media tenemos 19.0463 y de desviacin tpica 28.587 en el que podemos ver que estos datos poseen algo ms de diferencias. Ahora vamos a proporcionar estadsticos y representaciones grficas que resulten tiles para describir las variables. Para ello vamos a realizar un informe de frecuencias y grficos de barras
FREQUENCIES VARIABLES=PARO INFLACIN /NTILES= 4 /STATISTICS=VARIANCE MAXIMUM MODE /HISTOGRAM NORMAL /ORDER= ANALYSIS .
En este cuadro podemos observar en primer lugar el nmero de datos validos de la muestra que en ambas variables es la muestra total es 19 por lo que no hay ningn dato perdido. En la moda en el paro vemos que el dato que ms se repite es de 10.55 (existen ms modas pero cogen el dato con menor valor) y en la inflacin es de 3. La varianza que mide cuanto se separa los datos, en el caso del paro vemos que la varianza es muy alta y la inflacin vemos que este dato es ms pequeo. El mximo es el mismo que el anterior. Los valores que superan el percentil 25 (25%) son de 14.77% en el paro y en inflacin es de 2.8%. Los valores que superan el percentil 50 es de 17.75% en el paro y la inflacin son de 3%. Y los valores que superan el percentil 75 es de 23.35 en el paro y en la inflacin es de 3.1%.
En este cuadro podemos ver cul es la frecuencia, el porcentaje, el porcentaje vlido y el porcentaje acumulado del salario actual. La conclusin que obtenemos es que en esta en el paro los datos no se repiten ni una sola vez en ninguna comunidad autnoma.
En cuanto la inflacin vemos que en este caso hay datos que se repiten ms frecuentemente que en la variable anterior en este caso son el 3.00% con una frecuencia de 5, con un porcentaje de 26.3%. Luego le sigue la inflacin del 3.20% con una frecuencia de 3 veces y un porcentaje de 15.8%. Y por ltimo datos como 2.8%, 2.9% y
3.10% que se repiten 2 veces y un porcentaje del 10.5%. Los dems datos que vemos solo se repiten una vez.
En el histograma se divide el rango de los datos en un nmero adecuado de intervalos. Sobre cada intervalo se dibuja un rectngulo cuya rea es proporcional a la frecuencia de datos en el intervalo. El histograma de la inflacin representa una distribucin asimtrica a la izquierda, ya que en este caso hay ms frecuencia de los datos y el histograma del paro tiene de distribucin simtrica bimodal debido a que hay menos frecuencia en los datos. Ahora vamos a realizar una exploracin de los datos, a travs del procedimiento Explorar Las razones para realizar este procedimiento seria para inspeccionar los datos, identificar los valores atpicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones. La inspeccin de los datos muestra que pueden existir valores inusuales, valores extremos, discontinuidad en los datos Este procedimiento nos puede ayudar para ver si es posible realizar determinadas tcnicas estadsticas a los datos o si es necesario transformar los datos.
EXAMINE VARIABLES=INFLACIN PARO /ID= CCAA /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1.7,3.4,8.5) TUKEY(4.685) /PERCENTILES(5,10,25,50,75,90,95) HAVERAGE /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
En este cuadro lo que obtenemos son los casos vlidos y los casos perdidos (donde e ambos casos es 0) y el total.
Aqu se pone en manifiesto los estadsticos descriptivos bsicos para cada variable, es decir, medidas de tendencia central, de dispersin y de forma, segn la categora laboral. Estadsticos de tendencia central: Media Mediana Media recortada al 5%: media aritmtica calculada omitiendo el 5% de las observaciones con frecuencias ms bajas y el 5% de las observaciones con frecuencias ms altas. A la derecha de la media se muestra su error tpico. Estadsticos de dispersin: Errores tpicos Varianza Desviacin tpica Mximo
Mnimo Rango Amplitud intercuartil: es la distancia entre el primer cuartil y el tercer cuartil. No le afecta la presencia de casos extremos. Estadsticos de forma:
Asimetra Curtosis A la derecha de la asimetra y la curtosis se muestran sus correspondientes
errores tpicos. La presencia de los valores extremos dispara la asimetra y el apuntamiento (curtosis) estos coeficientes son pues, indicadores de anomalas en las distribuciones de datos. Tambin se muestra un intervalo de confianza para la media (un rango de valores basado en la media muestral) a un nivel del 95%, aunque se puede especificar otro porcentaje.
Los estimadores-M se caracterizan porque los valores extremos reciben menos peso que los valores prximos al centro. Los cuatro estimadores robustos calculados para estimar el centro de la localizacin, se diferencia uno de otro por las ponderaciones que aplican a los datos: Estimador-M de Huber: Los casos que tienen los mayores valores absolutos tienen pesos tanto ms pequeos cuanto mayor es su distancia respecto a cero. Los casos cuyos valores tipificados sean menores a 1,339 reciben un peso de 0
Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones cuyos valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente proporcionales a la distancia respecto al centro para todas las restantes observaciones. Estimador-M redescendente de Hampel: Est caracterizado por tres constantes (1.7, 3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que 8.5 se le asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y 8.5 se le asigna pesos en funcin de su distancia respecto a cero. Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los pesos de los casos. A los valores tipificados que sean mayores que 1.340 en valor absoluto se les asigna un peso 0.
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula tambin las bisagras de Tukey, que define los cuartiles de la distribucin segn una transformacin realizada por Tukey
Son los valores extremos de la distribucin (muy alejados del resto). Se muestran los cinco valores mayores y menores. Grafico de tallos y hojas Inflacin
INFLACIN Stem-and-Leaf Plot Frequency Stem & Leaf (=<2,0) 4 78899 00000112224
2,00 Extremes 1,00 2 . 5,00 2 . 11,00 3 . Stem width: Each leaf:
1,00 1 case(s)
Desempleo
PARO Stem-and-Leaf Plot Frequency 5,00 5,00 7,00 2,00 Stem width: Each leaf: Stem & 1 1 2 2 . . . . Leaf 01344 55567 0033334 78
10,00 1 case(s)
El diagrama de caja es un grfico de resumen de la distribucin basado en la mediana, los cuartiles y los valores extremos. Ofrece un gran cantidad de informacin, incluso los casos muy alejados del centro son identificados. Son especialmente tiles para comparar la distribucin de los valores entre diferentes grupos. Est formada por una caja, patillas que salen de ella y lmites. La caja representa la amplitud intercuartil que contiene el 50% de los valores centrales. Las patillas o bigotes son las lneas que se extiende desde la caja hasta los valores ms altos y ms bajos (los valores extremos), excluyendo los valores atpicos. Una lnea que atraviesa la caja indica la situacin de la mediana. Con un O se marcan los casos situados entre 1.5 y 3 veces la amplitud intercuartil desde los dos extremos de la caja. El borde superior de la caja es el percentil 75 y el borde inferior es el perfil 25. En el grfico de tallo y hojas de la inflacin vemos que la mediana asimtrica positiva. En cambio la variable del paro vemos que es asimtrica (sesgada) negativa. Ahora vamos a realizar un anlisis clster de las variables. El anlisis clster es un conjunto de tcnicas multivariantes cuyo objetivo es agrupar objetos o individuos basndose en las caractersticas que estos poseen. Este anlisis clasificar a los objetos, segn su parecido. Los grupos resultantes deben mostrar mucha homogeneidad entre los elementos del grupo y alto grado de heterogeneidad entre los diferentes grupos. En primer lugar lo vamos a realizar por el mtodo inter-grupos.
Matriz de distancias Esta matriz mide las distancias entre cada dos individuos del fichero de datos antes de comenzar la clasificacin. Esta seala las distancia entre los individuos segn
la distancia eucldea al cuadrado. Podemos ver que esta matriz es simtrica y si observamos bien veremos que el primer clster estar formado por las Comunidades autnomas ms cercanas que son Andaluca y Murcia. Esta es una matriz de similaridades
Historial de la conglomeracin Nos indica el orden de las uniones y la distancia a la que lo hacen por ejemplo Asturias y Castilla y len se une a un distancia de 0.001 formando el clster 1. Luego forma otro clster Extremadura y Murcia con distancia del 0.003. Un tercer grupo se formado por Navarra y Pas Vasco con distancia 0.059 En la etapa 4 el clster 2 se le aade Valencia. Y en la etapa 5 se forma otro clster con Cantabria y Rioja. As sucesivamente hasta llegar a formar 3 grupos de los que podemos ver cmo estn formados en la siguiente etapa.
Conglomerados de pertenencia Nos indica el nmero de clster finales. El grupo 1 est formado por Andaluca, Murcia, Baleares, Valencia, Extremadura, Melilla y Castilla la Mancha. El grupo 2 est formado por Cantabria, La Rioja, Galicia, Aragn, Asturias, Casitilla y len, Catalua, Galicia Madrid Navarra y Pas Vasco.
El grupo 3 est formado por Melilla, Canarias y Ceuta.
Diagrama de tmpanos Muestra cmo quedara la clasificacin de individuos dependiendo del nmero de conglomerados que consideremos (cada fila de la tabla). Por filas, se van pintando Xs y se deja un hueco cuando cambiamos de clster. Como podemos ver en este ejercicio tenemos 3 clster.
Rescaled Distance Cluster Combine C A S E 25 Label Asturias Castilla y Len Galicia Catalua Madrid Cantabria Rioja Aragn Navarra Pas Vasco Extremadura Murcia Valencia Balears Andaluca Castilla La Ma Canarias Ceuta Melilla Num 3 7 12 9 13 6 17 2 15 16 11 14 10 4 1 8 5 18 19 0 5 10 15 20
+---------+---------+---------+---------+------+
Por los que tendramos las comunidades autnomas clasificadas en tres grupos segn el paro y la inflacin. El objetivo a partir de aqu es utilizar otros mtodos para y ver si se forman los mismos grupos. Podemos observar al realizar de nuevo con el Mtodo vinculacin intra-grupos y Ward obtenemos los mismos resultados, por lo que los grupos que los distintos pases formaran serian los siguientes:
Ahora vamos a llevar a cabo un anlisis de regresin para estudiar la relacin entre las variables donde se expresa la relacin en trminos de una ecuacin que conecta dichas variables.
Esta tabla identifica a las variables independientes (paro) y dependiente (Inflacin).
La tabla resumen del modelo nos proporciona informacin acerca de la bondad de ajuste del modelo. Concretamente: R es la raz cuadrada positiva de R cuadrado. R Cuadrado es la bondad de ajuste y viene dada por:
=0.157
El R cuadrado corregida: la R cuadrado sobrestima el valor poblacional. Una estimacin ms adecuada de bondad de ajuste poblacional es R cuadrado corregida que se obtiene con la expresin.
El error tpico de la estimacin es la raz cuadrada de la varianza residual.
=5.05274
La tabla ANOVA: es un cuadro resumen del anlisis de la varianza para la validacin del modelo de regresin lineal. La columna Sig. Corresponde al valor de probabilidad de F. es la probabilidad de obtener el valor de F si la hiptesis nula fuera cierta. Como este valor es mayor que 0.05 se acepta la hiptesis nula y se concluye que el modelo de regresin es no vlido. Se concluye que el parmetro es igual a 0. Por lo que no existe relacin alguna entre ambos parmetros.
Evolucin en el tiempo del paro e inflacin durante 1997-2010

Los datos de la evolucin de ambas variables son los siguientes
En primer lugar vamos a ver la evolucin de ambas variables.
Vemos que la inflacin ha tenido altos y bajos durante el tiempo estudiado y la variable desempleo ha sido ms constante aunque podemos ver que en la primera etapa y la ltima ha habido unos considerables aumentos relacionados por las crisis. En cuanto a la relacin de ambas variables, podemos ver que en pocas donde el desempleo es mayor la inflacin ha disminuido. Y cuando el desempleo ha sido menor la inflacin ha aumentado. Ahora vamos a hacer un estudio estadstico de ambas variables para ver si esta afirmacin es cierta.
En primer lugar vamos a llevar a cabo, como anteriormente, un anlisis previo de los datos, para indicarnos con que datos trabajamos y ver las caractersticas que poseen. Realizaremos un anlisis descriptivo de los datos.
Vemos que en este la variable inflacin el dato mnima es -0.29, el mximo 4.08, como media es de 2.725 y desviacin tpica es de 1.21046, por lo que observamos que no hay mucha diferencia. En cuanto el desempleo el dato mnimo es de 8.26, el mximo es de 21.30, como media tenemos 13.59 y de desviacin tpica 4.17088 en el que podemos ver que estos datos son ms diferentes entre s. Ahora vamos hacer un anlisis de frecuencias que servir para describir nuestras variables. Los datos obtenidos son:
En este cuadro podemos observar en primer lugar el nmero de datos validos de la muestra que en ambas variables es la muestra total (14) por lo que no hay ningn dato perdido. En la moda en la inflacin vemos que el dato que ms se repite es de 3.04 y en el desempleo es de 14.
La varianza que mide cuanto se separan los datos, en el caso de la inflacin vemos que la varianza es baja y en el desempleo vemos que es ms elevada. El mximo es el mismo que el anterior. Los valores que superan el percentil 25 (25%) es de 1.86 en la inflacin y en el paro es de 10.5175. Los valores que superan el percentil 50 es de 2.915 en la inflacin y en el paro son de 12.74. Y los valores que superan el percentil 75 es de 3.64 en la inflacin y en el paro son de 16.5025.
En este cuadro podemos ver cul es la frecuencia, el porcentaje, el porcentaje vlido y el porcentaje acumulado del salario actual. La conclusin que obtenemos es que en esta variable solo se repite un dato que es 3.04 con un porcentaje del 14.3%.
La conclusin que obtenemos es que en esta variable solo se repite un dato que es 14.00 con un porcentaje del 14.3%.
En el histograma se divide el rango de los datos en un nmero adecuado de intervalos. Sobre cada intervalo se dibuja un rectngulo cuya rea es proporcional a la frecuencia de datos en el intervalo. Ambos histogramas muestran una distribucin bimodal debido a que hay menos frecuencia en los datos. Ahora toca hacer una exploracin de los datos, esto nos va a servir si hay valores inusuales, extremos, discontinuidades u otras peculiaridades. Obtenemos los siguientes resultados:
En este cuadro lo que obtenemos son los casos vlidos para cada variable y los casos perdidos (donde e ambos casos es 0) y el total.
Los estimadores-M se caracterizan porque los valores extremos reciben menos peso que los valores prximos al centro. Los cuatro estimadores robustos calculados para estimar el centro de la localizacin, se diferencia uno de otro por las ponderaciones que aplican a los datos: Estimador-M de Huber: Los casos que tienen los mayores valores absolutos tienen pesos tanto ms pequeos cuanto mayor es su distancia respecto a cero. Los casos cuyo valores tipificados sean menores a 1,339 reciben un peso de 0 Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones cuyos valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente proporcionales a la distancia respecto al centro para todas las restantes observaciones. Estimador-M redescendente de Hampel: Est caracterizado por tres constantes (1.7, 3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que 8.5 se le asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y 8.5 se le asigna pesos en funcin de su distancia respecto a cero. Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los pesos de los casos. A los valores tipificados que sean mayores que 1.340 en valor absoluto se les asigna un peso 0.
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula tambin las bisagras de Tukey, que define los cuartiles de la distribucin segn una transformacin realizada por Tukey.
Son los valores extremos de la distribucin (muy alejados del resto). Se muestran los cinco valores mayores y menores. Inflacin
Inflacin Stem-and-Leaf Plot Frequency 1,00 ,00 3,00 3,00 4,00 3,00 Stem width: Each leaf: Stem & -0 0 1 2 3 4 . . . . . . Leaf 2 388 777 0035 000
1,00 1 case(s)
Desempleo
Desempleo Stem-and-Leaf Plot Frequency 3,00 6,00 3,00 2,00 Stem width: Each leaf: Stem & 0 1 1 2 . . . . Leaf 889 011144 568 01
10,00 1 case(s)
El diagrama de caja es un grfico de resumen de la distribucin basado en la mediana, los cuartiles y los valores extremos. Ofrece un gran cantidad de informacin, incluso los casos muy alejados del centro son identificados. Son especialmente tiles para comparar la distribucin de los valores entre diferentes grupos. Est formada por una caja, patillas que salen de ella y lmites. La caja representa la amplitud intercuartil que contiene el 50% de los valores centrales. Las patillas o bigotes son las lneas que se extiende desde la caja hasta los valores ms altos y ms bajos (los valores extremos), excluyendo los valores atpicos. Una lnea que atraviesa la caja indica la situacin de la mediana. En el grfico de tallo y hojas de la inflacin vemos que la mediana est ms o menos un poquito a la derecha por lo que la distribucin es asimtrica positiva. En cambio la variable del desempleo vemos que es asimtrica negativa. Ahora vamos a llevar a cabo un anlisis de regresin para estudiar la relacin entre las variables donde se expresa la relacin en trminos de una ecuacin que conecta dichas variables. Obteniendo lo siguiente:
Esta tabla identifica a las variables independientes (desempleo) y dependiente (inflacin).
La tabla resumen del modelo nos proporciona informacin acerca de la bondad de ajuste del modelo. Concretamente: R es la raz cuadrada positiva de R cuadrado. R Cuadrado es la bondad de ajuste es de 0.327
El error tpico de la estimacin es la raz cuadrada de la varianza residual es 1.03374
La tabla ANOVA: es un cuadro resumen del anlisis de la varianza para la validacin del modelo de regresin lineal. La columna Sig. Corresponde al valor de probabilidad de F. es la probabilidad de obtener el valor de F si la hiptesis nula fuera cierta. Como este valor es menor que 0.05 se rechaza la hiptesis nula y por lo que el modelo de regresin es vlido.
La tabla de coeficientes: esta tabla contiene los coeficientes no estandarizados (en directas) y estandarizados de la recta de regresin estimada. Concretamente, la columna etiquetada como B nos permite escribir la recta de regresin en puntuaciones directas. As, la recta que relaciona la inflacin con el desempleo es: ^y=4.980-0.166x1 Por otro lado, el valor que aparece en la columna etiquetada como Beta es la pendiente de la recta en tpicas que como se sabe, en el modo de regresin simple, es el coeficiente de correlacin de Pearson. La recta de regresin en tpicas es: ^Zy=-0.572Z1x En la columna de coeficientes no estandarizados, adems de los coeficientes de la recta en directas, la columna error tip. Hace referencia a los errores tpicos de la constante (ordenada en origen) y la pendiente de la recta. Son los denominadores del estadstico de contraste t de student de la penltima columna. Concretamente, los errores tpicos de la pendiente se obtienen de la siguiente expresin:
La columna Sig., corresponde a los valores de probabilidad de los valores de t. Es la probabilidad de obtener el valor de t si la hiptesis nula fuera cierta. Como no hay valores que son menores que 0.05 rechaza la hiptesis nula y se concluye que el parmetro no es igual a 0. Por lo que existe relacin entre ambos variables.
Conclusiones
Podemos que hay una relacin entre las distintas comunidades autnomas, segn la inflacin y el desempleo, formando 3 grupos. Un primer grupo formado por Andaluca, Murcia, Baleares, Valencia, Extremadura, Melilla y Castilla la mancha. De las cuales podemos decir que sus similitudes estn en que presentan una inflacin alta con una alta tasa de paro. Un segundo grupo formado por La Rioja, Galicia, Aragn, Asturias, Castilla y len, Catalua, Cantabria, Galicia, Madrid, Navarra y Pas Vasco. En estas comunidades autnomas nos encontramos con la similitud de un elevada inflacin y una tasa de empleo bajo. Y por ltimo, el grupo tercero formado por Melilla, Canarias y Ceuta. Donde se caracteriza por tener una inflacin ms baja que las dems y con una tasa de empleo elevada. Por lo que podemos concluir que las comunidades autnomas ms afectadas en la crisis por ambas variables son las comunidades del primer grupo. En cuanto a la relacin de ambas variables a travs de las comunidades autnomas nos dice que no existe relacin entre ella. Esto es debido a que cada Comunidad autnoma se gestiona diferentemente y que cada una tiene diferentes problemas. Haciendo el estudio a la evolucin de ambas variables en Espaa durante 1997 hasta 2010 vemos que ambas variables siguen una relacin la cual se puede expresar por la siguiente ecuacin: ^y=4.980-0.166x1 Por lo que sacamos como conclusin de que en cuanto a la evolucin de dichas variables si hay una clara relacin pero adems la relacin existente entre el desempleo y la inflacin depender de otras variables economicas.

Proyecto Cristina Taboada Chambo

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Proyecto Cristina Taboada Chambo

Uploaded by

Copyright:

Available Formats

2011

Cristina Taboada Chamb Master en estadstica Aplicada

La encuesta introducida por el EPA est incluida en el anexo

Los artculos estn distribuidos en grandes grupos de la siguiente forma.

Nmero de artculos 176 12 67 18 60 13 31 3 43 7 23 38 491

inflacin 4 3,04 3,04 3,37 3,52 2,79 4,08 -0,29 1,80

Por comunidades autnomas en el ao 2010

Rioja Ceuta Melilla

14,27 24,12 23,75

DESCRIPTIVES VARIABLES=INFLACIN PARO /STATISTICS=MEAN STDDEV MIN MAX.

Asimetra Curtosis A la derecha de la asimetra y la curtosis se muestran sus correspondientes

2,00 Extremes 1,00 2 . 5,00 2 . 11,00 3 . Stem width: Each leaf:

El grupo 3 est formado por Melilla, Canarias y Ceuta.

Esta tabla identifica a las variables independientes (paro) y dependiente (Inflacin).

El error tpico de la estimacin es la raz cuadrada de la varianza residual.

Evolucin en el tiempo del paro e inflacin durante 1997-2010

En primer lugar vamos a ver la evolucin de ambas variables.

Esta tabla identifica a las variables independientes (desempleo) y dependiente (inflacin).

El error tpico de la estimacin es la raz cuadrada de la varianza residual es 1.03374

You might also like