You are on page 1of 25

Pontificia Universidad Catlica de Chile

Escuela de Ingeniera

EYP1113: Probabilidad y estadstica


Tarea 1

Ctedra: Ricardo Aravena


Laboratorio: Laura Snchez
Segundo semestre, 2016

Alumno: Rodolfo Cabrera Escobar


Seccin laboratorio: 5
Grupo: rrcabrera

Septiembre - octubre de 2016

P1113L Probabilidad y Estadstica Tarea 1


Los investigadores de General Motors recopilaron datos de 60 reas
Estadsticas Metropolitanas de Estados Unidos, en un estudio de si la
contaminacin del aire contribuye a la mortalidad. Los datos incluyen las variables
que miden las caractersticas demogrficas de las ciudades, las variables que
miden las caractersticas del clima, y las variables que registran el potencial de
contaminacin de los tres contaminantes del aire diferentes.
La base (en formato TXT) contiene la siguiente
informacin: Ciudad
Estado
Temperatura en Enero
(T_Enero)(F) Temperatura en
Julio (T_Julio)(F)
%Humedad
Cantidad de lluvia (Cant_Lluvia)(pulgadas)
Tasa de mortalidad por edad (Mortalidad)(%o-Tantos por
mil) Poblacin total(Pobl_total)
Poblacin por hogar (Pobl_hogar)
Ingresos medios anuales (Ingresos_medios)(Miles de
$USD) Cantidad de Hidrocarburos en el aire (HC)
Cantidad de xidos de nitrgeno en el aire(NOx)
Cantidad de xidos de azufre en el aire(SO2)
Usted debe entregar un reporte tcnico y su script de respaldo como anexo en
formato PDF describiendo los siguientes puntos:
1.

2.

3.

4.
5.

Estadstica descriptiva: Se espera que el reporte entregue y comente las


medidas de centro, posicin, dispersin y forma de las variables
cuantitativas.
Histogramas y diagramas de cajas: El reporte debe incluir histogramas de
densidad (con lnea de densidad) y diagramas de cajas (sin outliers) de las
variables cuantitativas. Se valorar la calidad del grfico (color, titulo, ejes,
etc).
Analice la posible relacin entre la mortalidad y los distintos gases
contaminantes. Entregue los grficos y estadsticos que avalen su
argumentacin y comente.
Realice los grficos de caja de las variables de polucin en el aire para los
Estados de Nueva York y Ohio por separado y comente.
Estudie la variable poblacin por hogar y encuentre la distribucin de la
familia de localizacin escala que considera se acerca ms a la distribucin
emprica de la variable. Justifique su respuesta.

Este informe presenta un estudio estadstico realizado a los datos recopilados


por General Motors Company en 60 reas estadsticas de Estados Unidos, con el
fin de averiguar si existe relacin entre la contaminacin en el aire y la mortalidad
en las personas. Dichos datos recopilan informacin sobre variables climticas,
como temperatura, humedad y cantidad de lluvia cada; variables demogrficas,
como cantidad de habitantes total y por hogar, ingresos medios, tasa de
mortalidad; y datos sobre los tres contaminantes que son de inters investigar:
hidrocarburos, xidos de nitrgeno y xidos de azufre.
Para analizar los datos entregados se hizo uso del software estadstico R y,
con el fin de estudiar las variables antes mencionadas, se ha estructurado este
trabajo en cinco ejes que facilitarn la comprensin al lector, entregando la
informacin lo ms clara y detallada posible.

Punto primero: estadstica descriptiva.


En este tem se analizan los datos descriptivamente. A continuacin, se
presentan tres tablas resumen con los resultados de medidas de centro, posicin,
dispersin y forma de los datos. Luego, se muestra un anlisis detallado de cada
variable.

Tabla 1.-

Tabla 2.-

Tabla 3.-

Observaciones:
1. Aquellas variables en cuya moda aparece * son variables multimodales
con muchos valores, lo que hace poco prctico incluirlos en esta tabla.
Esto nos habla de que estamos en presencia de variables con mucha
dispersin en los datos. Sin embargo, en el anlisis de cada variable se
adjuntarn.
2. Por orden y practicidad, las tablas con los percentiles de cada variable se
adjuntan al final del informe.
Temperaturas en enero:
La media de esta variable es cercana a 33,8F; su mediana es 31F y sus
modas son 24 y 30, por lo que las temperaturas ms comunes en el mes de enero
son 24F y 30F.
En los tems de posicin podemos observar que la temperatura mnima
registrada es de 12F, mientras que la mxima fue de 67F. Haciendo un smil con
las medidas de centro, podemos inferir a priori que los datos estn distribuidos de
manera tal que presentan una leve inclinacin a las temperaturas menores a la
media, lo que es corroborado por la informacin que nos entregan los cuartiles, ya
que el cuartil 1 nos indica que el 25% de los datos toma valores iguales o menores
a 27F; el cuartil 2 indica que el 50% de los datos toma valores menores a 31F y
el cuartil 3 indica que el 75% de los datos toma valores hasta 39,5F.
Las medidas de dispersin nos indican que la varianza para las temperaturas
registradas en enero es alrededor de 103,01 y su desviacin estndar es de 10,15;
por lo que los datos de la temperatura ambiental tienden a alejarse 10,15F de la
media de la temperatura para este perodo. En tanto, el coeficiente de variacin
toma un valor aproximado de 0,3; lo que nos indica que los datos no presentan una
gran dispersin.
Por ltimo, el valor de Skewness, que es una medida de asimetra de la
muestra alrededor de la media, de los datos es 0,9659; lo que nos dice que la
muestra presenta una asimetra hacia la derecha, lo que es confirmado por el
hecho de que la media sea mayor a la mediana. Adems, la Kurtosis -medida de

achatamiento- de la muestra es 0,907; lo que nos indica que los datos presentan
un comportamiento leptocrtico, es decir, son alargados alrededor de la media.
Temperaturas en julio:
La media de las temperaturas registradas en julio es cercana a 74,4F; su
mediana es 74F y su moda es 72F, por lo que las temperaturas ms comunes en
el mes de enero son 72F.
En los tems de posicin podemos observar que la temperatura mnima
registrada es de 63F, mientras que la mxima fue de 85F. Haciendo un smil con
las medidas de centro, podemos inferir a priori que los datos estn distribuidos de
manera normal, lo que es corroborado por la informacin que nos entregan los
cuartiles, ya que el cuartil 1 nos indica que el 25% de los datos toma valores
iguales o menores a 72F; el cuartil 2 indica que el 50% de los datos toma valores
menores a 31F y el cuartil 3 indica que el 75% de los datos toma valores hasta
77F.
Las medidas de dispersin nos indican que la varianza para los datos es
alrededor de 21,18 y su desviacin estndar es de 4,6; por lo que los datos de la
temperatura ambiental tienden a alejarse 4,6F de la media de la temperatura para
este perodo. En tanto, el coeficiente de variacin toma un valor de 0,062; lo que
nos indica que los datos no presentan una gran dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 0,0632; lo que nos dice que
la muestra es prcticamente simtrica, lo que es confirmado por el hecho de que la
media sea casi igual a la mediana de los datos. Adems, la Kurtosis de la muestra
es -0,1578; lo que nos indica que los datos presentan un comportamiento
levemente platicrtico, es decir, son achatados.
Humedad:
La media de la humedad medida es cercana al 57,75%; su mediana es 57% y
su moda es 56%. Que estos tres valores tengan tanta cercana, nos indica a priori
que los datos toman una distribucin normal.
En los tems de posicin podemos observar que la humedad mnima
registrada es de 38%, mientras que la mxima fue de 73%. Haciendo un smil con
las medidas de centro, podemos inferir a priori que los datos estn distribuidos de
manera que hay una concentracin de datos de humedad hacia valores altos, lo
que es corroborado por la informacin que nos entregan los cuartiles, donde el
cuartil 1 nos indica que el 25% de los datos toman valores iguales o menores a
55.5%; el cuartil 2 indica que el 50% de los datos toma valores menores a 57% y el
cuartil 3 indica que el 75% de los datos toma valores hasta 60%.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 28,95 y su desviacin estndar es de 5,38; por lo que
los datos de la humedad ambiental tienden a alejarse 5,38% de la media. En tanto,
el coeficiente de variacin toma un valor de 0,0932; lo que nos indica que los datos
no presentan una gran dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 0,1959; lo que nos dice que
la muestra es prcticamente simtrica, pero con una pequea tendencia hacia la
derecha, lo que es confirmado por el hecho de que la media sea casi igual a la
mediana de los datos. Adems, la Kurtosis de la muestra es 3,6520; lo que nos

indica que los datos presentan un comportamiento leptocrtico.


Cantidad de lluvia cada:
La media de la lluvia caida es cercana al 38,5; su mediana es 38 y sus
modas son 35, 36 y 42. Estos valores nos indican que, por lo menos el centro de
los datos, se comportan de manera uniforme.
En las medidas de posicin podemos observar que la cantidad mnima de
lluvia registrada es de 10, mientras que la mxima es de 65. Haciendo un smil
con las medidas de centro, podemos inferir nuevamente que los datos estn
distribuidos de manera uniforme hacia el centro, hecho respaldado por la
informacin que nos entregan los cuartiles, en que el cuartil 1 nos indica que el 25%
de los datos toman valores iguales o menores a 33,5; el cuartil 2 indica que el
50% de los datos toma valores menores a 38 y el cuartil 3 indica que el 75% de los
datos toma valores hasta 44 de agua caida.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 133,94 y su desviacin estndar es de 11,57; por lo
que los datos de la humedad ambiental tienden a alejarse 11,57 de la media. A su
vez, el coeficiente de variacin es 0,3005; lo que nos indica que los datos
presentan dispersin en torno a la media.
Finalmente, el valor de Skewness de los datos es -0,1724; que nos indica que
estos datos tienen una tendencia hacia la izquierda, lo que es confirmado por la
informacin entregada por los cuartiles. A esto se suma la Kurtosis de la muestra,
que es 0,6749; lo que nos indica que los datos presentan un comportamiento
levemente leptocrtico.
ndices de mortalidad:
La media de la tasa de mortalidad medida es aproximadamente 941,17 cada
100.000 habitantes, su mediana es 946,19. A diferencia de las variables anteriores,
estos datos son tan dispersos, que tienen demasiadas modas como para
indexarlas a nuestra tabla. A continuacin se muestran algunas de ellas:

Tabla 4: modas de la tasa de mortalidad.-

En los tems de posicin podemos observar que la tasa mnima registrada es


de 790,73; mientras que la mxima es de 1113,16. Haciendo link con las medidas
de centro, podemos inferir a priori que los datos estn distribuidos de manera
relativamente uniforme, lo que es corroborado por la informacin que nos entregan

los cuartiles, donde el primer cuartil nos indica que el 25% de los datos toman
valores iguales o menores a 899,395; el segundo, que el 50% de los datos toma
valores menores a 946,19 y el tercero indica que el 75% de los datos tasa de
mortalidad toma valores de hasta 984,12.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 3896,423 y su desviacin estndar es de 62,42; por lo
que los datos de la humedad ambiental tienden a alejarse 62,42 de la media.
Mientras que el coeficiente de variacin toma un valor de 0,0663; lo que nos indica
que los datos no presentan una gran dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 0,0629; lo que nos dice que
la muestra es prcticamente simtrica, pero con una mnima tendencia hacia la
derecha, lo que es confirmado por el hecho de que la media sea casi igual a la
mediana de los datos. Sumado a esto, la Kurtosis de la muestra es -0,0495; lo que
nos indica que los datos de la tasa de mortalidad presentan un comportamiento
levemente platicrtico.
Poblacin total:
La media demogrfica es cercana 1.438.37 habitantes y su mediana es de
914.427 habitantes. Al igual que en el caso anterior, estos datos presentan
demasiadas modas, algunas de ellas se presentan a contnuacin.

Tabla 5: modas de poblacin total.-

En las medidas de posicin podemos observar que la cantidad mnima de


habitantes registrada es de 124.833, mientras que la cantidad mxima es de
8.274.961. Haciendo el nexo con las medidas de centro, podemos notar
nuevamente que los datos presentan una gran dispersin. Este hecho es
respaldado por la informacin que nos entregan los cuartiles, en que el cuartil 1 nos
indica que el 25% de los datos toman valores iguales o menores a 566.515
habitantes; el cuartil 2 indica que el 50% de los datos toma valores menores a
914.427 y el cuartil 3 indica que el 75% de los datos toma valores hasta 1.717.201
habitantes.
Las medidas de dispersin, en tanto, indican una varianza para la muestra de
alrededor de 2.376.950.068.679,96 y una desviacin estndar de 1.541.736,057;
por lo que los datos de la humedad ambiental tienden a alejarse 1.541.736,057
habitantes de la media. A su vez, el coeficiente de variacin es 1,0721; lo que nos
indica que los datos presentan gran dispersin en torno a la media.
Finalmente, el valor de Skewness de los datos demogrficos es 2,7438; que

nos indica que estos datos tienen una tendencia hacia la derecha, lo que es
confirmado por la informacin entregada por los cuartiles. A esto se suma la
Kurtosis de la muestra, que es 8,2747; lo que nos indica que los datos presentan
un comportamiento altamente leptocrtico.
Poblacin por hogar:
La media de las poblacin por hogar es cercana a 3,25 personas; su mediana
es 3,27 y la moda son 3,21 y 3,32 personas. Esto nos habla, a priori, de un
comportamiento relativamente simtrico en torno a la media.
En los tems de posicin podemos observar que el valor mnimo de
habitantes por hogar registrado es de 2,65; mientras que el mximo es de 3,53.
Haciendo la conexin con las medidas de centro, podemos inferir a priori que los
datos estn distribuidos de manera relativamente normal, pero contrastado con la
informacin que nos entregan los cuartiles podramos decir que hay una leve
desviacin hacia la izquierda, ya que el cuartil 1 nos indica que el 25% de los datos
toma valores iguales o menores a 3,21; el cuartil 2 indica que el 50% de los datos
toma valores menores a 3,27 y el cuartil 3 indica que el 75% de los datos toma
valores de hasta 3,36.
Las medidas de dispersin nos indican que la varianza para los datos es
alrededor de 0,0335 y su desviacin estndar es de 0,1829; por lo que los datos de
la temperatura ambiental tienden a alejarse en 0,1829 personas de la media de los
habitantes por hogar. En tanto, el coeficiente de variacin toma un valor de 0,0563;
lo que nos indica que los datos no presentan una gran dispersin en torno a la
media.
Por ltimo, el valor de Skewness de los datos es -1,6032; lo que nos dice los
datos efectivamente presentan una asimetra hacia la izquierda y corroboran la
informacin inferida de las medidas de posicin. Adems, la Kurtosis de la muestra
es 3,1184; lo que nos indica que los datos presentan un comportamiento
leptocrtico.
Ingresos medios:
La media de los ingresos medios anuales es US$33.246,661; su mediana es
US$32.452 y, al igual que casos anteriores, es una variable multimodal. A
continuacin, se presentan algunas de ellas:

Tabla 6: modas de los ingresos medios anuales.-

En las medidas de posicin podemos encontrar el ingreso medio mnimo


registrada es de US$25.782, mientras que el mximo es de US$47.966. Haciendo

un smil con las medidas de centro, podemos inferir a priori que los datos estn
distribuidos de manera relativamente normal, lo que es apoyado por la informacin
que nos entregan los cuartiles, ya que el primer cuartil nos indica que el 25% de los
datos toma valores iguales o menores a US$30.004,5; el segundo cuartil indica
que el 50% de los datos toma valores menores a US$32.452 y el tercer cuartil
indica que el 75% de los datos toma valores hasta US$35.496.
Las medidas de dispersin nos indican que la varianza para los datos es casi
de 20.008.579 y su desviacin estndar es poco mayor a 4.473; por lo que los
datos de los ingresos medios anuales tienden a alejarse US$4.473 de la media de
los ingresos. En tanto, el coeficiente de variacin toma un valor de 0,1345; lo que
nos indica que los datos presentan una leve dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 1,2191; lo que nos dice que
la muestra presenta asimetra hacia la derecha, lo que es confirmado por la
distribucin que muestran los cuartiles. Sumado a esto, la Kurtosis de la muestra
es 1,6983; lo que nos indica que los datos presentan un comportamiento
leptocrtico, o con una aglomeracin en torno a la media.
Niveles de hidrocarburos:
La media en los niveles de hidrocarburos es cercana al 38,5 Ppm; su
mediana es 15Ppm y la moda es de 6 Ppm. Estos valores nos indicant, a priori,
que los datos presentan una dispersion considerable.
Las medidas de posicin nos informan que la cantidad mnima de
hidrocarburos presentes en el ambiente es de 1 Ppm, mientras que el mximo es
de 648 Ppm. Haciendo un smil con las medidas de centro, podemos inferir
nuevamente que los datos estn distribuidos de manera que la distribucin es
dispersa; hecho respaldado por la informacin que nos entregan los cuartiles, en
que el cuartil 1 nos indica que el 25% de los datos toman valores iguales o
menores a 7 Ppm; el cuartil 2 indica que el 50% de los datos toma valores menores
a 15 Ppm y el cuartil 3 indica que el 75% de los datos toma valores hasta 30,5
Ppm.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 8581,94 y su desviacin estndar es de 92,64; por lo
que los datos de los niveles de hidrocarburos presentes en el ambiente tienden a
alejarse 92,64 Ppm de la media. A su vez, el coeficiente de variacin es 2,4078; lo
que nos indica que los datos presentan gran dispersin en torno a la media.
Finalmente, el valor de Skewness de los datos es 5,2732; que nos indica que
estos datos tienen una gran tendencia hacia valores reducidos. A esto se suma la
Kurtosis de la muestra, que es 30,0754; lo que nos indica que los datos presentan
un comportamiento altamente leptocrtico.
Niveles de xidos de nitrgeno:
La media del nivel de xido de nitrgeno presente en el aire 22,96 Ppm; la
mediana es 9 Ppm y la moda es 4 Ppm. Esto nos habla, a priori, de un
comportamiento disperse en torno a la media de la muestra.
En los tems de posicin podemos observar que el valor mnimo de este
contaminante registrado es de 1 Ppm; mientras que el mximo es de 319 Ppm.
Haciendo la conexin con las medidas de centro, podemos inferir a priori que los

datos estn distribuidos de manera dispersa y con una asimetra hacia la derecha,
ya que el primer cuartil indica que el 25% de los datos toma valores iguales o
menores a 4 Ppm; el cuartil 2 indica que el 50% de los datos toma valores menores
a 9 Ppm y el cuartil 3 indica que el 75% de los datos toma valores de hasta 24,5
Ppm.
Las medidas de dispersin nos indican que la varianza para los datos es
alrededor de 2177,69 y la desviacin estndar es de 46,67; por lo que los datos de
la temperatura ambiental tienden a alejarse en 46,67 personas de la media de el
nivel de xidos de nitrgenos presente en el aire. En tanto, el coeficiente de
variacin toma un valor de 2,0319; lo que reafirma la hiptesis de que los datos
presentan dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 4,8685; lo que nos dice los
datos efectivamente presentan gran asimetra hacia la derecha y corroboran la
informacin inferida de las medidas de posicin. Adems, la Kurtosis de la muestra
es 26,2062; lo que nos indica que los datos presentan un comportamiento
altamente leptocrtico.
Niveles de xidos de azufre:
La media de el nivel de este contaminante es cercana a 54,66 Ppm; la
mediana es 32 Ppm y la moda es 1 Ppm. Estos valores nos hablan de que la
muetra es bastante dispersa y relativamente uniforme en su distribucin.
En las medidas de posicin podemos observar que la concentracin mnima
es de 1 Ppm, mientras que la mxima es de 278 Ppm. Haciendo la conexin las
medidas de centro, podemos inferir nuevamente que los datos estn distribuidos
de manera dispersa, hecho respaldado por la informacin que nos entregan los
cuartiles, dado que el primer cuartil indica que el 25% de los datos toman valores
iguales o menores a 13 Ppm; el segundo, que el 50% de los datos toma valores
menores o iguales a 32 Ppm y el tercero indica que el 75% de los datos toma
valores hasta 70 Ppm. Podemos notar adems que la distribucin presenta una
asimetra hacia la derecha.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 4038,81 y su desviacin estndar es de 63,55; por lo
que los datos del nivel de concentracin de este contaminante tienden a
dispersarse 63,55 Ppm de la media. En tanto, el coeficiente de variacin es 1,1627;
lo que nos indica que los datos presentan dispersin en torno a la media.
Finalmente, el valor de Skewness de los datos es 1,8022; que confirma que
estos datos tienen una tendencia hacia la derecha, tesis expuesta anteriormente. A
esto se suma la Kurtosis de la muestra, que es 2,8894; lo que nos indica que los
datos presentan un comportamiento leptocrtico.

10

Punto segundo:
En esta fase del informe, se presentan los histogramas y diagramas de caja
de cada variable. En ellos, podemos ver que se materializan los resultados
mostrados en el estudio estadstico.

Figuras 1 y 2: Temperaturas en enero.

Figuras 3 y 4: Temperaturas en julio.

11

Figuras 5 y 6: Porcentaje de humedad ambiental.

Figuras 7 y 8: Cantidad de lluvia cada.

Figuras 9 y 10: Tasa de mortalidad.

12

Figuras 11 y 12: Poblacin total.

Figuras 13 y 14: Poblacin por hogar.

Figuras 15 y 16: Ingresos medios anuales.

13

Figuras 17 y 18: Concentracin de hidrocarburos presentes en el aire.

Figuras 19 y 20: Concentracin de xidos de nitrgeno en el aire.

Figuras 21 y 22: Concentracin de xidos de azufre en el aire.

14

Punto tercero:
En este tem, se analiza la posible relacin estadstica entre la mortalidad
observada y los datos de la concentracin de los tres agentes qumicos estudiados
y medidos. Para esto, graficaremos la dependencia entre cada contaminante y la
mortalidad junto a una lnea de tendencia entre ambos, que nos dar una idea del
grado de asociacin entre las variables.
A continuacin, se presentan los grficos junto a un breve anlisis.

Figura 23: Relacin Hidrocarburos ~Mortalidad.

Resulta directo, e incluso obvio, notar que no se aprecia una relacin directa
entre la concentracin de hidrocarburos en el ambiente y la tasa de mortalidad.
Este hecho es confirmado por la pendiente de la regresin, que al ser negativa
descarta la posibilidad de una asociacin de dependencia entre las variables.

Figura 24: Relacin xido de nitrgeno~Mortalidad.

15

Al igual que en el caso anterior, observamos que no existe una dependencia


notoria entre las variables concentracin de xidos de nitrgeno y la tasa de
mortalidad

Figura 25: Relacin concentracin de xidos de azufre ~Mortalidad.

A diferencia de los otros dos contaminantes, en este caso podemos notar que
las variables concentracin de xidos de azufre y tasa de mortalidad s parecen
tener cierta dependencia. En el grfico podemos notar que la dispersin en torno a
la recta de regresin es mucho menor que los casos anteriores. Finalmente, la
pendiente positiva de la recta apoya la tesis de que habra evidencia suficiente
para establecer un nexo entre los niveles de este contaminante y la tasa de
mortalidad.

16

Punto cuarto:
En este apartado, resulta de inters analizar el comportamiento de las
concentraciones de los tres contaminantes en las ciudades de Ohio y New York.
Para llevar adelante este cometido, se aplicaron filtros a la base de datos
proporcionada, con la finalidad de poder hacer grficos de caja de cada variable. A
continuacin, se presentan dichas grficas, junto a la situacin del contaminante a
nivel nacional y un anlisis de la situacin.
Contaminantes en Ohio:

Figura 26: Hidrocarburos en Ohio vs a nivel nacional.

De los grficos presentados podemos notar, en primer lugar, que el valor


mximo de la concentracin de hidrocarburos es menor al nivel promedio nacional.
Sin embargo, la media es levemente mayor y la dispersin de los datos en torno a
la media se dispara hacia arriba. Podemos concluir entonces que, si bien en Ohio
no tienen peaks de contaminacin tan altos como el resto del pas, su situacin
cotidiana tiene a presentar valores de concentracin de hidrocarburos mayores.

Figura 27: xidos de nitrgeno en Ohio vs a nivel nacional.

Nuevamente, los valores mximos de concentracin del contaminante son


significativamente menores a la situacin nacional. Adems, y al contrario de lo
que pasa con los hidrocarburos, la media es menor y la dispersin de los datos en
torno a la media se reduce notablemente. Con estos datos a la vista, podemos

17

indicar que la situacin de concentracin de xidos de nitrgeno en Ohio es mejor


que en el resto del pas.

Figura 28: xidos de azufre en Ohio vs situacin nacional.

De manera similar a lo que ocurre con los xidos de nitrgeno, en Ohio la


media de concentracin de xidos de azufre es menor a la media nacional, y los
valores mximos son considerablemente menores -cercanos a la mitad-. Adems,
la dispersin de los datos centrales disminuye. Finalmente, y debido a que
anteriormente demostramos que existe cierta relacin entre este contaminante y la
tasa de mortalidad, los habitantes de Ohio tienen razones para celebrar.
Contaminantes en New York:

Figura 29: Concentracin de hidrocarburos en New York vs nivel nacional.

En esta ocasin, contrario a lo que se podra pensar antes de analizar los


datos, las condiciones de contaminacin por hidrocarburos en la ciudad de New
York con notablemente mejores que el resto del pas. Esto debido a que la media
es cercana a la mitad, los datos centrales presentan mucho menor dispersin y los
peaks de concentracin de este contaminante son cercanos a un tercio del nivel
nacional. Todos estos datos avalan que la situacin de contaminacin por
hidrocarburos en New York, comparado con el resto del territorio, es bastante ms
alentadora.

18

Figura 30: Concentracin de hidrocarburos en New York vs situacin nacional.

Nuevamente, New York tiene razones para ser optimistas frente a los niveles
de contaminacin. Si bien las medias son similares en ambos contextos, la
dispersin de los datos centrales de la muestra en New York es menor a la
nacional, al igual que los peaks de contaminacin por xidos de nitrgeno -que
alcanzan alrededor de la mitad que el nivel nacional-.

Figura 31: Concentracin de xidos de azufre en New York vs situacin nacional.

Siguiendo la tendencia anterior, la situacin de contaminacin en New York


es notablemente mejor que la media nacional. Esto puesto que la dispersin de los
datos centrales se desplaza hacia valores menores a la media y los peaks de
contaminacin por xidos de azufre es levemente mayor a un cuarto de la realidad
nacional, mientras que la media se mantiene casi igual.
Por todo lo visto sobre la situacin de contaminacin en New York, podemos
plantear que los niveles son mucho mejores que en el resto del territorio nacional y,
por ende, sus tasas de mortalidad mejoran con respecto a la situacin nacional.

19

Punto quinto:
En este ltimo apartado del estudio estadstico de los datos, se busca ajustar
alguna de las distribuciones tericas estudiadas en clase a los datos entregados.
En particular, se busca el modelo que mejor ajuste a los datos relativos a la
poblacin por hogar.
Para esto, se ha estudiado el ajuste de seis distribuciones tericas. Ellas son:
exponencial trasladada, normal, log-normal, Weibull, logstico y log-logstico. A
continuacin, se presentan grficos de dispersin, histogramas con lnea de
densidad y salidas entregadas por el programa estadstico R para cada ajuste.
Ajuste exponencial trasladado:

Figura 32 y 33: Ajuste exponencial trasladado a los datos de poblacin por hogar.

Tabla 7: Salida R para ajuste exponencial trasladado.

20

Ajuste normal:

Figuras 34 y 35: Ajuste normal para los datos de poblacin por hogar.

Tabla 8: Salida de R para el ajuste normal de los datos.

21

Ajuste log-normal:

Figuras 36 y 37: Ajuste log-normal para los datos de poblacin por hogar.

Tabla 9: Salida de R para el ajuste log-normal de los datos.

22

Ajuste Weibull:

Figuras 38 y 39: Ajuste Weibull para los datos de poblacin por hogar.

Tabla 10: Salida de R para el ajuste Weibull de los datos.

23

Ajuste logstico de los datos:

Figuras 40 y 41: Ajuste logstico para los datos de poblacin por hogar.

Tabla11: Salida de R para el ajuste logstico de los datos.

24

Ajuste log-logstico de los datos:

Figuras 42 y 43: Ajuste log-logstico para los datos de poblacin por hogar.

Tabla 12: Salida de R para el ajuste log-logstico de los datos.

Por simple inspeccin visual, podemos notar que ninguna de las


distribuciones representa a los datos de poblacin con hogar con una exactitud
aceptable. Sin embargo, dentro de los ajustes realizados, podemos observar que
los mejores parecen ser: log-normal, Weibull y log-logstica.
Finalmente, podemos dirimir cul de estas distribuciones ajusta mejor a los
datos haciendo uso de la salida de R. En ella podemos observar que el menor
error residual estndar lo tiene el ajuste Weibull, con 0,01823; mientras que los de
log-normal y log-logstica son 0,02641 y 0,02519.
Por lo tanto, a distribucin que mejor se ajusta a los datos es Weibull, con
parmetros beta=20,907 y nu=3,328, aproximadamente.

25

You might also like