You are on page 1of 6

06 de Noviembre de 2.

015

ACTIVIDAD 1

DATOS DE LA INVESTIGACIN:

X1 X2 X3 Y
CLASE ALQUITRAN NICOTINA PESO MONOXIDO
RUBIO 4,10 0,860 0,9853 13,60
NEGRO 16,00 1,060 1,0938 16,60
NEGRO 29,80 2,030 1,1650 23,50
RUBIO 8,00 0,670 0,9280 10,20
RUBIO 4,10 0,400 0,9462 5,40
NEGRO 15,00 1,040 0,8885 15,00
RUBIO 8,80 0,750 1,0267 9,00
RUBIO 12,40 0,950 0,9225 12,30
NEGRO 16,60 1,120 0,9372 16,30
RUBIO 14,90 1,020 0,8858 15,40
RUBIO 13,70 1,010 0,9643 13,00
RUBIO 15,10 0,900 0,9316 14,40
RUBIO 7,80 0,570 0,9705 10,00
RUBIO 11,40 0,780 1,1240 10,20
RUBIO 9,00 0,740 0,8517 9,50
RUBIO 1,00 0,130 0,7851 1,50
NEGRO 17,00 1,260 0,9186 18,50
RUBIO 12,80 1,080 1,0395 12,60
NEGRO 15,80 0,960 0,9573 17,50
RUBIO 4,50 0,420 0,9106 4,90
NEGRO 14,50 1,010 1,0070 15,90
RUBIO 7,30 0,610 0,9806 8,50
NEGRO 8,60 0,690 0,9693 10,60
NEGRO 15,20 1,020 0,9496 13,90
RUBIO 12,00 0,820 1,1184 14,90

OBJETIVO: Hacer el estudio descriptivo de los datos y encontrar un modelo


que nos permita estimar la cantidad de MONOXIDO de CARBONO, a partir de
las variables Alquitrn, Nicotina y Peso del cigarrillo.

1
PARTE 1: Genere un breve informe estadstico descriptivo, a partir de la salida de
ordenador que se adjunta (tmese el espacio que necesite pero sea breve), en el que
seale:

1) el tamao muestral,
2) cul es la variable con mayor variabilidad,
3) cul de las medias es ms representativa de los datos y
4) cul de las medias es ms estable.

1. El tamao muestral va a ser un factor decisivo a la hora de seleccionar una muestra


representativa, por lo que habitualmente debe de ser suficiente y elegido de forma
imparcial y aleatoria. En nuestro caso concreto el tamao de la muestra (N) es de 25,
que corresponde a las 25 marcas de cigarrillos que se han seleccionado para realizar el
estudio (16 de tabaco rubio y 9 de tabaco negro).

2. En cuanto a las variables, observamos que se ha analizado el contenido de alquitrn y


nicotina de cada cigarrillo, el peso del mismo y el monxido de carbono que emite al ser
fumado. De estas cuatro variables la que mayor variabilidad sufre con respecto a la
media es la cantidad de alquitrn que contiene el cigarrillo. Ya que el contenido medio
de alquitrn en los cigarrillos es de 11,8160 con una tendencia a oscilar por encima y
por debajo en 5,87634 (Desviacin tpica). Si observamos la tabla podemos apreciar
(quitando outliers como el 29,80 y el 1) que los datos se encuentran entre el 4,10 y el
17,00.

3. En este mismo sentido podemos afirmar que la medida ms representativa en este


caso no sera la Media, precisamente debido a datos aberrantes o no concordantes (como
el caso del 29,80), que nos distorsiona la media. Por tanto, la medida ms representativa
sera la desviacin tpica.

4. En cuanto a la variable ms estable va a ser el peso de los cigarrillos ya que todos los
cigarrillos se encuentran entre 0,7851 g. y 1,165 g. Siendo el peso medio 0,970284 g.,
con una tendencia a variar por encima o por debajo de tan solo 0,0877215 g. Esta sera
la medida que presenta una menor variabilidad.

2
PARTE 2. Analice los percentiles a partir de la tabla correspondiente que aparece
debajo. Escriba un breve informe con los resultados ms relevantes entre los que al
menos debe estar la Mediana y el Recorrido intercuartlico (debe calcularlo a partir de la
tabla) para todas y cada una de las variables. En el informe compare, adems, los
resultados obtenidos con la Media y su dispersin y la Mediana y su dispersin.

Como sabemos la Mediana se corresponde con el valor de la variable que ocupa la


posicin central, este valor nos va a indicar que el 50 de las observaciones son iguales o
mayores a l y el otro 50% menores. En nuestro caso concreto como disponemos de los
datos sobre los percentiles, la mediana se va a corresponder con el percentil 50. As
pues:
MEDIANA
Monxido de carbono 13
Alquitrn 12,4
Nicotina 0,9
Peso 0,9573

Esto quiere decir que la mitad o ms de los cigarrillos analizados contienen 12,4 de
alquitrn, 0,9 de nicotina, y que al ser fumados emiten 13 de monxido de carbono
(evidentemente la otra mitad se encuentra por debajo de estos valores). Adems, el 50%
de los cigarrillos tiene un peso igual o superior a 0,9573 g. y el otro 50% tiene un peso
inferior.

Por otro lado, el Recorrido intercuartlico es la diferencia entre el Q3 y el Q1, o lo que


sera lo mismo P75-P25. Con lo cual vamos a obtener la informacin central de la
distribucin sin tener en cuenta los extremos, ya que nos quedamos con el 50% de los
datos que se encuentran en el centro de la misma y descartamos los valores extremos.
Su valor nos va a dar informacin sobre la dispersin de la serie.

RECORRIDO INTERCUARTLICO
Q3 = P75 Q1 = P25 R I = Q3 Q1
Monxido de carbono 15,6500 9,7500 5,9
Alquitrn 15,1500 7,9000 7,25
Nicotina 1,03000 0,6800 0,35
Peso 1,01685 0,92055 0,0963
3
Con el recorrido intercuartlico solo vamos a poder medir la dispersin en el centro de la
distribucin y sabremos la dispersin dependiendo s los valores de ese 50% central se
encuentran muy prximos o por el contrario se encuentran ampliamente separadas del
valor de la mediana. En nuestro caso concreto, con los datos obtenidos podemos decir
que la mitad de los cigarrillos del estudio emiten un cantidad de monxido de carbono
entre 15,65 y 9,75 (siendo el recorrido de 5,9), del mismo modo podemos indicar que el
50% de los cigarrillos contienen entre 15,15 y 7,9 de alquitrn, entre 1,03 y 0,68 de
nicotina, y su peso oscila entre 1,016 y 0,92 gramos.
Como hemos indicado, para determinar estos valores hemos descartado un 25% de los
datos de la distribucin por cada uno de sus extremos, de modo que eliminamos los
valores aberrantes (outliers) que nos pudieran distorsionar los resultados.

Para finalizar este apartado vamos a presentar una comparativa entre los resultados
ofrecidos por la Media y la Mediana.

TABLA COMPARATIVA ENTRE MEDIA, MEDIANA Y SUS DISPERSIONES


MEDIA DESV. TPICA MEDIANA R.I
Monx. carbono 12,5280 4,73968 13 5,9
Alquitrn 11,8160 5,87634 12,4 7,25
Nicotina 0,87600 0,354201 0,9 0,35
Peso 0,970284 0,0877215 0,9573 0,0963

Las medidas de dispersin nos van a servir para cuantificar la separacin de los valores
de una distribucin (grado de variabilidad). La dispersin o variabilidad es la mayor o
menor separacin de los valores de la muestra con respecto a las medidas de
centralizacin que hemos calculado. As pues, con la Media es necesario el clculo de
una medida de dispersin que la acompae, normalmente la Desviacin Tpica. Del
mismo modo, la Mediana va a ir acompaada del Recorrido intercuartlico. Estas
medidas nos van a indicar el grado de dispersin del resto de valores de la distribucin
con respecto a las medidas de posicin central.

En nuestro caso concreto podemos decir que atendiendo a las medidas de dispersin
(Desviacin Tpica y Recorrido Intercuartlico) ambas medidas de posicin central
(Media y Mediana) son representativas, ya que los valores de estas medidas de
dispersin son reducidos, lo que quiere decir que los valores se concentran en torno a
esa medida de posicin central y no hay mucha variabilidad. (Si los valores de las
medidas de dispersin fueran elevados, posiblemente los valores de la serie estn
dispersos por lo que existir una mayor variabilidad y las medidas de posicin central
no sean muy representativas del total de la serie).

4
PARTE 3. Analice los Box plot (diagramas de caja) que se adjuntan y saque
las conclusiones ms relevantes. Debe escribir, al menos, sobre la posible
asimetra y la existencia, o no, de outliers.

En estos grficos vamos a poder observar caractersticas importantes de las series de


valores, como van a ser la dispersin, la simetra, o la existencia de valores aberrantes.

Monxido Carbono
En este caso nos encontramos ante un box-plot en el que observamos un valor atpico
inferior (1,5) para una distribucin que no es totalmente simtrica ya que aunque la
mediana la encontramos casi en el centro de la caja, el bigote superior es mucho mayor
que el inferior.

Alquitrn
Lo mismo ocurre en este segundo box-plot, nos encontramos con un valor discordante
superior (29,8), de modo que los bigotes del grfico quedan entre 1 y 17, siendo el
superior menor que el inferior. La mediana tampoco la encontramos en el centro de la
caja, por lo que tampoco nos encontramos ante una distribucin simtrica.

5
Nicotina
En esta distribucin tambin encontramos outliers, tanto por encima como por debajo
(0,13 y 2,3). En este caso, la mediana tampoco se encuentra en el centro de la caja por lo
que tampoco estamos ante una distribucin simtrica, aunque sus bigotes son parecidos,
siendo el inferior ligeramente mayor que el superior.

Peso
En este ltimo grfico tambin aparecen valores extremos discordantes por encima y
por debajo (0,78 y 1,16). Quedando los valores de los bigotes comprendidos entre 0,85
y 1,12. No es una distribucin simtrica ya que el tamao de sus bigotes son distintos y
la mediana tampoco se encuentra en el centro de la caja.

VALORACIONES RECIBIDAS

Valoracin realizada Nmero 1 fecha 10-11-2015 12:36


Comentario
Muy bien organizado, responde a todos y cada uno de los puntos que se
especifican. Resulta evidente que se entienden y relacionan todos los
conceptos estudiados hasta el momento.

Simplemente habra aadido en la parte 2 cul de las medidas de tendencia


central (media o mediana) se escogera para cada una de las variables y en el
box-plot mencionar si los outliers afectaran de forma representativa o no a la
media.

You might also like