You are on page 1of 7

Miguel Lozano

Jos Luis Nieto


Trabajo Final: Intervalos de Confianza, Prueba de Hipotesis y Regresin Lineal
Simple
El archivo adjunto (base de datos proyecto), compuesto por mil registros, presenta la
informacin correspondiente a las variables siguientes:
Distancia: Representa la distancia en kms entre el punto donde descarga una planta
qumica y el punto de lectura sobre un ro
Contaminacin: Representa el porcentaje de contaminacin del agua del rio
De acuerdo a la informacin anterior, ustedes deben realizar lo siguiente
1. Seleccionar una muestra aleatoria de 30 observaciones. Indique el proceso
utilizado para la seleccin de la muestra
Se seleccion una muestra aleatoria de 30 observaciones, la cual contaba con 1000 registros
de distancia y de contaminacin.
La muestra se obtuvo aleatoriamente, es decir cada uno de los registros tena la misma
probabilidad de ser elegidos (probabilidad = 1 /1000), adems de ello un registro no
dependa de la eleccin de otro registro (independencia) con el objetivo de garantizar la
representatividad de la muestra.
La muestra aleatoria resulto ser:
NUMEROS
ALEATORIOS
541
21
121
893
522
849
91
141
101
639
239
578
706
185
108
354
892

DISTANCIA
6,1
2,1
2,9
9
5,9
8,6
2,7
3,1
2,8
6,8
3,7
6,4
7,4
3,4
2,8
4,8
9

CONTAMINACI
N
6,5
11
9,5
6,3
8,1
7,8
8,9
8,9
7,2
7,1
7,5
6,7
4,8
8
9,5
8,6
5,6

588
119
489
69
928
868
231
589
864
673
937
786
795

6,4
2,9
5,7
2,5
9,3
8,8
3,7
6,5
8,7
7,1
9,4
7,9
8

6,5
8
7
8,8
4,2
4,7
8,4
6,6
3,2
6,5
5,3
5,9
7,5

Cada uno de los registros seleccionados se obtuvo gracias


aleatorio.entre(0,1000) que considera una distribucin uniforme.

la

opcin

2. Construir e interpretar un intervalo de confianza de 95% para la media y para la


varianza de cada una de las variables
Debido a que se consider una muestra aleatoria de 30 registros para resolver cada uno de
los incisos del taller, se debe emplear la distribucin t-student como distribucin de
referencia en la estimacin del intervalo de confianza para la media.
La expresin matemtica para el clculo del intervalo viene dado por:

IC Intervalo de Confianza

S
S
IC (1 )% x t / 2;n 1 *
; x t / 2;n1 *

n
n

La media y la desviacin estndar para la distancia y el porcentaje de contaminacin se


presentan a continuacin:

INDICADOR
Media
Desviacin estndar

DISTANCIA
(kms)
5,8133
2,4819

El punto crtico asociado a la distribucin t-student es:

CONTAMINACI
N (%)
7,1533
1,7334

t 0,05 / 2;301 t 0,025; 29 2,045

Intervalo de Confianza para la Distancia Media


2,4819
2,4819
IC 95% 5,8133 2,045 *
;5,8133 2,045 *

30
30

IC 95% (4,8866 ; 6,7399)


Con una confiabilidad del 95%, la distancia promedio desde el punto de donde descarga
una planta qumica y el punto de lectura sobre el ro estar entre 4,8866 y 6,7399
kilmetros aproximadamente.

Intervalo de Confianza para el Porcentaje Promedio de Contaminacin

1,7334
1,7334
IC 95% 7,1533 2,045 *
; 7,1533 2,045 *

30
30

IC 95% (6,50614% ; 7,8%)


Con una confiabilidad del 95% el porcentaje de contaminacin del agua del ro, se
encuentra entre 6,50614% y 7,8%.
3. Probar las siguientes hiptesis:
a. La distancia promedio desde el punto de descargue y el punto de lectura es
mayor de 5 Km
Se debe probar que la distancia promedio es mayor que 5 Km, es decir que la hiptesis nula
( H 0 ) y alterna ( H a ) vienen dadas por:
H 0 : 5 vs. H a : 5
Debido a que el tamao de muestra no es suficientemente grande, se considera como
distribucin de referencia, la distribucin t-student.
El estadstico de prueba viene dado por:

tCalculado
Reemplazando se tiene

x
s/ n

t Calculado

5,8133 5
1,7949
2,4819 / 30

Con un nivel de significancia del 5%, el punto crtico asociado a la distribucin t-student,
viene dado por:

t Critica t ;n1 t 0, 05; 29 1,699


Debido a que el estadstico de prueba es mayor que el punto crtico asociado a la
distribucin t-student, hay suficiente evidencia estadstica para rechazar la hiptesis nula,
por tanto la distancia promedio desde el punto de descargue y el punto de lectura es
superior a 5 Km.
b. El promedio del porcentaje de contaminacin es menor de 8%
La hiptesis nula y alterna vienen dadas por:
H 0 : 8% vs. H a : 8%
De manera similar al literal a), el estadstico de prueba viene dado por:

t Calculado

7,1533 8
2,675
1,7334 / 30

Si se considera el mismo nivel de confianza, el punto crtico ser:

t Critica t ;n1 t 0 , 05; 29 1,699

2,675 t

1,699

Critico
Como Calculado
, hay suficiente evidencia estadstica para
rechazar la hiptesis nula, por tanto el promedio de porcentaje de contaminacin en el rio es
menor que un 8%, teniendo en cuenta un nivel de confianza del 95%.

4. Consultar en el texto de Navidi sobre los elementos bsicos de Anlisis de


regresin y correlacin lineal. Presente un breve resumen.
El anlisis de Regresin Lineal Simple es una de las tcnicas ms utilizadas en estadstica
para investigar y modelar la relacin entre dos variables cuantitativas.
El objetivo del anlisis de regresin es el de investigar, explorar y cuantificar la relacin
entre una variable dependiente (Y) y una variable independiente (X), as como para
desarrollar un modelo de regresin ajustado con fines predictivos.
La ecuacin de regresin lineal poblacional viene dada por:

Y 0 1 X e
Donde 0 , 1 y e es el intercepto, pendiente y error respectivamente. Es importante
mencionar que el error o las perturbaciones aleatorias del modelo de regresin lineal se
deben asemejar a una distribucin normal estndar, la varianza debe ser constante a travs
del tiempo y los errores deben ser independientes entre s. Este modelo supone una
asociacin lineal entre las variables de estudio.
Mediante el coeficiente de correlacin de Pearson, se puede obtener el grado de asociacin
lineal entre dos variables cuantitativas. Si el coeficiente es mayor que cero, la relacin
lineal es directa, es decir a medida que una de las variables aumenta, la otra tambin
aumentar, mientras que si el coeficiente es menor cero, indicar que tal relacin es inversa,
por lo cual a medida que una de las variables se incremente, se esperara que la variable
restante aumente. Por otro lado si el coeficiente se encuentra muy cercano al valor cero, no
habr ningn tipo de relacin lineal entre las dos variables objeto de estudio. Este
coeficiente siempre se encontrar entre -1 y 1.
Si se eleva el coeficiente de determinacin al cuadrado se obtiene el coeficiente de
determinacin, que indica la proporcin de la variacin total de la variable aleatoria Y, que
puede ser explicada a travs del conocimiento de la variable X. Por ejemplo si este
indicador es del 90%, entonces el porcentaje de variacin de la variable dependiente que se
encuentra explicada por el modelo regresin lineal es del 90%, mientras que el 10%
restante se encuentra explicado por otras variables que no fueron consideradas en la
ecuacin de regresin lineal.
5. Consideran que existe alguna relacin lineal entre la distancia y el porcentaje de
contaminacin? Justificar su respuesta mediante la prueba adecuada.
Para determinar si existe una relacin entre la distancia y el porcentaje de contaminacin,
un primer indicio es el grafico de dispersin entre las dos variables de anlisis.

En el grafico anterior se aprecia que la relacin entre el porcentaje de contaminacin y la


distancia recorrida es negativa, es decir a medida que el porcentaje aumenta, entonces la
distancia entre el punto donde se descarga una planta qumica y el punto de lectura sobre el
rio disminuir.
Un indicador del grado de asociacin lineal entre ambas variables es el coeficiente de
correlacin muestral, el cual se obtiene en Excel por medio de la funcin
COEF.DE.CORRE.
El coeficiente de correlacin resulto ser del -82,12%. Este indicador es descriptivo mas no
es una prueba formal, por tanto es necesario realizar la hiptesis de linealidad de los dos
parmetros que se involucran en la ecuacin de regresin (intercepto y pendiente).
Se debe realizar la siguiente hiptesis:

H 0 : 0 1 0

vs

H a : 0

La tabla de Anlisis de Varianza es:

Regresin
Residuos
Total

Promedio
Grados de
Suma de
de los
libertad
cuadrados
cuadrados
F
1 58,7698067 58,7698067 58,0138449
28
28,36486 1,01303071
29 87,1346667

Valor p
2,6885E-08

Se aprecia que el valor p es menor que un nivel de significancia del 5%, por tanto hay
suficiente evidencia estadstica para rechazar la hiptesis nula, por ende se cumple el
supuesto de linealidad, esto quiere decir que al menos uno de los parmetros es
significativo a la hora de estimar el porcentaje de contaminacin
6. Encontrar el modelo estimado que sirve para predecir el porcentaje de
contaminacin en funcin de la distancia.
El modelo estimado en el programa Microsoft Excel resulto ser:
Coeficiente
Estadstico Probabilida
Inferior
Superior
s
Error tpico
t
d
95%
95%
10,487747 0,4747810 22,089650
9,5152022 11,460291
Intercepcin
1
3
6 2,9475E-19
1
9
X = Distancia -0,5735803 0,0753058 -7,616682 2,6885E-08 -0,7278373 -0,4193234

Matemticamente se puede expresar como:

Y 10,4877471 0,5735803 X
donde Y = Porcentaje de Contaminacin
X = Distancia Recorrida
7. Interpretar las estimaciones de los parmetros del modelo
Intercepto: Si el porcentaje de contaminacin del rio es cero, entonces la distancia
promedio recorrida en kilmetros desde el punto de descarga de la planta qumica hasta el
punto de lectura del rio es de 10,48774 kilmetros aproximadamente.
8. Hallar e interpretar los coeficientes de correlacin y determinacin
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0,82126184
Coeficiente de determinacin R^2
0,67447101
R^2 ajustado
0,66284498
Error tpico
1,00649427
Observaciones
30

El grado de asociacin lineal entre la distancia y el porcentaje de contaminacin es del


82,12%.
El porcentaje de variacin de la variable dependiente que se encuentra explicada por la
ecuacin de regresin lineal ajustada es del 67,447% (coeficiente de determinacin),
mientras que el 32,553% restante se encuentra explicado por otras variables que no fueron
consideradas en el modelo de regresin.

You might also like