You are on page 1of 16

REPÚBLICA BOLIVARIANA DE VENEZUELA.

MINISTERIO DEL PODER POPULAR PARA LA EDUCACIÓN.

INSTITUTO UNIVERSITARIO POLITÉCNICO SANTIAGO MARIÑO.

ESCUELA DE INGENIERÍA INDUSTRIAL.

PORLAMAR- ESTADO NUEVA ESPARTA.

PRUEBA DE HIPÓTESIS, REGRESIÓN Y CORRELACIÓN, SERIES


CRONOLÓGICAS.

Realizado por:

Andreina Navarro C.I 25. 807.799

Sección 1A

Agosto, 2016
INTRODUCCIÓN.

En este trabajo se habla sobre diversos temas de interés estadístico, uno de ellos es la
prueba de hipótesis, que es una prueba estadística que se utiliza para determinar si existe
suficiente evidencia en una muestra de datos para inferir que cierta condición es válida para
toda la población. Una prueba de hipótesis examina dos hipótesis opuestas sobre una
población: la hipótesis nula y la hipótesis alternativa. También se hablan de otras pruebas
como la prueba de regresión y de correlación, las cuales con explicadas con detalle en el
desarrollo de la investigación.

Finalmente se explica acerca de las series cronológicas las cuales se usan para estudiar la
relación causal entre diversas variables que cambian con el tiempo y se influyen entre sí.
Desde el punto de vista probabilístico una serie temporal es una sucesión de variables
aleatorias indexadas según parámetro creciente con el tiempo.
PRUEBA DE HIPÓTESIS.

Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis,
hipótesis es una aseveración de una población elaborado con el propósito de poner a
prueba, para verificar si la afirmación es razonable se usan datos. En el análisis estadístico
se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas
para verificar la aseveración o para determinar que no es verdadera. Por tanto, la prueba de
hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad;
se emplea para determinar si la hipótesis es una afirmación razonable.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca


de las poblaciones que se estudian.

La hipótesis nula Ho.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de


población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero
no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay
cambio" Podemos rechazar o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

La hipótesis alternativa H1.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula.


Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente
de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación.
El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con
respecto al valor especificado del parámetro.

Nivel de significancia.

Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota


mediante la letra griega α, también es denominada como nivel de riesgo, este término es
más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es
verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de


significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de
aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis
planteada, cuando es verdadera en la población.

Cálculo del valor estadístico de prueba.

Valor determinado a partir de la información muestral, que se utiliza para determinar si se


rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso
utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de
muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el
estadístico z, en caso contrario se utiliza el estadístico t.

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

Etapas Básicas en Pruebas de Hipótesis

Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en


parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la
estadística muestral, así como la media (x), con el parámetro hipotético, se compara con
una supuesta media poblacional (). Después se acepta o se rechaza el valor hipotético,
según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco
probable cuando la hipótesis es cierta.

Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa.

Etapa 2.- Especificar el nivel de significancia que se va a utilizar.

Etapa 3.- Elegir la estadística de prueba.

Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba. Habiendo


especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se van
a utilizar, se produce a establecer el o los valores críticos de estadística de prueba. Puede
haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos
extremos.

Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un
valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el
valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se
transforma la media muestral en un valor de z.

Etapa 6.- Tomar la decisión. Se compara el valor observado de la estadística muestral con
el valor (o valores) críticos de la estadística de prueba. Después se acepta o se rechaza la
hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá
efecto sobre otras decisiones de los administradores operativos, como por ejemplo,
mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia
utilizar.

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación
de la Ho o de la H1, puede incurrirse en error:

Un error tipo I, se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía


ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada
cuando de hecho es falsa y debía ser rechazada. En cualquiera de los dos casos se comete
un error al tomar una decisión equivocada.

Ejemplo.

Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra
una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años.
Queremos probar si la vida media hoy en día es mayor a 70 años con base en esa muestra.
La muestra parecería indicar que es así pero ¿Cuál es la probabilidad de que la media de la
muestra no refleje la verdadera media de la población?

Utilizar un nivel de significancia de 0.05.

Solución:

Se trata de una distribución muestral de medias con desviación estándar conocida.

1. Datos:

m =70 años

s = 8.9 años x= 71.8 años n = 100

a = 0.05

2. Establecemos la hipótesis.

Ho; m = 70 años. H1; m > 70 años.

3. Nivel de significancia

a = 0.05, zα = 1.645

4. Regla de decisión:
Si z ≤ 1.645 no se rechaza Ho. Si z > 1.645 se rechaza Ho.

5. Cálculos:

6. Decisión y justificación.

Como 2.02 >1.645 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que
la vida media hoy en día es mayor que 70 años.

PRUEBA DE REGRESIÓN.

En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para


aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Donde:

Yt: variable dependiente, explicada o regresando.

X1, X2,…XP: variables explicativas, independientes o regresores.

β0, β1, β2,… βP: parámetros, miden la influencia que las variables explicativas tienen sobre
el regrediendo.

Donde β0 es la intersección o término "constante", las βi (i ˃ 0) son los parámetros


respectivos a cada variable independiente, y p es el número de parámetros independientes a
tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión
no lineal.
El modelo de regresión lineal.

El modelo lineal relaciona la variable dependiente Y con K variables explícitas Xk (k =


1,...K), o cualquier transformación de éstas que generen un hiperplano de parámetros βk
desconocidos:

Donde ɛ es la perturbación aleatoria que recoge todos aquellos factores de la realidad no


controlables u observables y que por tanto se asocian con el azar, y es la que confiere al
modelo su carácter estocástico. En el caso más sencillo, con una sola variable explícita, el
hiperplano es una recta:

El problema de la regresión consiste en elegir unos valores determinados para los


parámetros desconocidos βk, de modo que la ecuación quede completamente especificada.
Para ello se necesita un conjunto de observaciones. En una observación i-ésima (i= 1,... I)
cualquiera, se registra el comportamiento simultáneo de la variable dependiente y las
variables explícitas (las perturbaciones aleatorias se suponen no observables).

Los valores escogidos como estimadores de los parámetros βk, son los coeficientes de
regresión sin que se pueda garantizar que coincida n con parámetros reales del proceso
generador. Por tanto, en

Los valores ɛi son por su parte estimaciones o errores de la perturbación aleatoria.


Hipótesis del modelo de regresión lineal clásico

1. Esperanza matemática nula: Para cada valor de X la perturbación


tomará distintos valores de forma aleatoria, pero no tomará sistemáticamente
valores positivos o negativos, sino que se supone tomará algunos valores mayores
que cero y otros menores que cero, de tal forma que su valor esperado sea cero.

2. Homocedasticidad: para todo t. Todos los términos de


la perturbación tienen la misma varianza que es desconocida. La dispersión de cada
ɛt en torno a su valor esperado es siempre la misma.

3. Incorrelación o independencia: para


todo t,s con t distinto de s. Las covarianzas entre las distintas perturbaciones son
nulas, lo que quiere decir que no están correlacionadas. Esto implica que el valor de
la perturbación para cualquier observación muestral no viene influenciado por los
valores de las perturbaciones correspondientes a otras observaciones muéstrales.
4. Independencia lineal. No existen relaciones lineales exactas entre los regresores.

5. . Suponemos que no existen errores de especificación en el modelo, ni


errores de medida en las variables explicativas.
6. Normalidad de las perturbaciones:

Supuestos del modelo de regresión lineal

Para poder crear un modelo de regresión lineal es necesario que se cumpla con los
siguientes supuestos:

1. Que la relación entre las variables sea lineal.


2. Que los errores en la medición de las variables explicativas sean independientes
entre sí.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemática igual a cero (los errores de una
misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.
Tipos de modelos de regresión lineal

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

Regresión lineal simple:

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son
de la forma:

donde ɛi es el error asociado a la medición del valor Xi y siguen los supuestos de modo que
ɛi ~ N(0, σ2)(media cero, varianza constante e igual a un σ y ɛi ┴ ɛj con i ≠ j).

Dado el modelo de regresión simple anterior, si se calcula la esperanza (valor esperado) del
valor Y, se obtiene:

Derivando respecto a β0 y β1 e igualando a cero, se obtiene:

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente


solución para ambos parámetros:
La interpretación del parámetro medio β1 es que un incremento en Xi de una unidad, Yi
incrementará en β1.

Regresión lineal múltiple

La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la
misma manera, es posible analizar la relación entre dos o más variables a través de
ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple.

Constantemente en la práctica de la investigación estadística, se encuentran variables que


de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables
pueda relacionarse matemáticamente en función de otra u otras variables. Maneja varias
variables independientes. Cuenta con varios parámetros. Se expresan de la forma:

donde ɛi es el error asociado a la medición i del valor Xip y siguen los supuestos de modo
que ɛi ~ N(0, σ2 (media cero, varianza constante e igual a un σ y ɛi / ɛj con i ≠ j).

Rectas de Regresión

Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también
llamado diagrama de dispersión) generada por una distribución binomial.
Matemáticamente, son posibles dos rectas de máximo ajuste:

 La recta de regresión de Y sobre X:


 La recta de regresión de X sobre Y:

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a
1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy
fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a
0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo
obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad).
Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la
distribución.

PRUEBA DE CORRELACIÓN.

En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal


entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlación de Pearson como


un índice que puede utilizarse para medir el grado de relación de dos variables siempre y
cuando ambas sean cuantitativas.

En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el
coeficiente de correlación de Pearson se simboliza con la letra px,y, siendo la expresión que
nos permite calcularlo:

Donde:

σXY es la covarianza de (X, Y)


σX es la desviación típica de la variable X

σY es la desviación típica de la variable Y

De manera análoga podemos calcular este coeficiente sobre un estadístico muestral,


denotado como r XY a:

Interpretación

Varios grupos de puntos (x, y), con el coeficiente de correlación para cada grupo. Nótese
que la correlación refleja la no linealidad y la dirección de la relación lineal. En la figura
del centro, la varianza de y es nula, por lo que la correlación es indeterminada.

El valor del índice de correlación varía en el intervalo [-1,1]:

 Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia


total entre las dos variables denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción constante.
 Si 0 < r < 1, existe una correlación positiva.
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales entre las
dos variables.
 Si -1 < r < 0, existe una correlación negativa.
 Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia
total entre las dos variables llamada relación inversa: cuando una de ellas aumenta,
la otra disminuye en proporción constante
SERIES CRONOLÓGICAS.

Una serie temporal o cronológica es una secuencia de datos, observaciones o


valores, medidos en determinados momentos y ordenados cronológicamente. Los datos
pueden estar espaciados a intervalos iguales (como la temperatura en un observatorio
meteorológico en días sucesivos al mediodía) o desiguales (como el peso de una persona en
sucesivas mediciones en el consultorio médico, la farmacia, etc.). Para el análisis de las
series temporales se usan métodos que ayudan a interpretarlas y que permiten extraer
información representativa sobre las relaciones subyacentes entre los datos de la serie o de
diversas series y que permiten en diferente medida y con distinta confianza extrapolar o
interpolar los datos y así predecir el comportamiento de la serie en momentos no
observados, sean en el futuro (extrapolación pronostica), en el pasado (extrapolación
retrógrada) o en momentos intermedios (interpolación).

Uno de los usos más habituales de las series de datos temporales es su análisis para
predicción y pronóstico (así se hace por ejemplo con los datos climáticos, las acciones de
bolsa, o las series de datos demográficos). Resulta difícil imaginar una rama de las ciencias
en la que no aparezcan datos que puedan ser considerados como series temporales. Las
series temporales se estudian en estadística, procesamiento de señales, econometría y
muchas otras áreas.

Componentes

El análisis más clásico de las series temporales se basa en que los valores que toma la
variable de observación es la consecuencia de cuatro componentes, cuya actuación conjunta
da como resultado los valores medidos, estos componentes son:

1. Tendencia secular o regular, indica la marcha general y persistente del fenómeno


observado, es una componente de la serie que refleja la evolución a largo plazo. Por
ejemplo, la tendencia creciente del índice de reciclado de basuras en los países
desarrollados, o el uso creciente de Internet en la sociedad, independientemente de
que en un mes concreto en un país, por determinadas causas, haya una baja en la
utilización de Internet.
2. Variación estacional o Variación cíclica regular. Es el movimiento periódico de
corto plazo. Se trata de una componente causal debida a la influencia de ciertos
fenómenos que se repiten de manera periódica en un año (las estaciones), una
semana (los fines de semana) o un día (las horas puntas) o cualquier otro periodo.
Recoge las oscilaciones que se producen en esos períodos de repetición.
3. Variación cíclica. Es el componente de la serie que recoge las oscilaciones
periódicas de amplitud superior a un año. movimientos normalmente irregulares
alrededor de la tendencia, en las que a diferencia de las variaciones estacionales,
tiene un período y amplitud variables, pudiendo clasificarse como cíclicos,
cuasicíclicos o recurrentes.
4. Variación aleatoria o ruido, accidental, de carácter errático, también denominada
residuo, no muestran ninguna regularidad (salvo las regularidades estadísticas),
debidos a fenómenos de carácter ocasional como pueden ser tormentas, terremotos,
inundaciones, huelgas, guerras, avances tecnológicos, etc.
5. Variación trasciente, accidental, de carácter errático debido a fenómenos aislados
que son capaces de modificar el comportamiento de la serie (tendencia,
estacionalidad variaciones cíclicas y aleatorias).

Notación

Existen diferentes notaciones empleadas para la representación matemática de una serie


temporal:

Ésta es una de las comunes que representa una Serie de Tiempo X que es indexada por
números naturales. También estamos acostumbrados a ver:
CONCLUSIONES.

Los conceptos antes mencionados han sido analizados e investigados de tal manera de
hacer más fácil su comprensión y entendimiento, se pudo concluir que:

 Estadísticamente una prueba de hipótesis es cualquier afirmación acerca de una


población y/o sus parámetros. Una prueba de hipótesis consiste en contrastar dos
hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca de las
hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra.
 El análisis de la prueba regresión es una técnica estadística utilizada para estudiar la
relación entre variables. Se adapta a una amplia variedad de situaciones. En la
investigación social, el análisis de regresión se utiliza para predecir un amplio rango
de fenómenos, desde medidas económicas hasta diferentes aspectos del
comportamiento humano.
 El índice numérico más común usado para medir una correlación es el “coeficiente
de Pearson”. El coeficiente de Pearson (también llamado coeficiente de correlación
del producto-momento), se representa con el símbolo ‘r’ y proporciona una medida
numérica de la correlación entre dos variables.
 Las series cronológicas o temporales pueden servir para predecir acontecimientos
futuros en base a ciertos comportamientos de determinadas variables.

You might also like