Probabilidad y Estadistica 100 (Reparado)

INSTITUTO TECNOLOGICO DE CANCUN.
PROBABILIDAD Y ESTADISTICA
SANCHEZ ESPAA LUIS ALBERTO INGENIERIA CIVIL
UNIDAD 5
NO DE CONTROL: 11530494
INTRODUCCION
INDICE
PORTADA. INTRODUCCION.. MEDIDAS DE FORMA.. SESGO O SIMETRIA.. CURVA DE ASIMETRIA NEGATIVA CURVA SIMETRICO.. CARACTERISTICAS DE LAS FORMAS SEGADAS (POSITIVO ONEGATIVO) CRITERIOS PARA DETERMINAR EL TIPO DE SESGO DE UNA DISTRIBUCION DE DATOS . COEFICIENTE DE FISHER. APUNTAMIENTOS.. DISTRIBUCION DE SUS 3 FORMAS DISTINTAS PLATICURTICA,MESOCURTICA,LERTOCURTICA CRITERIO PARA DETERMINAR EL GRADO DE APUNTAMIENTO EN BASE ALA CUARTOSIS MEDIDAS DE CORRELACION. COEFICIENTE DE CORELACION. MODELO DE REGRESION Y CORRELACION. VARIABLE DEPENDIOENTE E INDEPENDIENTE COEFICIENTE DE CORRELACION LINEAL DE PEARSON
MEDIDAS DE FORMA
Son indicadores estadsticos que permiten identificar si una distribucin de frecuencia presenta uniformidad En este capitulo analizaremos dos medidas de forma: *Coeficiente de asimetra Y Curtosis Antes de empezar con cada uno de estos indicadores, analizaremos los tipos ms comunes de distribucin de frecuencia y la relacin media, mediana y moda como primera medida para identificar el grado de asimetra en una distribucin de frecuencia. TIPOS DE DISTRIBUCIONES DE FRECUENCIA MS COMUNES 7.1.1 Distribucin simtrica Al dividir una distribucin de frecuencia mediante la mediana, ambas reas resultantes son iguales, es decir, los datos se distribuyen de la misma forma y el rea abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos en ambas secciones).
50%
50%
Distribucin Uniforme: Las frecuencias tienen todas las 50% 50% mismas alturas
MEDIANA
50%
50%
Distribucin Simtrica: Los datos se concentran hacia el centro de la distribucin. Existe una distribucin simtrica con caractersticas muy definidas conocida como distribucin Normal
MEDIANA
50%
50%
Distribucin Triangular: Los datos se distribuyen dando forma a un triangulo.
Distribucin Binomial Simtrica: Presenta simetra con dos modas.

50% 50%
Distribucin asimtrica Los datos no se distribuyen de forma uniforme y similar en las reas que dan como resultado al dividir la distribucin de frecuencia por la mediana
Distribucin Sesgada hacia la Izquierda: Los datos se concentran hacia la izquierda de la distribucin.
Distribucin Sesgada hacia la Derecha: Los datos se concentran hacia la derecha de la distribucin.
Coeficiente de asimetra de Fisher Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, segn sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de simetra, decimos que la distribucin es simtrica. En caso contrario, dicha distribucin ser asimtrica o diremos que presenta asimetra.
El coeficiente de asimetra ms preciso es el de Fisher, que se define por:
Segn sea el valor de g1, diremos que la distribucin es asimtrica a derechas o positiva, a izquierdas o negativa, o simtrica, o sea: Si g1 > 0 la distribucin ser asimtrica positiva o a derechas (desplazada hacia la derecha). Si g1 < 0 la distribucin ser asimtrica negativa o a izquierdas (desplazada hacia la izquierda). Si g1 = 0 la distribucin puede ser simtrica; si la distribucin es simtrica, entonces si podremos afirmar que g1 = 0.
- Si existe simetra, entonces g1 = 0, y podemos afirmar que: - Si g1 > 0, entonces : - Si g1 < 0, entonces :
; si adems la distribucin es unimodal, tambin
APUNTAMIENTO (CURTOSIS) El apuntamiento o curtosis de una distribucin de frecuencias no tiene un referente natural como en el caso de la simetra, sino que se sustenta en la comparacin respecto a una distribucin de referencia, en concreto, la distribucin normal o campana de Gauss. En consecuencia, su obtencin slo tendr sentido en variables cuya distribucin de frecuencias sea similar a la de la curva normal en la prctica ello se reduce, bsicamente, a que sea unimodal y ms o menos simtrica. El apuntamiento expresa el grado en que una distribucin acumula casos en sus colas en comparacin con los casos acumulados en las colas de una distribucin normal cuya dispersin sea equivalente (Pardo y Ruiz, 2002). As, de forma anloga a la asimetra, se diferencian 3 grandes categoras de apuntamiento: Distribucin platicrtica (apuntamiento negativo): indica que en las colas hay ms casos acumulados que en las colas de una distribucin normal. Distribucin leptocrtica (apuntamiento positivo): justo lo contrario. Distribucin mesocrtica (apuntamiento normal): como en la distribucin normal. Variables ordinales: el ndice K2. El ndice K2 se basa en la comparacin de la dispersin existente en el 80% central de la distribucin con la existente en el 50% central
Interpretacin: valores igual o muy prximos a 1 corresponden a una distribucin mesocrtica (apuntamiento como la distribucin normal); valores mayores que 1 ponen de manifiesto que la distribucin es leptocrtica (ms puntiaguda que la normal); mientras que si son menores que 1 indican que la distribucin es platicrtica (ms aplastada que la normal). Este coeficiente no est limitado a un rango de valores.
ASIMETRIA (SESGO)
La simetra (tambin denominada sesgo) de una distribucin de frecuencias hace referencia al grado en que valores de la variable, equidistantes a un valor que se considere centro de la distribucin, poseen frecuencias similares. Es un concepto ms intuitivo a nivel visual, especialmente, si se observa una representacin grfica (diagrama de barras, histograma) de la distribucin de frecuencias. sta ser simtrica si la mitad izquierda de la distribucin es la imagen especular de la mitad derecha.
Ejemplos de distribucin simtrica
Media y mediana coinciden en las distribuciones simtricas. Si slo hay una moda (distribucin unimodal), el valor de sta tambin ser igual a las dos anteriores En distribuciones unimodales, el nivel de simetra se suele describir de acuerdo a tres grandes categoras: distribuciones simtricas, distribuciones asimtricas positivas (o asimetra a la derecha) y distribuciones asimtricas negativas (o asimetra a la izquierda). Tomando como eje de referencia a la moda, estas categoras de asimetra vienen definidas por el diferente grado de dispersin de los datos a ambos lados (colas) de ese eje virtual. La cola ms dispersa en el lado de los valores altos de la variable caracteriza a la asimetra positiva; si en el lado de los ms bajos, a la asimetra negativa; y si la dispersin es igual o muy similar a ambos lados, a una distribucin de frecuencias simtrica.
Ejemplo de las puntuaciones de un grupo de sujetos en un test de habilidades sociales antes, durante y despus de recibir 6 sesiones de entrenamiento en habilidades sociales
Antes (X=3,26; Mdn=3; Mo=2)
Durante (X=4,97; Mdn=5; Mo=5) Despus (X=6,67; Mdn=7; Mo=8)
Medidas De Correlacion En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad El objetivo primordial de la correlacin es medir la intensidad de la relacin entre dos variables. Se llama variable a la caracterstica o aspecto que se considera para cada elemento de la muestra y puede tomar diferentes valores. Supongamos que tenemos una muestra de N personas, a cada persona se le asignan dos nmeros, uno mide su estatura y otro mide su peso. El conjunto de valores X = {x1, x2, ...,xN} representa las diferentes estaturas y el conjunto Y = {y1, y2, ...,yN} representa los diferentes pesos. De esta forma podemos crear el conjunto de pares ordenados P = {(x1 , y1), (x2 , y2), ...,(xN , yN)} donde el par ordenado (xi , yi) representa el peso y la estatura de la persona nmero i. Para este conjunto podemos investigar la correlacin que existe entre estatura y peso .Coeficiente de correlacin El coeficiente de correlacin lineal se expresa mediante la letra r.
Propiedades 1. El coeficiente de correlacin no vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 2. El signo del coeficiente de correlacin es el mismo que el de la covarianza. Si la covarianza es positiva, la correlacin es directa. Si la covarianza es negativa, la correlacin es inversa. Si la covarianza es nula, no existe correlacin. 3. El coeficiente de correlacin lineal es un nmero real comprendido entre menos 1 y 1. 1 r 1 4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.
5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.
MEDIDAS DE CORRELACIN Al ajustar un modelo de regresin mltiple a una nube de observaciones es importante disponer de alguna medida que permita medir la bondad del ajuste. Esto se consigue con los coeficientes de correlacin mltiple. Coeficiente de correlacin mltiple. En el estudio de la recta de regresin se ha definido el coeficiente de correlacin lineal simple (o de Pearson) entre dos variables X e Y , como
(8.25)
donde s es la covarianza muestral entre las variables X e Y ; sX y sY son las desviaciones tpicas muestrales de X e Y , respectivamente. El coeficiente de correlacin lineal simple es una medida de la relacin lineal existente entre las variables X e Y. En general cuando se ajusta un modelo estadstico a una nube de puntos, una medida de la bondad del ajuste es el coeficiente de determinacin, definido por
(8.26)
Si el modelo que se ajusta es un modelo de regresin lineal mltiple, a R se le denomina coeficiente de correlacin mltiple y representa el porcentaje de variabilidad de la Y que explica el modelo de regresin. Como scE < scG, se verifica que 0 < R2 < 1. Si R2 = 1 la relacin lineal es exacta y si R2 = 0 no existe relacin lineal entre la variable respuesta y las variables regresoras.
El coeficiente de correlacin mltiple R es igual al coeficiente de correlacin lineal simple entre el vector variable respuesta y el vector de predicciones ,
El coeficiente de correlacin mltiple R presenta el inconveniente de aumentar siempre que aumenta el nmero de variables regresoras, ya que al aumentar k (nmero de variables regresoras) disminuye la variabilidad no explicada, algunas veces de forma artificial lo que puede ocasionar problemas de multicolinealidad. Si el nmero de observaciones n es pequeo, el coeficiente R2 es muy sensible a los valores de n y k. En particular, si n = k + 1 el modelo se ajusta exactamente a las observaciones. Por ello y con el fin de penalizar el nmero de variables regresoras que se incluyen en el modelo de regresin, es conveniente utilizar el coeficiente de determinacin corregido por el nmero de grados de libertad, 2. Este coeficiente es similar al anterior, pero utiliza el cociente de varianzas en lugar del cociente de sumas de cuadrados. Para su definicin se tiene en cuenta que
Cambiando las sumas de cuadrados por varianzas se obtiene el coeficiente de determinacin corregido por el nmero de grados de libertad, 2, definido como sigue
(8.27)
Ahora es fcil deducir la siguiente relacin entre los dos coeficientes de determinacin
(8.28)
Tambin es fcil relacionar el estadstico del contraste de regresin mltiple con el coeficiente de determinacin, obteniendo
(8.29)
Correlacin Parcial Sea un conjunto de variables aleatorias, el coeficiente de correlacin parcial entre Xi y Xj es una medida de la relacin lineal entre las variables Xi y Xj una vez que se ha eliminado en ambas variables los efectos debidos al resto de las variables del conjunto . Al coeficiente de correlacin parcial entre X1 y X2 se le denotar por r123...k Para una mejor interpretacin de este concepto, considrese el conjunto de cuatro variables , se desea calcular el coeficiente de correlacin parcial entre las variables X1 y X2. Para ello, se procede de la siguiente forma, 1. Se calcula la regresin lineal de X1 respecto de X3 y X4
donde e134 son los residuos del ajuste lineal realizado. 2. Se calcula la regresin lineal de X2 respecto de X3 y X4 X2 donde e2.34 son los residuos del ajuste lineal realizado. 3. El coeficiente de correlacin parcial entre X1 y X2 es el coeficiente de correlacin lineal simple entre las variables e1.34 y e2.34,
Por tanto, el coeficiente de correlacin lineal se define siempre dentro de un conjunto de variables y no tiene interpretacin ni sentido si no se indica este conjunto de variables. Relacin entre los coeficientes de correlacin. Sea el conjunto de variables , entonces se verifica la siguiente relacin entre los coeficientes de correlacin lineal simple y el coeficiente de correlacin parcial,
(8.30)
Clculo del coeficiente de correlacin parcial. En un modelo de regresin mltiple
se puede calcular fcilmente el coeficiente de correlacin parcial entre la variable respuesta Y y una variable regresora Xi controlado por el resto de variables regresoras. Para ello se utiliza el estadstico del contraste individual de la t respecto a la variable Xi y que se defini anteriormente como
obtenindose la siguiente relacin
(8.31)
donde C = excepto el ndice i.
el conjunto de ndices de todas las variables regresoras
Prediccin en el Modelo de Regresin Lineal Mltiple. Razonando como en el modelo de regresin lineal simple, se deben distinguir dos problemas diferentes: Estimar la media de la distribucin condicionada de Y/ parmetro =
t.
Esto es, se quiere estimar el
Y poder responder a preguntas como la siguiente: cul es el volumen medio de los rboles de dimetro 10 u. y altura 80 u.?. Predecir el valor de la variable respuesta en un individuo del que se conoce que es, se quiere predecir un valor de la variable condicionada Y/ = h. =
h.
Esto
Se quiere responder a preguntas como la siguiente: conociendo que un determinado rbol tiene un dimetro 10 u. y una altura de 80 u. qu volumen se predice para este rbol? Estimacin de las medias condicionadas. Una vez que se ha ajustado el modelo de regresin lineal por mnimos cuadrados se obtiene
El estimador de la media de la distribucin condicionada de Y/ E , se obtiene sustituyendo

t
t,
esto es, del parmetro mt =
en el modelo de regresin. Obteniendo
Este estimador tiene las siguientes propiedades: 1. Es un estimador centrado o insesgado, E = mt = E
-1 2. La varianza del estimador t es V ar = 2 htt, donde htt = tt t es el valor de influencia o leverage asociado al vector t. La interpretacin de este valor es la expuesta en la seccin 8.7
Se define el inverso de htt como el nmero equivalente de observaciones para estimar mt, valor que se denota por nt = 1/htt. La interpretacin de nt es la siguiente: la informacin que proporciona la muestra, de tamao n,
i=1 n
para estimar mt es la misma que proporcionara una muestra de tamao nt de

n j = 1 hde
observaciones
una poblacin con distribucin igual a la condicionada de Y/

i,
t.
Para todas las observaciones muestrales
i = 1,...,n, se verifica que
Adems para cualquier valor de t se verifica que el valor de nt ser mayor cuanto ms prximo est t de y cuando t = se obtiene que nt = n, valor mximo que puede tomar. Inversamente, si la distancia entre t y crece entonces el valor de nt disminuye, y si esta distancia se hace infinitamente grande (se extrapola) el valor de nt se aproxima a cero. 3. La distribucin de
t
es normal. Por tanto,
4. Como en la prctica el parmetro 2 es desconocido, el estadstico pivote t no se puede utilizar para calcular intervalos de confianza y es necesario sustituir 2 desconocido por un estimador, R2. Obteniendo el siguiente estadstico pivote t
(8.32)
5. Por la hiptesis de normalidad se sigue que la distribucin de
es
1. se obtiene que un intervalo de confianza de mt con un nivel de confianza
es
Al estimar una media condicionada utilizando el modelo de regresin se debe de tener en cuenta que los resultados son razonables dentro del rango de valores de las variables regresoras (interpolar) donde se verifica que 1 < nt < n y, en particular, para t = se verifica que nt = n, y la estimacin de mt tiene la menor varianza. Si t es un vector alejado de , entonces nt es pequeo y V ar grande, obtenindose estimaciones poco precisas. Finalmente, si se estima la media condicionada mt fuera del rango de valores de (extrapolar), entonces puede ocurrir que nt 0, lo que hace que la precisin de la estimacin de mt sea muy pequea. Prediccin de una observacin. Se desea predecir el valor de la respuesta, Y , de un individuo del que se sabe que = t, utilizando el ajuste de un modelo de regresin lineal de la variable Y respecto al vector de variables regresoras . El predictor por que minimiza el Error Cuadrtico Medio de Prediccin, E viene dado
Por tanto, la prediccin de Y t = Y/ pero su varianza es mayor. El predictor

t
es el mismo valor que se obtiene en la estimacin de mt
verifica las siguientes propiedades: =E
1. La prediccin es centrada, ya que, E 2. La varianza de la prediccin es,
3. Para calcular intervalos de prediccin de yt se utilizar el siguiente estadstico pivote
(8.35)
4. Un intervalo de prediccin de yt con nivel de confianza
viene dado por
(8.36)
5. Los intervalos de prediccin que se obtienen son mucho mayores que los intervalos de confianza de la media condicionada mt ya que la varianza ha aumentado. Anlisis de un caso de un modelo de regresin lineal mltiple. En esta seccin se presenta el desarrollo en detalle de un supuesto prctico del modelo de regresin lineal mltiple con dos variables regresoras, en los clculos se utiliza toda la teora expuesta en este captulo. Ejemplo 8.1. Los datos de la tabla adjunta proporcionan el volumen (en pies cbicos), altura (en pies) y dimetro (en pulgadas, medido a 54 pulgadas del suelo) de una muestra de 31 rboles del tipo cerezo negro, en el Allegheny National Forest, en Pensilvania. Con estos datos se quiere hacer un estudio sobre el rendimiento de la madera y, para ello, se ajusta un modelo de regresin lineal que permita predecir el volumen de un rbol cuando se conoce su altura y dimetro.
Variable dependiente e independiente Una variable es una caracterstica que al ser medida en diferentes individuos es susceptible de adoptar diferentes valores. Existen diferentes tipos de variables: Variables cualitativas Son las variables que expresan distintas cualidades, caractersticas o modalidad. Cada modalidad que se presenta se denomina atributo o categora y la medicin consiste en una clasificacin de dichos atributos. Las variables cualitativas pueden ser dicotmicas cuando slo pueden tomar dos valores posibles como s y no, hombre y mujer o son politmicas cuando pueden adquirir tres o ms valores. Dentro de ellas podemos distinguir:
Variable cualitativa ordinal o variable cuasicuantitativa: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, fuerte. Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores.
Variables cuantitativas Son las variables que se expresan mediante cantidades n umricas. Las variables cuantitativas adems pueden ser:
Variable discreta : Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores especficos que la variable pueda asumir. Ejemplo: El nmero de hijos (1, 2, 3, 4, 5). Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo la masa (2,3 kg, 2,4 kg, 2,5 kg,...) o la altura (1,64 m, 1,65 m, 1,66 m,...), o el salario. Solamente se est limitado por la precisin del aparato medidor, en teora permiten que exista un valor entre dos variables.
Segn la influencia Segn la influencia que asignemos a unas variables sobre otras, podrn ser: Variables independientes Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrnsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo. Es aquella caracterstica o propiedad que se supone ser la causa del fenmeno estudiado. En investigacin experimental se llama as a la variable que el investigador manipula. Variables dependientes Son las variables de respuesta que se observan en el estudio y que podran estar influidas por los valores de las variables independientes. Hayman (1974 : 69) la define como propiedad o caracterstica que se trata de cambiar mediante la manipulacin de la variable independiente. La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente.
Otras Variables intervinientes Son aquellas caractersticas o propiedades que, de una manera u otra, afectan el resultado que se espera y estn vinculadas con las variables independientes y dependientes. Variables moderadoras Segn Tuckman: representan un tipo especial de variable independiente, que es secundaria, y se selecciona con la finalidad de determinar si afecta la relacin entre la variable independiente primaria y las variables dependientes. Son las variables que expresan distintas cualidades, caractersticas o modalidad. Cada modalidad que se presenta se denomina atributo o categora y la medicin consiste en una clasificacin de dichos atributos. Las variables cualitativas pueden ser dicotmicas cuando slo pueden tomar dos valores posibles como s y no, hombre y mujer o son politmicas cuando pueden adquirir tres o ms valores. Coeficiente de correlacin de Pearson En estadstica, el coeficiente de correlacin de Pearson es un ndice que mide la relacin lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlacin de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlacin de Pearson como un ndice que puede utilizarse para medir el grado de relacin de dos variables siempre y cuando ambas sean cuantitativas. Definicin En el caso de que se est estudiando dos variables aleatorias x e y sobre una poblacin estadstica; el coeficiente de correlacin de Pearson se simboliza con la letra , siendo la expresin que nos permite calcularlo:
Donde:

es la covarianza de es la desviacin tpica de la variable es la desviacin tpica de la variable
De manera anloga podemos calcular este coeficiente sobre un estadstico muestral, denotado como a:
Interpretacin El valor del ndice de correlacin vara en el intervalo [-1,1]:
Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre las dos variables denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo hace en proporcin constante. Si 0 < r < 1, existe una correlacin positiva. Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todava relaciones no lineales entre las dos variables. Si -1 < r < 0, existe una correlacin negativa. Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia total entre las dos variables llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en proporcin constante.
El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las varables es lineal (es decir, si representaramos en un gfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta).
No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:
Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra. Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms. Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos. Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar.

Probabilidad y Estadistica 100 (Reparado)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Probabilidad y Estadistica 100 (Reparado)

Uploaded by

Copyright:

Available Formats

INSTITUTO TECNOLOGICO DE CANCUN.

Distribucin Triangular: Los datos se distribuyen dando forma a un triangulo.

Distribucin Binomial Simtrica: Presenta simetra con dos modas.

El coeficiente de asimetra ms preciso es el de Fisher, que se define por:

; si adems la distribucin es unimodal, tambin

Ejemplos de distribucin simtrica

Antes (X=3,26; Mdn=3; Mo=2)

Durante (X=4,97; Mdn=5; Mo=5) Despus (X=6,67; Mdn=7; Mo=8)

Clculo del coeficiente de correlacin parcial. En un modelo de regresin mltiple

obtenindose la siguiente relacin

donde C = excepto el ndice i.

el conjunto de ndices de todas las variables regresoras

Esto es, se quiere estimar el

El estimador de la media de la distribucin condicionada de Y/ E , se obtiene sustituyendo

esto es, del parmetro mt =

en el modelo de regresin. Obteniendo

Este estimador tiene las siguientes propiedades: 1. Es un estimador centrado o insesgado, E = mt = E

para estimar mt es la misma que proporcionara una muestra de tamao nt de

una poblacin con distribucin igual a la condicionada de Y/

Para todas las observaciones muestrales

i = 1,...,n, se verifica que

es normal. Por tanto,

5. Por la hiptesis de normalidad se sigue que la distribucin de

1. se obtiene que un intervalo de confianza de mt con un nivel de confianza

Por tanto, la prediccin de Y t = Y/ pero su varianza es mayor. El predictor

es el mismo valor que se obtiene en la estimacin de mt

verifica las siguientes propiedades: =E

1. La prediccin es centrada, ya que, E 2. La varianza de la prediccin es,

3. Para calcular intervalos de prediccin de yt se utilizar el siguiente estadstico pivote

4. Un intervalo de prediccin de yt con nivel de confianza

viene dado por

es la covarianza de es la desviacin tpica de la variable es la desviacin tpica de la variable

Interpretacin El valor del ndice de correlacin vara en el intervalo [-1,1]:

El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

You might also like