Estadística para Los Negocios y La Economía. Newbold.

FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION
ESTADSTICA PARA LOS NEGOCIOS.

Paul Newbold. Cmo resumir la informacin numrica. Poblaciones y muestras. Definicin. La poblacin es el conjunto completo de la informacin numrica sobre una caracterstica particular en la que el investigador est interesado. Una muestra es un subconjunto de los valores poblacionales observados. Notacin. Poblacin: N observaciones designadas por x1, x2, ..., xN. Muestra: n observaciones designadas por x1, x2, ..., xn Resumen numrico: medidas de centralizacin. La media. Definicin. La media de un conjunto de observaciones numricas es la suma de los valores del conjunto dividida por el nmero de observaciones, es decir, su promedio. La media se calcula sumando todas las observaciones y dividiendo el resultado por el nmero de observaciones. Expresiones algebraicas para la media. Sean x1, x2, ..., xN, los N datos correspondientes a una poblacin. Entonces, la media
xi poblacional es: =
i =1
N Sean x1, x2, ..., xn, los datos correspondientes a una muestra. Entonces, la media
muestral es:
X =
x
i =1
La mediana. Definicin. La mediana de un conjunto de observaciones es la observacin que ocupa el lugar central cuando stas estn ordenadas en sentido creciente si el nmero de observaciones es impar, y el promedio de las dos observaciones centrales si la cantidad es par. Es decir, si se tienen N observaciones ordenadas de menor a mayor, la mediana es la observacin que ocupa la posicin [(N + 1)/2] cuando N es impar, y la media de las observaciones que ocupan las posiciones (N/2) y [(N + 2)/2] cuando N es par.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION En aquellas situaciones en las que se considera inadecuado dar mucho peso a las observaciones extremas, se preferir usar como medida de centralizacin la mediana en lugar de la media. A pesar de esta ventaja de no verse tan afectada por las observaciones extremas, la mediana se usa con menor frecuencia que la media. El motivo es que el desarrollo terico de los mtodos de inferencia basados en la media es considerablemente ms sencillo que el desarrollo de los mtodos basados en la mediana. La moda. Definicin. La moda de un conjunto de observaciones es el valor que aparece con mayor frecuencia. El concepto de moda es relevante en los casos de conjuntos de datos en los que hay observaciones que aparecen varias veces. Resumen numrico: medidas de dispersin. La varianza y la desviacin tpica. Representemos por x1, x2, ..., xN una poblacin de valores numricos con media . Dado que queremos analizar la dispersin de estos valores, ser fijarnos en sus discrepancias con respecto a la media. Sin embargo, las diferencias de las observaciones con respecto a la media estn equilibradas; es decir, su suma es 0; pero no nos interesa el signo de estas diferencias. El promedio de los cuadrados de las discrepancias nos proporciona una medida de la dispersin que se conoce con el nombre de varianza. Definiciones. Sean x1, x2, ..., xN los N miembros de una poblacin con media . La varianza poblacional, 2, es el promedio de los cuadrados de las diferencias entre estos valores y su media. Es decir: = [ (xi - ) ] / N = ( xi2)/N - 2
2 2
i =1 i =1 N N
La desviacin tpica poblacional, , es la raz cuadrada (positiva) de la varianza. La equivalencia entre ambas frmulas se demuestra de la forma siguiente:
N N N N N N N
i =1 2 i
(xi - ) =
2 2
i =1
(x - 2xi + ) =
2 i 2
i =1
x - 2 xi +
2 i i =1
i =1
=
2
i =1
x 2N + N =
2 i
i =1
x - N
Interpretacin de la desviacin tpica poblacional. Puede usarse la desviacin tpica para estimar el porcentaje de valores de la poblacin que se encontrarn a menos de una distancia especfica de la media. Para construir tales estimaciones, usaremos dos reglas. Regla de Tchebychev. Para cualquier poblacin con media y desviacin tpica , al menos el 100(1 1/m2)% de los valores de la poblacin se encuentran a una distancia de la media menor que m veces la desviacin tpica, para cualquier nmero m > 1.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Regla emprica. Para la mayora de poblaciones grandes, aproximadamente el 68% de los valores de la poblacin se encuentran a una distancia de la media menor que una desviacin tpica, y aproximadamente el 95% estn a una distancia de la media menor que dos veces la desviacin tpica.
Varianza muestral y desviacin tpica. Definiciones. Sean x1, x2, ..., xn los n valores de una muestra cuya media es x . La varianza muestral, s2, se define como s2 = [ (xi - x )2] / (n 1) o s2 = [ (xi - x )2] / (n 1)
i =1 i =1 n n
La desviacin tpica muestral, s, es la raz cuadrada (positiva) de la varianza. El hecho de que se divida por (n 1) en lugar de hacerlo por n es que en esta frmula hemos usado como medida de centralizacin la media muestral en lugar de la media poblacional. La media de las desviaciones absolutas. Definiciones. Sean x1, x2, ..., xN los N valores de una poblacin cuya media es . La media de las desviaciones absolutas es el promedio del valor absoluto de las desviaciones de estos
x valores respecto a su media, es decir: MDA =

i i =1
N La media muestral de las desviaciones absolutas se define de manera anloga como el promedio de las desviaciones absolutas de las observaciones muestrales respecto a su media. A la hora de elegir una medida que describa la cantidad de dispersin de un conjunto de datos, la media de las desviaciones absolutas tiene dos ventajas frente a la desviacin tpica. En primer lugar, es ms fcil de interpretar conceptualmente. En segundo lugar, dado que en el clculo de la varianza y de la desviacin tpica se elevan al cuadrado las desviaciones individuales, estas dos medidas se vern ms influenciadas por observaciones extremadamente grandes o extremadamente pequeas que la media de las desviaciones absolutas. A pesar de sus ventajas, la media de las desviaciones absolutas se emplea con poca frecuencia en la prctica, debido a las complicaciones que pueden surgir si se usa para hacer inferencias sobre una poblacin a partir de las observaciones de una muestra. El rango o recorrido. Definicin. El rango o recorrido de un conjunto de datos es la diferencia entre la mayor y la menor de sus observaciones.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Es susceptible de sufrir una distorsin considerable si la muestra contiene alguna observacin exageradamente atpica. Adems, su valor puede verse influido por el nmero de observaciones. La principal aplicacin econmica del recorrido es el control de calidad estadstico. El rango intercuartlico. Una forma de solventar el inconveniente de la dispersin del rango o recorrido es descartar unas pocas de las observaciones ms altas y ms bajas, y hallar el recorrido de las observaciones restantes. Los cuartiles se calculan de forma que haya el mismo nmero de observaciones antes y despus de cada cuartil.
Cuartiles y rango intercuartlico. Supongamos que se tienen N observaciones ordenadas de menor a mayor. Entonces, el primer cuartil es la observacin que ocupa la posicin [(N + 1) / 4] y el tercer cuartil es la observacin que ocupa la posicin [3(N + 1) / 4]. El segundo cuartil (la mediana) es la observacin que ocupa la posicin [(N + 1) / 2]. Cuando (N + 1) no es un mltiplo entero de 4, los cuartiles se calculan por interpolacin. Se toma como primer cuartil el nmero que est a una determinada posicin (0,25; 0,5; 0,75) entre la x y la x+1 observacin. Anlogamente, tomamos como tercer cuartil el nmero que est a una determinada posicin entre la x y la x+1 observacin. La diferencia entre el tercer y el primer cuartil nos da una medida de la dispersin que se conoce con el nombre de rango intercuartlico. Es el rango que contiene la mitad central de las observaciones. Se ve muy poco influenciado por observaciones atpicas. Datos agrupados e histogramas. Los subintervalos en los que se dividen el conjunto de datos, reciben el nombre de clases, y el nmero de observaciones en cada clase se llama frecuencia. Para cada clase particular, la frecuencia acumulada es el nmero total de observaciones que hay en esa clase y las anteriores. Las frecuencias relativas acumuladas son las sumas acumuladas de las frecuencias relativas. Se obtiene aadiendo la frecuencia relativa de esa clase a la frecuencia relativa acumulada de la clase anterior. Definiciones y notacin. Supongamos que un conjunto de N observaciones numricas se subdivide en K clases. Entonces: 1. Los nmeros de observaciones que caen en cada una de estas clases reciben el nombre de frecuencias, y se designan f1, f2, ..., fK. Puesto que N es el nmero total de observaciones, deber verificarse:
i =1
fi = N
2. La proporcin de observaciones que se encuentra en cada una de las clases recibe el nombre de frecuencia relativa. Por tanto, la frecuencia relativa de la clase i-sima es f1/N. 3. La proporcin de todas las observaciones que son menores que el lmite superior de la i sima clase recibe el nombre de frecuencia relativa acumulada. Esta proporcin viene dada por f1/N + f2/N + ... + fi/N = (f1 + f2 + + fi)/N Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Reglas generales. 1. El rango de posibles observaciones debe subdividirse en clases no solapadas, de forma que cada observacin particular debe estar en una y slo una de las clases. 2. En general, para lograr una interpretacin ms fcil, es preferible establecer intervalos de igual longitud. 3. Es importante que nos aseguremos de que los puntos medios de las clases o intervalos son representativos de los valores de los miembros de esa clase. 4. Con frecuencia, la decisin ms difcil de tomar es decidir el nmero de clases a incluir. Si el nmero de clases es demasiado pequeo, la clasificacin resultante puede esconder aspectos importantes de los datos. Si hay demasiadas clases, puede resultar un grfico difcil de interpretar. Diagramas de tallo y hojas. El diagrama de tallos y hojas consiste en agrupar los datos segn sus primeras cifras, y hacer un listado de las ltimas cifras de cada miembro de una clase. Transmite una impresin visual del nmero de observaciones de cada clase. Resumen numrico de datos agrupados. Media y varianza para conjuntos de datos con observaciones repetidas. Media y varianza para conjuntos de datos con observaciones repetidas. Supongamos que en un conjunto de datos aparecen los valores m1, m2, ..., mK, con frecuencias f1, f2, ..., fK respectivamente. 1. Para una poblacin de N observaciones, tal que N = La media es =
i =1
fi
fm
i i =1
N La varianza es: = [ fi(mi - ) ] / N = [( fimi2) / N] - 2

2 2 i =1 i =1 K K
2. Para una muestra de n observaciones, tal que n = La media es x =
i =1
fi
fm
i i =1
n La varianza es: s2 = [ fi(mi - x )2] / (n 1) = {[( fimi2) / N] - n x 2}/ (n 1)

i =1 i =1 K K
Media y varianza para datos agrupados. Supongamos que se dispone slo de datos agrupados en clases. Sin embargo, no conocemos el valor exacto de las observaciones. Para poder dar alguna medida, necesitaremos hacer alguna aproximacin. Puesto que la localizacin exacta de los valores de cada clase es desconocida, una posibilidad consiste en proceder como si todos los puntos de una clase estuviesen situados en el centro del intervalo. Cuando se hace esto, suele llamarse a los untos medios de cada clase marcas de clase. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Media y varianza aproximadas para datos agrupados. Supongamos que tenemos datos agrupados en K clases con frecuencias f1, f2, ..., fK. Si los puntos medios de estas clases son m1, m2, ..., mK, la media y la varianza del conjunto de datos agrupados pueden estimarse usando las frmulas para observaciones repetidas que se dieron anteriormente. Mediana y rango intercuartlico para datos agrupados. Estimacin de la posicin de una observacin en una clase. Supongamos que una clase, cuyo extremo inferior es L y cuyo extremo superior es U, contiene f observaciones. Si se ordenan estas observaciones de menor a mayor, se (U L) estimar la j sima observacin por: L + (j ) para j = 1, 2, ..., f f Clase modal. Definicin. Para datos agrupados, la clase modal es la clase con mayor frecuencia. Asimetra. En una distribucin simtrica, los datos se distribuyen simtricamente alrededor de su valor central; las observaciones extremadamente grandes no son ms frecuentes que las extremadamente pequeas. Una distribucin asimtrica a la derecha, tiene la caracterstica de que su media es mayor que su mediana. Una distribucin asimtrica a la izquierda, representa la situacin opuesta. El histograma es una herramienta grfica importante para analizar los datos. Otros mtodos grficos. Diagramas de barras. Los diagramas de barra constituyen una herramienta muy adecuada para comparar los tamaos relativos de cantidades que se distribuyen, en el espacio, en el tiempo. Los diagramas de barras por componentes, permite hacer comparaciones visuales tanto sobre el total como sobre sus componentes individuales. Grficos temporales. Una forma alternativa de ilustrar la evolucin de una cantidad a lo largo del tiempo, consiste en dibujar un grfico con los diferentes valores a lo largo del tiempo. Situando el tiempo a lo largo del eje horizontal, y la cantidad numrica de inters en el eje vertical, se obtiene, para cada observacin, un punto del grfico. Uniendo los puntos consecutivos mediante lneas se obtiene un grfico temporal, que proporciona una idea visual de la evolucin fcil y rpida de la variable. Los grficos temporales proporcionan una visin muy adecuada de la evolucin histrica de una variable.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Pictogramas. Los pictogramas, o diagramas de tarta, son tiles para representar la divisin de un todo de las partes que lo constituyen. La tarta se construye de forma que el rea de cada fragmento es proporcional a la frecuencia que le corresponde. Diagramas de dispersin. Los diagramas de dispersin, proporcionan una visin grfica de la relacin entre dos variables. Diagramas de caja. El rectngulo (o caja) se dibuja de forma que sus lmites inferior y superior corresponden al primer y al tercer cuartil respectivamente. En el interior de la caja se ha dibujado una lnea para sealar el lugar que ocupa la mediante. El valor atpico aparece lejos de la caja, y las lneas que van desde los bordes de la caja hasta las lneas intermitentes (o bigotes) sealan la menor y la mayor de las observaciones restantes. Los diagramas de caja resultan muy tiles para comparar visualmente dos o ms conjuntos de datos.
Probabilidad. Introduccin. Si nos basamos en la informacin muestral, es imposible determinar exactamente la reaccin de la totalidad de la poblacin; cualquier medida de dicha reaccin inevitablemente llevar consigo incertidumbre. Experimentos aleatorios, resultados, sucesos. Definicin. Un experimento aleatorio es un proceso que puede concretarse en al menos dos resultados posibles, con incertidumbre en cuanto a cul de ellos tendr lugar. Los resultados posibles de un experimento aleatorio se denominan resultados bsicos, y el conjunto de todos los resultados bsicos se llama espacio muestral. Definicin. Los resultados bsicos no pueden ocurrir simultneamente. El experimento aleatorio debe conducir necesariamente a la ocurrencia de uno de los resultados bsicos. Se utilizar S para denominar el espacio muestral. Definicin. Un suceso es un conjunto de resultados bsicos de un espacio muestral, y se dice que ocurre si el experimento aleatorio da lugar a uno de los resultados bsicos que lo constituyen. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Definicin. Sean A y B dos sucesos pertenecientes a un espacio muestral S. Su interseccin, que se denomina A B, es el conjunto de todos los resultados bsicos en S que pertenecen a A y a B. Por tanto, la interseccin A B ocurre si y solo si tanto A como B ocurren. De manera ms general, dados K sucesos E1, E2, ..., EK, su interseccin E1 E2 ... EK, es el conjunto de todos los resultados bsicos que pertenecen a todo Ei(i = 1, 2, ..., K). Definicin. Si los sucesos A y B no tienen en comn resultados bsicos, se denominan mutuamente excluyentes y su interseccin A B es el conjunto vaco. De esto se deduce, entonces, que A B no puede ocurrir. De manera ms general, los K sucesos E1, E2, ..., EK se dice que son mutuamente excluyentes si todo par de estos sucesos s mutuamente excluyente, es decir, si Ei Ej es el conjunto vaco para todo i j. Definicin. Sean A y B los dos sucesos en el espacio muestral S. Su unin, denominada A B, es el conjunto de todos los resultados bsicos en S que pertenecen al menos a uno de estos dos sucesos. Por tanto, la unin A B tiene lugar si y slo si A y/o B ocurren. De manera ms general, dados K sucesos E1, E2, ..., EK, su unin, E1 E2 ... EK, es el conjunto de todos los resultados bsicos pertenecientes al menos a uno de estos K sucesos. Definicin. Sean E1, E2, ..., EK K sucesos en el espacio muestral S. Si E1 E2 ... EK = S, estos K sucesos se denominan colectivamente exhaustivos.
Definicin. Sea A un suceso en el espacio muestral S. El conjunto de resultados bsicos de un experimento aleatorio perteneciente a S pero no a A se denomina el complementario de A, y se representa por A Reglas de probabilidad. 1. Sean A y B dos sucesos. Entonces los sucesos A B y A B son mutuamente excluyentes, y su unin es B. Claramente: (A B) ( A B) = B 2. Sean A y B dos sucesos. Los sucesos A y A B son mutuamente excluyentes, y su unin es A B. De su observacin debe quedar claro que: A ( A B) = A B 3. Sean E1, E2, ..., EK K sucesos mutuamente excluyentes y colectivamente exhaustivos, y sea A otro suceso. Entonces, los K sucesos E1 A, E2 A, ..., EK A son mutuamente excluyentes y su unin es A. Qu es la probabilidad? El concepto de probabilidad pretende aportar una medida numrica de la verosimilitud de ocurrencia de un suceso. Frecuencia relativa. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Supongamos que un experimento aleatoria puede ser replicado de tal manera que, despus de una tentativa, es posible volver al estado inicial y repetir el experimento de modo que el resultado no se vea afectado por los resultados previos. Si se realiza un nmero N de experimentos y el suceso A ocurre NA veces (NA obviamente depende de N), tenemos que: Proporcin de ocurrencias de A en N intentos = NA/N Ahora bien, si N es muy grande, esperaremos que la proporcin NA/N no experimente gran variacin a medida que N aumenta, es decir, la proporcin de ocurrencias de A permanecer aproximadamente constante. Definicin. Sea NA el nmero de ocurrencias de un suceso A en N repeticiones. Entonces, siguiendo el concepto de probabilidad de frecuencia relativa, la probabilidad de que A ocurra es el lmite del cociente NA/N a medida que el nmero de intentos N se hace infinitamente grande. Probabilidad subjetiva. Una visin alternativa, que no depende de la nocin de experimentos repetibles, considera la probabilidad como un concepto personal subjetivo que expresa un grado de creencia individual sobre la posibilidad de que un suceso ocurra. Las probabilidades subjetivas son personales; no se requiere que diferentes individuos consideren que el mismo suceso debe tener lugar con las mismas probabilidades. La probabilidad y sus postulados. Postulados probabilsticos. 1. Si A es un suceso cualquiera en el espacio muestral S, o < P(A) < 1 2. Sea A un suceso en S, y sean Oi los resultados bsicos. Entonces, P(A) =
P(Oi),
donde la notacin indica que el sumatorio corresponde a todos los resultados bsicos pertenecientes a A. 3. P(S) = 1 El primer postulado exige que una probabilidad se encuentre entre 0 y 1. el segundo puede ser justificado en trminos de las frecuencias relativas. Supongamos que un experimento aleatorio se repite N veces. Sea Ni el nmero de veces que el resultado bsico Oi ocurre y NA el nmero de veces que el suceso A ocurre. Entonces, dado que los resultados bsicos son mutuamente excluyentes, NA es justamente la suma de Ni correspondiente a todos los resultados bsicos en A, es decir: NA = por el nmero de repeticiones N, obtenemos: NA/N =
Ni, y dividiendo
Ni/N
Pero bajo el concepto de frecuencia relativa de probabilidad, NA/N tiende a A, y cada Ni/N tiende a P(Oi) a medida que N se hace infinitamente grande. El tercer postulado, sustituyendo A por el espacio muestral S en el segundo postulado tenemos que: P(S) =
P(Oi) donde el sumatorio se extiende a todos los resultados bsicos en el espacio
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION muestral. Pero dado que P(O) = 1 por el tercer postulado, se deduce que:
P(Oi) = 1
Es decir, la suma de las probabilidades de todos los resultados bsicos en el espacio muestral es 1. Consecuencia de los postulados. 1. Si el espacio muestral S est constituido por n resultados bsicos igualmente probables, O1, O2, ..., On, entonces cada una de ellos tiene una probabilidad 1/n, es decir: P(O1) = 1/n (i = 1, 2, ..., n). n Es decir, si P(Oi) es igual para todo resultado bsico y i = 1P(Oi) = 1, entonces, P(Oi) = 1/n para todo resultado. 2. Si el espacio muestral S est constituido por n resultados bsicos igualmente probables y el suceso A est formado por nA de estos resultados, entonces, P(A) = nA/n Todo resultado bsico tiene probabilidad 1/n y, P(A) es justamente la suma de las probabilidades (cada una es 1/n) de los nA resultados bsicos en A. 3. Sean A y B dos sucesos mutuamente excluyentes. Entonces la probabilidad de la unin es la suma de las probabilidades individuales, es decir: P(AB) = P(A) + P(B) De manera ms general, si E1, E2, ..., EK son sucesos mutuamente excluyentes, (E1E2...EK) = P(E1) + P(E2) + ... + P(EK) La probabilidad de la unin de A y B es P(AB) =
AB
P(Oi) donde el sumatorio se
extiende a todos los resultados bsicos en A B. Pero dado que A y B son mutuamente excluyentes, un resultado bsico no puede pertenecer a ambos sucesos, por lo que el lado derecho de la ecuacin puede ser dividido en dos partes: =
AB
P(Oi)
P(Oi) +
P(Oi) El lado derecho de esta ecuacin es P(A) + P(B).
4. Si E1, E2, , EK son sucesos mutuamente excluyentes, la probabilidad de la unin es P(E1E2...EK) = 1 Dado que los sucesos son colectivamente exhaustivos, su unin es la totalidad del espacio muestral S, y el resultado se deduce del tercer postulado. Permutaciones y combinaciones. El nmero de posibles ordenaciones de x objetos es: x(x 1)(x 2) ... (2)(1) = x! Definicin. El nmero de permutaciones, nPx, de n objetos tomados de x en x es el nmero de posibles ordenaciones cuando x objetos han de ser seleccionados de un total de n y n! dispuestos en orden. Este nmero es nPx = (n x)! Definicin.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION El nmero de combinaciones, nCx, de n objetos tomados de x en x es el nmero de n! posibles elecciones que pueden ser hechas. Este nmero es: nCx = x!(n x)! Reglas de la probabilidad. Sea A un suceso en el espacio muestral S. Dado que A y su complementario A son mutuamente excluyentes, P(A A ) = P(A) + P( A ) y, dado que A y A son colectivamente exhaustivos: P(A A ) = 1. De estas dos ecuaciones se deduce que P(A) + P( A ) = 1 o P( A ) = 1 P(A) de modo que la probabilidad de que un suceso no ocurra es 1 menos la probabilidad de que s ocurra. Sean A y B dos sucesos. Si A y B son mutuamente excluyentes, la probabilidad de la unin es la suma de las probabilidades individuales. Para calcular la unin cuando los sucesos no son mutuamente excluyentes, sabemos que los sucesos (A B) y ( A B) son mutuamente excluyentes, y su unin es B. Por tanto: P(B) = P(AB) + P( A B) Los sucesos A y ( A B) tambin son mutuamente excluyentes, y su unin es A B, por lo que P(AB) = P(A) + P( A B) Despejando P( A B) e igualando obtenemos: P(A B) = P(A) + P(B) P(A B) Regla de la suma de probabilidades. Sean A y B dos sucesos. La probabilidad de la unin es: P(AB) = P(A) + P(B) P(AB) La regla implica que la probabilidad de la unin no es la suma de las probabilidades individuales, a no ser que los sucesos sean mutuamente excluyentes, es decir, a no ser que la probabilidad de la interseccin sea cero. La posibilidad de que cualquier suceso ocurra es probable que dependa de la ocurrencia o no ocurrencia de otros sucesos. Definicin. Sean A y B dos sucesos. La probabilidad condicional del suceso A, dado el suceso B, P( A B ) denominada P(A/B), se define como P(A/B) = siempre que P(B) > 0. De igual P( B) P( A B ) modo, la probabilidad condicional de B dado A se define como P(B/A) = P( A) siempre que P(A) > 0. Esta definicin puede ser explicada en trminos de frecuencias relativas. Supongamos que un experimento aleatorio es repetido N veces, con NB ocurrencias del suceso B y NAB ocurrencias de los sucesos A y B conjuntamente. Entonces, la proporcin de veces que A ocurre, cuando B ha ocurrido es NAB/NB y se puede pensar en la probabilidad condicional de A dado B como el lmite de la proporcin cuando el nmero de rplicas del experimento se hace infinitamente grande. Pero NAB/NB = (NAB/N) / (NB/N) y, a medida que N aumenta, el numerador y el denominador del lado derecho de esta expresin tienden a P(AB) y P(B), respectivamente.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Regla del producto de probabilidades. Sean A y B dos sucesos. La probabilidad de la interseccin es: P(AB) = P(A|B).P(B) Tambin: P(AB) = P(B|A).P(A) Definicin. Sean A y B dos sucesos. Se dice que estos sucesos son independientes estadsticamente si y slo si P(AB) = P(A).P(B) Se deduce de la regla del producto que son conclusiones equivalentes: P(A|B) = P(A) si P(B) > 0 P(B|A) = P(B) si P(A) > 0 De manera ms general, los sucesos E1, E2, ..., EK son independientes estadsticamente si y slo si P(E1E2...EK) = P(E1).P(E2)...P(EK) Supongamos que creemos que la probabilidad de que un suceso A ocurra es P(A). Se nos da a continuacin la informacin adicional de que el suceso B ha ocurrido. Si esto no cambia mi opinin sobre la probabilidad de ocurrencia de A, mi evaluacin de la probabilidad condicional P(A|B) ser igual a P(A). Probabilidades bivariantes. Un experimento aleatorio ha de llevarse a cabo, y el inters se centra en dos grupos distintos de sucesos. Los llamaremos A1, A2, ..., Ah y B1, B2, ..., Bk. Los sucesos Ai son mutuamente excluyentes y colectivamente exhaustivos, al igual que los sucesos B j. Sin embargo, cualquier suceso Ai puede ocurrir conjuntamente con cualquier sucesos Bj, de modo que las intersecciones AiBj pueden tener lugar. Estas intersecciones son entonces los resultados elementales del experimento. Dos conjuntos de sucesos, considerados conjuntamente de esta manera, se denominan bivariantes y sus probabilidades se llaman probabilidades bivariantes. Si se pueden asignar probabilidades a todos los sucesos AiBj, entonces, la totalidad de la estructura de probabilidad del experimento es conocida y las otras probabilidades de inters pueden ser deducidas. Definicin. En el contexto de las probabilidades bivariantes, las probabilidades de la interseccin P(AiBj) se denominan probabilidades conjuntas. Las probabilidades de los sucesos elementales, P(Ai) o P(Bj), se denominan probabilidades marginales. Dadas las probabilidades conjuntas, supongamos que necesitamos saber las probabilidades marginales. Consideremos un caso donde el inters reside en el suceso Ai. Ahora Ai es la unin de los sucesos mutuamente excluyentes AiB1, AiB2, ..., AiBk. Por tanto, por la regla de la suma para sucesos mutuamente excluyentes, la probabilidad del suceso Ai es la suma de las probabilidades de aquellas intersecciones que incluyen A i, es decir: P(Ai) = P(AiB1) + P(AiB2) + ... + P(AiBk), Definicin. Sean A y B dos atributos, cada uno de los cuales dividimos en categoras que dan lugar a sucesos mutuamente excluyente y colectivamente exhaustivos que denominamos, respectivamente, A1, A2, ..., Ah y B1, B2, ..., BK. Si todo suceso Ai es independiente de todo suceso Bj, se dice que los atributos A y B son independientes.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION El teorema de Bayes. Sean A y B dos sucesos con probabilidades P(A) y P(B), respectivamente. La regla del producto de probabilidades dice que: P(AB) = P(A|B)P(B) y tambin P(AB) = P(B| A)P(A). Dado que el lazo izquierdo de las ecuaciones es el mismo, lo mismo sucede con el lado derecho, por lo que: P(B|A)P(A) = P(A|B)P(B) Despejando y suponiendo que la probabilidad P(A) no es cero, deducimos el teorema de Bayes. El teorema de Bayes. Sean A y B dos sucesos. Entonces: P(B|A) = P( A | B ).P( B ) P( A)
Supongamos que una persona est interesada en el suceso B y se forma una opinin subjetiva de la probabilidad de que B ocurra; en este contexto, la probabilidad P(B) se denomina probabilidad a priori. Si despus este individuo consigue informacin adicional, puede provocar una modificacin de su juicio inicial. La probabilidad relevante correspondiente a B es ahora la probabilidad condicional de B dado A, que se denota probabilidad a posteriori. El teorema de Bayes es un mtodo que permite actualizar una probabilidad a priori cuando se conoce la informacin adicional de que el suceso A ha tenido lugar. Existe una expresin alternativa del teorema de Bayes. Sean E1, E2, ..., Ek K sucesos mutuamente excluyentes y colectivamente exhaustivos, y sea A otro suceso cualquiera. La probabilidad de Ei dado A para algn i puede calcularse directamente, utilizando el teorema de Bayes y sustituyendo B por Ei. Sin embargo, el denominador del lado derecho de la ecuacin puede expresarse en trminos de las probabilidades condicionales de A dado Ej y las probabilidades de los Ej. Los sucesos E1A, E2A, ..., EkA son mutuamente excluyentes y que su unin es A. Se deduce que la probabilidad de A es P(A) = P(E1A) + P(E2A) + ... + P(EKA) Adems, la regla del producto de probabilidades nos dice que P(EjA) = P(A|Ej)P(Ej) (j = 1, 2, ..., K) as que sustituyendo en la ecuacin, tenemos que P(A) = P(A|E1)P(E1) + P(A| E2)P(E2) + ... + P(A|EK)P(EK) Finalmente, esta reexpresin del teorema de Bayes se obtiene sustituyendo B por Ei y P(A) en la primera ecuacin por el lado derecho de la ltima. Teorema de Bayes (expresin alternativa). Sean E1, E2, ... EK K sucesos mutuamente excluyentes y colectivamente exhaustivos, y sea A otro suceso cualquiera. La probabilidad condicional de Ei, dado A puede ser expresada como: P( A | E1) P ( E1) P(Ei|A) = P ( A | E1) P ( E1) + P ( A | E 2) P ( E 2) + ... + P ( A | EK ) P ( EK ) La ventaja de esta reexpresin del teorema reside en el hecho de que las probabilidades que incluye son en muchas ocasiones aquellas de las que se dispone directamente. Variables aleatorias discretas y distribuciones de probabilidad. Variables aleatorias. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Definicin. Una variable aleatoria es una variable que toma valores numricos determinados por el resultado de un experimento aleatorio. Es importante distinguir entre una variable aleatoria y los posibles valores que sta puede tomar. Usaremos letras maysculas, tales como X, para designar la variable aleatoria y la correspondiente minscula x para designar un valor posible. Definicin. Una variable aleatoria es discreta si slo puede tomar una cantidad numerable de valores. De la definicin se deduce que una variable aleatoria que slo puede tomar un nmero finito de variables es discreta. Incluso si el nmero de resultados posibles es infinito pero numerable, la variable aleatoria es discreta. Definicin. Una variable aleatoria es continua si puede tomar todos los valores de un intervalo. Para las variables aleatorias continuas, no es posible asignar probabilidades a cada valor concreto. Distribuciones de probabilidad para variables aleatorias discretas. Supongamos que X es una variable aleatoria discreta y que x es uno de sus posibles valores. La probabilidad de que la variable aleatoria X tome el valor x se representa P(X = x). La distribucin de probabilidad de una variable aleatoria es una representacin de las probabilidades de todos los resultados posibles. Definicin. La funcin de probabilidad, Px(x), de una variable aleatoria discreta X representa la probabilidad de que X tome el valor x, como funcin de x. Es decir, P x(x) = P(X = x) donde la funcin se evala en todos los posibles valores de x. Propiedades de las funciones de probabilidad de variables aleatorias discretas. Sea X una variable aleatoria discreta con funcin de probabilidad Px(x). Entonces, 1. Px(x) > 0 para cada valor x 2. Las probabilidades individuales suman 1, es decir: indica la suma sobre todos los posibles valores de x. La propiedad 1 dice que las probabilidades no pueden ser negativas. La propiedad 2 se obtiene como consecuencia del hecho de que los sucesos X = x para todos los posibles valores de x, son mutuamente excluyentes y conjuntamente exhaustivos. Por tanto, las probabilidades de estos sucesos deben sumar 1. Definicin. La funcin de probabilidad acumulada, Fx(x0), de una variable aleatoria X representa la probabilidad de que X no tome un valor superior a x 0, como funcin de x0. Es decir, Fx(x0) = P(X < x0) donde la funcin se evala en todos los valores de x0. Relacin entre funcin de probabilidad y funcin de probabilidad acumulada. Cedido por el TURCO
Px(x) = 1 donde la notacin
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Sea X una variable aleatoria con funcin de probabilidad P x(x) y funcin de probabilidad acumulada Fx(x). Entonces, Fx(x0) =
x x 0
Px(x) donde la notacin indica que la suma es
sobre todos los posibles valores de x que son menores o iguales que x0. Propiedades de las funciones de probabilidad acumulada para variables aleatorias discretas. Sea X una variable aleatoria discreta con funcin de probabilidad acumulada F x(x0). Entonces, 1. 0 < Fx(x0) < 1 para cada nmero x0 2. Si x0 y x1 son dos nmeros tales que x0 < x1, entonces, Fx(x0) < Fx(x1) La propiedad 1 establece que una probabilidad no puede ser menor que 0 ni mayor que 1. la propiedad 2 implica que la probabilidad de que una variable aleatoria est por debajo de cierta cantidad no puede superar a la probabilidad de que est por debajo de una cantidad mayor. Esperanzas de variables aleatorias discretas. El valor esperado es la correspondiente medida de centralizacin de una variable aleatoria. Definicin. El valor esperado, E(X), de una variable aleatoria X se define como E(X) =
xPx(x)
donde la notacin indica que la suma es sobre todos los posibles valores de x. El valor esperado de una variable aleatoria se conoce como su media y se representa x. La definicin de valor esperado puede hacerse en trminos de frecuencias relativas a largo plazo. Supongamos que un experimento aleatorio se repite N veces, y que el suceso X = x ocurre en Nx ocasiones. El promedio de los valores que toma la variable aleatoria sobre las N repeticiones ser entonces la suma de xNx/N sobre todos los posibles valores de x. Cuando el nmero de repeticiones N tiende a infinito, el coeficiente Nx/N tiende a la probabilidad de ocurrencia del suceso X = x, es decir, a Px(x). Por tanto, xNx/N tiende a xPx(x). De este modo, el valor esperado puede entenderse como el valor promedio que tomara una variable aleatoria sobre un nmero grande de repeticiones. La nocin de esperanza no se restringe a la propia variable aleatoria, tambin puede aplicarse a cualquier funcin de la misma. Definicin. Sea X una variable aleatoria discreta con funcin de probabilidad P x(x), y sea g(X) una funcin de X. Entonces, el valor esperado, E(g(X)), de esta funcin se define como E[g(X)] =
g(X)Px(x)
La varianza en un conjunto de observaciones numricas, es el promedio de las diferencias al cuadrado entre las observaciones y su media. Del mismo modo, para definir la varianza de una variable aleatoria, se construye un promedio ponderado de las posibles diferencias con la media al cuadrado; la ponderacin asociada a (x - x)2 es la probabilidad de que la variable aleatoria tome el valor x. La varianza puede verse como el Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION valor promedio que tomar la funcin (X - x)2 sobre un nmero muy grande de repeticiones del experimento. Definicin. Sea X una variable aleatoria discreta. La esperanza es la diferencia con la media al cuadrado (X - x)2 se denomina varianza, se representa 2x, y se obtiene como: 2x = E[(X - )2] =
(x - x)2Px(x)
La desviacin tpica, x, es la raz cuadrada positiva de la varianza. La equivalencia entre la frmula alternativa y la definicin puede verificarse: x2 = x)2Px(x) =
(x -
(x2 - 2xx + x2)Px(x) =
x2Px(x) - 2x xPx(x) + x2 Px(x)

x x
Pero hemos visto que x2 =
xPx(x) = x
Px(x) = 1, luego x2 =
x*2Px(x) - 2x2 +
x2Px(x) - x2
Varianza de una variable aleatoria discreta (frmula alternativa). La varianza de una variable aleatoria discreta X puede expresarse como 2x = E(X2) - x2 =
x2Px(x) - x2
Hemos definido la esperanza de una funcin de una variable aleatoria X. La funcin lineal a + bX, donde a y b son constantes fijas, es de particular inters. Sea X una variable aleatoria que toma el valor x con probabilidad Px(x), y consideremos la nueva variable aleatoria Z, definida como Z = a + bX Cuando la variable aleatoria X toma el valor x, Z debe tomar el valor a + bx. Media y varianza de una variable aleatoria Z = a + bX. Sea X una variable aleatoria con media x y varianza x2, y sean a y b dos constantes. Definamos la variable aleatoria Z = a + bX. Entonces, la media y la varianza de Z son: x = E(a + bX) = a + bx y Z2 = var(a + bX) = b2x2 y, por tanto, la desviacin tpica de Z es Z = |b|x Si Z toma valores a + bx con probabilidades Px(x), su media es: E(Z) = Z = bx)Px(x) = a
(a +
Px(x) + b
xPx(x)
Entonces, puesto que el primer sumatoria del lado
derecho de la ecuacin vale 1 y el segundo sumatoria es, por definicin, la media de X, tenemos: E(Z) = a + bx. Adems, la varianza de Z es, por definicin, Z2 = E[(Z - Z)2] = Sustituyendo a + bx por Z se obtiene: Z2 =
x x
[(a + bx) - Z]2 Px(x)
(bx - bx)2Px(x) = b2 (x - x)2Px(x)
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Resultados. 1. Tomando b = 0, se obtiene que para cualquier constante a, E(a) = a y Var(a) = 0 Es decir, si una variable aleatoria siempre toma el valor a, tendr media a y varianza 0. 2. Tomando a = 0 en estas ecuaciones, tenemos, para cualquier constante b, E(bX) = bx y Var(bX) = b2x2 Es decir, si una variable aleatoria se multiplica por una constante, la media queda multiplicada por la misma constante, y la varianza por el cuadrado de esa constante. X x 3. Tomando a = x/x, y b = 1/x, tenemos: Z = a + bX = luego x X x x 1 E( )=+ x = 0 x x x X x Var ( ) = (1/x2)x2 = 1 x Es decir, restndole a una variable aleatoria su media y dividindola por su desviacin tpica se obtiene una variable aleatoria con media 0 y desviacin tpica 1.
Distribucin conjunta de variables aleatorias discretas. Definicin. Sean X e Y dos variables aleatorias discretas. Su funcin de probabilidad conjunta representa la probabilidad de que simultneamente X tome el valor de x e Y tomo el valor y, como funcin de x e y. Se usa la notacin Px,y(x, y), de donde: Px,y(x, y) = P(X = x Y = y) En general, si X1, X2, ..., XK son K variables aleatorias discretas, su funcin de probabilidad conjunta es: Px1,x2,...,xK(x1, x2, ..., xK) = P(X1 = x1 X2 = x2 ... XK = xK) Definicin. Sean X e Y dos variables aleatorias conjuntamente distribuidas. En este contesto, la funcin de probabilidad de la variable aleatoria X se denomina funcin de probabilidad marginal, y se obtiene sumando las probabilidades conjuntas sobre todos los posibles valores de Y, es decir: Px(x) =
Px,y(x, y)
Anlogamente, la funcin de probabilidad marginal de la variable aleatoria Y es: Py(y) =
Px,y(x, y)
En general, si X1, X2, ..., XK son variables aleatorias discretas conjuntamente distribuidas, la funcin de probabilidad marginal de una de ellas se obtiene sumando las probabilidades conjuntas sobre todos los posibles valores de las dems. Propiedades de las funciones de probabilidad conjunta de variables aleatorias discretas. Sean X e Y variables aleatorias discretas con funcin de probabilidad conjunta Px,y(x, y). Entonces: 1. Px,y(x, y) > 0 para cualquier par de valores x e y. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION 2. La suma de las probabilidades conjuntas Px,y(x, y) sobre todos los posibles pares de valores debe ser 1. Definicin. Sean X e Y dos variables aleatorias discretas conjuntamente distribuidas. La funcin de probabilidad condicional de la variable aleatoria Y, dado que la variable aleatoria X toma el valor x, representa la probabilidad de que Y tomo el valor y, como funcin de y, cuando se especifica el valor x para X. Esta funcin se representa P y|x(y|x), y por la definicin de Px , y ( x, y ) probabilidad condicional: Py|x(y|x) = Anlogamente, la funcin de probabilidad Px ( x ) Px , y ( x, y ) condicional de X, dado Y = y, es: Py|x(y|x) = Px ( x ) Definicin. Las variables aleatorias X e Y son independientes si y slo si su funcin de probabilidad conjunta es el producto de sus funciones de probabilidad marginal, es decir, si y slo si: Px,y(x, y) = Px(x)Py(y) para todos los posibles valores x e y. En general, las K variables aleatorias X1, X2, ..., XK son independientes si y slo si Px1,x2,...,xK(x1, x2, ..., xK) = Px1(x1)Px2(x2) ... PxK(xK) De la definicin de funcin de probabilidad condicional, se deduce que si las variables aleatorias X e Y son independientes, entonces, la funcin de probabilidad condicional de Y dado X es igual que la funcin de probabilidad marginal de Y, es decir, Py|x(y|x) = Py(y) Anlogamente, se deduce que Px|y(x|y) = Px(x)
Definicin. La funcin de probabilidad conjunta acumulada, Fx,y(x0, y0), de un par de variables aleatorias discretas X e Y representa la probabilidad de que simultneamente X no exceda del valor x0 e Y no supere el valor y0, como funcin de x0 e y0. Es decir, Fx,y(x0, y0) = P(X < x0 Y < y0) donde la funcin se evala en todos los valores x0 e y0. Esto puede escribirse Fx,y(x0, y0) =
x x 0
Px,y(x,y) donde la notacin indica que la suma es sobre
y y 0
todos los pares de valores x e y que las variables aleatorias pueden tomar simultneamente, y que satisfacen x < x0 e y < y0. Definicin. Sean X e Y dos variables aleatorias discretas con funcin de probabilidad conjunta P x,y(x, y). La esperanza de una funcin g(X, Y) de estas variables aleatorias se define como E[g(X, Y)] =

x y
g(x, y)Px,y(x, y)
En general, si las K variables aleatorias X1, X2, ..., XK tienen funcin de distribucin conjunta Px1,x2,...,xK)(x1, x2, ..., xK), entonces, la esperanza de la funcin g(X1, X2, ..., XK) es E[g(X1, X2, ..., XK)] =

x1
x2
... g(x1, ..., xK)Px1,xK(x1, , xK)

xK
Supongamos que la variable aleatoria X tiene media x, e Y tiene media y, y consideremos el producto (X - x)(Y - y). Si los valores altos de X tienden a estar Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION asociados con valores altos de Y, y valores bajos de X con valores bajos de Y, debemos esperar que este producto sea positivo, y para mayor asociacin con valores bajos de Y, y valores bajos de X con valores altos de Y, el valor esperado de este producto debe ser negativo. Una esperanza 0 para (X - x)(Y - y) implicar ausencia de relacin lineal entre X e Y. En consecuencia, usaremos el valor esperado de (X - x)(Y - y) como medida de la relacin lineal en la poblacin. Definicin. Sea X una variable aleatoria con media x, y sea Y una variable aleatoria con media y. El valor esperado de (X - x)(Y - y) se denomina covarianza entre X e Y, y se representa Cov(X, Y). Para variables aleatorias discretas: Cov(X, Y) = E[(X - x)(Y - y)] = - x)(y - y)Px,y(x, y) Una expresin equivalente es: Cov(X, Y) = E(XY) - xy =

x y
(x

x y
xyPx,y(x, y) - xy
Covarianza e independencia estadstica. Si un par de variables aleatorias son estadsticamente independientes, la covarianza entre ellas es 0. sin embargo, el recproco no es necesariamente cierto. Sumas y diferencias de variables aleatorias. Sean X e Y un par de variables aleatorias con medias x y y y varianzas x2 y y2. Se verifican las siguientes propiedades: El valor esperado de su suma es la suma de sus valores esperados: E(X + Y) = x + y 1. El valor esperado de su diferencia es la diferencia de sus valores esperados: E(X Y) = x - y 2. Si la covarianza entre X e Y es 0, la varianza de su suma es la suma de sus varianzas: Var(X + Y) = x2 + y2 3. Si la covarianza entre X e Y es 0, la varianza de su diferencia es la suma de sus varianzas: Var(X Y) = x2 + y2 Sean X1, X2, ..., XK K variables aleatorias con medias 1, 2, ..., K y varianza 12, 22, ..., K2. Se verifican las siguientes propiedades: 4. El valor esperado de su suma es: E(X1 + X2 + ... + XK) = 1 + 2 + ... + K 5. Si la covarianza entre cada par de variables es 0, la varianza de su suma es: Var(X1 + X2 + ... + XK) = 12 + 22 + ... + K2 Los resultados 3, 4 y 6 requiere que las covarianzas entre las variables aleatorias sean 0. en general, si Cov(X, Y) es la covarianza entre las variables aleatorias X e Y, puede probarse que: Var(X + Y) = x2 + y2 + 2 Cov(X, Y) y Var(X Y) = x2 + y2 2 Cov(X, Y) La distribucin binominal. Supongamos que un experimento aleatorio tiene slo dos resultados posibles que son mutuamente excluyentes y colectivamente exhaustivos. Sea p la probabilidad de xito; la probabilidad de fracaso es, por tanto (1 p). La variable aleatoria X toma el valor 1 si el resultado del experimento es xito y 0 en caso contrario. La funcin de probabilidad de esta variable aleatoria es, entonces: Px(0) = (1 p) Px(1) = p Esta distribucin se conoce como la distribucin de Bernoulli. La media de una variable aleatoria Bernoulli es: x = E(X) = =p Cedido por el TURCO
xPx(x) = (0)(1 p) + (1)(p)
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Y la varianza: x2 = E[(X - x)2] =
(x - x)2Px(x) = (0 p)2(1 p) + (1 p)2p = p(1 p)
Consideremos el caso en el que un experimento aleatorio, con dos resultados posibles, se repite varias veces. Supongamos que la probabilidad de xito en cada repeticin es p y que se realizan n ensayos independientes, con lo que el resultado de un ensayo no influye en el resultado de cualquier otro. El nmero de xitos X en las n repeticiones puede ser cualquier nmero entero entre 0 y n, y estamos interesados en la probabilidad de obtener exactamente X = x xitos en n repeticiones. El resultado de las n repeticiones es una secuencia de n resultados, cada uno de los cuales debe ser xito (S) o fracaso (F). En las x primeras repeticiones el resultado es xito, mientras que en las restantes (n x) es siempre fracaso. La probabilidad de xito en cada repeticin es p, y la probabilidad de fallo (1 p). Puesto que las n repeticiones son independientes, la probabilidad de cualquier secuencia de resultados es, por la regla de multiplicacin de probabilidades, igual al producto de las probabilidades de los resultados individuales. Por tanto, la probabilidad de observar la secuencia de resultados descrita es: p*p*...*p (1 p)*(1 p)*...*(1 p) = px(1 p)n-x Pero nuestro inters original no era determinar la probabilidad de ocurrencia de una secuencia particular sino la probabilidad de obtener exactamente x xitos, sin tener en cuenta el orden de los resultados. Existen varias secuencias en las que pueden aparecer x xitos intercalados entre (n x) fracasos. De hecho, el nmero de secuencias de este tipo es precisamente el nmero de combinaciones den elementos tomados de x en x, puesto que podemos elegir x posiciones de un total de n en las que colocar los xitos. Por tanto, el nmero de secuencias que contienen x xitos en n repeticiones es nCx = n! Adems, estas secuencias son mutuamente excluyentes, puesto que no x!(n x)! pueden ocurrir dos de ellas simultneamente. Hemos visto que el suceso se obtienen x xitos en n repeticiones puede ocurrir de nCx maneras mutuamente excluyentes, cada una con probabilidad px(1 p)n-x. Por tanto, por la regla de la adicin de probabilidades, la probabilidad buscada es la suma de estas nCx probabilidades individuales, es decir: P(x n! +xitos en n repeticiones) = px(1 p)n-x x!(n x)! La distribucin binominal. Supongamos que un experimento aleatorio tiene slo dos resultados posibles mutuamente excluyentes y conjuntamente exhaustivos, xito y fracaso, y que p es la probabilidad de obtener xito en cada repeticin. Si se realizan n repeticiones independientes, la distribucin del nmero de xitos, X, resultante se denomina n! distribucin binomial. Su funcin de probabilidad es: P x(x) = px(1 p)n x x!(n x)! para x = 0, 1, 2, ..., n Consideremos n ensayos independientes, cada uno con probabilidad de xito p, y sea X i = 1 si el resultado del i-simo ensayo es xito y 0 si no. Las variables aleatorias X 1, X2, ..., Xn son, entonces, n variables Bernoulli independientes, cada una con probabilidad de xito p. Adems, el nmero total de xitos X es: X = X 1 + X2 + ... + Xn Lo que significa que la variable aleatoria binomial puede expresarse como suma de variables aleatorias Brenoull independientes. Para una variable Bernoulli: Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION E(Xi) = p y Var(Xi) = p(1 p) para i = 1, 2, ..., n Por tanto, para la distribucin binomial: E(X) = E(X1 + X2 + ... + Xn) = E(X1) + E(X2) + ... + E(Xn) = np Como las variables aleatorias Bernoulli son independientes, la covarianza entre ellas es 0, y: Var(X) = Var(X1 + X2 + ... + Xn) = Var(X1) + Var(X2) + ... + Var(Xn) = np(1 p) Media y varianza de la distribucin binominal. Sea X el nmero de xitos en n repeticiones independientes, cada una con probabilidad de xito p. Entonces, X sigue una distribucin binominal con media: x = E(X) = np Y la varianza: x2 = E[(X - x)2 = np(1 p) La distribucin hipergeomtrica. En los casos en los que el nmero de elementos de la muestra es una proporcin grande del nmero total de artculos en la poblacin, la distribucin binomial es inapropiada. La razn es que en estas situaciones no hay independencia entre el resultado de un elemento particular de la muestra y los restantes. Para que la distribucin del nmero de xitos en n ensayos sea binomial, es necesario que los resultados de stos sean independientes. Este no ser el caso si el muestreo se realiza sobre una poblacin pequea de elementos. Supongamos que un conjunto de N elementos, cada uno de los cuales puede etiquetarse como xito o fracaso, contiene S xitos y (N S) fracasos. Se elige una muestra aleatoria de n elementos de este conjunto, y buscamos la probabilidad de que la muestra contenga x xitos. En primer lugar, el nmero total de posibles muestras de n elementos N! que pueden elegirse de un total de N es el nmero de combinaciones: NCn = El n!( N n)! nmero de posibles maneras de obtener x xitos en la muestra de un total de S xitos es: S! Puesto que la muestra contiene x xitos, tambin debe contener (n x) SCx = x!( S x)! fracasos, y el nmero de maneras de elegirlos entre un total de (N S) fracasos es: N-SCn-x ( N S )! = El nmero total de muestras de n elementos que contienen (n x )!( N S n + x)! exactamente x xitos y (n x) fracasos es, por tanto: S! ( N S )! Por ltimo, puesto que el nmero de posibles SCx N-SCn-x = x!( S x)! (n x )!( N S n + x)! muestras es NCn, la probabilidad de obtener x xitos en la muestra es: S! ( N S )! x!( S x )! (n x )!( N S n + x)! SCx. N SCn x P(x xitos) = = N! NC n n!( N n)! La distribucin hipergeomtrica. Supongamos que se elige una muestra aleatoria de tamao n de un conjunto de N elementos. S de los cuales son xitos. La distribucin del nmero de xitos, X, en la muestra se denomina distribucin hipergeomtrica. Su funcin de probabilidad es:
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION S! ( N S )! x!( S x )! (n x )!( N S n + x)! SCxN SCn x Px(x) = = donde x puede tomar valores enteros N! NC n n!( N n)! entre el mximo de 0 y [n (N S)] y el mnimo de n y S. La media y la varianza de esta distribucin son: x = E(X) = np N n np(1 p) donde p = S/N es la proporcin de xitos en la y x2 = E[(X - x)2] = N 1 poblacin. Si el tamao muestral es muy pequeo en relacin al nmero total de elementos, N, las probabilidades hipergeomtricas son muy parecidas a las binomiales, y puede usarse la distribucin binomial en lugar de la hipergeomtrica. En este caso, (N n) / (N 1) est muy prximo a 1, por lo que la varianza de la distribucin hipergeomtrica est prxima a np(1 p), la varianza de la distribucin binomial. La distribucin de Poisson. 1. Para cada intervalo de tiempo pequeo, representado mediante un pequeo segmento entre 0 y t del tiempo temporal, la probabilidad de que ocurra un suceso en ese intervalo es aproximadamente proporcional a la amplitud del intervalo. 2. La probabilidad de ocurrencia de dos o ms sucesos en un intervalo como el descrito es despreciable en comparacin con la probabilidad de una ocurrencia. 3. Hay independencia entre el nmero de ocurrencias en intervalos no solapados. Si estas afirmaciones son ciertas, puede probarse que la probabilidad de x ocurrencias en el intervalo de 0 a t es: e x P(x ocurrencias) = donde es el nmero medio de ocurrencias entre 0 y t, y e = x! 2,71828 es la base de los logaritmos naturales. La distribucin de Poisson. Se dice que la variable aleatoria X sigue una distribucin de Poisson si tiene funcin de e x probabilidad: Px(x) = Para x = 0, 1, 2, ... donde es cualquier nmero tal que x! >0 La media de esta distribucin es: x = E(X) = Y la varianza: x2 = E[(X - x)2] = La forma de la funcin de probabilidad de Poisson depende de la media . La distribucin de Poisson aparece de manera natural para representar el nmero de ocurrencias de un suceso en un perodo de tiempo. La distribucin de Poisson puede usarse cuando el nmero de ensayos es grande, pero, al mismo tiempo, la probabilidad de xito en p en cada ensayo es muy pequea, con lo cual np tiene un tamao moderado (la aproximacin que presentamos aqu es, en general, satisfactoria si np < 7). Aproximacin Poisson de la distribucin binomial. Sea X el nmero de xitos resultante de n ensayos independientes, cada uno con probabilidad de xito p. La distribucin del nmero de xitos X es binomial con media np. Sin embargo, si el nmero de ensayos n es grande y np tiene un tamao moderado (preferiblemente np < 7), esta distribucin puede aproximarse bien por la distribucin de Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Poisson de media = np. La funcin de probabilidad de la distribucin aproximada es entonces: e np (np ) x Px(x) = Para x = 0, 1, 2, ... x! Variables aleatorias continuas y distribuciones de probabilidad. Distribuciones de probabilidad de variables aleatorias continuas. Definicin. La funcin de distribucin acumulada Fx(x) de una variable aleatoria continua X expresa la probabilidad de que X sea menor o igual que x, como funcin de x, es decir, F x(x) = P(X < x) La funcin de distribucin acumulada para esta variable aleatoria es: 0 Fx(x) = x 1 si x < a si a < x < b si x > b
Probabilidades de intervalos y funcin de distribucin acumulada. Sea X una variable aleatoria continua con funcin de distribucin acumulada Fx(x), y sean a y b dos posibles valores de X que verifican a < b. La probabilidad de que X est entre a y b es P(a < X < b) = Fx(b) Fx(a) La funcin de probabilidad de una variable aleatoria discreta, expresa la probabilidad de que la variable tome un valor especfico. Puede construirse una funcin anloga para variables aleatorias continuas, llamada funcin de densidad. Funcin de densidad. Sea X una variable aleatoria continua, y x un nmero perteneciente al rango de posibles valores de X. La funcin de densidad fx(x) de la variable X es una funcin que tiene las siguientes propiedades: 1. fx(x) > o para todo x 2. Supongamos que dibujamos la funcin de densidad. Sean a y b dos posibles valores de la variable aleatoria X que verifican que a < b. Entonces, la probabilidad de que X est entre a y b es el rea por debajo de la funcin de densidad entre los dos puntos. La probabilidad de que una variable aleatoria est entre un par de valores es el rea bajo la funcin de densidad entre los dos valores. En primer lugar, teniendo en cuenta que la variable aleatoria debe tomar algn valor, puede deducirse que el rea total por debajo de la funcin de densidad es 1 (este resultado es anlogo al requerimiento en variables aleatorias discretas de que la suma de probabilidades individuales sea 1). En segundo lugar, sea Fx(x0) la funcin de distribucin acumulada evaluada en x0, en otras palabras, la probabilidad de que la variable aleatoria sea menor o igual que x0, es decir, Fx(x0) = P(X < x0) que es el rea debajo de la funcin de densidad a la izquierda de x0. reas bajo funciones de densidad continuas. Si X es una variable aleatoria continua con funcin de densidad fx(x) y funcin de distribucin acumulada Fx(x), entonces: 1. El rea total bajo la curva fx(x) es 1. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION 2. El rea bajo la curva fx(x) a la izquierda de x0 es Fx(x0), donde x0 es cualquier valor posible de la variables aleatoria. Formalmente, utilizando notacin integral:
fx(x)dx = 1
La funcin de distribucin es, pues, la integral: Fx(x0) =
Por tanto, la funcin de densidad es la derivada de la funcin de distribucin, es decir: dFx ( x) fx(x) = dx Esperanzas de variables aleatorias continuas. Esperanza de una variable aleatoria continua. Supongamos que el resultado de un experimento aleatorio puede ser representado mediante una variable aleatoria continua. Si tenemos N rplicas independientes de este experimento, entonces, el valor esperado de la variable aleatoria es la media de los valores obtenidos, cuando el nmero de rplicas, N, tiende a infinito. Denominaremos el valor esperado de la variable aleatoria X como E(X). Anlogamente, si g(X) es una funcin de la variable aleatoria X, entonces el valor esperado de esta funcin es la media de los valores obtenidos en sucesivas rplicas independientes, cuando el nmero de replicas tiende a infinito. Denominaremos el valor esperado de g(X) como E[g(X)]. De manera formal, utilizando notacin integral, expresaremos el valor esperado de X como: E(X) =
x0
fx(x)dx
x.fx(x)dx
Y el valor esperado de la funcin g(X) como: E[g(X)] =
g(x)fx(x)dx
Definiciones. Sea X una variable aleatoria continua: 1. La media de X, representada por x, se define como el valor esperado de X, es decir, x = E(X). 2. La varianza de X, representada por x2, se define como la esperanza del cuadrado de la diferencia entre la variable y su media, (X - x)2, es decir, x2 = E[(X - x)2] Una expresin alternativa para la varianza es x2 = E(X2) - x2. 3. La desviacin tpica de X, x, es la raz cuadrada de la varianza. Sea X una variable aleatoria continua con media x y varianza x2, sean a y b constantes cualesquiera. Definimos la variable aleatoria Z como Z = a + bX Entonces la media y varianza de Z son z = E(a + bX) = a + bx z2 = Var(a + bX) = b2x2 z = |b|x X x Como caso particular de estos resultados, la variable aleatoria Z = tiene media 0 y x varianza 1. Distribucin conjunta de variables aleatorias continuas. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Definiciones. Sean X1, X2, ..., XK variables aleatorias continuas. 1. Su funcin de distribucin acumulada conjunta Fx1, x2, ..., xk(x1, x2, ..., xK) = P(X1 < x1 X2 < x2 ... XK < xK) 2. Las funciones de distribucin acumulada Fx1(x1), Fx2(x2), ..., Fxk(xK) de las variables individuales se llaman funciones de distribucin marginal. Para cualquier i, se tiene que Fxi(xi) es la probabilidad de que Xi sea menor o igual que xi. 3. Se dice que las variables aleatorias son independientes si y solo si Fx1, x2, ..., xk(x1, x2, ..., xK) = Fx1(x1)Fx2(x2) ... Fxk(xK) El concepto de independencia estadstica, en este caso, es exactamente igual que en el caso discreto. La independencia de un conjunto de variables aleatorias implica que la distribucin de probabilidad de cada una de ellas no se ve afectada por los valores que tomen las dems. La covarianza se utiliza para cuantificar la asociacin lineal entre un par de variables aleatorias. Definicin. Sean X e Y dos variables aleatorias continuas, con medias x y y, respectivamente. El valor esperado de (X - x)(Y - y) se llama covarianza entre X e Y. Es decir, Cov(X, Y) = E[(X - x)(Y - y)] Una expresin alternativa es Cov(X, Y) = E(XY) - xy Si las variables aleatorias X e Y son independientes, entonces su covarianza es 0. no obstante, el recproco no es necesariamente cierto. Sumas y diferencias de variables aleatorias. Sean X1, X2, ..., XK K variables aleatorias con medias 1, 2, ..., x y varianzas 12, 22, ..., K2. Se cumplen las siguientes propiedades: 1. La media de la suma es la suma de las medias, es decir, E(X 1 + X2 + ... + XK) = 1 + 2 + ... + K 2. Si la covarianza entre cada par de estas variables aleatorias es 0, entonces, la varianza de la suma es la suma de las varianzas, es decir, Var(X 1 + X2 + ... + XK) = 12 + 22 + ... + K2 Sean X e Y un par de variables aleatorias con medias x y y y varianzas x2 y y2. Se cumplen las siguientes propiedades: 3. La media de su diferencia es la diferencia de las medias, es decir, E(X Y) = x - y 4. Si la covarianza entre X e Y es 0, entonces, la varianza de la diferencia es la suma de las varianzas, es decir, Var(X Y) = x2 + y2 Los resultados 2 y 4 son vlidos nicamente si la covarianza entre las variables es 0. de forma general, si X e Y son un par de variables aleatorias con varianzas x2 y y2, y covarianza Cov(X, Y), puede probarse que: 2 Var(X + Y) = x + y2 + 2Cov(X, Y) Var(X Y) = x2 + y2 Cov(C, Y) La distribucin normal. La distribucin normal tiene un pico en la media y va descendiendo gradualmente en los extremos. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Funcin de densidad de una distribucin normal. Si la variable aleatoria X tiene densidad fx(x) = (1/ 22). e-(x- )2 / 2 2 para - < x < 2 2 donde y son nmeros tales que - < < y 0 < < donde e y son las constantes, e = 2,71828... y = 3,14159..., entonces se dice que X sigue una distribucin normal. Propiedades de la distribucin normal. Supongamos que la variable aleatoria X sigue una distribucin normal con parmetros y 2. se cumplen las siguientes propiedades: 1. La media de la variable aleatoria es , es decir, E(X) = . 2. La varianza de la variable aleatoria es 2, es decir, Var(X) = E[(X - )2] = 2 3. La forma de la funcin de densidad es una curva simtrica con forma de campana centrada en la media . De estas propiedades puede concluirse que dadas la media y la varianza de una variable aleatoria normal, queda determinada la distribucin especfica dentro de la familia de distribuciones normales. Notacin. Si la variable aleatoria X sigue una distribucin normal con media y varianza 2, escribiremos X N(, 2) Incrementar la media, dejando constante la varianza, traslada la funcin de densidad pero n0 altera su forma. Las funciones con variables aleatorias normales con media comn pero diferentes varianzas son simtricas alrededor de la media comn, pero la que tiene mayor varianza es ms dispersa. Funcin de distribucin acumulada de una distribucin normal. Supongamos que X es una variable aleatoria normal con media y varianza 2, es decir, X N(, 2). Entonces, la funcin de distribucin acumulada Fx(x0) es Fx(x0) = P(X < x0) Esto corresponde al rea bajo la funcin de densidad a la izquierda de x0. como ocurre para cualquier densidad propia, el rea total por debajo de la curva es 1, es decir, Fx() = 1 No hay una expresin algebraica simple para calcular la funcin de distribucin acumulada de una variable aleatoria distribuida normalmente. Probabilidades de rangos para variables aleatorias normales. Sea X una variable aleatoria normal con funcin de distribucin acumulada Fx(x), y sean a y b dos posibles valores de X, que verifican que a < b. Entonces, P(a < X < b) = F x(b) Fx(a) La probabilidad es el rea por debajo de la funcin de densidad correspondiente entre a y b. Las probabilidades de cualquier distribucin normal pueden expresarse en trminos de las probabilidades de una normal determinada, para la cual ya se han calculado y tabulado las propiedades. La distribucin normal estndar. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Sea Z una variable aleatoria normal con media 0 y varianza 1; es decir Z N(0, 1) Entonces, se dice que Z sigue una distribucin normal estndar. Si denominados Fz(z) a la funcin de distribucin acumulada de esta variable aleatoria, y a* y b* son dos nmeros tales que a* < b*, entonces P(a* < Z < b*) = Fz(b*) Fz(a*) Sea z0 un nmero positivo cualquiera, y supongamos que se quiere calcular F z(-z0) = P(Z < -z0) La simetra de la funcin de densidad de la variable aleatoria normal estndar alrededor del 0, implica que el rea por debajo de la curva a la izquierda de z0 es la misma que el rea por debajo de la curva a la derecha de z0, es decir P(Z < -z0) = P(Z > z0) Es ms, por ser el rea total por debajo de la curva igual a 1, P(Z > z0) = 1 P(Z < z0) = 1 Fz(z0) Por tanto, puede deducirse que Fz(-z0) = 1 Fz(z0) Sea X una variable aleatoria normal con media y varianza 2. restando la media y dividendo por la desviacin tpica se obtiene una variable aleatoria Z con media 0 y varianza 1. Tambin puede probarse que si X es una variable normal, entonces, Z tambin lo es. Por tanto, Z se distribuye como una variable aleatoria normal estndar. Supongamos, entonces, que queremos calcular la probabilidad de que X est entre a y b. Esto es equivalente a decir que (X - )/ est entre (a - )/ y (b - )/, luego la probabilidad que se quiere es: b b a a <Z< - Fz P(a < X < b) = P =Fz Cmo hallar probabilidades de intervalos para variables aleatorias normales. Sea X una variable aleatoria normal con media y varianza 2. Entonces, la variable aleatoria Z = (X - )/ tiene una distribucin normal estndar; es decir, Z N(0, 1). De aqu se deduce que si a y b son nmeros cualesquiera con a < b, entonces: b b a a <Z< - Fz donde Z es la variable P(a < X < b) = P =Fz aleatoria normal estndar y Fz(z) representa su funcin de distribucin acumulada. El teorema central del lmite. Sean X1, X2, ..., Xn, n variables aleatorias independientes con idntica distribucin de media y varianza 2. representaremos su suma por X = X1 + X2 + ... + Xn La media de una suma es la suma de las medias y que, para variables aleatorias independientes, la varianza de la suma es la suma de las varianzas. Por tanto, la media y la varianza de X son E(X) = n y Var(X) = n2 Adems, para cualquier variable aleatoria, al restar la media y dividir por la desviacin tpica, se obtiene una variable aleatoria de media 0 y varianza 1, as que la variable X E( X ) aleatoria Z = = (X - n) / ( n2) tiene media 0 y varianza 1. Dividiendo el Var ( X ) numerador y el denominador de esta expresin por n se obtiene Z = X = X 1 + X 2 + ... + Xn X = es el promedio de las X n n X n donde n
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION La informacin crucial que proporciona el teorema central del lmite, es que, sea cual sea la distribucin de las Xi (suponiendo que la varianza 2 sea finita), cuando el nmero de trminos de la suma, n, es grande, la distribucin de Z tiende a una distribucin normal estndar. Teorema central del lmite. Sean X1, X2, ..., Xn, n variables aleatorias independientes y con idntica distribucin de media y varianza 2. Sean X y X la suma y el promedio de estas variables aleatoria, respectivamente. Cuando n se hace grande, la distribucin de Z = (X - n) / ( n2) = X n tiende a la normal estndar. n El teorema central del lmite afirma que cualquiera que sea la distribucin comn de un conjunto de variables aleatorias, suponiendo que su varianza sea finita, la suma o el promedio de un nmero moderadamente grande de ellas ser una variable aleatoria con distribucin parecida a la normal. La distribucin uniforme es simtrica alrededor de la media. Sin embargo, el teorema central del lmite puede aplicarse tambin a variables asimtricas; y a su vez se extiende tambin a variables aleatorias discretas. La distribucin normal como una aproximacin a las distribuciones binomial y de Poisson. Aproximacin normal a la distribucin binomial. Si se llevan a cabo n intentos, cada uno con probabilidad p de xito, entonces el nmero X de xitos conseguidos tiene una distribucin binomial con media E(X) = np y varianza Var(X) = np(1 p) La variable aleatoria X poda escribirse como la suma de n variables aleatorias Bernoulli independientes, es decir, X = X1 + X2 + ... + Xn donde la variable aleatoria Xi toma el valor 1 si el resultado del intento i-simo es xito y 0 en otro caso, con probabilidades p y (1 p), respectivamente. Se deduce por tanto, que si el nmero de intentos n es grande, la distribucin de la X E( X ) X np = variable Z = es aproximadamente una normal estndar. Var ( X ) np (1 p ) Supongamos que queremos calcular que el nmero de xitos est dentro de un intervalo dado, a y b. Tenemos entonces que P(a < X < b) = P a np a np X np b np b np = Z = P np(1 p) np(1 p) np (1 p ) np (1 p ) np(1 p ) Si el nmero de intentos es grande, la distribucin de Z puede aproximarse mediante la normal estndar. Si el nmero de intentos n es de tamao moderado, entonces puede conseguirse una mejora a esta aproximacin. Estamos aproximando una distribucin discreta mediante una distribucin continua. Mientras que la binomial puede tomar solamente valores enteros, la variable aleatoria normal est definida en un continuo. Para permitir esta distincin se aplica la correccin de continuidad a la frmula anterior, reemplazando a y b por (a 0,5) y (b + 0,5), respectivamente. Tenemos entonces: P(a < a 0,5 np b + 0,5 np Z X < b) = P np (1 p ) np(1 p) Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Aproximacin de probabilidades binomiales usando la distribucin normal. Sea X el nmero de xitos que resultan de n intentos independientes, cada uno con probabilidad de xito p. Si n es grande y p no es ni demasiado grande ni demasiado pequeo, entonces, la siguiente es una buena aproximacin P(a < X < b) = P a np b np o usando la correccin de continuidad, P(a < X < b) = P Z np(1 p) np (1 p ) a 0,5 np b + 0,5 np donde Z es una distribucin normal estndar. Z np (1 p ) np(1 p) La aproximacin simple es generalmente suficiente si n > 50. La calidad de aproximacin depende tambin de p y es bastante fiable si np(1 p) > 9. Aproximacin normal a la distribucin de Poisson. Sea la variable aleatoria X el nmero de veces que ocurre un suceso en determinado intervalo de tiempo, y sea el nmero esperado de ocurrencias en dicho intervalo. Entonces X sigue una distribucin de Poisson, con media E(X) = y varianza Var(X) = . Considrese la situacin en la que el nmero de ocurrencias esperadas, , es grande. Supongamos que el intervalo de tiempo se divide en subintervalos de idntica longitud. Entonces el nmero total de ocurrencias es la suma de las ocurrencias en cada subintervalo. Por tanto, vemos que cuando la media de la distribucin de Poisson es grande, el nmero total de ocurrencias puede verse como la suma de un nmero moderadamente grande de variables aleatorias, cada una de las cuales representa el nmero de ocurrencias en un subintervalo del perodo de tiempo. Entonces, invocando el teorema central del lmite, se deduce que cuando es grande, la distribucin de la X E( X ) X = variable aleatoria Z = es aproximadamente una normal estndar. Var ( X ) Una vez ms, si es de tamao moderado, ser conveniente aplicar una correccin de continuidad. Aproximacin de probabilidades de Poisson usando la distribucin normal. Sea X una variable aleatoria de Poisson con media . Si es grande, entonces, la b a Z o usando la siguiente es una buena aproximacin P(a < X < b) = P b + 0,5 a 0,5 Z donde Z tiene correccin de continuidad, P(a < X < b) = P una distribucin normal estndar. La distribucin exponencial. La distribucin exponencial difiere de la normal en dos caractersticas bsicas: se restringe a variables aleatorias que pueden tomar valores positivos nicamente, y su funcin de densidad no es simtrica alrededor de la media. La distribucin exponencial.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Si la variable aleatoria X no puede tomar valores negativos y tiene funcin de densidad fx(x) = (e-x/ )/ para x > 0, donde es cualquier nmero positivo y e = 2,71828..., entonces se dice que X sigue una distribucin exponencial. La funcin de distribucin acumulada es Fx(x) = 1 e-x/ para x > 0 La distribucin tiene media y varianza 2. Muestreo y distribuciones muestrales. Llamaremos poblacin al grupo grande del que deseamos obtener informacin y muestra al subconjunto de individuos de la poblacin cuyas caractersticas han sido observadas. La principal razn para observar una muestra en lugar de la poblacin completa es el hecho de que la recogida de toda la informacin ser, en la mayora de las ocasiones, exageradamente cara. El objetivo de extrae una muestra de una poblacin ser, en general, poder hacer afirmaciones que tengan cierta validez sobre la aplicacin completa. Por tanto, es importante que la muestra sea representativa de la poblacin; por eso es importante que el proceso de seleccin de la muestra est basado en el principio de aleatorizacin. Muestro aleatorio simple. Supongamos que se ha de seleccionar una muestra de n objetos de una poblacin de N objetos. Un procedimiento de muestreo aleatorio simple es aquel en el que todas las posibles muestras de n objetos tienen la misma probabilidad de ser escogidas. Este mtodo se usa con tanta frecuencia que, en muchos casos, el adjetivo simple se elimina, y a las muestras obtenidas por procedimientos de este tipo se las denomina muestras aleatorias. En la prctica, pueden usarse tablas de nmeros aleatorios, bolilleros u ordenadores. El principio de aleatorizacin en la seleccin de los miembros de la muestra proporciona cierta proteccin contra la presencia en la muestra de individuos no representativos de la poblacin, en el sentido de que, en media, si se extraen repetidas muestras de la poblacin segn este mecanismo, ningn subgrupo particular debera estar ms representado en la muestra. Adems, el concepto de distribucin muestral nos permite determinar la probabilidad de que la muestra particular que se ha obtenido no sea representativa en un determinado grado. Sobre la base de la informacin muestral, nuestro objetivo ser hacer inferencias acerca de la poblacin de la que procede la muestra. La distribucin de probabilidades de los posibles resultados muestrales proporciona una base para realizar inferencias sobre la poblacin. Estadsticos y distribuciones muestrales. Supongamos que se ha extrado una muestra aleatoria de una poblacin y que se desea hacer inferencia sobre ciertas caractersticas de la distribucin de la poblacin. Esta inferencia estar basada en algn estadstico, es decir, en alguna funcin particular de la informacin muestral. La distribucin muestral, o distribucin en el muestreo, de este estadstico es la distribucin de probabilidades de los valores que puede tomar el estadstico a lo largo de todas las posibles muestras con el mismo nmero de observaciones que pueden ser extradas de la poblacin. Distribucin en el muestreo de la media muestral. Queremos analizar la distribucin muestral de la variable aleatoria X . En primer lugar, determinaremos la media de esta distribucin. Para variables aleatorias discretas y Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION continuas, la esperanza de una suma es la suma de las esperanzas y, por tanto: E( Xi)
i =1 n
= E(X1) + E(X2) + ... + E(Xn)

n i =1
Puesto que cada variable aleatoria Xi tiene media x,
podemos escribir E( Xi) = nx La media muestral es la suma de los valores de la muestra multiplicada por 1/n, y, por tanto, su valor esperado ser: E( X ) = E( 1 n
i =1
Xi) =
n 1 nx E( Xi) = = x n n i =1 La media de la distribucin en el muestreo de la media muestral es la media poblacional. Esto nos asegura que, si se extraen repetidas muestras independientes de n observaciones de una poblacin, entonces, cuando el nmero de muestras se hace muy grande, el promedio de las medias muestrales se hace muy prximo a la verdadera media poblacional. Por supuesto, la media obtenida para una muestra particular puede ser mucho mayor o mucho menor que la media poblacional. Sin embargo, en la media, no hay razones para esperar un valor que sea mayor o menor que el valor poblacional.
Si el tamao de la poblacin es muy grande con respecto al tamao muestral, entonces, una consecuencia del muestreo aleatorio simple es que la distribucin de cada uno de los valores de la muestra es independiente de la de los otros. En tal caso, la varianza de la suma es la suma de las varianzas y, por tanto, tendremos: Var( Xi) = Var(X1) + Var(X2)
i =1 n
+ ... + Var(Xn) Puesto que cada Xi tiene varianza , se sigue que Var( Xi) = nx2
2 x
Llegamos as a que la varianza de la media muestral es Var( X ) = Var ( Var( Xi) = nx2/n2 = x2/n
i =1 n
1 n
i =1 n
i =1
Xi) = 1/n2
La varianza de la distribucin muestral de X decrece a medida que aumenta el tamao muestral de n. Cuantas ms observaciones tenga la muestra, ms concentrada estar la distribucin muestral de la media muestral alrededor de la media poblacional. Representaremos por x2 la varianza de la media muestral; la correspondiente desviacin x tpica, que recibe el nombre de error estndar de X , vendr dada por: x = n Si el nmero n de miembros de la muestra no es una fraccin muy pequea del nmero N de miembros de la poblacin, no podremos asumir que los valores individuales de la muestra se distribuyan independientemente unos de otros. En este caso, Var( X ) = N n (x2/n). Al trmino (N n)/(N 1) se le suele dar el nombre de factor de correccin N 1 por poblacin finita. Se puede probar que, si la poblacin de la que se extrajo la muestra es normal, la media muestral sigue una distribucin normal. Si el tamao muestral es una proporcin pequea del tamao poblacional, entonces, restando la media y dividiendo por el error estndar, se X x X x = x obtiene una variable aleatoria: Z = x n Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION El teorema central del lmite nos asegura que, incluso cuando la distribucin de la poblacin no es normal, si el tamao muestral n es suficientemente grande, la distribucin de X ser tambin muy prxima a la normal estndar. Distribucin muestral de X . Sea X la media de una muestra aleatoria den observaciones extradas de una poblacin con media x y varianza x2. Entonces: 1. La distribucin muestral de X tiene media x, es decir, E( X ) = x x 2. La distribucin muestral de X tiene desviacin tpica x = Esta cantidad recibe el n nombre de error estndar de X . 3. Si el tamao muestral n no es una fraccin pequea del tamao poblacional N, x N n entonces, el error estndar de X es x = n N 1 X x 4. Si la distribucin de la poblacin es normal, entonces, la variable aleatoria Z = x sigue una distribucin normal estndar. 5. Si la distribucin de la poblacin no es normal pero el tamao muestral n es suficientemente grande, entonces, del teorema central del lmite se sigue que, el resultado del apartado 4 es aproximadamente vlido. Distribucin en el muestreo de una proporcin muestral. Si se repite n veces un experimento que tiene probabilidad de xito p, entonces, la variable aleatoria X, que recoge el nmero total de xitos en las n repeticiones, sigue una distribucin binomial. Definicin. Sea X el nmero de xitos en una muestra binomial de n observaciones, donde la probabilidad de xito es p. (En la mayora de las aplicaciones, el parmetro p ser la proporcin de individuos de una gran poblacin que posean la caracterstica de inters). Entonces, la proporcin de xitos en la muestra ^px = X/n recibe el nombre de proporcin muestral. La media y la varianza de la distribucin muestral de la proporcin muestral pueden deducirse fcilmente a partir de la media y la varianza del nmero de xitos que, vienen dadas por E(X) = np y Var(X) = np(1 p) De aqu se deduce que E(^px) = E(X/n) = 1/n E(X) = p Es decir, la media de la proporcin muestral es la proporcin p de xitos en la poblacin. Su varianza es Var(^p x) = Var(X/n) p (1 p ) = 1/n2 Var(X) = De nuevo, la desviacin tpica de la proporcin muestral, que es n la raz cuadrada de su varianza recibe el nombre de error estndar. Si el nmero N de individuos en la poblacin no es demasiado grande comparado con el nmero de individuos de la muestra, en la expresin de la varianza de la proporcin muestral ser necesaria una correccin por poblacin finita. La varianza ser entonces p (1 p ) N n Var(^px) = n N 1 Como una consecuencia del teorema central del lmite, la distribucin del nmero de xitos es aproximadamente normal para tamaos muestrales grandes. Esto mismo es tambin cierto para la proporcin de xitos. Por tanto, si restamos a la proporcin Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION muestral su media p y la dividimos por su error estndar, obtendremos una variable aleatoria con distribucin normal estndar. Distribucin en el muestreo de una proporcin muestral. Sea ^px la proporcin de xitos en una muestra aleatoria de n observaciones. Entonces: 1. La distribucin muestral de ^px tiene media p, es decir E(^px) = p p (1 p ) 2. La distribucin muestral de ^px tiene desviacin tpica ^p = La cantidad ^p n recibe el nombre de error estndar de ^px. 3. Si el nmero n de individuos de la muestra no es una proporcin pequea del nmero N de individuos de la poblacin, entonces, el error estndar de ^p x es ^p = p (1 p ) N n n N 1 ^ px p 4. Si el tamao muestral es grande, entonces, la variable aleatoria Z = se ^p distribuye aproximadamente como una normal estndar. En general, la aproximacin es satisfactoria para muestras de 50 observaciones o ms. La calidad de la aproximacin depender tambin de p; lo idea es que se verifique np(1 p) > 9. Ntese que para p fijo, el error estndar de la proporcin muestral disminuye a medida que crece el tamao muestral. Esto implica que, al aumentar el tamao muestral, la distribucin de ^px se concentra ms alrededor de su media. Distribucin en el muestreo de la varianza muestral. Supongamos que se extrae una muestra de n observaciones de una poblacin con media desconocida x y varianza desconocida x2. Representaremos las observaciones muestrales por X1, X2, ..., Xn. La varianza poblacional es la esperanza x2 = E[(X - x)2] y, por tanto, una cantidad en la que evidentemente deberamos fijarnos sera en la media de los (X1 - x)2 para los n individuos de la muestra. Sin embargo, la media poblacional x es desconocida, por lo que en la prctica esta cantidad no podr ser calculada. Es natural, entonces, sustituir la desconocida x por la media muestral X , y considerar la media de 1 n los (X1 - X )2. de hecho, la varianza muestral se define como sx2 = (Xi - X )2 n 1 i =1
Definicin. Sea X1, X2, ..., Xn una muestra aleatoria de una poblacin. La cantidad s x2 = X )2 recibe el nombre de varianza muestral. desviacin tpica muestral. 1 n (Xi n 1 i =1 Su raz cuadrada, sx, se denomina
La conclusin de que el valor esperado de la varianza muestral es la varianza poblacional, es general. Sin embargo, para poder caracterizar completamente su distribucin muestral, necesitaremos saber ms acerca de la distribucin de la poblacin. En muchas aplicaciones prcticas, el supuesto de que la distribucin de la poblacin es normal resulta razonable. En tal caso, puede probarse que la variable aleatoria [(n 1)sx2] / x2 = sx2 = [ Cedido por el TURCO
i =1 2
(Xi - X )2] / x2 sigue una distribucin conocida con el nombre de distribucin
(distribucin Chi cuadrado) con (n 1) grados de libertad. Esto slo es cierto cuando el tamao muestral es una proporcin pequea del tamao de la poblacin. Estas distribuciones slo estn definidas para valores positivos de la variable aleatoria. Un miembro concreto de la familia Chi cuadrado viene caracterizado por un nico parmetro, al que llamaremos grado de libertad, para el que habitualmente se usa el smbolo . Si una variable aleatoria sigue una distribucin 2 con grados de libertad, se representar por 2. La media y la varianza de esta distribucin son, respectivamente, el nmero de grados de libertad y el doble del nmero de grados de libertad, es decir, E(2) = y Var(2) = 2 En nuestro contexto, la variable aleatoria (n 1)sx2 / x2 sigue una distribucin 2(n-1), y, por tanto, su media es E[(n 1)sx2 / x2] = (n 1) Por tanto tenemos (n 1) / x2 = E(sx2) = (n 1) de donde E(sx2) = x2 como antes. Para hallar la varianza de sx2, usamos que Var[(n 1)sx2] / x2 = 2(n 1) Por consiguiente (n 1)2 / x4 Var(sx2) = 2(n 1) y, en consecuencia, Var(sx2) = 2x4 / (n 1) Las propiedades de la distribucin 2 pueden usarse tambin para calcular la varianza de la distribucin muestral de la varianza muestral. El parmetro de la distribucin 2 recibe el nombre de grados de libertad. Para entender esta terminologa, observemos que la varianza muestral involucra en su definicin a la suma de los cuadrados de las cantidades (X1 - X ), (X2 - X ), ..., (Xn - X ) Esto supone que estas n piezas de informacin intervienen en el clculo de la varianza muestral. Sin embargo, no son piezas de informacin independientes, puesto que su suma ha de ser 0, segn se deduce de la definicin de X . Por tanto, si conocemos (n 1) cualesquiera de los (Xi - X ), podemos calcular el otro a partir de los (n 1) primeros.
Por ejemplo, dado que
i =1
(Xi - X ) = 0
se tiene que Xn - X = -
i =1
n 1
(Xi - X )
Las n
cantidades (Xi - X ) son equivalentes a un conjunto de (n 1) piezas independientes de informacin. Podemos pensar en esta situacin de la forma siguiente: queremos hacer inferencia sobre la desconocida x2. Si la media poblacional x fuese conocida, nuestra inferencia podra estar basada en la suma de cuadrados de (X1 - x), (X2 - x), ..., (Xn - x) Estas cantidades son independientes unas de otras, y podramos decir que tenemos n grados de libertad para la estimacin de x2. Sin embargo, dado que en la prctica la media poblacional se pierde, y nos quedamos con (n 1) observaciones independientes para hacer inferencia sobre la varianza poblacional. Se dice por ello que los grados de libertad disponibles son (n 1). Distribucin muestral de la varianza muestral. Sea sx2 a varianza muestral de una muestra aleatoria de n observaciones extradas de una poblacin con varianza x2. Entonces, 1. La distribucin muestral de sx2 tiene media x2, es decir, E(sx2) = x2 2. La varianza de la distribucin muestral de sx2 depende de la distribucin de la poblacin. Si dicha distribucin es normal, entonces, Var(sx2) = 2x4 / (n 1) 3. Si la distribucin poblacional es normal, entonces, (n 1)sx2 / x2 se distribuye cono una 2(n-1) Una poblacin normal se ver ms afectada por desviaciones del supuesto de normalidad de la distribucin poblacional. Cuando se quieren calcular probabilidades relativas a la media muestral, el teorema central del lmite asegura que, para muestras moderadamente Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION grandes, desviaciones pequeas de la hiptesis de normalidad de la poblacin de la que se extrae la muestra tienen un efecto pequeo en la validez de las probabilidades calculadas. Por esta razn, se dice que las inferencias basadas en la media muestral son robustas frente a desviaciones del supuesto de normalidad de la poblacin, mientras que las inferencias basadas en la varianza poblacional no lo son.
Estimacin puntual. Introduccin. Cualquier inferencia que se haga sobre la poblacin tendr que basarse necesariamente en estadsticos muestrales, es decir, en funciones de la informacin muestral. Definiciones. Un estimador de un parmetro poblacional es una variable aleatoria que depende de la informacin de la muestra y cuyas realizaciones proporcionan aproximaciones al valor desconocido del parmetro. Se llama estimacin a una realizacin especfica de esta variable aleatoria. Para estudiar la estimacin de un parmetro desconocido, deben considerarse dos posibilidades. Primero, podramos calcular, en base a los datos de la muestra, un valor como 2representativo o como el ms representativo. Alternativamente, podramos intentar encontrar un intervalo o rango, en el cual estemos casi seguros de que est el verdadero parmetro. Definiciones. Un estimador puntual de un parmetro poblacional es una funcin de la nuestra que da como resultado un nico valor. La correspondiente realizacin se llama estimacin puntual del parmetro. Estimadores insesgados y su eficiencia. Designaremos al parmetro que se quiere estimar y ^ al correspondiente estimador puntual. Este estimador se dice que es insesgado, si la media de su distribucin muestral es el parmetro desconocido . Definiciones. Se dice que el estimador ^ es un estimador insesgado del parmetro, si la media de la distribucin muestral de ^ es , es decir E(^) = Diremos que la correspondiente estimacin puntual se obtiene mediante un procedimiento de estimacin insesgado. La notacin de esperanzas indica que si repetimos el proceso de muestreo muchas veces, en promedio, el valor que se obtiene de un estimador insesgado ser igual al parmetro poblacional. Para tres de los estimadores considerados, Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION E( X ) = x E(sx2) = x2 E(^px) = p Por tanto, podemos decir que la media, la varianza y la proporcin muestrales son estimadores insesgados de los correspondientes parmetros poblacionales. Es por esta razn, por la que al definir la varianza muestral dividimos la suma de los cuadrados de las discrepancias por (n 1) en lugar de n. La media de la distribucin de la desviacin tpica muestral no es la desviacin tpica poblacional. Por tanto, la desviacin tpica muestral no es un estimador insesgado de la desviacin tpica poblacional. Estimadores insesgados. 1. La media, la varianza y las proporciones muestrales son estimadores insesgados de los correspondientes parmetros poblacionales. 2. En general, la desviacin tpica muestral no es un estimador insesgado de la desviacin tpica poblacional. Definicin. Sea ^ un estimador de . El sesgo de ^ se define como la diferencia entre su media y , es decir, Sesgo(^) = E(^) - De esto se deduce que el sesgo de un estimador insesgado es . En muchos problemas prcticos, pueden obtenerse diferentes estimadores insesgados, y debe encontrase algn mtodo que nos permita elegir entre ellos. En este contexto, es natural preferir el estimador cuya distribucin est ms concentrada alrededor del valor del parmetro poblacional que se est estimando. Los valores de este estimador difieren del verdadero parmetro con menos probabilidad que los otros estimadores. Si usamos la varianza como medida de dispersin, introduciremos el concepto de eficiencia de un estimador como criterio para preferir un estimador a otro. Definiciones. Sean ^1 y 2 dos estimadores insesgados de , obtenidos en nuestras del mismo tamao, entonces, 1. Se dice que ^1 es ms eficiente que ^2 se Var(^1) < Var(^2) 2. La eficiencia relativa de un estimador con respecto al otro es el cociente de sus varianzas, es decir, Eficiencia relativa =Var(^ 2) / Var(^1) Definicin. Si ^ es un estimador insesgado de , y no hay ningn otro estimador insesgado que tenga menor varianza, entonces se dice que ^ es el estimador insesgado ms eficiente o de mnima varianza de . Eleccin de un estimador puntual. Existen problemas de estimacin para los cuales no hay un estimador insesgado que sea satisfactorio. En este tipo de problemas hay mucho que ganar a cambio del sacrificio de aceptar un pequeo sesgo. Una medida de la proximidad esperada de un estimador ^ al parmetro es su error cuadrtico medio, la esperanza del cuadrado de la diferencia entre el estimador y el parmetro, es decir, ECM = E[(^ - )2] Puede probarse que ECM(^) = Var(^) + [Sesgo(^)]2 Puede deducirse que, en ocasiones, se puede obtener un error cuadrtico medio ms pequeo pasando de un estimador insesgado a otro sesgado, si esto permite conseguir una reduccin suficiente en la varianza del estimador. Sin embargo, este enfoque es impracticable, ya que el error Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION cuadrtico medio depender del valor real de , que es desconocido. En algunos casos se puede probar que un estimador tiene menor error cuadrtico medio que toro para todos los valores posibles del parmetro. En este caso se dice que el estimador inferior es inadmisible. Sea el parmetro que se quiere estimar y ^n el estimador puntual basado en una muestra de tamao n. Puesto que estamos interesados en la proximidad del estimador al parmetro, vamos a considerar la probabilidad de que ^ n difiera de en menos de , donde es un nmero positivo, es decir, P[|^n - | < ] Si para cualquier positivo, no importa lo pequeo que sea, esta probabilidad tiende a 1 cuando el tamao muestral n tiende a infinito, se dice que el estimador es consistente. De manera informal, lo que esto significa es que si utilizamos un estimador consistente con una muestra infinita, obtendremos el resultado correcto. La desviacin tpica muestral es consistente para la desviacin tpica poblacional (esto tambin es cierto en el caso de la media y la varianza para sus correspondientes parmetros poblacionales). Tambin la proporcin muestral es consistente para la proporcin poblacional. Un estimador que sea consistente y que su distribucin lmite tenga mnima varianza es el mejor asintticamente normal. De hecho, existe un procedimiento conocido como mximo verosimilitud para encontrar estimadores puntuales.
Estimacin por intervalos. Intervalos de confianza. La bsqueda de un estimador por intervalos es la bsqueda de un rango de valores entre los que posiblemente se encuentre la cantidad que se estima. Cuanto mayor sea la muestra, menor ser el intervalo que recoge nuestra incertidumbre sobre el verdadero valor del parmetro, siempre que las otras condiciones permanezcan iguales. Definiciones. Un estimador por intervalos de un parmetro poblacional es una regla (basada en informacin muestral) para determinar un rango, o un intervalo, en el cual posiblemente se encuentre dicho parmetro. La estimacin correspondiente se denomina estimacin por intervalos. Podemos definir intervalos de confianza del porcentaje que nosotros queramos, siempre menor, por supuesto, del 100%. Supongamos que las variables aleatorias A y B son tales que P(A < < B) = 1 - donde es un nmero cualquiera entre 0 y 1. entonces, si se extraen repetidamente muestras aleatorias de la poblacin y se calcula este intervalo, una proporcin (1 - ), o 100(1 - )%, de estos intervalos contendrn al parmetro . Un intervalo calculado de esta manera se denomina un intervalo de confianza del 100(1 - )% para . Definiciones. Sea un parmetro desconocido. Supongamos que basndonos en la informacin muestral, podemos encontrar dos variables aleatorias A y B tales que P(A < < B) = 1 - Si representamos las realizaciones particulares de A y B por a y b, entonces, el intervalo de a a b se denomina intervalo de confianza del 100(1 - )% para . La cantidad (1 - ) se denomina contenido probabilstico o nivel de confianza del intervalo. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Si se extraen muestras aleatorias de la poblacin un nmero elevado de veces, el parmetro estar contenido en un 100(1 - )% de los intervalos calculados de este modo. El intervalo de confianza obtenido de esta manera se escribe a < < b Intervalos de confianza para la media de una distribucin normal: varianza poblacional conocida. Imaginemos que se extrae una muestra aleatoria de una distribucin normal con media desconocida y varianza conocida, y que nuestro objetivo es hallar un intervalo de confianza para la media poblacional. Si representamos por X1, X2, ..., Xn una muestra aleatoria de n observaciones de una poblacin normal con media y varianza conocida 2, y por X la media muestral, entonces, los intervalos de confianza para la media poblacional estn basados en el X resultado por el que la variable aleatoria Z = tiene una distribucin normal n estndar. Un intervalo de confianza para la media poblacional estar basado en el valor observado de la media muestral, es decir, en una observacin extrada de una distribucin muestral. Notacin. Sea Z una variable aleatoria estndar y un valor tal que 0 < < 1. entonces z0 al nmero que verifica P(Z > z0) = Dado que P(Z > z0) = , entonces, Fz(z0) = P(Z < z0) = 1 - Supongamos ahora que necesitamos un intervalo de confianza del 100(1 - )% para la media poblacional. Empleando la notacin ya introducida, tenemos que P(Z > z/2) = /2 y por la simetra de la densidad normal alrededor de la media P(Z < -z/2) = /2 Se deduce, por tanto, que P(-z/2 < Z < z/2) = 1 - /2 - /2 = 1 - Hemos encontrado un rango de valores de la variable aleatoria normal estndar con un contenido probabilstico especfico. Esta informacin puede ser empleada para elaborar un intervalo de confianza con el mismo contenido probabilstico para la media poblacional. X Tenemos que: 1 - = P(-z/2 < Z < z/2) = P(-z/2 < < z/2) = P n z / 2 z / 2 z / 2 z / 2 < X < <<X+ = P X n n n n Se deduce de la definicin de intervalos de confianza que si x es el valor especfico observado de la media muestral, entonces, un intervalo de confianza del 100(1 - )% para z / 2 z / 2 < < x+ la media poblacional viene dado por x n n Intervalos de confianza para la media de una poblacin normal: varianza poblacional conocida. Supongamos que tenemos una muestra aleatoria de n observaciones procedentes de una distribucin normal con media y varianza 2. Si 2 es conocida y el valor observado de la media muestral es x , entonces, un intervalo de confianza del 100(1 - )% para la media Llamaremos
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION z / 2 z / 2 < < x+ poblacional viene dado por x donde z/2 es el nmero que verifica n n P(Z > z/2) = /2 y la variable aleatoria Z tiene una distribucin normal estndar. Hemos visto que un intervalo de confianza del 100(1 - )% para la media poblacional es z / 2 z / 2 x < < x+ Como se podra intuir, la media muestral x est en el centro n n del intervalo. La longitud, w, del intervalo, es decir, la distancia entre los extremos, es w = 2 z / 2 n Puede comprobarse, entonces, que la longitud de un intervalo de confianza depende de su contenido probabilstico, la desviacin tpica poblacional y el nmero de observaciones de la muestra. En particular, se verifican los siguientes resultados: 1. Dado un contenido probabilstico y un tamao muestral, cuanto mayor sea la desviacin tpica poblacional , mayor longitud tendr el intervalo de confianza para la media poblacional. Esto resulta convincente intuitivamente, dado que, siempre que las otras condiciones permanezcan intactas, cuanto ms dispersa est la distribucin de la poblacin alrededor de su media, ms incierta ser nuestra inferencia sobre la media. Esta incertidumbre adicional se refleja en unos intervalos de confianza de mayor longitud. 2. Dado un contenido probabilstico y una desviacin tpica poblacional, cuanto mayor sea el tamao de la muestra n, ms corto ser el intervalo de confianza para la media poblacional. Una vez ms, esta conclusin resulta intuitiva. Cuanta mayor informacin obtenemos sobre una poblacin, ms precisa debe ser nuestra inferencia sobre su media. Esta precisin adicional se refleja en unos intervalos de confianza ms cortos. 3. Dada una desviacin tpica poblacional y un tamao muestral, cuanto mayor sea el contenido probabilstico (1 - ), mayor ser la longitud del intervalo de confianza para la media poblacional. Cuanto mayor sea (1 - ), menor ser y, por tanto, mayor ser z/2. en efecto, a cambio de una mayor certidumbre en nuestras declaraciones de probabilidad, obtenemos una menor precisin de dichas afirmaciones. Esto se refleja en unos intervalos de confianza ms largos para los parmetros de la poblacin, ya que el contenido probabilstico aumenta. Si el tamao de la muestra es grande, ninguno de los requisitos resulta muy restrictivo. En este caso, por el teorema central del lmite, estos intervalos de confianza siguen siendo aproximadamente vlidos incluso cuando la distribucin de la poblacin no es normal. Adems, cuando el tamao de la muestra es grande, la desviacin tpica muestral ser un estimador lo suficientemente bueno de la desviacin tpica poblacional como para permitirnos emplear el primero en lugar del segundo sin afectar seriamente el contenido probabilstico de los intervalos. Intervalos de confianza para la media poblacional: tamaos muestrales grandes. Supongamos que tenemos una muestra de n observaciones procedentes de una distribucin con media . Sean x y sx la media muestral observada y la desviacin tpica, respectivamente. Entonces, si n es grande, una buena aproximacin de un intervalo de z / 2 s 2 z / 2 s 2 < < x+ confianza del 100(1 - )% para viene dada por x n n En la mayor parte de los casos esta aproximacin seguir siendo adecuada incluso cuando la distribucin de la poblacin no es normal. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Consideramos que n = 30 observaciones o ms constituyen una muestra grande. La distribucin T de Student. En el caso en el que la desviacin tpica poblacional sea desconocida es natural considerar la variable aleatoria que resulta de sustituir el valor desconocido por la X desviacin tpica muestral, sx, obtenindose: t = Esta variable aleatoria no sigue sx n una distribucin normal estndar. Sin embargo, es conocida y es de hecho un miembro de una familia de distribuciones denominada t de Student. La distribucin t de Student. Dada una muestra de n observaciones con media X y desviacin tpica sx, procedente de X una poblacin normal con media , la variable aleatoria t = sigue una sx n distribucin t de Student con (n 1) grados de libertad. El nmero de grados de libertad coincide con el correspondiente a la distribucin Chi cuadrado basada en el mismo tamao muestral. Formalmente, la variable aleatoria t de Student con grados de libertad se define como t = Z / (2/) donde Z es una variable aleatoria normal estndar, 2 es una variable aleatoria Chi cuadrado con grados de libertad y Z y 2 son independientes. Notacin. Representaremos por t la variable aleatoria que sigue una distribucin t de Student con grados de libertad. Adems, t, ser el valor para el cual P(t > t,) = En las aplicaciones ms usuales, necesitaremos encontrar el valor t, correspondiente a una probabilidad determinada . Utilizaremos ahora la distribucin t de Student para calcular intervalos de confianza para la media de una poblacin normal. Se deduce que P(t > t,/2) = /2 Adems, debido a la simetra de la funcin de densidad de la distribucin t de Student alrededor de su media 0, P(t < - t,/2) = /2 Finalmente, dado que las probabilidades de sucesos mutuamente excluyentes y colectivamente exhaustivos suman 1, se deduce que P(-t,/2 < t < t,/2) = 1 P(t > t,/2) P(t < - t,/2) = 1 - /2 - /2 = 1 - Intervalos de confianza para la media de una distribucin normal: varianza poblacional desconocida. Podemos emplear la distribucin t de Student para derivar intervalos de confianza para la media de una poblacin normal cuando la varianza es desconocida. Supongamos que disponemos de una muestra aleatoria de n observaciones procedentes de una poblacin normal con media y varianza desconocida, y que buscamos intervalos de confianza para la media poblacional. Sean X y sx2 la media y la varianza muestrales, respectivamente. Entonces, la variable X aleatoria tn-1 = sigue una distribucin t de Student con (n 1) grados de libertad. sx n
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Supongamos que queremos calcular un intervalo de confianza del 100(1 - )% para la X media poblacional. Tenemos que 1 - = P(- tn-1,/2 < tn-1 < tn-1,/2) = P(-tn-1,/2 < < tn-1,/2) sx n tn 1, / 2 sx tn 1, / 2 sx tn 1, / 2 sx tn 1, / 2 sx < X < <<X+ = P X = P n n n n Por tanto, de la definicin de intervalos de confianza se deduce que si x y sx son los valores observados para la media y la desviacin tpica muestrales, entonces, un intervalo de confianza del 100(1 - )% para la media poblacional viene dado por tn 1, / 2 sx tn 1, / 2 sx x < < x+ n n Intervalos de confianza para la media de una poblacin normal: varianza poblacional desconocida. Supongamos que tenemos una muestra aleatoria de n observaciones procedentes de una distribucin normal con media y varianza desconocida. Si la media y la desviacin tpica muestrales observadas son, respectivamente, x y sx, entonces, un intervalo de confianza del 100(1 )% para la media poblacional viene dado por tn 1, / 2 sx tn 1, / 2 sx x < < x+ donde tn-1,/2 es el valor que verifica P(tn-1 > tn-1,/2) = /2 n n y la variable aleatoria tn-1 sigue una distribucin t de Student con (n 1) grados de libertad. Intervalos de confianza para proporciones de la poblacin (muestras grandes). Supongamos ahora que estamos interesados en la proporcin de miembros de la poblacin que poseen un determinado atributo. Situndonos en el marco de la distribucin binomial ^px representa la proporcin de xitos en n intentos independientes, cada uno con probabilidad de xito p. La variable ^ px p aleatoria Z = sigue aproximadamente una distribucin normal. p (1 p ) / n Desgraciadamente, este resultado no nos permite por si solo el clculo de intervalos de confianza para la proporcin poblacional, ya que el denominador depende del parmetro p desconocido,. Sin embargo, si el tamao muestral es grande, podemos conseguir una buena aproximacin sustituyendo p por su estimador puntual ^px, es decir, p (1 p ) ^ px (1 ^ px ) Por tanto, para tamaos muestrales grandes, la variable n n ^ px p aleatoria Z = sigue aproximadamente una distribucin normal. Podemos, ^ px (1^ px ) / n pues, utilizar este resultado para la construccin de intervalos de confianza para la proporcin poblacional. Como ya hemos hecho anteriormente, definiremos z/2 como el valor para el cual P(Z > z/2) = /2 donde la variable aleatoria Z sigue una distribucin normal. Entonces, 1 - = ^ px p ^ px (1^ px ) P(-z/2 < Z < z/2) = P(-z/2 < < z/2) = P(-z/2 < ^px p < z/2 ^ px (1^ px ) / n n ^ px (1^ px ) ^ px (1^ px ) ^ px (1^ px ) )= = P(^px - z/2 < p < ^px + z/2 ) n n n
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Por lo que se deduce que si la proporcin muestral observada es ^p x, un intervalo de confianza aproximado al 100(1 - )% para la proporcin poblacional viene dado por ^p x ^ px (1^ px ) ^ px (1^ px ) z/2 < p < ^px + z/2 n n Intervalos de confianza para la proporcin poblacional (Muestras grandes). Sea ^px la proporcin observada de xitos en una muestra aleatoria de n observaciones procedentes de una poblacin con una proporcin p de xitos. Entonces, si n es grande, un intervalo de confianza del 100(1 - )% para la proporcin poblacional viene dado por ^ px (1^ px ) ^ px (1^ px ) ^px - z/2 < p < ^px + z/2 donde z/2 es el valor para el cual P(Z n n > z/2) = /2 y la variable aleatoria Z tiene una distribucin normal. Los intervalos de confianza construidos de este modo son generalmente bastante fiables cuando se basan en muestras con n 40 o ms observaciones. Los intervalos de confianza para la proporcin poblacional estn centrados en la proporcin muestral. Siempre que las dems condiciones permanezcan intactas, cuanto mayor sea el tamao muestral n, menor ser la longitud del intervalo de confianza. Intervalos de confianza para la varianza de una poblacin normal. Imaginemos que tenemos una muestra de n observaciones procedentes de una poblacin normal con varianza 2, y representamos por sx2 la varianza muestral. La variable aleatoria 2n-1 = [(n 1)sx2] / 2 sigue una distribucin Chi cuadrado con (n 1) grados de libertad. Notacin. Denominaremos 2 la variable aleatoria que tiene una distribucin Chi cuadrado con grados de libertad. 2, ser el valor para el cual P(2 > 2,) = Tenemos que P(2 > 2,/2) = / 2 De manera similar, se define 2,1-/2 como el valor que verifica P(2 > 2,1-/2) = 1 - /2 y, por tanto, P(2 < 2,1-/2) = /2 Finalmente, P(2n,1-/2 < 2 < 2,/2) = 1 - /2 - /2 = 1 - Para calcular intervalos de confianza para la varianza poblacional, tenemos que para la distribucin Chi cuadrado con (n 1) grados de libertad 1 - = P(2n-1,1-/2 < 2n-1 < 2n-1,/2) = P(2n-1,1-/2 < [(n 1)sx2] / 2 < 2n-1,/2) = P{[(n 1)sx2] / (2n2 2 2 1,/2) < < [(n 1)sx ] / ( n-1,1-/2)} 2 Por tanto, si sx es el valor observado de la varianza muestral, un intervalo de confianza del 100(1 - )% vendr dada por {[(n 1)sx2] / (2n-1,/2) < 2 < [(n 1)sx2] / (2n-1,1-/2)} Intervalos de confianza para la varianza de una poblacin normal. Supongamos que disponemos de una muestra aleatoria de n observaciones procedentes de una poblacin normal con varianza 2. Si la varianza muestral observada es sx2, entonces, un intervalo de confianza del 100(1 - )% para la varianza poblacional vendr dado por {[(n 1)sx2] / (2n-1,/2) < 2 < [(n 1)sx2] / (2n-1,1-/2)} donde 2n-1,/2 es el valor que verifica P(2n-1 > 2n-1,/2) = /2 y 2n-1,1-/2 es el valor para el cual P(2n-1 < 2n-1,1-/2) = /2 y la variable aleatoria 2n-1 sigue una distribucin Chi cuadrado con (n 1) grados de libertad.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Hay que advertir el peligro de seguir este procedimiento cuando la distribucin de la poblacin no es normal. La validez del estimador por intervalos para la varianza depende en mayor medida de la hiptesis de normalidad que el correspondiente a la media poblacional. Intervalos de confianza para la diferencia de medias de dos poblaciones normales. Para comparar las medias poblacionales, se extrae una muestra aleatoria de las dos poblaciones y la inferencia sobre la diferencia entre ambas medias se basa en los resultados muestrales. El mtodo apropiado para analizar esta informacin depende del procedimiento empleado al seleccionar las muestras. Nosotros consideraremos las dos posibilidades siguientes: 1. Datos pareados: en este procedimiento, las muestras se eligen por pares, una de cada poblacin. La idea es que, aparte del aspecto objeto de estudio, los elementos de cada uno de estos pares deben estar relacionados, de manera que la comparacin pueda ser establecida directamente. 2. Muestras independientes: en este mtodo se extraen dos muestras independientes de cada una de las dos poblaciones de inters, de manera que los miembros de una muestra no tienen necesariamente relacin con los miembros de la otra. Intervalos de confianza basados en datos pareados. De manera general, supongamos que tomamos una muestra aleatoria de n pares de observaciones que representamos por (x1, y1), (x2, y2), ..., (xn, yn), procedentes de dos poblaciones con medias x y y. As, x1, x2..., xn corresponden a las observaciones con media x, e y1, y2, ..., yn a las observaciones con media y. Nos encontramos en una situacin en la que podemos plantearnos el clculo de un intervalo de confianza para una media poblacional (x - y), dada una muestra aleatoria (los valores de las diferencias di) de esa poblacin. Si la distribucin poblacional asumida es normal, el mtodo para el clculo de intervalos de confianza para la media de una distribucin normal, con varianza poblacional desconocida, puede aplicarse directamente, ya que las diferencias en los datos pareados constituyen una muestra aleatoria de una poblacin cuya media es igual a la cantidad que estamos intentado estimar. Intervalos de confianza para la diferencia de medios: datos pareados. Supongamos que disponemos de una muestra aleatoria de datos pareados procedentes de distribuciones con medias x y y. Sean d y sd la media y la desviacin tpica muestrales para las n diferencias di = xi yi. Si se asume que la distribucin de las diferencias es normal, entonces, un intervalo de confianza del 100(1 - )% para (x - y) tn 1, / 2 sd tn 1, / 2 sd < x y < d + viene dado por d donde tn-1,/2 es el valor para el cual n n P(tn-1 > tn-1,/2) = /2 y la variable aleatoria tn-1 sigue una distribucin t de Student con (n 1) grados de libertad. Intervalos de confianza basados en muestras independientes. Imaginemos que disponemos de una muestra aleatoria de nx observaciones procedentes de una poblacin con media x y varianza 2x, y de una muestra aleatoria independiente de ny observaciones de una poblacin con media y y varianza y2. Sean X e Y las medias muestrales respectivas. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Como un primer paso, veamos el caso en el que las dos distribuciones poblacionales son normales con varianzas conocidas. Dado que el objeto de inters es la diferencia entre las dos medias poblacionales, resulta razonable basar la inferencia en la diferencia entre las medias muestrales correspondientes. Esta variable aleatoria tiene media E( X - Y ) =E( X ) E( Y ) = x - y y, dado que las muestras son independientes, varianza Var( X Y ) = Var( X ) + Var( Y ) = x2/nx + y2/ny Adems, se puede probar que su distribucin es normal. Por tanto, la variable aleatoria Z = [( X - Y ) (x - y)] / [(x2/nx + y2/ny)] tiene una distribucin normal estndar. Intervalos de confianza para la diferencia de medias: muestras independientes (Varianzas conocidas o tamaos de muestras grandes). Supongamos que disponemos de muestras aleatorias independientes de nx y ny observaciones procedentes de distribuciones normales con medias x y y, y varianzas x2 y y2. Si las medias muestrales observadas son x e y , entonces, un intervalo de confianza del 100(1 - )% para (x - y) viene dado por ( x - y ) - z/2 (x2/nx + y2/ny) < x y < ( x - y ) + z/2 (x2/nx + y2/ny) donde z/2 es el valor para el cual P(Z > z/2) = /2 y la variable aleatoria Z sigue una distribucin normal estndar. Si el tamao de las muestras nx y ny es grande, entonces, sustituyendo en la expresin anterior las varianzas poblacionales sx2 y sy2 por las muestrales, se obtiene una buena aproximacin a un intervalo de confianza del 100(1 - )% para (x - y). Para muestras grandes, esta aproximacin seguir siendo vlida incluso cuando las distribuciones poblacionales no sean normales. Treinta observaciones en cada muestra son, en general, suficientes para realizar esta aproximacin. Para hallar un intervalo cuando los tamaos muestrales no son grandes y se requiere un intervalo de confianza para la diferencia de medias de dos poblaciones normales, y si se puede asumir que las varianzas poblacionales son iguales, se puede emplear un mtodo bastante sencillo. Supongamos que disponemos de dos muestras aleatorias de nx y ny observaciones procedentes de dos poblaciones con medias x y y, y varianza comn desconocida 2. la inferencia sobre las medias poblacionales se basa en la diferencia ( X - Y ) entre las dos medias muestrales. Esta variable aleatoria tiene una distribucin normal con media (x 1 1 nx + ny + X Y X Y y) y varianza Var( - ) = Var( ) + Var( ) = 2/nx + 2/ny = 2 nx ny = 2 nxny nx + ny ]} Por tanto, se verifica que la variable aleatoria Z = [( X - Y ) (x - y)] / {[2 nxny tiene una distribucin normal estndar. Sin embargo, debido a que esta varianza es la misma para ambas poblaciones, pueden emplearse los dos conjuntos de informacin muestral para estimarla. El estimador es s2 = [(nx 1)sx2 + (ny 1)sy2] / (nx + ny 2) donde sx2 y sy2 son las dos varianzas muestrales. Reemplazando la varianza desconocida ( X Y ) ( x y ) 2 2 nx + ny por su estimador s , obtenemos la variable aleatoria t = Puede s nxny demostrar que esta variable aleatoria sigue una distribucin t de Student con (n x + ny 2) grados de libertad.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Intervalo de confianza para la diferencia de medias de dos poblaciones normales: Muestras independientes, varianzas poblaciones iguales. Supongamos que disponemos de dos muestras aleatorias independientes con nx y ny observaciones que proceden de dos poblaciones normales con medias x y y, y varianza comn desconocida. Si las medias y varianzas muestrales observadas son x , y , y sx2, sy2, entonces, un intervalo de confianza del 100(1 - )% viene dado por ( x - y ) tnx+ny-2, /2 nx + ny nx + ny s < x - y < ( x - y ) + tnx+ny-2, /2 s donde s2 = [(nx 1)sx2 + (ny 1)sy2] / (nx + nxny nxny ny 2) y tnx+ny-2, /2 es el valor que verifica P(tnx+ny-2 > tnx+ny-2, /2) = /2 donde la variable aleatoria tnx+ny-2 sigue una distribucin t de Student con (nx + ny 2) grados de libertad. Intervalos de confianza para la diferencia entre dos proporciones poblacionales (muestras grandes). Supongamos que una muestra de nx observaciones de una poblacin con una proporcin px de xitos da lugar a una proporcin muestral ^px, y que se obtiene una proporcin muestral ^py al examinar una muestra aleatoria independiente de ny observaciones procedentes de una poblacin con proporcin py de xitos. Dado que estamos interesados en la diferencia poblacional (px py), parece lgico estudiar el comportamiento de la variable aleatoria (^px - ^py). Su media es E(^px - ^py) = E(^px) E(^py) = px py y, debido a que las muestras se extrajeron independientemente, la varianza Var(^px - ^py) = px (1 px ) py (1 py ) + Var(^px) + Var(^py) = nx ny Adems, si los tamaos muestrales son grandes, la distribucin de esta variable aleatoria es aproximadamente normal, por lo que si le restamos su media y la dividimos por la desviacin tpica, el resultado es una variable aleatoria normal estndar. Por otra parte, para tamaos de muestra grandes, esta aproximacin sigue siendo vlida aun cuando se sustituyan las proporciones poblacionales desconocidas por sus equivalentes muestrales. As pues, la variable aleatoria (^ px ^ py ) ( px py ) Z= ^ px (1^ px ) ^ py (1^ py ) sigue aproximadamente una distribucin normal + nx ny estndar. Este resultado permite la construccin de intervalos de confianza para la diferencia entre dos proporciones poblacionales cuando los tamaos de muestra son grandes. Intervalos de confianza para la diferencia entre proporcione poblaciones (Muestras grandes). Sea ^px la proporcin de xitos observadas en una muestra aleatoria de tamao nx procedente de una poblacin con proporcin de xitos px, y sea ^py la proporcin de xitos observada en una muestra aleatoria independiente procedente de una poblacin con proporcin py de xitos. Entonces, sui los tamaos muestrales son grandes (al menos 40 observaciones), un intervalo de confianza del 100(1 - )% viene dado por (^px - ^py) - z/2 ^ px (1^ px ) ^ py (1 ^ py ) ^ px (1^ px ) ^ py (1 ^ py ) + + < px py < (^px - ^py) + z/2 donde nx ny nx ny Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION z/2 es el valor que verifica P(Z > z/2) = /2 y la variable aleatoria Z sigue una distribucin normal estndar.
Cmo estimar el tamao de la muestra. En algunas situaciones el investigador puede ser capaz de fijar por adelantado la amplitud del intervalo de confianza, eligiendo un tamao muestral lo suficientemente grande como para garantizar dicha amplitud. Intervalos para la media de una distribucin normal: varianza poblacional desconocida. Cuando tomamos una muestra aleatoria de n observaciones procedentes de una poblacin normal con media y varianza conocida 2, un intervalo de confianza del 100(1 z / 2 z / 2 < < x+ - )% viene dado por x donde x es la media muestral observada n n y z/2 es el valor crtico apropiado de la distribucin normal. Este intervalo est centrado z / 2 en la media muestral y recorre una distancia L = a cada lado de la media n muestral, de manea que L es la mitad de la longitud del intervalo. Supongamos ahora que z / 2 el investigador quiere fijar L de antemano. Tenemos que n = y elevando al L cuadrado de los dos lados de esta ecuacin, obtenemos n = (z2/22) / L2. Esta eleccin del tamao muestral nos garantiza que el intervalo de confianza tendr una amplitud L a cada lado de la media muestral. Tamao muestral de los intervalos de confianza para la media de una distribucin normal: varianza poblacional conocida. Supongamos que disponemos de una muestra aleatoria de una poblacin normal con varianza conocida 2. entonces, un intervalo de confianza del 100(1 - )% para la media poblacional tiene una amplitud L a cada lado de la media muestral, si el nmero de observaciones es n = (z2/22) / L2. donde z/2 es el valor para el cual P(Z > z/2) = /2 y Z sigue una distribucin normal estndar. Naturalmente, el nmero de observaciones de la muestra tiene que ser entero. Si el nmero n resultante no es un entero, lo redondeamos por exceso para garantizar que nuestro intervalo de confianza no exceda la amplitud requerida. Intervalos para la proporcin poblacional. En una muestra aleatoria de n observaciones, un intervalo de confianza del 100(1 - )% ^ px (1^ px ) ^ px (1^ px ) viene dado por ^px - z/2 < p < ^px + z/2 ) donde ^px es la n n proporcin muestral observada. Este intervalo est centrado en la proporcin muestral y
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION ^ px (1^ px ) recorre una distancia L = z/2 a cada lado de la proporcin muestral. Ahora n bien, esta frmula no puede ser aplicada directamente para construir un intervalo de confianza con una longitud determinada, ya que depende de la proporcin muestral, la cual no se conoce de antemano. Sin embargo, independientemente del resultado, ^px(1 ^px) no puede ser mayor que 0,25 cuando el valor de la proporcin muestral es 0,5. de este modo, el mayor valor que puede alcanzar L es L *, el cual viene dado por L* = z/2 0,25 0,5 z / 2 = n n Supongamos que un investigador quiere elegir un tamao muestral lo suficientemente grande como para garantizar que el intervalo de confianza no tendr una amplitud mayor 0,5 z / 2 que L* a cada lado de la proporcin muestral. Tenemos que n = y elevando L* esta cantidad al cuadrado obtenemos n = (0,25z2/2) / (L*2) Esta expresin proporciona el tamao muestral que buscamos. Tamao muestral de los intervalos de confianza para la proporcin muestral. Supongamos que tomamos una muestra aleatoria procedente de una poblacin. Entonces, un intervalo de confianza del 100(1 - )% para la proporcin poblacional, que tiene una amplitud mxima L a cada lado de la proporcin muestral, vendr garantizado por un nmero de observaciones n = (0,25z2/2) / (L*2) Contraste de hiptesis. Denotemos por el parmetro poblacional de inters. Supongamos que se formula una hiptesis sobre este parmetro y que esta hiptesis se considerar cierta a no ser que se produzca suficiente evidencia en contra, lo cual puede entenderse como mantener la hiptesis. En el contexto del contraste de hiptesis estadstico, se conoce como hiptesis nula. Cuando se recoge informacin muestral, esta hiptesis es juzgada, o contrastada. Si la hiptesis no es cierta, entonces, debe ser cierta alguna hiptesis alternativa, as cuando el investigador elabora un contraste formula una hiptesis alternativa frente a la cual se contrasta la hiptesis nula. La hiptesis nula se denotar H0 y la hiptesis alternativa H1. Una hiptesis, nula o alternativa, puede designar un nico valor, llamado 0 para el parmetro poblacional . En este caso, se dice que la hiptesis es simple. La notacin simblica para una hiptesis de este tipo es H0: = 0 Una hiptesis tambin puede designar un rango de valores para el parmetro poblacional desconocido. Una hiptesis de este tipo se denomina compuesta y ser cierta para ms de un valor del parmetro poblacional. En muchas aplicaciones, se contrasta una hiptesis nula, digamos, H0: = 0 frente a una alternativa compuesta. En algunos casos, slo interesan alternativas a un lado de la hiptesis nula. Por ejemplo, podemos querer constatar esta hiptesis nula frente a la hiptesis alternativa de que el verdadero valor de es mayor que 0, lo cual puede escribirse como H1: > 0 Por el contrario, la alternativa de inters puede ser H 1: < 0 Las hiptesis alternativas de este tipo se denominan alternativas unilaterales. Otras posibilidad es que queramos contrastar esta hiptesis nula simple frente a la alternativa general de que el valor de es cualquiera distinto de 0, es decir: H1: 0 sta se conoce como alternativa bilateral.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Despus de especificar unas hiptesis nula y alternativa, y de recoger informacin muestral, debe tomarse una decisin sobre la hiptesis nula. Las dos posibilidades son aceptar la hiptesis nula o rechazarla a favor de la alternativa. Con el fin de llegar a una de estas conclusiones, se adopta una regla de decisin basada en la evidencia muestral. Si slo se dispone de una muestra de la poblacin, entonces el parmetro poblacional no se conocer con exactitud. Por consiguiente, no se puede saber con seguridad si la hiptesis nula es cierta o falsa. Por tanto, cualquier regla de decisin adoptada tiene cierta probabilidad de llegar a una conclusin errnea sobre el parmetro poblacional de inters. De hecho, pueden cometerse dos tipos de errores. Hay dos posibles estados de la naturaleza la hiptesis nula es cierta o es falsa. Un error que se puede cometer, llamado error de Tipo I, es rechazar una hiptesis nula cierta. Si la regla de decisin es tal que la probabilidad de rechazar la hiptesis nula cuando es cierta es , entonces, se llama nivel de significacin del contraste. Puesto que la hiptesis tiene que ser aceptada o rechazada, la probabilidad de aceptar la hiptesis nula cuando es cierta es (1 - ). El otro error posible, llamado error de Tipo II, ocurre cuando se acepta una hiptesis nula falsa. Supongamos que para una determinada regla de decisin particular, la probabilidad de cometer este error, cuando la hiptesis nula es falsa, se nota por . Entonces, la probabilidad de rechazar una hiptesis nula falsa es (1 - ), y se denomina potencia del contraste. Por supuesto, lo ideal sera que las probabilidades de los dos tipos de error fuesen lo ms pequeas posible. Sin embargo, hay una clara compensacin entre los dos. Cuando se ha tomado una muestra, cualquier modificacin de la regla de decisin que haga menos verosmil rechazar una hiptesis nula cierta, inevitablemente, se traducir en mayor verosimilitud de aceptar esta hiptesis cuando es falsa. Al disminuir la probabilidad de cometer un error de Tipo I, hemos aumentado la probabilidad de cometer un error de Tipo II. La nica manera de disminuir simultneamente las dos probabilidades de error ser obtener ms informacin sobre el verdadero parmetro de la poblacin, tomando una muestra mayor. Habitualmente lo que se hace en la prctica, es fijar la probabilidad de cometer un error de Tipo I a un nivel deseado, es decir, se fija el nivel de significacin. Hemos visto que, puesto que la regla de decisin queda determinada por el nivel de significacin elegido, el concepto de potencia no forma parte directa en la decisin de rechazar la hiptesis nula. Terminologa de contraste de hiptesis. Hiptesis Nula (H0): una hiptesis que se mantiene como cierta si no se obtiene suficiente evidencia de lo contrario. Hiptesis Alternativa (H1): una hiptesis frente a la cual se contrasta la hiptesis nula y que se considerar cierta si la nula resulta falsa. Hiptesis Simple: una hiptesis que especifica un nico valor para el parmetro poblacional de inters. Hiptesis Compuesta: una hiptesis que especifica un rango de valores para el parmetro poblacional. Alternativa Unilateral: una hiptesis alternativa que recoge todos los posibles valores de un parmetro poblacional a un lado u otro (es decir, mayores que o menores que) del valor especificado por una hiptesis nula simple. Alternativa Bilateral: una hiptesis alternativa que recoge todos los posibles valores de un parmetro poblacional distintos del valor especificado por una hiptesis nula simple. Decisiones de un Contraste de Hiptesis: se formula una regla de decisin que conduce al investigador a aceptar o rechazar la hiptesis nula basndose en la evidencia muestral. Error de Tipo I: rechazar una hiptesis nula cierta. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Error de Tipo II: aceptar una hiptesis nula falsa. Nivel de significacin: la probabilidad de rechazar una hiptesis nula que es cierta (esta probabilidad a veces se expresa como un porcentaje, con lo que nos referimos a un contraste de nivel de significacin como un contraste de nivel 100%). Potencia: la probabilidad de rechazar una hiptesis nula que es falsa. Contrastes para la media de una distribucin normal: Varianza poblacional conocida. Comencemos con el problema de contrastar la hiptesis nula de que la media poblacional es igual a cierta valor, 0. esta hiptesis se representa H0: = 0 Supongamos que la hiptesis alternativa de inters es que la media poblacional supera este valor especfico, es decir, H1: > 0 Es natural que el contraste sobre la media poblacional se base en la media muestral X . En particular, uno desconfiara de la veracidad de una hiptesis nula, frente a esta alternativa, si la media muestral observada fuese mucho mayor que 0. buscamos la forma de un contraste con un nivel de significacin prefijado. Es decir, queremos una regla de decisin tal que la probabilidad de rechazar la hiptesis nula, cuando es cierta, X 0 sea . El contraste se apoya en el hecho de que la variable aleatoria Z = tiene n distribucin normal estndar. Ahora, se rechazar la hiptesis nula si la media muestral es mucho mayor que el valor 0 postulado para la media poblacional. Por tanto, H0 ser rechazada si se observa un valor alto para la variable aleatoria. Queremos fijar en la probabilidad de rechazar la hiptesis nula cuando es cierta. Denotamos por z el nmero para el cual P(Z > z) = Que significa que cuando la hiptesis nula es cierta, la probabilidad de que la variable aleatoria sea mayor que z es . Por tanto, denotando x como la media muestral observada y suponiendo que adoptamos la siguiente regla de x 0 decisin: Rechazar H0 si > z entonces, la probabilidad de rechazar H0 cuando es n cierta ser , luego es el nivel de significacin del contraste basado en esta regla de decisin. Un contraste para la media de una poblacin normal: varianza poblacional conocida. Supongamos que disponemos de una muestra aleatoria de n observaciones de una poblacin normal con media y varianza 2 conocida. Si la media muestral observada es x , entonces, un contraste con nivel de significacin de de la hiptesis nula H0: = 0 frente a la alternativa H1: > 0 se obtiene con la regla de decisin Rechazar H 0 si x 0 > z donde z es el nmero para el cual P(Z > z0) = y Z es una variable n aleatoria normal estndar. Al rebajar el nivel de significacin, estamos reduciendo la probabilidad de rechazar una hiptesis nula cierta y, en consecuencia, estamos modificando la regla de decisin para hacer menos verosmil que se rechace la hiptesis mula, tanto si es cierta como si no. Obviamente, cuanto menor sea el nivel de significacin al cual puede rechazarse una hiptesis nula, mayor ser la duda sobre su veracidad. En lugar de contrastar hiptesis con niveles de significacin asignados de antemano, los investigadores suelen denominar el menor nivel de significacin al cual puede rechazarse la hiptesis nula. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Definicin. El menor nivel de significacin al cual puede rechazarse una hiptesis nula se denomina valor crtico o p-valor del contraste. Supongamos que en lugar de una hiptesis nula simple, queremos contrastar la hiptesis nula compuesta H0: < 0 frente a la alternativa H1: > 0 al nivel de significacin . Para la regla de decisin desarrollada en el caso de la hiptesis nula simple, vimos que si la media de la poblacin es precisamente 0, entonces, la probabilidad de rechazar la hiptesis nula es . Para esta misma regla de decisin, si la verdadera media de la poblacin es menor que 0 parece an menos verosmil rechazar la hiptesis nula. Por tanto, usar esta regla de decisin en el presente contexto garantiza que la probabilidad de rechazar la hiptesis nula compuesta cuando es cierta es como mucho . Un contraste para la media de una distribucin normal (varianza conocida): hiptesis nula y alternativa compuesta. El procedimiento adecuado para contrastar, al nivel de significacin de , la hiptesis nula H0: < 0 frente a la alternativa H1: > 0 es exactamente el mismo que cuando la hiptesis nula es H0: = 0. Consideremos ahora el problema de contrastar la hiptesis nula simple H 0: = 0 frente a la alternativa compuesta de que la verdadera media es menor que 0, es decir, H1: < 0 En esta situacin, se suscitara una duda sobre la hiptesis nula si la media muestral fuese mucho menor que la media poblacional postulada. Una vez ms, si la hiptesis nula fuera cierta, la variable aleatoria seguira una distribucin normal estndar. para conseguir un contraste con nivel de significacin slo necesitamos advertir que P(Z < -z) = si Z es una variable aleatoria normal estndar. Por tanto, si x es la media x 0 muestral observada, la regla de decisin adecuada es Rechazar H0 si < -z n Contraste para la media de una distribucin normal: varianza poblacional conocida. Supongamos que disponemos de una muestra aleatoria de n observaciones de una poblacin normal con media y varianza conocida 2. si la media muestral observada es x , un contraste con nivel de significacin para cualquiera de las dos hiptesis nula siguientes H0: = 0 o H0: > 0 frente a la alternativa H1: < 0 se obtiene con la x 0 regla de decisin Rechazar H0 si < -z0 n Consideremos ahora el contraste de la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0 Aqu, se asume que el investigador no tiene una poderosa razn para sospechar desviaciones hacia un solo lado de la media poblacional postulada. Se pondr en duda la hiptesis nula si se observa una media muestral mucho mayor o mucho menor que 0. una vez ms, si la hiptesis nula es cierta, la variable aleatoria tiene distribucin normal estndar. para obtener un contraste con nivel de significacin , obsrvese que bajo la hiptesis nula P(Z > z/2) = /2 y P(Z < -z/2) = /2
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Por tanto, la probabilidad de que Z sea mayor que z/2 o menor que z/2 es . De aqu se x 0 sigue que con la regla de decisin Rechazar H0 si es mayor que z/2 o menor que n -z/2 se obtiene un contraste de nivel . Contraste para la media de una distribucin normal frente a una alternativa bilateral: varianza poblacional conocida. Supongamos que disponemos de una muestra aleatoria de n observaciones de una poblacin normal con media y varianza conocida 2. Si la media muestral observada es x , entonces, un contraste con nivel de significacin de de la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0 se obtiene con la regla de decisin Rechazar x 0 x 0 H0 si > z/2 o < -z/2 n n Contrastes para la media: tamaos muestrales grandes. Supongamos que disponemos de una muestra aleatoria de n observaciones de una poblacin con media y varianza 2. Si el tamao de la muestra n es grande (30 o ms), los procedimientos de contraste desarrollados para el caso en el que la varianza poblacional es conocida pueden emplearse cuando es desconocida, reemplazando 2 por la varianza muestral observada sx2. adems, estos procedimientos resultan aproximadamente vlidos incluso si la distribucin de la poblacin no es normal. Contrastes para la media de una distribucin normal: Varianza poblacional desconocida. Supongamos el problema de una muestra aleatoria de n observaciones tomadas de una poblacin normal en el que se quiere contrastar una hiptesis sobre la media poblacional . Sin embargo, la varianza poblacional es desconocida. Hemos visto que si la media y la varianza muestrales se denotan por X y sx2, la variable X aleatoria tn-1 = sigue una distribucin t de Student con (n 1) grados de libertad. sx n Contraste para la media de una distribucin normal: varianza poblacional desconocida. Supongamos que disponemos de una muestra aleatoria de n observaciones de una poblacin normal con media . Si la media muestral y la desviacin tpica observadas son x y sx2, entonces los siguientes contrastes tienen nivel de significacin : 1. Para contrastar una de las hiptesis nulas H0: = 0 o H0: < 0 frente a la x 0 alternativa H1: > 0 la regla de decisin es Rechazar H0 si > tn-t, sx n 2. Para contrastar una de las hiptesis nulas H0: 0 o H0: > 0 frente a la x 0 alternativa H1: < 0 la regla de decisin es Rechazar H0 si < -tn-1, sx n 3. Para contrastar la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0 x 0 x 0 la regla de decisin es Rechazar H0 si > tn-t, o < -tn-1, sx n sx n Aqu, tn-1, es el nmero para el cual P(tn-1 > tn-1,) = donde la variable aleatoria tn-1 sigue una distribucin t de Student con (n 1) grados de libertad. Contrastes para la varianza de una distribucin normal. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Es natural basar los contrastes de hiptesis sobre la varianza poblacional 2 en la varianza muestral sx2. la base para desarrollar los contrastes particulares se apoya en el hecho de que la variable aleatoria 2n-1 = [(n 1)sx2] / 2 sigue una distribucin Chi cuadrado con (n 1) grados de libertad. Si la hiptesis nula es que la varianza de la poblacin es igual a cierto valor especfico 02, es decir, H0: 2 = 02 entonces, cuando la hiptesis nula es cierta, la variable aleatoria 2n-1 = [(n 1)sx2] / 02 sigue una distribucin Chi cuadrado con (n 1) grados de libertad. Si la hiptesis alternativa es que la 2 verdadera varianza supera a 0 , deberamos desconfiar de la hiptesis nula si la varianza muestral observada fuese mucho mayor que 02. por tanto, rechazaramos la hiptesis nula si observramos un valor alto de 2n-1. Por el contrario, si la hiptesis alternativa es que la varianza de la poblacin es menor que el valor que se especifica en la hiptesis nula, sta se rechazara para valor bajo. Por ltimo, para la alternativa bilateral de que la varianza poblacional difiere de 02, rechazaramos la hiptesis nula s observramos valores de 2n-1 inusualmente altos o bajos. Denotamos por 2, el nmero tal que la probabilidad de que una variable aleatoria Chi cuadrado con grados de libertad lo supere es . Es decir, P(2 > 2,) = De donde se deduce que P(2 < 2,1-) = y que P(2 > 2,/2) o 2 < 2,1-/2) = Contraste para la varianza de una poblacin normal. Supongamos que disponemos de una muestra de n observaciones de una poblacin normal con varianza 2. si la varianza muestral observada es sx2, entonces, los siguientes contrastes tienen nivel de significacin : 1. Para contrastar una de las hiptesis nulas H0: 2 = 02 o H0: 2 < 02 frente a la alternativa H1: 2 > 02 la regla de decisin es Rechazar H0 si [(n 1)sx2] / 02 > 2n-1, 2. Para contrastar una de las hiptesis nulas H0: 2 = 02 o H0: 2 > 02 frente a la alternativa H1: 2 < 02 la regla de decisin es Rechazar H0 si [(n 1)sx2] / 02 < 2n-1,1- 3. para contrastar la hiptesis nula H0: 2 = 02 frente a la alternativa bilateral H1: 2 02 la regla de decisin es Rechazar H0 si [(n 1)sx2] / 02 > 2n-1,/2 o [(n 1)sx2] / 02 < 2n-1,1-/2 Aqu, 2n-1, es el nmero para el cual P(2n-1 > 2n-1,) = donde la variable aleatoria 2n-1 sigue una distribucin Chi cuadrado con (n 1) grados de libertad. Contrastes para la proporcin poblacional (Muestras grandes). La inferencia sobre la proporcin poblacional se basa en la proporcin de individuos de una muestra aleatoria que poseen el atributo de inters. Denotando por p la proporcin poblacional y por ^px la proporcin en una muestra aleatoria de n observaciones, sabemos que si el tamao de la muestra es grande, ^ px p entonces es una buena aproximacin decir que la variable aleatoria Z = tiene p (1. p ) / n una distribucin normal estndar. La distribucin muestral de la proporcin muestral es aproximadamente normal cuando el tamao muestral es grande, de acuerdo con el teorema central del lmite. Si la hiptesis nula es que la proporcin es igual a cierto valor especfico p 0, resulta que ^ px p 0 cuando esta hiptesis es cierta, la variable aleatoria Z = sigue una p 0(1. p 0) / n distribucin normal estndar. Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Contraste para la proporcin poblacional (Tamaos muestrales grandes). Supongamos que disponemos de una muestra aleatoria de n observaciones de una poblacin, una proporcin p de cuyos miembros posee un atributo particular. Entonces, si el nmero de observaciones de la muestra es grande (40 o ms) y la proporcin muestral observada es ^px, los siguientes contrastes tienen nivel de significacin : 1. Para contrastar una de las hiptesis nulas H0: p = p0 o H0: p < p0 frente a la ^ px p 0 alternativa H1: p > p0 la regla de decisin es Rechazar H0 si > z p 0(1 p 0) / n 2. Para contrastar una de las hiptesis nulas H0: p = p0 o H0: p > p0 frente a la ^ px p 0 alternativa H1: p < p0 la regla de decisin es Rechazar H0 si < -z p 0(1 p 0) / n 3. Para contrastar la hiptesis nula H0: p = p0 frente a la alternativa bilateral H1: p p0 ^ px p 0 ^ px p 0 la regla de decisin es Rechazar H0 si > z/2 o < -z/2 p 0(1 p 0) / n p 0(1 p 0) / n Aqu, z es el nmero para el cual P(Z > z) = distribucin normal estndar. Contrastes para la diferencia entre dos medias. Contrastes basados en datos pareados. Contrastes para la diferencia de medias: datos pareados. Supongamos que disponemos de una muestra aleatoria de n pares de observaciones de distribuciones con medias x y y. Denotemos por d y por sd la media muestral y la desviacin tpica observadas para las n diferencias (xi yi). Si la distribucin poblacional de las diferencias es normal, entonces, los siguientes contrastes tienen nivel de significacin : 1. Para contrastar una de las hiptesis nulas H0: x - y = D0 o H0: x - y < D0 frente a d D0 la alternativa H1: x - y > D0 la regla de decisin es Rechazar H0 si > tn-1, sd n 2. Para contrastar una de las hiptesis nulas H0: x - y = D0 o H0: x - y > D0 frente a d D0 la alternativa H1: x- y < D0 la regla de decisin es Rechazar H0 si < -tn-1, sd n 3. Para contrastar la hiptesis nula H0: x - y = D0 frente a la alternativa bilateral H1: x d D0 d D0 y D0 la regla de decisin es Rechazar H0 si < -tn-1,/2 o > tn-1,/2 sd n sd n Aqu, tn-1, es el nmero para el cual P(tn-1 > tn-1,) = donde la variable aleatoria tn-1 sigue una distribucin t de Student con (n 1) grados de libertad. Cuando queremos contrastar la hiptesis nula de que las dos medias poblacionales son iguales, tomamos D0 = 0 en las frmulas. donde la variable aleatoria z tiene
Contrastes basados en muestras independientes.
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Supongamos que disponemos de una muestra aleatoria de n x observaciones de una poblacin normal con media x y varianza x2, y una muestra aleatoria, independiente de la anterior de ny observaciones de una poblacin normal con media y y varianza y2. Si se denotan las medias muestrales por X eY , entonces la variable aleatoria Z = ( X Y ) ( x y ) x 2 y 2 tiene una distribucin normal estndar. Gracias al teorema central del + nx ny lmite, si los dos tamaos muestrales son grandes, el resultado sigue siendo una buena aproximacin cuando se sustituyen las varianzas poblacionales por las muestrales, incluso cuando las distribuciones poblacionales no son normales. Contrastes para la diferencia de medias: muestras independientes (Varianzas conocidas o tamaos muestrales grandes). Supongamos que disponemos de muestras independientes de nx y ny observaciones de distribuciones normales con medias x y y, y varianzas x2 y y2. si las medias muestrales observadas son x e y , entonces, los siguientes contrastes tienen nivel de significacin : 1. Para contrastar una de las hiptesis nulas H0: x - y = D0 o H0: x - y < D0 frente a x y D0 la alternativa H1: x - y > D0 la regla de decisin es Rechazar H0 si x 2 y 2 > z + nx ny 2. Para contrastar una de las hiptesis nulas H0: x - y = D0 o H0: x - y > D0 frente a x y D0 la alternativa H1: x- y < D0 la regla de decisin es Rechazar H0 si x 2 y 2 < -z + nx ny 3. Para contrastar la hiptesis nula H0: x - y = D0 frente a la alternativa bilateral H1: x x y D0 x y D0 y D0 la regla de decisin es Rechazar H0 si x 2 y 2 < -z/2 o x 2 y 2 > z/2 + + nx ny nx ny Si los tamaos muestrales nx y ny son grandes (30 o ms), entonces, para obtener contrastes al nivel de significacin para la diferencia de medias, resulta una buena aproximacin reemplazar las varianzas poblacionales por las muestrales, sx2 y sy2. para tamaos muestrales grandes, estas aproximaciones resultan satisfactorias incluso cuando las distribuciones poblacionales no son normales. Contrastes para la diferencia de medias de dos poblaciones normales: muestras independientes, varianzas poblacionales iguales. Supongamos que disponemos de muestras independientes de nx y ny observaciones de distribuciones normales con medias x y y, y una varianza comn. Si las varianzas muestrales observadas son sx2 y sy2, un estimador de la varianza poblacional comn se obtiene mediante s2 = [(nx 1)sx2 + (ny 1)sy2] / (nx + ny 2) Entonces, si las medias muestrales son x e y , los siguientes contrastes tienen nivel de significacin :
Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION 1. Para contrastar una de las hiptesis nulas H0: x - y = D0 o H0: x - y < D0 frente a x y D0 la alternativa H1: x - y > D0 la regla de decisin es Rechazar H0 si s nx + ny > tnx+nynxny
2,
2. Para contrastar una de las hiptesis nulas H0: x - y = D0 o H0: x - y > D0 frente a x y D0 la alternativa H1: x- y < D0 la regla de decisin es Rechazar H0 si s nx + ny < -tnx+nynxny
2,
3. Para contrastar la hiptesis nula H0: x - y = D0 frente a la alternativa bilateral H1: x x y D0 x y D0 y D0 la regla de decisin es Rechazar H0 si s nx + ny < -tnx+ny-2,/2 o s nx + ny > nxny nxny tnx+ny-2, /2 Aqu, tnx+ny-2, es el nmero para el cual P(tnx+ny-2 > tnx+ny-2,) = donde tnx+ny-2 tiene una distribucin t de Student con (nx + ny 2) grados de libertad. Contrastes para la diferencia entre dos proporciones (muestras grandes). Supongamos que disponemos de dos muestras aleatorias independientes. La primera consta de n observaciones de una poblacin cuya proporcin de xitos es px y la proporcin muestral resultante es ^px. La segunda consta de ny observaciones de una poblacin cuya proporcin de xitos es py y la proporcin muestral resultante es ^py. Si los tamaos de las muestras son grandes, entonces es una buena aproximacin (^ px ^ py ) ( px py ) px (1 px ) py (1 py ) tiene una distribucin considerar que la variable aleatoria Z = + nx ny normal estndar, en virtud del teorema central del lmite. Supongamos que queremos contrastar la hiptesis de que las proporciones poblacionales px y py son iguales. Si denotamos por p0 su valor comn, entonces, bajo esta hiptesis, (^ px ^ py ) (^ px ^ py ) = tenemos que Z = p 0(1 p 0) p 0(1 p 0) nx + ny sigue, aproximadamente, + p 0(1 p 0) nx ny nxny una distribucin normal estndar. Finalmente, la proporcin comn desconocida p0 puede estimarse mediante el estimador nx ^ px + ny ^ py ^p0 (que utiliza las dos proporciones muestrales) dado por ^p0 = nx + ny Reemplazando el valor desconocido p0 por ^p0 se obtiene una variable aleatoria cuya distribucin est prxima a la normal estndar, dado que los tamaos muestrales son grandes. Contrastes para la igualdad de dos proporciones poblacionales (Muestras grandes). Denotemos por ^px la proporcin de xitos en una muestra aleatoria de nx observaciones de una poblacin cuya proporcin de xitos es px y ^py la proporcin de xitos observados en una muestra aleatoria independiente de ny observaciones de una poblacin cuya proporcin de xitos es py. Si se formula la hiptesis de que las proporciones Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION poblacionales son iguales, un estimador de la proporcin comn se obtiene mediante ^p 0 nx ^ px + ny ^ py = nx + ny Entonces, si los tamaos muestrales son grandes (40 o ms), los siguientes contrastes tienen nivel de significacin : 1. Para contrastar una de las hiptesis nulas H0: px - py = 0 o H0: px - py < 0 frente a la (^ px ^ py ) alternativa H1: px - py > 0 la regla de decisin es Rechazar H0 si nx + ny ^ p 0(1 ^ p 0) nxny
> z 2. Para contrastar una de las hiptesis nulas H0: px - py = 0 o H0: px - py > 0 frente a la (^ px ^ py ) alternativa H1: px- py < 0 la regla de decisin es Rechazar H0 si nx + ny ^ p 0(1 ^ p 0) nxny
< -z 3. Para contrastar la hiptesis nula H0: px - py = 0 frente a la alternativa bilateral H 1: px (^ px ^ py ) py 0 la regla de decisin es Rechazar H0 si nx + ny < -z/2 ^ p 0(1 ^ p 0) nxny o
(^ px ^ py ) nx + ny > z /2 ^ p 0(1 ^ p 0) nxny Contraste de igualdad de varianzas de dos poblaciones normales. Sea sx2 la varianza muestral de una muestra aleatoria de nx observaciones de una poblacin normal con varianza x2, y sy2 la varianza muestral de una muestra aleatoria independiente de ny observaciones de una poblacin normal con varianza y2. Entonces, la variable aleatoria F = (sx2/x2) / (sy2/y2) sigue una distribucin conocida como distribucin F. Recordemos que los grados de libertad asociados con la varianza muestral s x2 son (nx 1) y con sy2, (ny 1). La variable aleatoria F tiene una funcin de densidad asimtrica, definida slo para valores no negativos. La distribucin F. Supongamos que se toman muestras aleatorias independientes de nx y ny observaciones de dos poblaciones normales con varianza x2 y y2. si las varianzas muestrales son sx2 y sy2, entonces, la variable aleatoria F = (sx2/x2) / (sy2/y2) tiene distribucin F con (nx 1) grados de libertad en el numerador y (ny 1) grados de libertad en el denominador. Una distribucin F con 1 grados de libertad en el numerador y 2 grados de libertad en el denominador se denotar F1,2. Denotaremos por F1,2, el nmero para el cual P(F1,2 > F1,2,) = Contrastes de igualdad de varianza de dos poblaciones normales. Sean sx2 y sy2 las varianzas muestrales observadas en dos muestras aleatorias independientes de nx y ny observaciones de poblaciones normales con varianzas x2 y y2. Si sx2 es mayor que sy2, entonces los siguientes contrastes tienen nivel de significacin : Cedido por el TURCO
FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION 1. Para contrastar una de las hiptesis nulas H0: x2 = y2 o H0: x2 < y2 frente a la alternativa H1: x2 > y2 la regla de decisin es Rechazar H0 si sx2 / sy2 > Fnx-1,ny-1, 2. Para contrastar la hiptesis nula H0: x2 = y2 frente a la alternativa bilateral H 1: x2 y2 la regla de decisin es Rechazar H0 si sx2/sy2 > Fnx-1,ny-1,/2 donde sx2 es la mayor de las dos varianzas muestrales. Aqu, Fnx-1,ny-1, es el nmero para el cual P(Fnx-1, ny-1 > Fnx-1,ny-1,) = donde Fnx-1,ny-1 tiene una distribucin F con (nx 1) grados de libertad en el numerador y (n y 1) grados de libertad en el denominador. Medicin de la potencia de un contraste. Contrastes para la media de una distribucin normal: varianza poblacional conocida. Supongamos que contrastamos la hiptesis nula de que la media de una poblacin normal es igual a cierto valor especfico 0. La probabilidad, , de cometer un error de Tipo II depender de la verdadera media poblacional. Esta probabilidad puede calcularse como sigue: 1. Para la regla de decisin del contraste, determinar el rango de valores de la media muestral que conducen a la aceptacin de la hiptesis nula. 2. Para el valor 1 de inters de la media poblacional, hallar la probabilidad de que la media muestral pertenezca al intercalo de aceptacin determinada anteriormente, para muestras de n observaciones de una poblacin con media 1. La funcin de potencia tiene las siguientes propiedades: 1. Si todo lo dems permanece igual, cuanto ms lejos se halle la verdadera media 1 de la media postulada 0, mayor ser la potencia del contraste. 2. Si todo lo dems permanece igual, cuanto menor sea el nivel de significacin del contraste, menor ser la potencia. En otras palabras, al reducir la probabilidad de cometer un error de Tipo I aumentamos la de cometer un error de Tipo II. 3. Si todo lo dems permanece igual, cuanto mayor sea la varianza de la poblacin, menor ser la potencia del contraste. Tenemos menos esperanzas de detectar pequeas desviaciones de la media postulada cuando hay mucha variabilidad en la poblacin. 4. si todo lo dems permanece igual, cuanto mayor sea el tamao de la muestra, mayor ser la potencia del contraste. Cuanta ms informacin se obtenga de la poblacin, habr mayores posibilidades de detectar cualquier desviacin de la hiptesis nula. Contrastes para proporciones poblacionales (muestras grandes). Podemos contrastar ka hiptesis nula de que la proporcin de elementos de una poblacin que poseen un atributo es una cantidad especfica p0. La probabilidad , de incurrir en un error de Tipo II para una proporcin poblacional dada se halla de la siguiente manera: 1. A partir de la regla de decisin del contraste, hallar el intervalo de valores de la proporcin muestral que condice a la aceptacin de a hiptesis nula. 2. Para el valor p1 de inters de la proporcin poblacional, hallar la probabilidad de que la proporcin poblacional se encuentre en el intervalo de aceptacin determinado anteriormente para muestras de n observaciones cuando la proporcin poblacional es p1. Cedido por el TURCO
Cedido por el TURCO

Estadística para Los Negocios y La Economía. Newbold.

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadística para Los Negocios y La Economía. Newbold.

Uploaded by

Copyright:

Available Formats

FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION

ESTADSTICA PARA LOS NEGOCIOS.

Cedido por el TURCO

Cedido por el TURCO

x valores respecto a su media, es decir: MDA =

Cedido por el TURCO

N La varianza es: = [ fi(mi - ) ] / N = [( fimi2) / N] - 2

2. Para una muestra de n observaciones, tal que n = La media es x =

n La varianza es: s2 = [ fi(mi - x )2] / (n 1) = {[( fimi2) / N] - n x 2}/ (n 1)

Cedido por el TURCO

P(Oi) donde el sumatorio se extiende a todos los resultados bsicos en el espacio

Cedido por el TURCO

P(Oi) donde el sumatorio se

P(Oi) El lado derecho de esta ecuacin es P(A) + P(B).

Cedido por el TURCO

Cedido por el TURCO

Cedido por el TURCO

Px(x) = 1 donde la notacin

Px(x) donde la notacin indica que la suma es

(x2 - 2xx + x2)Px(x) =

x2Px(x) - 2x xPx(x) + x2 Px(x)

Pero hemos visto que x2 =

Entonces, puesto que el primer sumatoria del lado

[(a + bx) - Z]2 Px(x)

(bx - bx)2Px(x) = b2 (x - x)2Px(x)

Cedido por el TURCO

Anlogamente, la funcin de probabilidad marginal de la variable aleatoria Y es: Py(y) =

Px,y(x,y) donde la notacin indica que la suma es sobre

... g(x1, ..., xK)Px1,xK(x1, , xK)

xPx(x) = (0)(1 p) + (1)(p)

FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION Y la varianza: x2 = E[(X - x)2] =

(x - x)2Px(x) = (0 p)2(1 p) + (1 p)2p = p(1 p)

Cedido por el TURCO

La funcin de distribucin es, pues, la integral: Fx(x0) =

Y el valor esperado de la funcin g(X) como: E[g(X)] =

Cedido por el TURCO

Cedido por el TURCO

= E(X1) + E(X2) + ... + E(Xn)

Puesto que cada variable aleatoria Xi tiene media x,

FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION

(Xi - X )2] / x2 sigue una distribucin conocida con el nombre de distribucin

Cedido por el TURCO

Cedido por el TURCO

Cedido por el TURCO

Cedido por el TURCO

Cedido por el TURCO

Cedido por el TURCO

Cedido por el TURCO

Cedido por el TURCO

Contrastes basados en muestras independientes.

Cedido por el TURCO

Cedido por el TURCO

FACULTAD DE CIENCIAS ECONOMICAS FRANJA MORADA - CONDUCCION

Cedido por el TURCO

You might also like