Professional Documents
Culture Documents
Pgina 1 de 64
1. ESTADSTICA DESCRIPTIVA
Qu es la estadstica?
Como recoleccin de datos numricos: datos ordenados segn algn criterio.
Como ciencia: Estudia fenmenos en masa, buscando sus caractersticas generales. A
partir de un hecho particular se analizan una cantidad de casos particulares, donde se
aprecia una regularidad o estabilidad en el comportamiento.
El propsito de la estadstica es precisamente hallar las regularidades de los
fenmenos en masa, regularidades que adems de servir para describir un fenmeno
pueden utilizarse con fines de prediccin.
Significado
Fin
Como recoleccin de datos
numricos
Descripcin
Bsqueda de
Como ciencia
regularidades
La estadstica elabora tcnicas y mtodos que nos ayuden a tomar decisiones.
MATERIA PRIMA (datos numricos o categoras)PRODUCTO (informacin til o
conclusiones).
INDEC (Instituto Nacional de Estadsticas y Censos)
Hasta 1968 no haba nada unificado respecto a la estadstica oficial, eran todas leyes
de organismos nacionales, provinciales y municipales. Resolviendo este problema se
promulga una ley.
Estadstica Descriptiva e Inferencial
Estadstica descriptiva: ciencia que se dedica a descubrir las regularidades dentro de
un conjunto de datos. Obtiene, resume y transforma datos para interpretar la
informacin. Proceso de induccin: con la informacin de la muestras se conocen las
caractersticas de la poblacin. Es la mas conocida de las ciencias estadsticas.
Estadstica Inferencial: es la parte de la Estadstica que nos permite extraer
conclusiones de una poblacin a partir del anlisis de una "parte" de ella (a la cual
denominamos muestra aleatoria). El conjunto de estos puede analizarse de la misma
forma que la muestra. Describir el propio conjunto de observaciones predecir que
pasa en la poblacin.
Conceptos bsicos de la estadstica
Unida de anlisis: es el objeto al cual se le desea obtener la informacin. Pueden ser
naturales (personas, maestros) o artificiales como el tiempo (da, semana, ao).
Poblacin o universo [P]: conjunto de unidades de anlisis que satisfacen a una
definicin comn y en los que interesa analizar una o varias caractersticas. Debe estar
perfectamente definida en tiempo y espacio (responder a QUIEN, CUANDO y DONDE).
A la cantidad de elementos que conforma la poblacin la llamaremos [N].
Muestra aleatoria [M]: es una parte o subconjunto de la poblacin, para obtener
informacin sobre esta. Se saca un grupo dentro de toda la poblacin. Al tamao de la
muestra la simbolizaremos con [n].
Variable: es la cualidad o cantidad medible que se estudia de las unidades de anlisis y
que varan de una unidad a otra.
Niveles de medicin
Resumen
Probabilidad y Estadsticas
Pgina 2 de 64
Normal: en este nivel se tienen dos o ms categoras del tem o variable. Las
categoras NO tienen orden o jerarqua. Lo que se mide es colocado en una u otra
categora, lo que indica que solamente diferenciamos respecto de una o ms
caractersticas. Los nmeros aqu no se manipulan automticamente.
Ordinal: en este nivel se tienen varias categoras, pero estas adems mantienen un
orden de mayor a menor. Las etiquetas o smbolos de las categoras SI indican
jerarqua. No se aplican las operaciones aritmticas simples.
Por intervalo: adems de haber orden y jerarqua entre categoras, se establecen los
intervalos iguales en la medicin. Las distancias entre categoras son todas las mismas
a lo largo de toda la escala. Hay intervalos constantes, una unidad de medida. Ej.:
Temperatura.
El cero de la medicin, es un cero arbitrario, no es real (se asigna arbitrariamente a una
categora el valor de cero y a partir de esta se construye la escala).
De razn: aparte de las caractersticas del nivel por intervalos, el cero es real, es
absoluto. Cero absoluto implica que hay un punto en la escala de intervalo, agrega la
existencia de un origen real que indica la ausencia de la propiedad medida por la
variable.
SE DEBE INDICAR EL NIVEL DE MEDICIN E ITEMS.
Relacin de variables
1. Indicar la manera de codificar los datos en cada tem y variable.
2. Codificar los datos (colocar un valor numrico que los identifique).
La codificacin se puede hacer antes (precodificado) o despus (a posteriori).
La codificacin es necesaria para poder cuantitativamente analizar los datos (anlisis
estadstico)
Tipo de variables
Cualitativas: son las medidas en escala nominal u ordinal (mide una cualidad).
Cuantitativas: las medidas en escala de intervalos o razn.
Discretas: cuando solo pueden asumir valores sobre nmeros enteros.
Ej.: alumnos.
Continuas: cuando puede asumir cualquier valor sobre los nmeros reales.
Ej.: peso.
Dato u observacin: es el valor que toma la variable para cada unidad de anlisis y se
obtiene mediante algn mtodo de captacin.
Etapas de una investigacin estadstica
a) Planeamiento: se analiza el problema definiendo conceptos y variables, se hace
operable a los conceptos, se elige el procedimiento de recoleccin, se prepara el
plan de tabulacin y codificacin, pruebas experimentales.
b) Ejecucin: se recolectan los datos a travs del organismo que realiza la
investigacin u otro organismo (primario o secundario), luego estos datos son
procesados: se comprueba su calidad, se codifican (smbolo a cada categora),
se tabulan y se analizan (utilizando estadstica descriptiva), se miden los
cambios de las variables y sus relaciones.
Mtodos de relevamiento
Muestra: permite estudiar el universo de intereses, con una parte de los elementos que
componen a dicho universo. Debe ser representativa de la poblacin. Su uso va en
Resumen
Probabilidad y Estadsticas
Pgina 3 de 64
aumento porque con personal entrenado se reducen los errores ajenos al muestreo.
Caractersticas: cumple con la condicin de universabilidad y puede no ser simultnea.
Censo: la informacin se obtiene de la totalidad de la poblacin (diferencia con la
muestra) cumple con la universabilidad (censa a todos los elementos) y simultaneidad
(en un tiempo determinado). La informacin se obtiene tal como se necesita, para fines
estadsticos (diferencia con el registro administrativo).
Registro administrativo: es un proceso de recoleccin por el cual un servicio
administrativo obtiene informacin para sus propios fines. Esta informacin puede ser
usada con fines estadsticos y se obtiene tal como esta disponible para los fines
administrativos, que no siempre coinciden con fines estadsticos, para eso se deberan
hacer las modificaciones necesarias.
Presentacin de datos
Texto: para pocos datos y cuando se necesita resaltar cosas importantes.
Cuadros: permite gran cantidad de informacin pero de fcil lectura. Los cuadros
complejos estn formados por ttulos, encabezados, su cuerpo, notas al pie, fuente. NO
deben ser largos y las variables deben estar ordenadas.
Grficos: permiten tener una visin de conjunto ms rpida que la de los nmeros y se
recuerdan ms fcilmente. La representacin grfica puede ser geomtrica (de gran
exactitud) o de smbolos alusivos para impresionar. Las partes del grafico son: titulo,
diagrama, variable, escala, fuente. Existen distintos tipos, entre ellos tenemos:
Grafico de lnea: para la variacin de la variable a travs del tiempo.
De barras: cada barra representa un valor, para pocos datos.
De sectores: un crculo representa a la poblacin y se divide en sectores que
representan la participacin.
Mapas estadsticos: es un artificio grafico para mostrar datos o informacin
cuantitativa sobre una base geogrfica. Permite representar simultneamente
variables cuantitativas con su correspondiente distribucin geogrfica.
Tratamiento de variables cualitativas
La primer operacin a realizar con variables cualitativas es contabilizar el nmero de
casos que pertenecen a cada una de las categoras de la variable.
Estas medidas permiten comparaciones entre diversos grupos, basndose
esencialmente en el tamao de los mismos. De fundamental utilidad cuando las
medidas son medidas nominal u ordinal.
Proporciones: nmero de casos en una categora dividido por el nmero total de casos.
Pi N i / N
Porcentajes: se obtienen multiplicando a las proporciones por 100. Pi ( N i / N )*100
Razones: la razon de un numero A con respecto a un numero B se define como A
dividido B. La cantidad que presede se pone en el numerador y la que sigue en el
denominador. Ej.: No repetidores/repetidorescada tantos no repetidores hay tantos
repetidores.
R A/ B
Observe que, a diferencia de la proporcin, la razn es un nmero que puede ser
mayor que 1.
Las proporciones representan un caso particular de las razones, en las que el
denominador es el nmero total de los casos y el numerador es una fraccin del total.
En las proporciones el numerador siempre es una cantidad que est contenida en el
denominador.
Resumen
Probabilidad y Estadsticas
Pgina 4 de 64
Resumen
Probabilidad y Estadsticas
Pgina 5 de 64
Probabilidad y Estadsticas
Pgina 6 de 64
2. MEDIDAS CARACTERSTICAS
Medidas de tendencia central
Son promedios. Cuando nos referimos a ellos como medidas de tendencia central;
stas son medidas que nos dan idea de cual es el centro de distribucin de datos.
Media aritmetica
Es el numero que se obtiene al dividir la suma de todas las observaciones por la
cantidad de observaciones sumadas. La simbolizamos con x
Clculo de la media aritmtica para datos agrupados en series de frecuencia:
j
x . fa
i
i 1
fa
i 1
Donde el subndice i se usa para indicar los distintos valores que toma la variable y j es
la cantidad de valores distintos q toma la variable
j
x . fa
i 1
n
Cuando calculamos la media aritmetica, multiplicamos a cada valor de la variable por
su correspondiete frecuencia, decimos que la media est ponderada.
j
x xi . fri
i 1
En este caso, el ponderador nos est indicando la importancia relativa de cada valor
de la variable sobre el total de las observaciones.
Clculo de la media aritmtica para datos agrupados en intervalos de clase:
En este caso, emplearemos la frmula anterior pero, en lugar de multiplicar tos valores
de la variable por la frecuencia absoluta (en el numerador), multiplicaremos las marcas
de clase por la frecuencia absoluta. Estamos suponiendo, entonces, que la frecuencia
del intervalo corresponde en su totalidad a la marca de clase. Obviamente, en realidad
esto no es asi, por lo tanto, en este caso, estamos obteniendo una media aritmtica
aproximada.Si tuviramos los datos sin agrupar, obtendramos una media aritmtica
exacta
Resumen
Probabilidad y Estadsticas
Pgina 7 de 64
j
m . fa
i
i 1
fa
i 1
, mi es la marca de clases.
Si a los valores de una variable se les suma o se les resta una constante, la
media aritmtica de la nueva variable es igual a la media aritmtica de la
variable anterior ms o menos dicha constante.
Si a los valores de una variable se los multiplica por una constante, la media
aritmtica de la nueva variable es igual a la media aritmtica de la variable
anterior multiplicada por dicha constante.
Mediana
Si todos los valores observados de la variable se ordenan en sentido creciente (o
decreciente), la mediana es el valor de la variable que ocupa el lugar central, es decir,
el que deja a un lado y a otro el mismo nmero de observaciones. Para su obtencin se
considerar la forma en que estn disponibles los datos.
Para simbolizar la mediana utilizaremos x%.
Clculo de la mediana para datos no agrupados:
Si el nmero de observaciones es par, se toma como mediana a la media aritmetica de
los dos valores centrales. Para los franceses no existe la mediana cuando la cantidad
es par.
x
x x
Para par x% n / 2 n / 21 Para impar x% ( n 1)
2
2
EI subndice de x indica la posicin que ocupa ese valor de la variable; una vez
ordenados los datos.
Clculo de la mediana para datos agrupados como serie de frecuencias:
Determinacin Analtica
El problema consiste en hallar el valor de la variable que corresponde a la observacin
central.
Veamos el clculo de la mediana para el nmero de interrupciones en la planta
procesadora de alimentos. La primera operacin que hay que realizar es obtener las
Resumen
Probabilidad y Estadsticas
Pgina 8 de 64
Probabilidad y Estadsticas
Pgina 9 de 64
Para calcular cualquiera de los fractiles, se emplea la misma metodologa que para el
clculo de la mediana: siempre se debe determinar, en primer lugar, el intervalo al cual
pertenece la medida, ya que los distintos parmetros que aparecen en la frmula se
refieren a este intervalo.
( j / *)n fa(i 1)
Q j Li
hi
fai
j=1,2,3
* si Es CUARTIL vale 4, si es DECIL vale 10 si es PERCENTIL vale 100.
Determinacin Grfica:
Este procedimiento grfico puede utilizarse para cualquiera de los fractiles.
Representamos la ojiva y luego determinamos, sobre el eje de ordenadas, el valor que
nos interesa; por ejemplo, para el caso de la mediana, determinamos n/2. La abscisa
de este punto en la grfica de la ojiva es la mediana.
Modo
El modo es el valor de la variable que ms veces se repite, o _sea,_el valor que
presenta mayor frecuencia. En el caso del modo no existe una frmula general para
expresarlo. Lo simbolizaremos con x .
Veamos cmo se encuentra el modo para los distintos tipos de disposicin de los datos.
Si los mismos estn en forma de serie simple, la determinacin del modo es
prcticamente inmediata. Por ejemplo, si x = 1,2, 2, 2, 4, 5, entonces x = 2.
Clculo del modo para datos agrupados como serie de frecuencias:
En este caso, el modo se obtiene con extrema rapidez: en la distribucin de frecuencias
se observa cul es la frecuencia absoluta mayor y el modo ser el valor de la variable
correspondiente a dicha frecuencia.
El modo tambin puede obtenerse grficamente, observando el grfico de frecuencias
absolutas para datos sin agrupar:
Clculo del modo para datos agrupados en intervalos de clase:
Una aproximacin del mismo se obtiene mediante la siguiente expresin:
d1
x Li
hi
d1 d 2
Siendo:
Li: lmite inferior del intervalo de clase al que corresponde l absoluta, que llamaremos el
intervalo modal,
d1: diferencia absoluta entre la frecuencia absoluta del intervalo de mayor frecuencia o
intervalo modal y la frecuencia absoluta del intervalo anterior.
d2: diferencia absoluta entre la frecuencia absoluta del intervalo de mayor frecuencia o
intervalo modal y la frecuencia absoluta del intervalo posterior.
hi: amplitud del intervalo modal.
Nota: Esta frmula es aplicable solamente en caso de que todos los intervalos tengan
la misma amplitud.
Comparacin entre Las distintas medidas de tendencia central de uso ms frecuente
Al exponer los principales promedios -media aritmtica, mediana y modo- hemos
aplicado los mismos ejemplos para el clculo de cada uno de ellos. Si tomamos el
Resumen
Probabilidad y Estadsticas
Pgina 10 de 64
ejemplo de los montos de ventas del establecimiento comercial, podemos apreciar ias
diferencias entre los distintos promedios calculados. Recordemos cules fueron dichos
valores: x = $6070, x%= $6400 y x =$6880.
Puede observarse que, para una misma distribucin, rara vez coinciden tos valores
obtenidos mediante los tres promedios. Si la distribucin es unimodal y simtrica, estas
tres medidas coinciden. Para una distribucin asimtrica, la media se aleja de la moda
hacia el lado de la cola ms larga, con la mediana entre ellas.
Lo vemos grficamente;
Resumen
Probabilidad y Estadsticas
Pgina 11 de 64
Si la distribucin tiene forma de "U", los tres promedios tienen poca fuerza
representativa. Generalmente, las distribuciones de esta forma suelen ser difciles de
tratar desde el punto de vista de los promedios.
Resumen
Probabilidad y Estadsticas
Pgina 12 de 64
Nota: recuerde siempre que el tipo de distribucin que presentan los datos es
importante para la seleccin del promedio mas adecuado. En caso de duda, seguir
siempre la misma regla: emplear la media aritmetica.
Media geometrica
La simbolizamos con xg y se calcula como:
xg n x1.x2 ...xn
Si los datos estn agrupados, la expresin de clculo es la siguiente:
xg n x1fa1 .x2fa2 ....xnfan
donde m es la cantidad de valores mustrales distintos, o reemplazando los x i, por las marcas de
clase mi, si los datos estn agrupados en intervalos.
Este tipo de promedio se utiliza, generalmente, cuando los valores de la variable crecen
de acuerdo a una progresin geomtrica.
Media Armnica
La simbolizaremos con xa , de n observaciones de una variable se calcula como:
n
xa n
1/ xi
i 1
xa
fa
i 1
n
1/ x
i 1
Probabilidad y Estadsticas
Pgina 13 de 64
DM
x x
i 1
x x
i 1
fai
fa
i 1
S2
(x x )
i 1
S
2
( x x ) . fa
i 1
fa
i 1
S2
(m x ) . fa
i 1
fa
i 1
Esta medida toma en cuenta, para su calculo, todos los valores de la variable, pero
tiene como inconveniente que no esta expresada en la misma unidad de medida que la
variable sino en el cuadrado de la misma.
En este caso, la variancia muestral, tal como la hemos definido es un buen estimador
de la variancia poblacional cuando el tamao de la muestra n es mayor o igual que 30
(aproximadamente). Si n < 30, resulta mejor estimador la llamada variancia muestral
corregida que, para el caso de datos no agrupados, se define as:
Resumen
Probabilidad y Estadsticas
Pgina 14 de 64
n
S2
(x x )
i 1
n 1
(x x )
S S2
i 1
frmula de trabajo de S:
n
(x x )
i 1
fai
fa
i 1
(x
i 1
2
i
2 xi x x ) fai
n
fa
i 1
x
i 1
n
2
i
fai
fa
i 1
2x
x fa
i 1
n
fa
i 1
fa
2 i 1
n
fa
i 1
x
i 1
n
2
i
fai
fa
i 1
2x x
2
x
i 1
n
2
i
fai
fa
i 1
x2
Probabilidad y Estadsticas
Pgina 15 de 64
menor que 30, preferimos la variancia muestral corregida (S 2i) para estimar la variancia
poblacional.
Primero, se divide cada observacin en dos partes que consisten en un tallo y una hoja,
de tal forma que el primero represente el dgito que es el entero y la hoja corresponda a
la parte decimal del nmero. En otras palabras, para el nmero 3.7 el dgito 3 se
designa como el tallo y el dgito 7 como la hoja. Los cuatro tallos: 1, 2, 3 y 4 quedan
listados consecutivamente en el lado izquierdo de la lnea vertical de la tabla que se
Resumen
Probabilidad y Estadsticas
Pgina 16 de 64
Entonces, la hoja 6 del nmero 1.6 se escribe a la altura del tallo 1, la hoja 5 del
nmero 2.5 se escribe a la altura del tallo 2, y asi sucesivamente. La cantidad de hojas
registradas para cada tallo se resume en la columna de frecuencia.
Medidas de dispersin relativas
Toda medida de variacin absoluta tiene significacin solamente con relacin al
promedio respecto del cual se midieron las desviaciones.
La medida de variacin relativa ms usada es el llamado coeficiente de variacin (que
a veces, se expresa como porcentaje):
S
S
CV
CV .100 para porcentaje
x
x
El coeficiente de variacin es un nmero abstracto, una medida de variacin relativa de
los datos que se estudian que puede compararse con valores similares procedentes de
otras distribuciones.
Medidas de asimetra y de curtosis
Medidas de asimetra
La asimetra o sesgo de una distribucin se refiere a la falta de simetra. Si la curva
de frecuencias (el polgono de frecuencias suavizado) de una distribucin tiene una
cola ms larga a la derecha del mximo central que a la izquierda, se dice que la
distribucin est sesgada a la derecha o que tiene sesgo positivo. Si es lo contrario, se
dice que est sesgada a la izquierda o que tiene sesgo negativo.
Probabilidad y Estadsticas
Pgina 17 de 64
Resumen
Probabilidad y Estadsticas
Pgina 18 de 64
3. PROBABILIDAD
Importancia del tema y breve resea histrica
Los jugadores siempre han recurrido a las probabilidades para realizar sus apuestas a
lo largo de la historia escrita. Pero fue recin en el siglo XVII cuando un noble francs,
puso en tela de juicio el fundamento matemtico del xito y del fracaso en las mesas de
juego.
La teora de la probabilidad fue aplicada con buenos resultados a las mesas de, juego
y, lo que es an ms importante para nuestro estudio, con el tiempo tambin se aplic a
otros problemas socioeconmicos.
En la actualidad, la teora matemtica de la probabilidad constituye el fundamento de
las aplicaciones estadsticas, tanto en la investigacin social como en la toma de
decisiones.
La probabilidad forma parte de nuestra vida diaria. En las decisiones de carcter
personal y gerencial, enfrentamos la incertidumbre y nos valemos de la teora de la
probabilidad, sin importar si admitimos o no el empleo de una cosa tan refinada.
Triangulo de pascal
El tringulo de Pascal es un tringulo de nmeros enteros, infinito y simtrico Se
empieza con un 1 en la primera fila, y en las filas siguientes se van colocando nmeros
de forma que cada uno de ellos sea la suma de los dos nmeros que tiene encima. Se
supone que los lugares fuera del tringulo contienen ceros, de forma que los bordes del
tringulo estn formados por unos. Aqu slo se ve una parte; el tringulo contina por
debajo y es infinito.
Nos permite obtener los resultados de los nmeros combinatorios sin necesidad de
realizar operaciones muy complicadas:
Los nmeros del tringulo de Pascal coinciden con los nmeros combinatorios.
m
El nmero combinatorio Cn (n sobre m) se encuentra en el tringulo en la fila n+1, en
el lugar m+1.
m
El nmero combinatorio Cn (n sobre m) que representa el nmero de grupos de m
elementos que pueden hacerse de entre un conjunto de n (por ejemplo, (4 sobre 2) nos
da el nmero de parejas distintas que podran hacerse en un grupo de cuatro
personas), se encuentra en el tringulo en la fila n+1, en el lugar m+1.
1
1
1
1
1
2
1
3
1 4 6 4 1
1 5 10 10 5 1
...
Probabilidad y Estadsticas
Pgina 19 de 64
Probabilidad y Estadsticas
Pgina 20 de 64
Espacio Muestral
El conjunto de todos los resultados posibles de un experimento recibe el nombre de
espacio muestral. Luego, estamos en condiciones de decir que todo subconjunto del
espacio muestral es un suceso.
Simbologa: A, B, C, ..., o bien, A1,A3, A4,
Sucesos compatibles e incompatibles o sucesos mutuamente excluyentes
Se dice que dos eventos son mutuamente excluyentes o incompatibles si uno y slo
uno de ellos puede tener lugar a la vez. Como ejemplo tomamos el lanzamiento de una
moneda, puede salir cara o seca, pero NUNCA LOS DOS. Por ello, los eventos
"lado cara" y "lado seca" en un lanzamiento individual de la moneda son mutuamente
excluyentes. He aqu la pregunta decisiva que es preciso formular al decidir si los
eventos son mutuamente excluyentes: "Pueden presentarse al mismo tiempo?". Si la
respuesta es afirmativa, los eventos no son mutuamente excluyentes; en este caso,
decimos que son compatibles. Si la respuesta es negativa, concluimos que los sucesos
son incompatibles o mutuamente excluyentes.
Cuando una lista de los eventos que pueden resultar de un experimento incluye todos
los resultados posibles, se dice que es colectivamente exhaustiva.
Distintos enfoques en la definicin de probabilidad
Enfoque clsico o "a prior"
La probabilidad clsica define la probabilidad de que un evento
o suceso ocurra como:
N de resultados favorables al evento
Probabilidad de un suceso =
N total de resultados posibles igualmente probables
sta tambin se conoce como la definicin de Laplace.
Debemos recalcar que, a fin de que sea vlida la frmula anterior, cada uno de los
resultados posibles debe tener la misma probabilidad y ser sucesos mutuamente
excluyentes.
Decimos que es a priori porque no es necesario que realicemos experimentos para
hacer nuestras afirmaciones de probabilidad sino que, por el contrario, hallamos las
probabilidades basndonos en el razonamiento lgico, antes de efectuar el
experimento.
El enfoque clsico supone un mundo que no existe en la realidad; descarta situaciones
que son muy poco probables pero que podran presentarse.
Enfoque de frecuencia relativa o "a posterior"
Define la probabilidad como la proporcin de las veces que un evento sucede a la
larga, cuando las condiciones son estables.
Este mtodo utiliza, como probabilidades, las frecuencias relativas de ocurrencias
pasadas: determinamos la frecuencia con que algo ha sucedido en el pasado y,
mediante esa cifra, predecimos la probabilidad de que vuelva a suceder en el futuro.
Vemos que el nombre de probabilidad a posteriori, que tambin se le da, tiene su
explicacin porque en este enfoque necesitamos la experimentacin previa para poder
determinar el valor de la probabilidad de un evento.
Resumen
Probabilidad y Estadsticas
Pgina 21 de 64
Diagramas de Venn
En estos diagramas, el espacio muestral se representa ntegramente por medio de un
rectngulo y los eventos o sucesos se representan con las partes del mismo. Si dos
eventos son mutuamente excluyentes, sus partes del rectngulo no se superpondrn,
Resumen
Probabilidad y Estadsticas
Pgina 22 de 64
segn se aprecia en la figura (a). Si dos eventos son no mutuamente excluyentes, sus
partes del rectngulo se superpondrn, como se observa en la figura (b).
Resumen
Probabilidad y Estadsticas
Pgina 23 de 64
Cada vez que calculamos P(B/A), estamos esencialmente calculando P(B) con
respecto al espacio muestral reducido de A, en vez del espacio muestral original S.
Consideremos el diagrama de Venn de la figura anterior. Cuando calculamos P(B), nos
preguntamos qu tan probable es que estemos en B, sabiendo que debemos estar en
S y, cuando evaluamos P(B/A), nos preguntamos qu tan probable es que estemos en
6, sabiendo que debemos estar en A. Esto es, el espacio muestral se ha reducido de S
a A.
Para calcularlo
P( A B)
P( A B)
P( A / B)
Y P ( B / A)
. Se diferencia que P(A/B) es distinto a
P ( B)
P ( A)
P(B/A).
Si A y B son sucesos aleatorios, deseamos definir un cierto valor que permita
determinar la probabilidad condicional del evento A dada previamente la ocurrencia del
suceso B: P(A/B). Dado el conocimiento de que B ocurri, A slo puede ocurrir
juntamente con B. Parece razonable definir la probabilidad condicional proporcional a
P(AB) y, teniendo en cuenta que P(B/B) = 1 , podemos establecer la siguiente
definicin:
Dados dos sucesos, siendo ninguno de ellos el suceso imposible, se define la
probabilidad de ocurrencia del suceso A sujeta a la previa aparicin del suceso B como:
P ( AB )
P( A / B)
con P ( B ) 0
P( B)
La frmula de probabilidad condicional admite ser generalizada a n sucesos, aleatorios.
Por ejemplo, para n = 3 resulta:
P ( A1 A2 A3 )
P ( A3 / A1 , A2 )
P ( A1 A2 )
Para n sucesos se deduce que:
P ( A1 A 2... An ) P ( A1 ) * P ( A2 / A1 )* P( A3 / A2 A1 ) *...* P( An / A1... An 1 )
Esta frmula se la conoce bajo el nombre de ley del producto o ley multiplicativa.
Sucesos independientes
Dados los sucesos aleatorios referidos al mismo espacio muestral, ninguno de los
cuales es el evento imposible diremos que son independientes si se verifica alguna de
estas condiciones:
P(A/B) = P(A)
o
P(B/A) = P(B)
En consecuencia, la aparicin de uno de ellos es independiente de la presencia o
ausencia del otro.
Cuando los sucesos son independientes, la ley del producto toma la forma: P(AB) =
P(A) * P(B)
Resumen:
Luego, si dos sucesos son mutuamente excluyentes, la probabilidad de la alternativa es
la suma de las probabilidades. Si dos sucesos son independientes, la probabilidad de
la aparicin simultanea es el producto de las probabilidades: P(AB)=P(A) * P(B)
Resumen
Probabilidad y Estadsticas
Pgina 24 de 64
Teorema
Dados dos sucesos aleatorios A y B referidos a un mismo experimento, si ambos son
independientes, entonces no son mutuamente excluyentes.
Demostracin:
Para que A y B sean mutuamente excluyentes, se debera verificar que P(AB) = 0.Pero
P(AB) = P(A) * P(B), pues ambos son independientes. Dicho producto valdr cero si
alguno (o ambos sucesos) es el suceso imposible, en cuyo caso carece de sentido
hablar de independencia. Luego P(AB) 0, lo que implica que ambos sucesos no son
mutuamente excluyentes.
Teorema de Bayes
Planteemos la siguiente situacin en un proceso de produccin. Tres mquinas, A1 , A2
y A3, producen un mismo tipo de pieza mecnica. El ingeniero de Control de Calidad
sabe, por experiencia, cul es la proporcin de piezas que pueden resultar defectuosas
por da. Las piezas que producen las tres mquinas se depositan en un lugar comn y
ah se mezclan. Al final de cada jornada laboral, se prueba una muestra de piezas para
verificar si la proporcin de defectuosas est dentro de la tolerancia. (Los ensayos son
de tipo destructivo.) Cierto da, se observa un porcentaje de defectuosas superior a la
tolerancia; se sospecha que alguna de las mquinas est fallando. Revisar una
mquina implica pararla y desarmarla, lo cual lleva consigo un costo para la fbrica,
tanto porque se para la produccin de esa mquina como porque, adems, revisarla
tiene un costo. Luego, sera importante conocer cul de las tres mquinas es ms
probable que est fallando.
Describamos cules son los sucesos:
A1 "la pieza es producida por la mquina 1"
A2 "la pieza es producida por la mquina 2"
Resumen
Probabilidad y Estadsticas
Pgina 25 de 64
0, 02*0,30
0,19
0, 02*0,30 0, 04*0, 45 0, 03*0, 25
Anlogamente: P ( A2 / B ) 0,57 y P ( A3 / B ) 0, 24 . Luego concluimos que es ms
probable que la mquina 2 haya producido pieza defectuosa, por lo que comenzaremos
revisando esta mquina. Observemos que:
P ( A / B1 ) P ( A / B2 ) P( A / B3 ) 0,19 0,57 0, 24 1
Probabilidad y Estadsticas
Pgina 26 de 64
Experimento aleatorio
Trmino que se utiliza para describir cualquier proceso mediante el cual se generan
varias observaciones al azar.
Espacio muestral
En el que se consideran cada uno de los posibles resultados, por ejemplo cuando se
verifican tres componentes electrnicos, puede escribirse: S =
{NNN.NND,NDN,DNN,NDD,DND,DDN,DDD} donde N significa "no defectuoso" y D
"defectuoso".
Si un espacio muestral contiene un nmero finito de posibilidades, o una infinita
numerable, se le llama espacio muestral discreto.
Si un espacio muestral contiene un nmero infinito de posibilidades igual al nmero de
puntos en un segmento de recta, se le llama espacio muestral continuo.
Ejemplo:
Sea el experimento aleatorio E = arrojar dos monedas al aire. El espacio muestral
asociado es:
S = {(C,C), (C,S), (S,C), (S,S)}
Definimos la variable aleatoria X como el nmero de caras que se obtienen. Luego, los
posibles valores de X son; O, 1 y 2. A stos los llamaremos el rango de /a va-riable
aleatoria X: R,= {0,1,2}
Distribuciones discretas de probabilidad
Una variable aleatoria discreta asume cada uno de sus valores con una cierta
probabilidad. Al conjunto de los posibles valores y las respectivas probabilidades de
una variable aleatoria discreta se te llama distribucin de probabilidad, es decir la
distribucin de probabilidad de la v.a. X es el conjunto de pares ordenados (x,f(x)). A la
funcin f(x) se le llama funcin de probabilidad o funcin de cuanta.
Definicin
El conjunto de pares ordenados (x,f(x)) es una distribucin de probabilidad de la
variable aleatoria discreta X si se cumple:
a) f ( x) 0x (Condicin de no negatividad.)
b) f ( x) 1 (Condicin de cierre.)
No cualquier funcin que se d ser una funcin de probabilidad. Para que io sea, debe
cumplir con las condiciones a) y b), es decir, debe cumplir la condicin de no
negatividad y la condicin de cierre.
Funcin de distribucin o de probabilidades acumuladas
Hay muchos problemas en los cuales se desea calcular la probabilidad de que el valor
observado de una variable aleatoria X sea menor que o igual a algn nmero real x. Si
se escribe F ( x) P ( X x) para cada nmero real x, se define que F(x) es la funcin de
distribucin o de probabilidades acumuladas de la variable aleatoria X.
Resumen
Probabilidad y Estadsticas
Pgina 27 de 64
Definicin
La funcin de distribucin o de probabilidades acumuladas F(x) de una variable
aleatoria discreta X, cuya distribucin de probabilidad es f(x), es:
F ( x) P ( X x) f (t ) x
tx
f ( x)dx 1
P (a X b) f ( x)dx
a
f ( x)dx 1
b
Vernos que, para un valor particular de la variable x0, P(X = x 0) = 0. pues no existe
intervalo de integracin.
Funcin de distribucin o de probabilidades acumuladas
La funcin de distribucin o de probabilidades acumuladas F(x) de una variable
aleatoria continua X, con una funcin de densidad f(x), es:
Resumen
Probabilidad y Estadsticas
F ( x) P( X x )
f (t )dt
Pgina 28 de 64
Observacin: Para una V.A. X usaremos p(x) o f(x) para designar a la funcin de
probabilidad o funcin de cuanta de X.
Podemos decir, entonces, que la media aritmtica tiende a la esperanza matemtica
cuando aumentamos el tamao de la muestra, es decir, cuando nos vamos
aproximando al conocimiento de la poblacin completa.
Variancia y desviacin tpica de una variable aleatoria
Variancia
2
Sea X una variable aleatoria, definamos la variancia de X, que se denota con V(X) o x
, como sigue:
V ( X ) E[ X E ( X )]2
La raz cuadrada positiva de V(X) se llama desviacin estndar de X y se designa con
x
x V (X )
Observaciones:
El nmero V(X) est expresado en unidades cuadradas de X, Esto es, si X se
mide en hs, entonces V(X) est expresada en hs2. sta es una razn para
considerar la desviacin estndar, ya que sta se expresa en las mismas
unidades que X.
Otra medida posible podra haber sido E|X - F(X)|. Por diferentes razones, una
de las cuales es que X2 es una funcin "con mejor comportamiento" que |X|, se
prefiere la variancia.
S interpretamos a E(X) como el centro de una masa unitaria distribuida sobre
una recta, podemos interpretar a V(X) como el momento de inercia de esa masa
respecto a un eje perpendicular a travs del centro de la misma.
Resumen
Probabilidad y Estadsticas
Pgina 29 de 64
E ( X ) Cf ( x )dx C
degenerada.
Propiedad 2:
Si Y = a + X, donde a es una constante, entonces E(Y) = a + E(X). Parecido a la media
aritmtica.
Propiedad 3:
Supongamos que C es una constante y X es una variable aleatoria. Entonces,
E(C*X) = C*E(X). Parecido a la media aritmtica.
Demostracin:
E (C * X ) Cxf ( x)dx C
xf ( x)dx C * E ( X )
Propiedad 4:
Sean X e Y dos variables aleatorias cualesquiera, entonces E(X+Y) = E(X) + E(Y).
Observaciones:
Combinando las propiedades 2, 3 y 4 observarnos el siguiente hecho importante:
si Y = a * X +b, donde a y b son constantes, entonces E(Y) = a * E(X) + b. En
palabras, la esperanza de una funcin lineal es esa misma funcin lineal de las
esperanzas. Esto no es cierto, a menos que est implicada una funcin lineal, y
es un error comn creer que sea de otro modo.
En general, es difcil obtener expresiones para E(1/X) o E(X 1/2), por ejemplo, en
trminos de 1/E(X) o [E(X)]1/2. Sin embargo, hay algunas desigualdades que son
muy fciles de derivar.
Propiedad 5:
Sean X1,, Xn variables aleatorias, entonces E(X1 + ... + Xn) = E(X1) + ... + E(Xn).
Definicin previa 1: Dadas dos variables aleatorias discretas X e Y se define su
distribucin conjunta por una tabla de contingencia (o tabla de probabilidades a doble
entrada) de la siguiente forma:
Probabilidad y Estadsticas
Pgina 30 de 64
P ( X k * ) 1 1/ k 2
Esta ultima forma indica, especialmente, cmo la variancia mide el "grado de
concentracin" de probabilidad prxima a E ( X ) . Podemos expresarla en palabras
diciendo: dado un nmero k mayor o igual que 1 y un conjunto de n observaciones, al
menos (1 - 1/k2) .100 % de las observaciones caen dentro de k desviaciones
estndares de la media.
Esta desigualdad es vlida tanto para una muestra como para una poblacin. Cuando
se trabaja con una muestra aleatoria, se utiliza S en lugar de y x en lugar de . Si n
< 30, conviene utilizar S' en lugar de S.
Resumen
Probabilidad y Estadsticas
Pgina 31 de 64
xi
i 1
(x )
i 1
Variancia de y
V ( y ) y2 E ( y 2 ) [ E ( y )]2 y 2 p ( y ) p 2 0 2 * q 1* p p 2 p p 2 p (1 p ) p.q
V ( y ) p.q
Desviacin tpica de y
D( y ) y V ( y ) p.q
Distribucin binomial
El nmero X de xitos en n experimentos de Bernoulli recibe el nombre de variable
aleatoria binomial, La distribucin de probabilidad de esta variable aleatoria discreta se
llama distribucin binomial y sus valores se representan por B(x;n,p), dado que estos
ltimos dependen del nmero de intentos y de la probabilidad de xito en un intento
determinado.
La funcin de probabilidad de la variable aleatoria binomial X, el nmero de xitos en n
experimentos independientes, es:
P ( X x) ( nx ) p x .q n x x=0,1,2,,n.
Donde n es el nmero de observaciones, p es la probabilidad de xito, q es la
probabilidad de fracaso y p + q = 1.
Las caractersticas del modelo binomial son:
El experimento consiste en n intentos repetidos.
Resumen
Probabilidad y Estadsticas
Pgina 32 de 64
Los resultados de cada uno de los intentos pueden clasificarse como xito o como
fracaso,
La probabilidad de xito, representada por p, permanece constante para todos los
intentos.
Los intentos repetidos son independientes.
Por ejemplo, si n = 4 y p = 1/4, la distribucin de probabilidad de X, es decir, el nmero
de artculos defectuosos que pueden obtenerse en una muestra de cuatro artculos,
puede escribirse corno:
P ( X ) ( 4x )(1/ 4) x .(3 / 4) 4 x x = 0,1,2,3,4
Funcin de distribucin o de probabilidades acumuladas
x0
F ( xo ) P( X x0 ) p ( x)
0
Distribucin multinomial
Resumen
Probabilidad y Estadsticas
Pgina 33 de 64
Distribucin hipergeomtrica
El esquema del tipo de experimentos aleatorios donde se puede aplicar una
distribucin hipergeomtrica es similar al de la binomial. La diferencia radica en que en
la binomial las distintas observaciones eran independientes, mientras que en la
hipergeomtrica son dependientes.
Las caractersticas de un experimento aleatorio donde se puede aplicar el modelo
hipergeomtrico son las siguientes:
La poblacin posee N elementos, de los cuales N 1 son de una clase determinada y N2
son de otra clase, tal que N1 + N2 = N. Ambas clases son mutuamente excluyentes y
exhaustivas.
Se extrae una muestra de n elementos sin reemplazo.
Luego, la funcin de probabilidad de la distribucin hipergeomtrica viene dada
P ( X x) N1 , N2 , N n
donde x = 0,1,2,...,n y
N1
x
N2
n x
N1 N 2
n
N 1 + N2 = N
Probabilidad y Estadsticas
Pgina 34 de 64
Probabilidad y Estadsticas
Pgina 35 de 64
f ( x) b a
Para cualquier otro valor
0
Diremos que x est distribuida uniformemente en el [a, b].
Funcin de Densidad de Probabilidad
f(x) debe cumplir las siguientes condiciones para ser una funcin de densidad de
probabilidad:
x R
a) f(x)0
b)
f ( x)dx 1
a b
a b
2
1
dx 1/ 2
ba
xa
(despus de integrar)
ba
X<a
0
xa
a = x = b y Varancia
f ( x)
Esperanza
b
x>b
1
ab
2
( a b) 2
V (X )
12
E ( x)
Probabilidad y Estadsticas
Pgina 36 de 64
1
f ( x)
e 2
2
La notacin x ~ N (,) se lee: "x es una v.a. normal con esperanza y desviacin
tpica ". R y R
Recordemos tambin que, para una v.a. continua, las probabilidades se calculaban
integrando la funcin de densidad de probabilidad en el intervalo de inters, es decir:
P x a, b P (a x b) f ( x )dx
b
En el caso
1 x
1
2
a 2 e
b
1
dx
2
de la distribucin normal:
1 x
dx
f ( x) dx 1
Esta ltima condicin es la que nos permite afirmar que el rea bajo la curva es igual a
1.
La distribucin tiene forma de campana simtrica, por eso vulgarmente se habla de
"campana de Gauss". El punto mximo es la ordenada de , que adems coincide con
la mediana y con el modo, por tratarse de una distribucin simtrica,
El eje x es asntota de la curva, es decir, a partir de la curva se extiende indefinidamente hacia la izquierda y hacia la derecha, tendiendo al eje x pero sin tocarlo
nunca. En la prctica, a una distancia 3 de (hacia la derecha y hacia la izquierda), el
valor de f (x) es muy prximo a 0.
El eje de simetra de la curva es x = (es decir, la vertical que pasa por ).
Los valores de y determinan, respectivamente, la ubicacin de la curva sobre el
eje x y la forma de la misma.
La curva tiene sus puntos de inflexin en x = ; es cncava hacia abajo si -
< x < + y es cncava hacia arriba en cualquier otro punto.
Distribucin normal tpica o estndar
Sea z una v.a. normal tipificada o estandarizada, la f.d.p. de z es:
1
z2
1
f ( x)
e 2 ;
2
Resumen
zR
Probabilidad y Estadsticas
Pgina 37 de 64
1
f ( x)
e
2
1 x
1
z2
1
f ( x)
e 2
2
se
usa:
Si X
~N(;) Z~N(0;1)
E (z) = 0 y V(Z)=1
A esta transformacin a veces se la llama proceso de tipificacin de la variable
Las tablas son para Z, donde Z(0;1), si es otro distinto hay que hacer la
transformacin para poder usarlas
Todos los valores x entre xt y x2 de la primera distribucin tienen sus correspondientes
valores z entre z, y z2 en la segunda distribucin. Por lo tanto, las reas sombreadas
son equivalentes. Luego, con una so!a tabla (la de la distribucin normal tpica)
resolvemos nuestro problema de clculo de probabilidades.
Ejemplo de Uso de la Tabla
Reproducimos una parte de la tabla P (Z z1)
z
0,00 0,01
0.0 0.1 0.2 0,3 0.6985
0.4 0.5
0.02
0.03
Grficamente:
Probabilidad y Estadsticas
Pgina 38 de 64
Propiedades
a) Linealidad: Si x ~ N (;) y tenemos, adems, una v.a, y = a * x + b, luego: y ~ N (a
* + b , a * ).
b) Reproductividad: Si x1 ~ N (1;1) y x2 ~ N (2;2), y x1 y x2 son variables
2
2
independientes entonces y=x 1+ x2 resulta con distribucin: y ~ N 1 2 ; 1 2
valor
Para cualquier otro
0
X>0
Representacin Grfica
Resumen
Probabilidad y Estadsticas
Pgina 39 de 64
f ( X )dx 1
X0
f (t )dt
Para cualquier
0 valor
f ( x) otro
1 e X
Esperanza y variancia
E ( X ) 1/ a
V ( X ) 1/ a 2
Por lo tanto:
P( X u v / X u ) P( X v)
P ( X u v ) e ( u v )
u e v
P( X u )
e
Generalmente, a las distribuciones que cumplen con esta propiedad se les dice que "no
tienen memoria".En otras palabras, la informacin de ningn xito es "olvidada" en lo
que se refierea clculos subsecuentes
Distribucin chi-cuadrado
Definicin
Una variable aleatoria continua X tiene una distribucin chi-cuadrado, con v grados de
libertad, si su funcin de densidad es la siguiente:
1
X v / 21e x / 2
v/2
f ( x ) 2 (v / 2)
Para cualquier otro caso
0
X0
t v 1e t dt
0
Con v>o
Esta distribucin juega un papel vital en la Inferencia estadstica
La media
v
La variancia
2 2v
Distribucin t de Student
Resumen
Probabilidad y Estadsticas
Pgina 40 de 64
La mayora de las veces no se tiene la suerte suficiente como para conocer la variancia
de la poblacin de la cual se seleccionan las muestras aleatorias. Para muestras de
tamao n > 30, se proporciona una buena estimacin de a 2 al calcular
un valor de S2. Qu le ocurre entonces al estadstico X / / n del Teorema
en forma apreciable de una distribucin normal estndar. Ahora se est tratando con la
distribucin de un estadstico que recibe el nombre de T, donde: para n<30
Al derivar la distribucin muestral de T, se asumir que la muestra aleatoria se
seleccion de una poblacin normal. Se puede expresar entonces:
T
X / / n
S2 / 2
V /(n 1)
X
S/ n
X
/ n
Tiene la distribucin normal estndart y
Donde Z es: Z
(n 1) S 2
2
tiene una distribucin chi-cuadrado con v = n -1 grados de libertad. Ai muestrear
poblaciones normales, puede demostrarse que X x y S2 son independientes y, en
consecuencia, lo son Z y V.
V
Valores caractersticos
E(tn-1) = 0 para n>1
V(tn-1) = n/(n-2), para n>2.
Obsrvese que si n < 1 la distribucin T-Student carece de esperanza matemtica, y si
n < 2, carece de varianza.
Teorema
Sea Z una variable aleatoria normal estndar y V una variable aleatoria chi-cuadrado
con v grados de libertad. Si Z y V son independientes, entonces la distribucin de la
variable aleatoria T, donde:
Z
T
V /v
est dada por;
(v 1) / 2
( v 1) / 2
t 2
t
h(t )
1
v
(v / 2) v
y se conoce como distribucin t con v grados de libertad.
Los grados de libertad como una medicin de la informacin muestral
Se sabe que, cuando una muestra aleatoria se toma de una distribucin normal, la
variable aleatoria:
Resumen
Probabilidad y Estadsticas
Pgina 41 de 64
( X i )2
2
i 1
Tiene una distribucin x2 con n grados de libertad. Es muy simple observar que, en las
mismas condiciones, la variable aleatoria:
n
( xi x ) 2
(n 1) S 2
2
2
i 1
Tiene una distribucin c2 con n -1 grados de libertad. Se puede indicar que, cuando m
no se conoce y se considera la distribucin de:
n
( xi x ) 2
2
i 1
Existe un grado de libertad menos, o se pierde un grado de libertad en la estimacin de
(es decir, cuando es reemplazada por x ). Cuando los datos (los valores en la
muestra) se utilizan para calcular la media, hay 1 grado de libertad menos en la
informacin utilizada para estimar 2.
n
7. DISTRIBUCIONES EN EL MUESTREO
El muestreo estadstico
El muestreo estadstico es un enfoque sistemtico para seleccionar unos cuantos
elementos (una muestra) de un grupo de datos (una poblacin), a fin de hacer algunas
inferencias sobre el total.
Razones del muestreo
Probar el producto ntegramente lo destruye a menudo, adems de ser innecesario.
Para averiguar las caractersticas de un todo, basta muestrear una parte de l.
Podemos mencionar entre las principales razones para realizar el muestreo a las
siguientes:
a)Ensayos de tipo destructivo.
b)Imposibilidad de conocer todas las unidades elementales que componen la
poblacin.
c)Tiempo que insume analizar la poblacin completa cuando su tamao es muy
grande.
d)Alto costo que a veces implica relevar los datos.
Censo y muestra
En ocasiones, es posible y prctico examinar a todas las personas o miembros de la
poblacin que deseamos describir. A esto lo llamamos enumeracin completa o censo. Recurrimos al muestreo cuando no es posible contar o medir cada elemento de la poblacin. Los estadsticos usan la palabra "poblacin" para designar no
Resumen
Probabilidad y Estadsticas
Pgina 42 de 64
slo a las personas, sino a todos los elementos, que han sido escogidos para ser
estudiados.
Estadsticos y parmetros
Desde el punto de vista matemtico, podemos describir las muestras y poblaciones
mediante medidas como la media, la mediana, el modo y la desviacin estndar.
Cuando estos trminos describen las caractersticas de una muestra, se les llama
estadsticos. Cuando describen las caractersticas de una poblacin, reciben el nombre
de parmetros. El estadstico es una caracterstica de la muestra; el parmetro es una
caracterstica de la poblacin.
Para ser
Definicin
Poblacin: P
Grupo de elementos
que van a ser
"Parmetros"
Medidas
caracterstica
Smbolos
Tamao de la
poblacin: N Media
poblacional:
Desviacin estndar
Muestra: M
Parte o porcin de la
poblacin seleccionada
"Estadsticos"
Tamao de la muestra: n
Media muestral: x
Desviacin estndar de la
muestra: S
Resumen
Probabilidad y Estadsticas
Pgina 43 de 64
cada muestra posible tener igual probabilidad de ser seleccionada y a cada elemento
de la poblacin entera tener igual probabilidad de quedar incluido en la muestra.
Por finita entendemos la poblacin que posee un tamao formulado o limitado, es decir,
hay un nmero entero (N) que nos indica cuntos elementos existen en la poblacin.
La poblacin infinita es aquella en que, tericamente, es imposible observar todos los
elementos. As pues, en la prctica emplearemos la expresin "poblacin infinita"
cuando hablemos de una poblacin que no puede ser enumerada en un perodo
razonable. De este modo, usaremos el concepto terico de "poblacin infinita" como
una aproximacin de una gran poblacin finita.
Cmo hacer el muestreo aleatorio
La forma ms fcil de seleccionar una muestra al azar consiste en usar nmeros
aleatorios, los cuales pueden generarse con una computadora programada para
mezclar nmeros o con una tabla de nmeros aleatorios.
Empleo de una tabla de nmeros aleatorios
a)Pasamos de la parte superior a la parte inferior de las columnas, comenzando con la
columna de la izquierda, y leemos slo los dos primeros dgitos de cada rengln. Es
decir que leemos la tabla por columnas.
b)Si llegamos a la parte inferior de la ltima columna de la derecha y todava no
obtuvimos nuestros 10 nmeros deseados de dos dgitos de 99 y menos, podemos
volver al inicio (la parte superior de la columna de la izquierda) y comenzar a leer los
dgitos tercero y cuarto de cada nmero.
Muestreo sistemtico
En el muestreo sistemtico, los elementos se seleccionan de la poblacin con un
intervalo uniforme, que se mide en el tiempo, en el orden o en el espacio.
Si quisiramos entrevistar a todo vigsimo estudiante de un campus universitario, por
ejemplo, escogeramos un punto aleatorio de arranque en los primeros veinte nombres
en el directorio del alumnado, y luego seleccionaramos cada vigsimo nombre. En este
caso veinte es el llamado intervalo de muestreo. En general, este valor SE simboliza
con k y se calcula como el cociente entre el tamao de la poblacin y el tamao de la
muestra, es decir, k = N/n.
Caractersticas del muestreo sistemtico
El muestreo sistemtico difiere del muestreo aleatorio simple en que cada elemento
tiene iguales posibilidades de ser seleccionado, pero cada muestra no tiene esa misma
probabilidad.
Deficiencias del muestreo sistemtico
En el muestreo sistemtico, se corre el riesgo de introducir un error en el proceso
muestral.
El muestreo sistemtico tiene tambin sus ventajas. Aun cuando no sea apropiado si
los elementos presentan un patrn secuencial, tal vez requiera menos tiempo y,
algunas veces, cuesta menos que el simple mtodo de muestreo aleatorio.
Muestreo estratificado
Para aplicar el muestreo estratificado, dividimos la poblacin en grupos homogneos
relativos, llamados estratos. Despus recurrimos a uno de dos mtodos posibles:
seleccionamos al azar, en cada estrato, un nmero especificado de elementos
correspondiente a la proporcin del estrato de la poblacin total, o bien extraemos un
nmero igual de elementos de cada estrato y damos un peso a los resultados, de
acuerdo con la proporcin del estrato en la poblacin total. En uno y otro mtodo, el
muestreo estratificado garantiza que todos los elementos de la poblacin tengan una
Resumen
Probabilidad y Estadsticas
Pgina 44 de 64
Resumen
Probabilidad y Estadsticas
Pgina 45 de 64
Probabilidad y Estadsticas
Pgina 46 de 64
compaa.
Tiene:
= media de la distribucin.
= desviacin estndar de la distribucin.
Si, de alguna manera, pudiramos tomar todas las muestras posibles de determinado
tamao en esta distribucin de la poblacin y calcular su media y desviacin estndar,
algunas de las posibles distribuciones podran representarse grficamente como sigue.
Probabilidad y Estadsticas
Pgina 47 de 64
Con reposicin D( X ) / n *
Probabilidad y Estadsticas
Pgina 48 de 64
(x )
n( x ) 2
1/ n ( xi ) 2 n( x ) 2
Aplicando la esperanza
E ( S 2 ) 2 2 / n (n * 2 2 ) / n [(n 1) / n] 2
Vemos que E(S2) 2. Para que S2 sea un buen estimador de 2, ms adelante veremos que uno de los requisitos que debe cumplir es que sea insesgado, o sea
)
E
Probabilidad y Estadsticas
2
Que se distribuye como n 1
Pgina 49 de 64
n * S 2 (n 1) S2
2
2
(x )
i
~ n
2
S
n * S 2 ( xi x ) 2
n
( xi x ) 2
2
S
n 1 * S2 ( xi x ) 2
n 1
Y reemplazando en (*) nos queda:
n*S2
2
~ n 1
2
n 1 * S2 ~ 2
n 1
2
2
8. ESTIMACIN DE PARMETROS
Cuando estimamos parmetros, hacemos inferencias respecto de las caractersticas de la
poblacin a partir de la informacin contenida en las muestras.
Se pueden realizar dos tipos de estimaciones:
Resumen
Probabilidad y Estadsticas
Pgina 50 de 64
estimacin puntual, ya que se utiliza como estimacin un solo punto del conjunto de
todos los posibles valores.
Para poder utilizar la informacin que se tenga de la mejor manera posible, se necesita
identificar los estadsticos que sean buenos estimadores. Hay cuatro propiedades que
debe cumplir un buen estimador
Estimador insesgado
)
estimador de es una variable aleatoria y, por lo tanto, tiene una distribucin de
probabilidad con su media y variancia. Entonces, se puede definir un estimador
insesgado diciendo:
)
Si se utiliza un estadstico muestral para estimar el parmetro de poblacin , se dice
)
)
que es un estimador insesgado de si E
O sea que, es de esperar que, si se toman muchas muestras de igual tamao, a partir de la
)
misma poblacin, y si de cada una se obtiene un valor de , la media de todos los valores
)
de ha de estar muy cerca de .
Estimador eficiente
Si se utilizan dos estadsticos como estimadores del mismo parmetro, entonces aqul
cuya distribucin muestral tenga menos error tpico es un estimador ms eficiente que el
otro. El mas eficiente es el que tenga menor error tpico.
Conclusin: Es natural que un estimador con un error estndar menor (con menos
variacin) tenga mayores probabilidades de producir una estimacin ms cercana al
parmetro que estamos queriendo estimar
Estimador consistente
)
Si es un estimador muestral calculado a partir de una muestra de tamao n y si es
)
el parmetro de poblacin que se va a estimar, entonces es un estimador
consistente de si para todo nmero positivo y arbitrariamente pequeo e se tiene:
)
P e 1 cuando n
)
Es decir, la probabilidad de que est a menos de cierta distancia e del parmetro
tiende a 1 al tender n a infinito.
Por ejemplo, se sabe que la media muestral y la variancia son estimadores consistentes. Pero, un estadstico muestral puede ser un estimador sin consistencia. Por
ejemplo, si el valor de la primera observacin, o la media entre la primera y ltima
observacin, de una muestra se utilizara para estimar la media de la poblacin, tal
estimador no sera consistente porque no tiende a acercarse ms y ms al valor de la
poblacin cuando se aumenta el tamao de la muestra. Algunos autores llaman a esta
propiedad congruencia del estimador.
Estimador suficiente
Un estimador suficiente del parmetro es el que agota toda la informacin pertinente
sobre 6 que se pueda disponer en la muestra.
La media muestral, la proporcin muestral y la forma corregida de la variancia muestral
son estadsticos que satisfacen los criterios o propiedades de "buenos" estimadores.
En el siguiente cuadro presentamos un resumen de parmetros y estimadores
puntuales:
Poblacin: P
Parmetros
Muestra: M
Estadsticos (estimadores
Resumen
Probabilidad y Estadsticas
Pgina 51 de 64
x
S2 o S'2
S o S
P
Resumen
Probabilidad y Estadsticas
Pgina 52 de 64
Luego, el intervalo para la media poblacional de una poblacin normal con variancia
conocida es:
x z1
Correccin: En el caso en que las muestras se tomen sin reposicin de una poblacin
finita de tamao N, debe emplearse el factor de correccin finita y el intervalo ser:
x z1
N n
N n
.
;x z
.
1
N
1
n N 1
n
2
e Donde z z1 / 2 ,
n
Determina el error del muestreo, nos indica la precisin de la estimacin.
Pero z depende del valor de y, al hacer mayor el coeficiente de confianza 1 - , el valor de
z ser mayor y, por lo tanto, el error e aumentar. Esto se puede regular aumentando el
tamao de la muestra, con lo que el error disminuir.
e n z
Si z
e
n
z.
z 2 . 2
e2
b) ... es desconocido
Si o es desconocido, no podemos utilizar z
x
/ n
x
/ n
Pero esta variable del denominador es diferente para cada media de la muestra.
y lo reemplazamos por z
Probabilidad y Estadsticas
Pgina 53 de 64
S
S
P x z
x z 1
1
1
n
n
2
2
b2) Si o es desconocido y n pequeo (generalmente < 30)
Para estimar debemos utilizar el desvo estndar muestral corregido
S
(x x )
n 1
Por lo tanto, el intervalo de confianza para ser:
o bien:
S
S
P x t
x t 1
1
1
n
n
2
2
S
S
P x tn 1
x tn 1
1
n 1
n 1
P x z
x z 1
1
1
n
n
2
2
P x t
x t 1
1
1
n
n
2
2
si n >30
si n < 30
b)
P x z1
x z1 1 , donde z1 z1 / 2 . Se utiliza el teorema central del
n
n
Probabilidad y Estadsticas
Pgina 54 de 64
(1 ) N n
(Sin reposicin)
.
n
N 1
(1 )
(Con reposicin)
p
n
n
N 1
Debera tenerse en cuenta que, cuando Sp, una estimacin puntual de p, es usada
para obtener una estimacin del intervalo de una proporcin poblacional , el tamao
de la muestra deber ser suficientemente grande a fin de usar la distribucin normal.
De otro modo, deber usarse la distribucin binomial.
Si n. y n(1- ) > 5 se usa la distribucin normal
Intervalo de Confianza para :
(1 )
n
Los lmites de confianza para el caso de ser n suficientemente grande son:
E ( p) y p
p z1 / 2 .
p (1 p)
p (1 p )
; p z1 / 2 .
n
n
p z1 / 2 .
p (1 p) N n
p (1 p ) N n
.
; p z1 / 2 .
.
n
N 1
n
N 1
Probabilidad y Estadsticas
Pgina 55 de 64
2
Como es una distribucin asimtrica, entonces, para determinar su intervalo de
confianza para 2, fijado 1-, debemos establecer la probabilidad siguiente:
P a n21 b 1 y despus de operar y utilizar la tabla de 2 obtenemos:
2
2
2
1
n.S
n
.
S
P 2
2 2
1
P 2
2
2
1 ;n 1 n.S
; n 1
1 ; n 1
; n 1
2
2
2
2
Observacin: el intervalo de confianza del desvo poblacional es:
n.S 2
n.S 2
P
1
2
2
1 ;n 1
; n 1
2
2
9. PRUEBA DE HIPTESIS
Conceptos bsicos de las pruebas de hiptesis
En el procedimiento denominado prueba de hiptesis trataremos de determinar cundo
es razonable concluir, a partir del anlisis de una muestra aleatoria, que la poblacin
entera posee determinada propiedad, y cundo no es razonable llegar a tal conclusin.
Tales decisiones se denominan decisiones estadsticas.
Las desviaciones "grandes" se conocen como desviaciones significantes, ya que el hecho
de que stas ocurran significa que se necesita alguna otra razn que explique los
resultados del muestreo.
Una hiptesis estadstica es una afirmacin o conjetura acerca de una o ms poblaciones.
Pueden definirse como explicaciones tentativas del fenmeno investigado, formuladas a
manera de proposiciones.
La prueba de hiptesis estadstica es el proceso que permite tomar una decisin con
respecto a una hiptesis.
Para que una hiptesis sea digna de tomarse en cuenta para la investigacin cientfica deben
existir tcnicas adecuadas para probarla. Al formular una hiptesis, tenemos que analizar si
existen tcnicas o herramientas de la investigacin (instrumentos para recolectar datos,
diseos, anlisis estadsticos o cualitativos, etc.) para poder verificarla, si es posible
desarrollarlas y si se encuentran a nuestro alcance.
Las dos hiptesis presentes en un proceso de toma de decisin se denominan hiptesis
nula e hiptesis alternativa. Cuando estamos probando hiptesis acerca del valor de un
parmetro, la hiptesis nula, por lo general, es una afirmacin sobre un valor especfico del
parmetro. sta se denomina as porque es el "punto inicial" de la investigacin (en su
interpretacin se suele decir "no hay diferencia con el valor supuesto del parmetro 0",
de ah el nombre de hiptesis nula).
Se simboliza con H0, La hiptesis alternativa es una afirmacin que especifica que el
parmetro de la poblacin tiene un valor diferente al proporcionado en la hiptesis
nula. Se simboliza con H1.
Resumen
Probabilidad y Estadsticas
Pgina 56 de 64
Probabilidad y Estadsticas
Pgina 57 de 64
1 0 .....Unilateral..Derecha (b1 )
1 0 .....Unilateral..Izquierda (b2 )
Error tipo I y II
La cantidad = 1 - se llama potencia del test sera la probabilidad de no cometer error
tipo II.
Podemos resumirlo en el siguiente cuadro:
Resumen
Probabilidad y Estadsticas
Pgina 58 de 64
En el grfico anterior se observa claramente que, a medida que uno crece, el otro
decrece. En la prctica se procede de la manera siguiente: primero se escoge , luego
determinamos c y por ltimo calculamos . Si b resulta tan grande como para que la
potencia = 1 - sea pequea, se debe repetir la prueba escogiendo un mayor.
Prueba de hiptesis para la media poblacional con conocida (n > 30; el
teorema central del lmite es vlido)
Se utilizan las frmulas del apndice para realizar los clculos.
(1 )
n
p 0
: N (0,1)
La estadstica de la prueba es z
p
Planteamos los tres casos como hicimos con la media poblacional. Y utilizamos las
frmulas del apndice.
Recordemos que: E ( p ) y p
Probabilidad y Estadsticas
Pgina 59 de 64
Probabilidad y Estadsticas
Pgina 60 de 64
Probabilidad y Estadsticas
Pgina 61 de 64
( X X )(Y Y )
(X X )
2
Probabilidad y Estadsticas
Pgina 62 de 64
cuatro supuestos:
1.La variable X se mide sin error. Por esto decimos que los valores de X son "fijos", o sea que
la variable X es conocida por el observador. Esto significa que solamente Y, la variable
dependiente, es una variable aleatoria. X no vara al azar sino que est bajo control del
observador y por lo tanto es una variable estadstica.
2.El valor esperado de Y para un determinado valor de X est descrito por la funcin
lineal:
y X
Esto equivale a suponer que la relacin entre X e Y es lineal y que la esperanza matemtica
de los errores ei de las Yi es cero, o sea que: E(i) = 0, para todo i.
3.Para cualquier valor dado xi, las observaciones Yi son variables aleatorias que se
distribuyen independiente y normalmente. Es decir que el error aleatorio ei de cada
observacin Yi, es una variable aleatoria normalmente distribuida con esperanza
matemtica cero. En smbolos: i ~ N(0;), E(i, j)=0
4.La varianza de la distribucin condicional de Y dado que X = xo, se representa por Y/X=x0 y
se la llama directamente varianza de la distribucin condicional de Y dado que X = x0. Se
supone que esta medida es constante, cualquiera que sea el valor de X y es un valor al que
representaremos directamente por 2Y/X, llamndola varianza de la regresin. Esta
propiedad se llama a veces homoscedasticidad.
El coeficiente de correlacin r de Pearson
Como una medida de la asociacin entre dos variables de razn o de intervalo, los
investigadores casi exclusivamente confan en una medida llamada r de Pearson o
coeficiente de correlacin.
El coeficiente de Pearson vara entre -1 y +1. 0 indica que no hay asociacin, +1 indica
una relacin perfecta positiva y -1 indica una relacin perfecta negativa.
La frmula de clculo de r es la siguiente:
( X X )(Y Y )
r
( X X )2 . (Y Y )2
Observe que el numerador de esta frmula es proporcional a la covariacin de X e Y ,
como ocurra en la frmula de b.
Para simplificar los clculos preferimos la frmula siguiente:
n XY X Y
r
n X 2 X n Y 2 Y
Este valor indica una relacin moderada positiva entre las variables.
Interpretacin del coeficiente de determinacin r2
El coeficiente r no nos permite una interpretacin integral de los valores que se
encuentran entre -1 y +1.
Podemos realizar una interpretacin ms directa, afortunadamente, calculando el
llamado coeficiente de determinacin, que no es ms que r 2.
Recordemos el concepto del principio de variacin mnima, expresado como:
(Y Y )2 Minimo
Probabilidad y Estadsticas
Pgina 63 de 64
Luego el resultado puede ser comparado con la variacin total en Y, expresada por la
Variacin Total
(Y Y )2
2
r = variacin explicada / variacin total
(Y Y )2
r2 indica en qu medida el conocimiento de X nos ayuda a predecir o entender o
explicar a Y.
La proporcin de variacin total en Y que no es explicada por X se puede encontrar
restando el valor de r2 de 1. Es decir que dicha expresin representa la llamada
variacin residual, resultando: Variacin residual = 1 r 2.
La variacin no explicada normalmente es atribuida a la influencia de la combinacin de
otras variables, a la medida del error, y los cambios aleatorios.
Como usted podr ver, la variacin explicada y no explicada guardan una relacin
reciprocada cada una con la otra.
Cuanto ms fuerte es la relacin lineal entre X e Y, cuanto mayor es el valor de la
variacin explicada, menor es la variacin no explicada.
En el caso de una relacin perfecta (r = +1 o r = -1), la variacin no explicada ser igual
a 0 y r2 = 1. Esto indica que X explica toda la variacin en Y y que podemos predecir Y
a partir de X sin error.
Por otra parte, cuando X e Y no estn relacionadas linealmente (r = 0), la variacin
explicada ser igual a 0 y r2 ser 0 tambin.
El test de significatividad de Pearson para r
Cuando la relacin medida por el coeficiente r de Pearson est basada en datos que
provienen de una muestra aleatoria, se deber probar la significatividad estadstica de
r.
El parmetro poblacional es simbolizado por (rho), y la distribucin de muestreo
apropiada es la distribucin t- de Student.
Para realizar este test, debemos realizar algunas suposiciones:
1.Debemos suponer que ambas variables tienen distribucin normal.
2.La relacin entre las dos variables es lineal en cuento a su forma.
3.Homoscedasticidad, significa que la variancia de Y es uniforme para todos los valores
de X.
Luego realizaremos el test de significatividad en 5 pasos:
Paso 1: Suposiciones
Muestra aleatoria
Nivel de medicin intervalar o de razn
Distribucin bivariada normal
Relacin lineal entre X e Y
Homoscedasticidad
Distribucin en el muestreo normal
Paso 2: Fijando la hiptesis nula
H 0: =0 contra H1: 0
Resumen
Probabilidad y Estadsticas
Pgina 64 de 64
Resumen