You are on page 1of 69

CAPACITACIN

ESTADSTICA DESCRIPTIVA
EP


Andrs Cevallos Coello
Noviembre de 2013
EL OBJETIVO DE LA CAPACITACIN DEL DA DE HOY ES ENTREGAR A CADA
UNO DE USTEDES LAS COMPETENCIAS PARA RECONOCER Y COMPRENDER
LOS PRINCIPALES PROCEDIMIENTOS Y TCNICAS ESTADSTICAS, APLICAR LOS
CLCULOS ADECUADOS EN FUNCIN DE LAS VARIABLES Y DEL INTERS DE
ESTUDIO, E INTERPRETAR LAS TABLAS, GRFICOS Y MEDIDAS DE RESUMEN
QUE SE OBTENGAN DEL PROCESAMIENTO DE UN CONJUNTO DE DATOS
REALES CON LA UTILIZACIN DEL PAQUETE ESTADSTICO SPSS.
Que es estadstica ?

"La estadstica estudia los mtodos
cientficos para recoger, organizar, resumir y
analizar datos, as como para sacar
conclusiones vlidas y tomar decisiones
razonables basadas en tal anlisis.

Murria R. Spiegel, (1991)

EN LAS CIENCIAS
Economa
Administracin
Fsica
Qumica
Psicologa
Sociologa
Ingeniera
Arquitectura
Astronoma
Agronoma
Medicina
Educacin





EN LA EMPRESA
Finanzas
Seguros
Produccin
Control de Calidad
Administracin
Recursos Humanos
Comercializacin
Mercadeo, investigacin de
Mercado
Contact Center
APLICACIN DE LA ESTADSTICA


CONCEPTOS BSICOS















"Una poblacin es un conjunto de todos los elementos que
estamos estudiando, acerca de los cuales intentamos sacar
conclusiones". Levin & Rubin (1996)

"Se llama muestra a una parte de la poblacin a estudiar que
sirve para representarla". Murria R. Spiegel (1991)



ELEMENTO
UNIDAD DE OBSERVACIN


CARACTERSTICAS

Cualitativas Cuantitativas



VARIABLES
UNIDAD DE OBSERVACIN, CARACTERSTICAS,
VARIABLES

CARACTERSTICA VARIABLE MEDIDA
Cuantitativa
Continua: Toma cualquier valor, entero y/o fraccionario, resultado
de la medicin de la dimensin en cada elemento
Escala
Discreta: Asume solo valores enteros y positivos, resultado del
conteo del numero de elementos que poseen un dimensin.
Cualitativa
Ordinal: Clasifica a los elementos en dos o mas categoras que
expresa un grado diferente de la misma dimensin, nivel de
prelacin, prioridad u orden.
Ordinal
Nominal: Clasifica a los elementos en dos o mas categoras que
expresan la condicin o estado de variable en el elemento, sin
orden ni prelacin.
Nominal
VARIABLES Y ESCALA
DE MEDICIN
FUENTE DE DATOS

FUENTE DESCRIPCIN APLICACIN
Primaria Toma informacin directa de los elementos Censos y encuestas
Secundaria
Toma informacin indirecta de los elementos o del conjunto
de elementos
Registros, informes,
anuarios estadsticos
TABLA O MATRIZ DE DATOS

PROCESO DE INVESTIGACIN ESTADSTICA

- DISEO Y PLANIFICACIN DE LA INVESTIGACIN
o Definicin y delimitacin del problema
Determinacin de objetivos
- Definicin de hiptesis
- Operacionalizacin de la investigacin
Determinacin de recursos
o Plan de actividades, cronograma

- EJECUCIN DE LA INVESTIGACIN
o Organizacin de la toma de datos
Ejecucin de la investigacin

- PROCESAMIENTO Y ANLISIS DE DATOS
o Codificacin e ingreso de datos al computador
Procesamiento de datos, tablas y cuadros
- Anlisis descriptivo, exploratorio e inferencial


PRESENTACIN DE DATOS,
DISTRIBUCIN FRECUENCIAL
Cuadros y Tablas estadsticas
Grficos
Presentacin de datos
Texto
Combinacin de dos o ms.

Distribuciones de Frecuencia Unidimensionales.

Forma resumida de tabular y presentar datos. Conjunto ordenado de valores
presentados mediante una tabla estadstica o una distribucin frecuencial.
Una distribucin frecuencial elaborada para una variable cualitativa tiene la
siguiente estructura:
Una distribucin frecuencial para una variable cuantitativa tiene la
siguiente estructura:









Distribucin Frecuencial Bidimensional:

MEDIDAS DE RESUMEN - INDICADORES
ESTADGRAFOS
Posicin o Tendencia Central
Dispersin
Asimetra
Curtosis
ESTADGRAFOS DE POSICIN O TENDENCIA CENTRAL
La Mediana y Fractiles
La Media Aritmtica
La Moda
La Media Geomtrica
La Media Armnica
ESTADGRAFOS DE DISPERSIN
La Desviacin Media
La Varianza
El Desvo Tpico
El Coeficiente de Variacin
Desviacin Intercuartlica
INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
POSICIN O TENDENCIA CENTRAL

La Proporcin

Es el cociente entre el nmero de elementos que poseen cierta
caracterstica con el nmero total de elementos.
Se la denota con "P" o con "" para datos poblacionales (parmetro) y
con "p para datos de una muestra (estadstica).
Formulacin de clculo:




Aplicacin:
Se la utiliza para describir caractersticas de tipo cualitativo, sean variables
nominales u ordinales, preferentemente, con dos o mas categoras de
clasificacin.

INDICADORES DESCRIPTIVOS -
ESTADGRAFOS DE POSICIN O TENDENCIA
CENTRAL
Razones:

Es el cociente entre el numero de elementos que tienen una categora de
variable con el numero de elementos de otra categora de la misma variable.




Tasas:

Es el cociente entre el numero de casos reales con el numero de casos potenciales,
multiplicado por un factor que representa una base de casos potenciales. Este
factor puede ser 1.000; 10.000 o puede ser 100.000.
INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
POSICIN O TENDENCIA CENTRAL
La Mediana

Divide a las observaciones en dos partes de igual numero de datos cada
una. No depende de los valores de la variable
Se la representa como Me, y su calculo depende de si los datos son
originales o agrupados.

Clculo para datos originales:
Ordenar los datos en forma ascendente o descendente
Ubicar la posicin de la mediana:

si el numero de datos es impar

si el numero de datos es par

Calcular el valor de la mediana:

Si el numero de datos es par:

Si el numero de datos es impar:
INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
POSICIN O TENDENCIA CENTRAL


Clculo para datos Agrupados:

Ubicar la posicin de la mediana:



Calcular el valor de la mediana:





INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
POSICIN O TENDENCIA CENTRAL

Fractiles: cuartiles, deciles y percentiles

El procedimiento de calculo es similar al de la Mediana, su formulacin es
idntica diferencindose en la ubicacin del fractil:
Los cuartiles dividen a los datos en 4 partes iguales
Los quintiles dividen a los datos en 5 partes iguales
Los deciles dividen a los datos en 10 partes iguales
Los percentiles dividen a los datos en 100 partes iguales
INDICADORES DESCRIPTIVOS -
ESTADGRAFOS DE POSICIN O TENDENCIA
CENTRAL
La media aritmtica (el promedio)

Se la define como el centro de gravedad o punto de equilibrio de todos los valores
de la variable.
Se la representa con para los datos poblacionales (parmetro) y por x para
datos de una muestra (estadstica)

Calculo para datos Originales:
Se aplica la siguiente frmula:



Clculo para datos agrupados:
Se aplica la siguiente frmula de clculo:
El BoxPlot

Cmo Construir un BoxPlot

Un BoxPlot es una exhibicin grfica que tiene muchas caractersticas. Incluye la presencia de
posibles outliers. Ilustra los rangos de los datos. Muestra una medida de dispersin tal como el
cuartl superior, cuartl inferior y los rangos intercuartiles (RIC) de un conjunto de datos, as
como tambin a la mediana como medida central ubicacin, el cual es til para comparar
grupos de datos. Tambin indica acerca de la simetra o de la oblicuidad de la distribucin. La
razn principal del renombre de boxplots es porque ofrecen mucha informacin de una manera
compacta.







Pasos para Construir un Boxplot:

1. Lneas horizontales son obtenidas de las observaciones mas pequeas (A), en el
cuartl mas bajo, y otro para el cuartl mas alto (D), de observaciones mas largas (E). Las lneas
verticales que producen la caja, se unen con las lneas horizontales en los puntos B y D.
2. La lnea vertical es dibujada en el punto medio (C), como es mostrado en la figura
anterior.
Para un entendimiento mas profundo, usted podra utilizar papel para grficos, y el JavaScript
de muestreo de estadstica descriptiva para construir boxplots para un conjunto de datos, por
ejemplo, de su libro de texto.

Principales
Caracterstic
as de:
Moda Mediana Media
1
Es el valor mas frecuente en la
distribucin. Es el punto de mas alto
densidad.
Es el valor del punto medio de la
seleccin (no del rango), tal que la
mitad de los datos estn por arriba y
por debajo de ella.
Es el valor en algn agregado, el cual se
obtendra si todos los valores fueran
iguales.
2
Su valor es establecido por la
frecuencia predominante, no por los
valores en la distribucin.
El valor de la media es fijado por su
posicin en la seleccin, y no refleja
valores individuales.
La suma de las desviaciones en
cualquier lado de la media son iguales;
por lo tanto la suma algebraica de sus
desviaciones es cero.
3
Este es el valor mas probable, por lo
tanto el mas comn.
La distancia agregada entre la mediana
y cualquier otro punto de la muestra es
menor que en cualquier otro punto.
Esta refleja la magnitud de cada valor.
4
Una distribucin puede tener mas de 2
modas, pero no existe moda en una
distribucin rectangular.
Cada seleccin tiene solo una mediana. Una muestra tiene solo una media.
5
No puede ser manipulada
algebraicamente. Modas de subgrupos
no pueden ser ponderadas o
combinadas.
No puede ser manipulada
algebraicamente. Medianas de
subgrupos no pueden ser ponderadas
o combinadas.
Pueden ser manipuladas
algebraicamente. Medias de subgrupos
pueden ser combinadas cuando son
ponderadas apropiadamente.
6
Es inestable, puede ser influenciada en
el proceso de agrupacin.
Es estable en cuanto a que
procedimientos para agrupar no afecta
su apreciacin.
Es estable en cuanto a que
procedimientos para agrupar no afecta
su apreciacin.
7
La moda no refleja el grado de
modalidad.
No es aplicable para datos cualitativos.
Podra ser calcula igualmente cuando
los valores individuales son
desconocidos, si se posee la suma de
los valores y el tamao de la muestra.
8
Puede ser calculada cuando los
extremos de los valores de los grupos
son abiertos.
Puede ser calculado cuando los valores
extremos son abiertos.
No puede ser calculado de una tabla
de frecuencia cuando sus valores
extremos son abiertos.
9
Valores deben ser ordenados para su
clculo.
Valores deben ser ordenados y
agrupados para su clculo.
Los valores no necesitan ser ordenados
para su clculo.
INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
DISPERSIN


Varianza

La varianza es el promedio de las desviaciones estndar elevadas al
cuadrado de cada una de las observaciones con respecto a la media.

Se la denota por 2 para designar a la varianza poblacional (parmetro);
y, por s2 para designar a la varianza muestral (estadstica).

Clculo para datos originales:



Clculo para datos agrupados:



Cuando se calcule la varianza poblacional, el denominador de la
expresin ser N en lugar de n - 1.
INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
DISPERSIN

Desvo tpico (Desviacin Starndart):

Se le conoce tambin como Desvo Estndar, y se lo define como el desvo
promedio de los valores de la variable respecto a su media.
Se la denota por para designar el desvo tpico poblacional (parmetro);
y, por s para designar el desvo tpico muestral (estadstica).

Formulacin de calculo:
Se trate de datos originales o de datos agrupados, el desvo tpico es la
raz cuadrada de la varianza:





Para conjunto de datos grandes (digamos ms de 30), aproximadamente
el 68% de los datos estn contenidos dentro de una desviacin estndar
con respecto a la media, 95% de los datos caen dentro de dos
desviaciones estndar. 97,7% (o casi 100%) de los datos se encuentran
dentro de tres desviaciones estndar (S) con respecto a la media.

INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
DISPERSIN

Coeficiente de variacin:

Es un estadgrafo de dispersin relativa que indica el porcentaje de
variacin promedio de los datos respecto a su valor central.
Se lo denota por CV y su formulacin de calculo es la siguiente:




Es til para comparar la variacin entre variables de diferente unidad
de medida o grupos de datos que posean medidas diferentes.

Puesto que la moda es la medida mas usada para la tendencia central de
variables cualitativas, la variabilidad es medida con respecto a la moda. El
estadstico que describe la variabilidad de datos cuantitativos es el
cociente de variacin
INDICADORES DESCRIPTIVOS - ESTADGRAFOS DE
DISPERSIN

Score Z:

Cuntas desviaciones estndar en un punto dado (es decir, observacin) estn
por debajo a arriba de la media. Es decir, valor Z representa el nmero de las
desviaciones estndar que una observacin (x) est arriba o debajo de la media.
Cuanto ms grande sea el valor de Z, ms lejos estar el valor de la media.
Observe que valores ms all de tres desviaciones estndar son bastante raros.
Si un score Z es negativo, la observacin (x) est debajo de la media. Si el score Z
es positivo, la observacin (x) est por arriba de la media. El score Z se obtiene
por:

Z = (x - ) / Desviacin Estndar de X

El score Z es una medida del nmero de desviaciones estndar en la que una
observacin est por arriba o por debajo de la media. Puesto que la desviacin
estndar nunca es negativa, un valor Z positiva indica que la observacin est
por arriba de la media, una score Z negativa indica que la observacin est por
debajo de la media. Note que Z es un valor sin dimensiones, y por lo tanto es
una medida til para comparar valores de datos de dos poblaciones distintas,
incluso cuando sean medidas por unidades distintas.
Caracters
ticas
Principale
s de:
La Desviacin Cuartl La Media de Desviacin Absoluta La Desviacin Estndar
1
La desviacin cuartl es fcil de
calcular y entender. Sin embargo,
esta es inconsistente si existen
brechas entre los datos alrededor
de los cuartiles.
La Media de Desviacin Absoluta
tiene la ventaja de dar igual peso
a la desviacin de cada valor con
respecto a la media o la mediana.
La Desviacin Estndar es
normalmente mas til y mejor
adaptable a anlisis mas
profundos que lo que es La
Media de Desviacin Absoluta.
2
Solo depende de dos valores, los
cuales incluyen la mitad central
de los mismos.
Es una medida de dispersin ms
sensitiva que cualquiera de las
descritas anteriormente, y
normalmente tiene errores de
muestreo ms pequeos.
Es ms adaptable como
estimador de la dispersin de la
poblacin que cualquier otra
medicin, haciendo que la
distribucin sea normal.
3
Es normalmente superior al
rango como una medida cruda de
dispersin.
Es ms fcil de calcular y
entender, adems es menos
sensible que la desviacin
estndar a valores extremos.
Es la ms amplia medida de
dispersin usada, y la ms fcil
de manejar algebraicamente.
4
Esta podra ser determinada en
una distribucin abierta en los
extremos, o en una en la cual los
datos pueden ser seleccionados
pero no medidos
cuantitativamente.
Desafortunadamente, es muy
difcil de manejar
algebraicamente, dado que el
signo negativo debe ser ignorado
cuando se calcula.
En comparacin con los dems,
esta es mas difcil de calcular y de
entender.
5
Es muy til en distribuciones muy
sesgadas, o en aquellas en las
cuales otras medidas de
dispersin serian deformadas por
valores extremos.
Su aplicacin principal es la
precisa eleccin de modelos en
tcnicas de predicciones
comparativas.
Es normalmente afectada por
valores extremos, los cuales
podran ocasionar el sesgamiento
de los datos.
En resumen
En un mundo diverso, no existen dos cosas iguales. Los estadsticos se interesan por las dos, las
diferencias y las similitudes; es decir, los orgenes y los patrones.
Las tablas actuariales publicadas por las compaas de seguros reflejan el anlisis estadstico de las
expectativas de vida de un hombre y una mujer a una edad determinada. Con esta informacin, las
compaas de seguros calculan las primas a ser cobradas a cada individuo que compra una
determinada cobertura.
El anlisis exploratorio de datos utiliza tcnicas grficas y numricas para estudiar patrones de
conducta y el origen de los mismos. Las tcnicas de estadstica descriptiva normalmente usadas son:
Distribucin de frecuencia; Histogramas, Boxplot, Grficos de Dispersin, diagramas de barras y
errores, diagramas de diagnstico.
Cuando se examina la distribucin de los datos, usted debera estar capacitado para detectar algunas
caractersticas importantes, tales como forma, ubicacin, variabilidad, y valores inusuales. Mediante
una cuidadosa observacin de los patrones en los datos, usted puede generar conjeturas acerca las
relaciones entre variables. La nocin de cmo una variable puede estar asociada a otra esta inmersa
en casi todo el anlisis estadstico, mediante comparaciones simples de proporciones a travs de la
regresin lineal. La diferencia entre la asociacin y la causalidad debe acompaar este desarrollo
conceptual.
Los datos deben ser recolectados acorde al desarrollado de un plan que garantice que la informacin
vlida sobre una conjetura a ser obtenida. El plan debe identificar las variables importantes que estn
relacionadas con la conjetura, y especificar cmo estas van a ser medidas. Acorde a este plan de
recoleccin de datos, un modelo estadstico puede ser formulado desde el cual las inferencias pueden
ser obtenidas.
Un ejemplo de modelos estadsticos con implicaciones gerenciales, como un que pasa si... anlisis,
es el anlisis de regresin. Este anlisis es una tcnica de gran poder que permite estudiar la relacin
entre variables dependientes (productos, medidas de funcionamiento) y variables independientes
(insumos, factores, y variables de decisin). Reuniendo relaciones entre las variables de la ecuacin
ms apropiada (es decir, el modelo) nos permite predecir o identificar los factores ms influyentes,
adems de estudiar el impacto sobre las variables dependientes para cualesquier cambio en sus
valores actuales.

Proceso de Toma de Decisiones en
base a informacin Estadstica
1. Simplificar
2. Construir un modelo de decisin
3. Probar el modelo
4. Usando el modelo para encontrar soluciones:
El modelo es una representacin simplificada de la situacin real
No necesita estar completo o exacto en todas las relaciones
Se concentra en las relaciones fundamentales e ignora las irrelevantes.
Este es entendido con mayor facilidad que un suceso emprico
(observado), por lo tanto permite que el problema sea resuelto con mayor
facilidad y con un mnimo de esfuerzo y prdida de tiempo.
5. El modelo puede ser usado repetidas veces para problemas similares, y
adems puede ser ajustado y modificado.
6. Afortunadamente, los mtodos probabilsticos y estadsticos para el
anlisis de toma de decisiones bajo incertidumbre son ms numerosos
y mucho ms poderosos que nunca. Las computadoras hacen
disponible muchos usos prcticos.
TEORA DE LA
PROBABILIDAD
Nociones de probabilidad
Frecuentista (objetiva): Probabilidad de un
suceso es la frecuencia relativa (%) de veces que
ocurrira el suceso al realizar un experimento
repetidas veces.

Subjetiva (bayesiana): Grado de certeza que se
posee sobre un suceso. Es personal.

En ambos tipos de definiciones aparece el concepto
de suceso. Vamos a recordar qu son y algunas
operaciones que se pueden realizar con sucesos.
Sucesos
Cuando se realiza un experimento aleatorio
diversos resultados son posibles. El conjunto de
todos los resultados posibles se llama espacio
muestral (E).
Se llama suceso a un subconjunto de dichos
resultados.
Se llama suceso contrario (complementario) de
un suceso A, A, al formado por los elementos que
no estn en A
Se llama suceso unin de A y B, AUB, al formado
por los resultados experimentales que estn en A
o en B (incluyendo los que estn en ambos.
Se llama suceso interseccin de A y B, AB o
simplemente AB, al formado por los elementos
que estn en A y B
E espacio muestral
E espacio muestral
A
A
E espacio muestral
A
B
E espacio muestral
A
B
E espacio muestral
A
B
UNIN INTERSECCION
Probabilidad, permutaciones y combinaciones
El nmero de permutaciones P
n,r
de n smbolos tomado r cada
vez, es el nmero total de arreglos diferentes de los r smbolos
en un orden especfico, sin duplicarlos
)! (
!
r n
n
r nP

=
Ejemplo:
Considerando 26 letras del alfabeto espaol, determinar el nmero de
palabras de 4 letras que es posible formar. Se supone que ninguna letra
aparece ms de una vez en cada palabra
800 . 358
! 22
! 22
* 23 * 24 * 25 * 26
! 22
! 26
)! 4 26 (
! 26
)! (
!
Pr = = =

=
r n
n
n
El nmero de combinaciones C
n,r
de n smbolos tomado r cada
vez, es el nmero de selecciones distintas en la que no se
especifica el orden o colocacin de los elementos, sin
duplicarlos
Probabilidad, permutaciones y combinaciones
Ejemplo:
El nmero de combinaciones del ejemplo anterior sern
950 . 14 Pr
! 4
1
)! ( !
!
= =

= n
r n r
n
nCr
)! ( !
!
r n r
n
nCr

=
Definicin de probabilidad
Se llama probabilidad a cualquier funcin, P, que
asigna a cada suceso A un valor numrico P(A),
verificando las siguientes reglas (axiomas)

P(E)=1



0P(A) 1
P(AUB)=P(A)+P(B) si AB=
es el conjunto vaco.

Puede imaginar la probabilidad de un subconjunto
como el tamao relativo con respecto al total (suceso
seguro)
E espacio muestral
100%
B
E espacio muestral
A
A
Probabilidad condicionada
Se llama probabilidad de A condicionada a B, o
probabilidad de A sabiendo que pasa B:
) (
) (
) | (
B P
B A P
B A P

=
E espacio muestral
B
Error frecuente:
No confunda probabilidad condicionada con interseccin.
En ambos medimos efectivamente la interseccin, pero
En P(AB) con respecto a P(E)=1
En P(A|B) con respecto a P(B)

Intuir la probabilidad condicionada
B
A
P(A) = 0,25
P(B) = 0,10
P(AB) = 0,10
B
A
Probabilidad de A sabiendo que ha pasado B?
P(A|B)=1
P(A|B)=0,8
P(A) = 0,25
P(B) = 0,10
P(AB) = 0,08
Intuir la probabilidad condicionada
A
B
A
B
Probabilidad de A sabiendo que ha pasado B?
P(A|B)=0,05
P(A|B)=0
P(A) = 0,25
P(B) = 0,10
P(AB) = 0,005
P(A) = 0,25
P(B) = 0,10
P(AB) = 0
Reglas de clculo prcticas
Cualquier problema de probabilidad puede resolverse
en teora mediante aplicacin de los axiomas. Sin
embargo, es ms cmodo conocer algunas reglas de
clculo:

P(A) = 1 - P(A)

P(AUB) = P(A) + P(B) - P(AB)

P(A B) = P(A) P(B|A)

= P(B) P(A|B)

Probabilidad de que pasen A y B es la probabilidad. de
A y que tambin pase B sabiendo que pas A.
Independencia de sucesos
Dos sucesos son independientes si el que
ocurra uno, no aade informacin sobre el
otro.

A es independiente de B

P(A|B) = P(A)

P(A B) = P (A) *P (B)
Ejemplo 1
Se ha repetido 49.422 ocasiones el experimento de elegir a una
persona de una poblacin.

Cul es la probabilidad de que una persona hable en lengua
nativa?

P(lengua extranjera)=2367/49422=0,048=4,8%
Nocin frecuentista de probabilidad
Ejemplo 2
Probabilidad de hablar lengua nativa o lengua extranjera?
P(Len. Nati.U len. extra)=2367/49422+56/49422=0,049
Son sucesos disjuntos
Len. Nati. len. extra =
Probabilidad de hablar lengua nativa o del sexo femenino?
P(lengua nativaUMujer)=2367/49422+25109/49422-
1278/49422=0,53
No son sucesos disjuntos

Ejemplo 3
Si es mujer probabilidad de que hable lengua extranjera?
P((Leng. Ext. Mujer|Mujer))=24/25109=0,001

Probabilidad de que sea hombre y hable espaol?
P(hombre espaol) = 23192/49422=0,47
Otra forma:
47 , 0 49422 / 23192
24313
23192
49422
24313
) hom | ( ) (hom ) (hom
= = =
= = bre espaol P bre P espaol bre P
Ejemplo 4
Son independientes mujer y lengua nativa?
Una forma de hacerlo
P(lengua nativa)=2367/49422=0,048
P(lengua nativa|Mujer)=1278/25109=0,051
La probabilidad de hablar lengua nativa es mayor si es mujer.
Aade informacin extra. No son independientes!
Otra forma?
P(Mujer lengua nativa) = 1278/49422 = 0,026
P(Mujer)* P(lengua nativa)= (25109/49422) x (2367/49422) =
0,024
La probabilidad de la interseccin no es el producto de probabilidades. No
son independientes.
Sistema exhaustivo y excluyente de sucesos
A
1
A
2
A
3
A
4
Son una coleccin de sucesos

A
1
, A
2
, A
3
, A
4


Tales que la unin de todos ellos forman el
espacio muestral, y sus intersecciones son
disjuntas.

Recuerda cmo formar intervalos en
tablas de frecuencias?
Suceso
seguro
A
1
A
2
A
3
A
4
Divide y vencers
A
1
A
2
A
3
A
4
B
Todo suceso B, puede ser
descompuesto en componentes
de dicho sistema.

B = (BA
1
) U (BA
2
) U ( BA
3
) U ( BA
4
)
Nos permite descomponer el problema B en
subproblemas ms simples.
Suceso
seguro
A
1
A
2
A
3
A
4
B

B

B

B

Teorema de la probabilidad total
A
1
A
2
A
3
A
4
B
Si conocemos la probabilidad de B
en cada uno de los componentes de
un sistema exhaustivo y excluyente
de sucesos, entonces, podemos
calcular la probabilidad de B.

P(B) = P(BA
1
) + P(BA
2
) + P( BA
3
) + P( BA
4
)

=P(A
1
) P(B|A
1
) + P(A
2
) P(B|A
2
)+

Suceso
seguro
A
1
A
2
A
3
A
4
B

B

B

B

P(B|A
1
)
P(B|A
2
)
P(B|A
3
)
P(B|A
4
)
Ejemplo 1: En este aula el 70% de los alumnos son mujeres. De ellas
el 10% son fumadoras. De los hombres, son fumadores el 20%.






Qu porcentaje de fumadores hay?
P(F) = P(MF) + P(HF)

= P(M)P(F|M) + P(H)P(F|H)

=0,7 x 0,1 + 0,3 x 0,2

= 0,13 =13%

T. Prob. Total.
Hombres y mujeres forman un sist. Exh.
Excl. de sucesos
Estudiante
Mujer
No fuma
Hombre
Fuma
No fuma
Fuma
0,
7
0,
1
0,
2
0,
3
0,
8
0,
9
Los caminos a travs de nodos representan
intersecciones.

Las bifurcaciones representan uniones
disjuntas.
Teorema de Bayes
P(B)
Ai) P(B
B) | P(Ai =
A
1
A
2
A
3
A
4
B
Si conocemos la probabilidad de B en
cada uno de los componentes de un
sistema exhaustivo y excluyente de
sucesos, entonces

si ocurre B, podemos calcular la
probabilidad (a posteriori) de
ocurrencia de cada A
i
.

donde P(B) se puede calcular usando el teorema de la
probabilidad total:

P(B)=P(BA
1
) + P(BA
2
) + P( BA
3
) + ( BA
4
)

=P(B|A
1
) P(A
1
) + P(B|A
2
) P(A
2
) +
Ejemplo 2: En esta aula el 70% de los alumnos son mujeres. De ellas el 10%
son fumadoras. De los varones, son fumadores el 20%.

Qu porcentaje de fumadores hay?
P(F) = =0,7 x 0,1 + 0,3 x 0,2 = 0,13
(Resuelto antes)

Se elije a un individuo al azar y es fumador
Probabilidad de que sea un hombre?



46 , 0
13 , 0
2 , 0 3 , 0
) (
) | ( ) (
) (
) (
) | (
=

=
=

=
F P
H F P H P
F P
F H P
F H P
Estudiante
Mujer
No fuma
Hombre
Fuma
No fuma
Fuma
0,7
0,1
0,2
0,3
0,8
0,9
Una variable aleatoria es un valor numrico que
corresponde a un resultado de un experimento
aleatorio.
Variable aleatoria
Definicin de variable aleatoria.
Sea (S, p(S), P ) un espacio probabilstico. Una funcin
es una variable aleatoria
X : S R
s X(s)
Transforma los resultados del espacio muestral en
nmeros reales.
Discretas: toman un nmero finito o infinito numerable de
valores. Ejemplo, nmero de caras obtenidas al lanzar dos
monedas.

S = {(c, c), (c, +), (+, c), (+, +)},
Variable aleatoria, clasificacin:
Sea (S, p(S),P) un espacio probabilstico, X una v.a.d, { xi }
los valores que toma y
{ pi } la funcin de probabilidad de X. Se llama funcin de
distribucin de la v.a.d. X, F(x),con x R, a la probabilidad de
que X sea menor o igual que x :

F (x) = P (X x) = pi = p(y) = 1
xix

i=1

i=1
y
Variable aleatoria, clasificacin
Continuas: pueden tomar cualquier valor de la recta
real. Generalmente presentarn muchos valores
distintos (cada uno con muy escasa frecuencia o
probabilidad), por lo que en este caso carece de
sentido hablar de probabilidad en un punto aislado y
se toman probabilidades por intervalos.
Distribuciones de probabilidad discretas
Distribucin Binomial: S es espacio de probabilidad y A un
suceso de S tal que P (A) = p, 0 p 1. Ser xito la ocurrencia
del suceso A y fracaso la ocurrencia de A (no ocurrencia de A).
Realizamos el experimento n veces de manera independiente,
donde la probabilidad de xito es p. Entonces la v.a. X definida
como el nmero de xitos obtenidos en las n realizaciones sigue
una distribucin Binomial con parmetros n y p, que denotamos
por B(n, p). Esta variable puede tomar los valores 0, 1, ..., n y su
funcin de probabilidad es:





Adems, E(X) = np y V ar(X) = npq.
Distribuciones de probabilidad discretas
Distribucin Binomial:







Funcin de probabilidad








Funcin de distribucin de probabilidad
Distribucin de Poisson: Suele representar el nmero de sucesos
independientes que ocurren a velocidad constante en un
intervalo de tiempo o espacio. As por ejemplo, X =No. de
ocurrencias por unidad de tiempo sigue una distribucin de
Poisson de parmetro , > 0, que denotamos por P (), si su
funcin de probabilidad es:



En esta distribucin el parmetro coincide con la media y
varianza, E(X) = V ar(X) = , por lo tanto en este caso es
interpretado como el nmero medio de ocurrencias por unidad
de tiempo.
Distribuciones de probabilidad discretas
Distribucin de Poisson:

Uno de los usos ms tiles de la distribucin de Poisson es en el campo de la
teora de alineacin. En muchas situaciones donde ocurren colas, se ha
demostrado que el nmero de la gente que se une a la misma en un perodo de
tiempo dado, sigue el modelo de Poisson. Por ejemplo, si el ndice de llegadas a
una sala de emergencia es l por unidad de perodo de tiempo (1 hora), entonces:
P ( n llegadas) =
n
e
-
/ n!

La media y la varianza de la variable aleatoria n son ambas . Sin embargo si la
media y la varianza de una variable aleatoria tienen valores numricos iguales, no
necesariamente implica que su distribucin es de Poisson. Su moda est dentro
del intervalo [ -1, ].

P ( 0 llegadas) = e
-

P ( 1 llegada) = e
-
/ 1!
P ( 2 llegadas) =
2
e
-
/ 2!
y as sucesivamente, en general:
P ( n+1 llegadas) = P ( n llegadas) / n.



Distribuciones de probabilidad discretas
Aproximacin Normal para Poisson: Todas las tablas de Poisson se limitan en su
alcance; por lo tanto, es necesario utilizar la distribucin normal estndar para
calcular las probabilidades de Poisson. El siguiente ejemplo numrico ilustra cuan
buena la aproximacin podra ser.

Ejemplo Numrico: Los pacientes de la sala emergencia llegan a un hospital a una
tasa de 0,033 por minuto. Cul es la probabilidad de que exactamente dos
pacientes lleguen durante los prximos 30 minutos?
La tasa de llegada durante 30 minutos es = (30)(0,033) = 1. Por lo tanto,
P (2 llegadas) = [1
2
/(2!)] e
-1
= 18%
La media y la desviacin estndar de la distribucin son:
= = 1, y o =
1/2
= 1,
respectivamente; por lo tanto, las observaciones estandarizadas para n = 2,
mediante el uso del factor continuo son:
z
1
= [(r-1/2) - ] / o = (1,5 -1)/1 = 0,5, y
z
2
= [(r+1/2) - ] / o = (2,5 -1)/1 = 1,5.
Por lo tanto, la P (2 llegadas) aproximada es P (z estando entre los intervalos
0,5, 1,5). Ahora, mediante el uso de la tabla normal estndar, se obtiene:
P (2 llegadas) = 0,43319 0,19146 = 24%

Distribuciones de probabilidad discretas
Distribucin de Poisson:

Un tipo importante de problemas de decisin bajo incertidumbre es
caracterizado por el pequeo chance de ocurrencia de un acontecimiento
particular, tal como un accidente. La funcin de probabilidad de Poisson
calcula la probabilidad de exactamente x ocurrencias independientes
durante un perodo de tiempo dado, si los eventos ocurren
independientemente y a una tasa constante. La funcin de la probabilidad
de Poisson tambin representa el nmero de ocurrencias sobre reas o
volmenes constantes:

Las probabilidades de Poisson se utilizan a menudo; por ejemplo en
control de calidad, confiabilidad de software y hardware, reclamos de
seguro, el nmero de llamadas telefnicas entrantes, y la teora de
alineacin.

Distribuciones de probabilidad discretas
Distribuciones de probabilidad continuas
Distribucin Normal

Se dice que una v.a. X sigue una distribucin Normal de
parmetros , , X N (, ), si su f.d.d. es:






Los parmetros , coinciden con la media y desviacin
tpica de la variable respectivamente
La funcin de densidad es simtrica respecto a .
La funcin de densidad es simtrica respecto a .
Teorema: Sean X1, ..., Xn v.a independientes, con Xi N(i, i).
Entonces,
Distribuciones de probabilidad continuas
es decir, una combinacin lineal de variables Normales independientes
presenta tambin distribucin Normal.
En consecuencia, si X N (, ), entonces











A esta variable Z se le llama Normal tipificada o estndar.
ESTADSTICA EXPLORATORIA
Anlisis univariante para variables de escala o continuas

Estudio descriptivo de normalidad
La distribucin normal de una variable aleatoria se caracteriza por: Seguir una
funcin de densidad con media y varianza o
2
, en particular =0 y o
2
=1, se
denomina normal, tipificada, estndar o reducida.


< <
(
(

|
.
|

\
|

= x
x
x f
2
2
1
exp
2
1
) (
o

t o
o

=
x
z
ESTADSTICA EXPLORATORIA

Es simtrica y unimodal (postulados Gausianos).

La distribucin en torno a la media tiene siempre la misma forma,
dependiendo de la desviacin tpica

% 95 2 % 68 = = o o % 95 2 % 68 = = o o
ESTADSTICA EXPLORATORIA

Ejemplo: La variable tipificada peso del nio al nacer, tiene media 0 y
desviacin tpica 1, en el intervalo [-1,1], se concentrara
aproximadamente el 68% de la distribucin, deberan coincidir con los
valores -1 y 1, respectivamente. De la misma manera en el intervalo [-
2,2], se concentra aproximadamente el 95% de la distribucin, por lo
tanto deberan coincidir con los valores -2 y 2. En los dos casos, la
distribucin se aproxima a una normal, con una dispersin mayor hacia
derecha > a 2.

Estadsticos
Puntua: PS11B. Peso del nio al nacer
1854
53812
,0000000
1,00000000
-1,8743838
-,9021734
,8478052
2,2088996
Vlidos
Perdidos
N
Media
Desv. tp.
2,5
16
84
97,5
Percentiles
Probabilidad en la Distribucin
Normal









La lnea verde corresponde a la distribucin
normal estndar
Funcin de densidad de probabilidad

Funcin de distribucin de probabilidad
Asimetra estadstica
Las medidas de asimetra son indicadores que permiten establecer el grado de
simetra (o asimetra) que presenta una distribucin de probabilidad de una
variable aleatoria sin tener que hacer su representacin grfica.







Como eje de simetra consideramos una recta paralela al eje de ordenadas que
pasa por la media de la distribucin. Si una distribucin es simtrica, existe el
mismo nmero de valores a la derecha que a la izquierda de la media, por tanto, el
mismo nmero de desviaciones con signo positivo que con signo negativo.
Decimos que hay asimetra positiva (o a la derecha) si la "cola" a la derecha de la
media es ms larga que la de la izquierda, es decir, si hay valores ms separados de
la media a la derecha. Diremos que hay asimetra negativa (o a la izquierda) si la
"cola" a la izquierda de la media es ms larga que la de la derecha, es decir, si hay
valores ms separados de la media a la izquierda.
ANLISIS DE REGRESIN
El anlisis de regresin est relacionado con el estudio de la dependencia
de una variable dependiente , con una o ms variables explicativas , con
la perspectiva de estimar y/o predecir el valor (poblacional) promedio de
la primera en trminos de valores conocidos o fijos ( en muestreos
repetidos) de las segundas.

Se puede estudiar la dependencia que existe entre los gastos
personales de consumo y el ingreso personal real.
Se puede conocer la dependencia existente entre los niveles de
produccin de un cultivo y la temperatura, la lluvia, la cantidad de luz
solar y la fertilidad de la tierra,
Conocer la dependencia entre el rendimiento escolar de un nio y la
alimentacin (consumo en Kcal).

Regresin vs. Cauasacin

Aunque la regresin tiene que ver con la dependencia de una variable
con otra, esto no implica que exista relacin de causalidad.

ANLISIS DE REGRESIN

Regresin vs. Correlacin

Estrechamente ligadas pero conceptualmente diferentes.
Correlacin mide la fuerza o grado de asociacin lineal entre dos
variables (coef. correlacin)
La regresin intenta estimar o predecir el valor promedio de una
variable con base en valores fijos de otra.

ANLISIS DE REGRESIN

Mtodos de regresin:

Regresin lineal




Regresin no lineal:
Exponencial

Logartmica

Polinomial


Regresin
segmentada

You might also like