You are on page 1of 81

FUNDAMENTOS

INTERVALOS DE CONFIANZA

µ x1

µ
x2
µ

µ
x3

µ
x4

x5
TRES ESTIMADORES
IMPORTANTES

X µ
s σ
p̂ p
EL ERROR ESTANDAR

E rro r p ro m e d io a le stim a r e l
p a rá m e tro
σ
X n

p̂ p (1 − p )
n
INTERVALOS DE CONFIANZA(II)

Confianza: Probabilidad de que el


parámetro esté en el intervalo.

Error máximo: Basado en el error


estándar. Dado un nivel de confianza,
la máxima posible diferencia entre
estadístico y parámetro.
INTERVALO DE CONFIANZA
PARA µ

σ conocida
(n grande) PRUEBA Z

Para µ

X es normal PRUEBA T

σ desconocida
WILCOXON
X no es normal RANGOS Y
SIGNOS
INTERVALO DE CONFIANZA
PARA P

(n pequeño) PRUEBA
EXACTA

Para µ

(n grande) Aprox. PRUEBA Z


EL TAMAÑO DE MUESTRA (para la media)

confianza desviación

2
 z1−α / 2 * σ x 
n =  
 em 

Error (distancia)
EL TAMAÑO DE MUESTRA (para la proporción)

desviación
confianza

( z1−α / 2 ) 2 * Pˆ * (1 − Pˆ )
n=
(e m ) 2

Error (distancia)
EL ERROR MAXIMO

Diferencia entre el valor


nominal (el que se busca o se
espera) y el valor real ( el
que se obtiene)

x1
µ
PRUEBAS DE HIPÓTESIS
PRUEBAS DE HIPÓTESIS

H 0 : µ = 12 mg / l
H 1 : µ < 12 mg / l
Si significancia (valor p) < 5%: Rechazo H0

Si significancia (valor p) > 5%: No Rechazo H0


PRUEBAS DE HIPÓTESIS

H 0 : µ = 12 mg / l H 0 : µ = 12 mg / l H 0 : µ = 12 mg / l
H1 : µ < 12 mg / l H1 : µ > 12 mg / l H1 : µ <> 12 mg / l
Unilateral (izquierda) Unilateral (derecha) Bilateral

Si significancia (valor p) < 5%: Rechazo H0

Si significancia (valor p) > 5%: No Rechazo H0


ESTRUCTURAS DE PROBABILIDAD

La función que asigna


las probabilidades a 14

los posibles 12

resultados se llama 10

función de
probabilidad y muestra

Frecuencia
8

la estructura 6

funcional de la 4

variable. 2

Toda estructura 0
70,00 80,00 90,00 100,00 110,00 120,00 130,00

(función de
probabilidad) está
definida por unos
parámetros
ESTRUCTURA UNIFORME

Esta estructura es 1
utilizada en variables f ( x) = ,a ≤ x ≤ b
como concentración de b−a
contaminantes y errores
de medición.

Parámetros: a, b.

a b
ESTRUCTURA NORMAL

Parámetros: µ y σ

Punto de inflexión: µ−σ Punto de inflexión: µ+σ

µ
Mediana
Moda

−[ ( X − µ ) / σ ] 2
f ( x; µ , σ ) =
1
2π σ
e 2
ESTRUCTURA NORMAL(II)

µ igual, σ
diferente

µ
ESTRUCTURA NORMAL(III)

µ diferente, σ
igual

µ1 µ2
ESTRUCTURA NORMAL(IV)
Probabilidades
normales
TEOREMA DEL LÍMITE
CENTRAL

!Ejemplo!

Lanzamiento de dados
TEOREMA DEL LÍMITE
CENTRAL

Sean X1, X2….Xn, una secuencia de n


variables aleatorias independientes e
idénticamente distribuidas con media  y
varianza finita. Entonces el promedio
muestral tiene una distribución de
probabilidad con media y varianza:
µx = µx σ x2 =
σ x2
n y
Dicha distribución tiende hacia una
distribución normal conforme n tiende a
infinito.
TEOREMA DEL LÍMITE
CENTRAL

El número de horas que un automóvil


permanece en un centro comercial se
distribuye de manera desconocida con media
de 110 minutos y desviación de 60 minutos.
Usted, como administrador del centro
comercial decide realizar una muestra de la
duración en parqueadero de 200 automóviles.
¿Cuál es la probabilidad de que el
promedio de dicha muestra sea superior a
dos horas de parqueadero?
TEOREMA DEL LÍMITE
CENTRAL

_
P( X > 120) = 0.0092 = 0.92%
El riesgo de “equivocarse” con más
de 10 minutos de diferencia es
mínimo… luego se puede correr
ese riesgo.
DISEÑO DE EXPERIMENTOS
DISEÑO DE EXPERIMENTOS
Objetivo:
Realizar calidad por diseño.

Niveles de la calidad
ØExtinción de incendios
ØCalidad por inspección
ØCalidad por control del proceso
ØCalidad por diseño
DISEÑO DE EXPERIMENTOS
Objetivos de un experimento:

•Buscar la causa de la variación de una variable de


interés

•Maximizar o minimizar

•Compara respuestas a diversos niveles de variable

•Realizar un modelo matemático
EXPERIMENTO
“Establecer un conjunto de circunstancias, bajo un
protocolo específico para observar y evaluar las
implicaciones de las observaciones resultantes”
(Kuehl)

Los experimentos son planeados, y en lo posible,


se deben llevar a cabo off-line. En otro caso, se
trata de estudios comparativos
PASOS DEL DISEÑO
1.Definir objetivos y criterios
2.
3.Definir variables de respuesta y su medición
4.
5.Se definen los factores controlables y los que no
6.
7.Se determina el tipo de mediciones
8.
9.Se determinan los niveles de los factores
controlables
Ejemplo (parte I)

Objetivo: Determinar el efecto de la temperatura y


el empaque en la duración de la rosa recién
cortada.

ØVariable de respuesta: duración de la rosa recién


cortada
ØMedición: Hasta la caída del primer pétalo
Ejemplo (parte II)

Factores:
ØTemperatura: según control del cuarto frío
Ø
ØEmpaque: tres tipos de empaque
Ø
ØVariabilidad de cultivo (terreno, variedad, corte)
Ø
ØLugar de almacenamiento: cuarto frío
Ø
ØTemporada: cinco temporadas
DISEÑO DE EXPERIMENTOS

ØTipos de factores: fijo, aleatorio y covariable


Ø
ØTratamiento: Nivel del factor.
Ø
ØTratamiento de control: Sin niveles de factor
(“cómo se ha operado hasta ahora”)
NIVELES DE VARIABILIDAD
Observación Yij

Distancia
.
total (Yij −Y j )

(Yij −Y ) Yj

(Y j −Y )

Y2
Y1

Medias de
tratamiento

Variabilidad por factores


Variabilidad por “error” aleatorio
Variabilidad por bloques o covariables
DISEÑO DE EXPERIMENTOS

Unidad experimental: entidad sujeta al tratamiento

Unidad de observación: Unidad sobre la que se


realiza la medición

Réplicas: Número de unidades experimentales


sujetas a tratamiento

Error experimental: Variación inherente a las


unidades experimentales
CONTROL DEL ERROR

ØPor técnica
Ø
ØPor selección de unidades experimentales
(uniformidad)
Ø
ØPor bloqueo
Ø
ØPor diseño (aleatorización)
Ø
ØPor covariadas
PASOS DEL DISEÑO
6. Formular un modelo estadístico de las relaciones
entre variables (¿hay interacciones?)
7. Diseñar una distribución de experimentos que
garantice: validez, precisión, facilidad y
generalización
8. Diseñar un mecanismo de orden de las pruebas-
aleatorización
8. Ejecutar y analizar prueba piloto- regresar a 1.
9. Ejecutar el experimento
10. Realizar experimentos de confirmación
PASOS DEL DISEÑO
(resumen)
1.Definir objetivo y variable de respuesta
2.
3.Definir fuentes de variación (controlables o no)
4.
5.Definir procedimiento de trabajo (aleatorización,
mediciones, protocolo)
6.
7.Realizar prueba piloto, y ajustar con sus
resultados (muestra, protocolo)
8.
9.Realizar el análisis de acuerdo con el objetivo
Comparación de grupos
COMPARACIÓN DE GRUPOS
Más de 2 niveles (tratamientos) ANOVA

σx ≠σy t para dos muestras-


varianzas iguales
X −Y X y Y independientes
(competencia)
t para dos muestras-
σx =σy varianzas desiguales
2 niveles

X o Y emparejadas (evolución) T para muestras emparejadas

X −Y
(2 niveles , Conozco desviaciones , independientes )
Z para dos muestras
CASOS DE COMPARACIÓN DE
MEDIAS
1.Independencia, normalidad e igualdad de varianzas:
Prueba t independientes
2.
3.Independencia, normalidad y desigualdad de
varianzas. Prueba t independientes
4.
5.Independencia, no normalidad. Prueba U
6.
7.Dependencia, normalidad: Prueba t relacionadas
8.
9.Dependencia, no normalidad: Prueba rangos y
signos
PRUEBAS DE HIPÓTESIS-
NORMALIDAD

H 0 : normalidad
H1 : No normalidad

Si significancia ( valor p ) < 5 %:


No normales

Si significancia ( valor p ) > 5 %:


Normales
PRUEBAS DE HIPÓTESIS- DIFERENCIA
ENTRE GRUPOS INDEPENDIENTES

H 0 : grupos iguales
H1 : grupos diferentes

Si significancia ( valor p ) < 5 %:


Grupos diferentes

Si significancia ( valor p ) > 5 %:


Grupos iguales
PRUEBAS DE HIPÓTESIS- DIFERENCIA
ENTRE GRUPOS INDEPENDIENTES

H 0 : grupos iguales
H1 : grupos diferentes

Si las variables son normales : t


de student

Si las variables no son normales o


son nominales : U ( mann - whitney )
PRUEBAS DE HIPÓTESIS- DIFERENCIA
ENTRE GRUPOS DEPENDIENTES

H 0 : antes = despues
H1 : antes ≠ despues

Si significancia ( valor p ) < 5 %:


antes y después no difieren .

Si significancia ( valor p ) > 5 %:


Antes y después difieren
PRUEBAS DE HIPÓTESIS- DIFERENCIA
ENTRE GRUPOS DEPENDIENTES

H 0 : antes = despues
H1 : antes ≠ despues

Si las variables son normales : t


de student

Si las variables no son normales o


son nominales : wilcoxon
INDEPENDENCIA

H 0 : independencia
H1 : dependencia

Grupos de sujetos diferentes :


Dependencia

Los mismos sujetos evaluados


repetidamente : dependientes
TAMAÑOS DE MUESTRA

ØPara la diferencia de medias (dos grupos)

σ 2 * ( z1−α / 2 + z1− β ) 2
n = 2*
(δ ) 2
ANOVA de un factor
BLOQUEO

División del experimento (aplicación de todos los


tratamientos) en grupos homogéneos a partir de
una variable que no es de interés (generalmente
exógena) y que se supone no interactúa con los
factores
ØEl dilema del corral
ØEl ejemplo de los zapatos
DISEÑO DE EXPERIMENTOS

ØTipos de factores: fijo, aleatorio y covariable


Ø
ØTratamiento: Nivel del factor.
Ø
ØTratamiento de control: Sin niveles de factor
(“cómo se ha operado hasta ahora”)
DISEÑO DE EXPERIMENTOS

Réplicas: Número de unidades experimentales


sujetas a tratamiento

Error experimental: Variación inherente a las


unidades experimentales
TAMAÑOS DE MUESTRA

ØSe recomienda mínimo 10 réplicas por cada nivel


de tratamiento.
DISEÑO FACTORIAL COMPLETO

ØTodos los factores se prueban a todos los niveles


en todas las posibles combinaciones.
ØSupuesto: todas las interacciones pueden ser
importantes.
ØA cada bloque se le aplican todos los
tratamientos
DISEÑO FACTORIAL COMPLETO -
tamaño de muestra

Si se tienen 3 factores cada uno con dos niveles,


haciendo 10 réplicas….
Son necesarias 10*23 =80 mediciones totales
Si se tienen 8 factores con 3 niveles, haciendo 10
réplicas…..
Son necesarias 10*38 =65610 mediciones totales
Modelo lineal general
ASOCIACIONES DESCRIPTIVAS:
NOMINAL-ESCALAR (anova)
Análisis de varianza Comparación de medias

Observación Yij

Distancia
.
total (Yij −Y j )

(Yij −Y )

350,00
Yj

(Y j −Y )

Y2
Y1

Medias de
tratamiento
ASOCIACIONES DESCRIPTIVAS:
NOMINAL-ESCALAR (anova)

Suposiciones:

ØIgualdad de las varianzas

ØNormalidad de los residuales


ANÁLISIS DE INTERACCIONES
No hay efecto principal ni interacción
(duración indiferente a temp. o empaque)
Factor B (empaque)
Fino
Grueso

Media de
La Variable
Dependiente

Baja Media Alta


Factor A (temperatura)
ANÁLISIS DE INTERACCIONES

No hay interacción, pero sí efecto principal del


factor B (empaque). Es mejor el fino.
Factor B (empaque)
Fino
Grueso

Media de
La Variable
Dependiente

Baja Media Alta


Factor A (temperatura)
ANÁLISIS DE INTERACCIONES
No hay interacción, pero sí efecto principal del
factor A (temperatura). Mejor a más temperatura
Factor B (empaque)
Fino
Grueso

Media de
La Variable
Dependiente

Baja Media Alta


Factor A (temperatura)
ANÁLISIS DE INTERACCIONES
Hay interacción, y por tanto, también algún efecto
principal. A temperatura baja, es mejor empaque
fino; a temperatura media, mejor el empaque
grueso, y a temperatura alta es indiferente.

Factor B (empaque)
Fino
Media de
La Variable Grueso
Dependiente

Baja Media Alta


Factor A (temperatura)
DISEÑO FACTORIAL FRACCIONARIO

ØLos factores se prueban a todos los niveles en


ciertas combinaciones de las mismas.
ØSupuesto: Algunas interacciones son irrelevantes
(generalmente las de orden más alto).
ØSe define una fracción k del experimento
factorial total, quitando las interacciones más
altas.
Regresiones
400

300

200

100
HP

0
0 10 20 30 40 50 60

TAMAÑODEL MOTOR
CORRELACIÓN

n
∑ ( ( X i − X )(Yi − Y ) )
i =1
r( X ,Y ) =
n n
(
∑ iX − X ) ∑ i
(Y −
2
Y ) 2

i =1 i =1

Correlación: grado de asociación lineal


¿qué tan asociadas están las variables?
REGRESIÓN LINEAL
Y = b + mx Yi = β 0 + β1 xi + ε i
REGRESION LINEAL
Dos interpretaciones:

ØEl promedio de la variable dependiente (Y) bajo


la condición de un valor de la variable
independiente (X)- Factor predictivo
Ø
ØEl mejor ajuste de los datos a una recta- factor
explicativo
INTERPRETACIÓN DE LA REGRESION
LINEAL

ØEl coeficiente es el grado en que varía la


variable dependiente (Y) por cada unidad de la
variable independiente (X)- Razón de cambio
Ø
ØEl coeficiente es el de mejor ajuste a los datos o
el resultado de Y (dependiente) cuando X es cero
(independiente)
CALIDAD BÁSICA DE LA REGRESION
LINEAL
ØS
Ø
ØR y R2
Ø
ØAnova
Ø
ØSignificancia y signo de los parámetros
CALIDAD DE LA REGRESION LINEAL
ØS: variabilidad de la predicción. Se compara
como coeficiente de variación frente a el promedio
de la variable dependiente (Y)
Ø
ØR2 (r-sq): Porcentaje de la variabilidad que logra
captar o recoger el conjunto de variables
dependientes
ANÁLISIS DE VARIANZA
Es una prueba de hipótesis con :

H0: Las variables son independientes


H1: Las variables están asociadas

Una alternativa más precisa de interpretación es:

H0: Las variable independiente explica


tanto como el azar (error aleatorio)
H1: La variable independiente explica más
que el azar (error aleatorio)
PRUEBA DE HIPÓTESIS PARA LOS
PARÁMETROS
Esta prueba examina cada una de las variables
independientes e indica si tienen o no significado
en el modelo

H0: La variable no tiene significado o no está


asociada (B=0)
H1: Las variable tiene significado y está
asociada (B<>0)
SUPOSICIONES
ØNormalidad de los residuos con media cero:
prueba de normalidad- estadísticos de residuo
Ø
ØNo autocorrelación de residuos: prueba de
durbin-watson. Regla práctica: d >1.8
Ø
ØNo homoscedasticidad: Gráfico predicciones
(estándar) vs residuos estándar
Ø
ØSuposiciones de modelamiento…. (más adelante)
TAMAÑO DE MUESTRA

ØLo mejor es tener más de una medición por valor


de la(s) variable(s) independiente(s) y garantizar la
mayor cobertura posible de la misma en rango.
Ø
ØRadios empíricos: 10 a 15 datos por variable
independiente (Harrell); 5 mínimo, 20
recomendado (Hair); 50 a 1 si se hace stepwise.
REGRESION LINEAL MÚLTIPLE
A tener en cuenta:

ØLa navaja de Occham (overfitting): incluir más


variables no necesariamente es mejor.
Ø
ØMulticolinealidad: variables que explican lo
mismo.
SUPOSICIONES DE
MODELAMIENTO
ØOtras variables: Dispersión de nueva variable vs.
Modelo existente y Outliers.
Ø
ØRelación funcional: predicciones estándar vs.
Residuos estándar. Dispersión usual.
Ø
ØMulticolinealidad: Correlaciones multivariadas
y/o análisis factorial.
Ø
ØOutliers: Diagnósticos de influencia.
Ø
ØOverfitting: AIC, valores de F.
EL MÉTODO STEPWISE
Hace pruebas de hipótesis parciales:

Ø¿Dado el modelo actual de regresión , vale la


pena incluir alguna variable? (Hacia adelante)
Ø
Ø¿Dado el modelo actual de regresión , vale la
pena excluir alguna variable? (Hacia atrás)
MODELO PREESPECIFICADO
Se supone que el modelo fue predefinido de
antemano, no debió haber sido visto con
exploración previa.

¿qué hacer? Si hay suficientes datos dividir la base


en tres: exploración, entrenamiento y validación.
REGRESION LINEAL POLINOMIAL

Modelo Cúbico

You might also like