PRESENTADOE

FUNDAMENTOS
INTERVALOS DE CONFIANZA
µ x1
µ
x2
µ
µ
x3
µ
x4
x5
TRES ESTIMADORES
IMPORTANTES
X µ
s σ
p̂ p
EL ERROR ESTANDAR
E rro r p ro m e d io a le stim a r e l
p a rá m e tro
σ
X n
p̂ p (1 − p )
n
INTERVALOS DE CONFIANZA(II)
Confianza: Probabilidad de que el

parámetro esté en el intervalo.
Error máximo: Basado en el error

estándar. Dado un nivel de confianza,
la máxima posible diferencia entre
estadístico y parámetro.
INTERVALO DE CONFIANZA
PARA µ
σ conocida
(n grande) PRUEBA Z
Para µ
X es normal PRUEBA T
σ desconocida
WILCOXON
X no es normal RANGOS Y
SIGNOS
INTERVALO DE CONFIANZA
PARA P
(n pequeño) PRUEBA
EXACTA
Para µ
(n grande) Aprox. PRUEBA Z

EL TAMAÑO DE MUESTRA (para la media)
confianza desviación
2
 z1−α / 2 * σ x 
n =  
 em 
Error (distancia)
EL TAMAÑO DE MUESTRA (para la proporción)
desviación
confianza
( z1−α / 2 ) 2 * Pˆ * (1 − Pˆ )
n=
(e m ) 2
Error (distancia)
EL ERROR MAXIMO
Diferencia entre el valor

nominal (el que se busca o se
espera) y el valor real ( el
que se obtiene)
x1
µ
PRUEBAS DE HIPÓTESIS
H 0 : µ = 12 mg / l
H 1 : µ < 12 mg / l
Si significancia (valor p) < 5%: Rechazo H0
Si significancia (valor p) > 5%: No Rechazo H0

H 0 : µ = 12 mg / l H 0 : µ = 12 mg / l H 0 : µ = 12 mg / l
H1 : µ < 12 mg / l H1 : µ > 12 mg / l H1 : µ <> 12 mg / l
Unilateral (izquierda) Unilateral (derecha) Bilateral
Si significancia (valor p) < 5%: Rechazo H0
Si significancia (valor p) > 5%: No Rechazo H0

ESTRUCTURAS DE PROBABILIDAD
La función que asigna

las probabilidades a 14
los posibles 12
resultados se llama 10
función de
probabilidad y muestra
Frecuencia
8
la estructura 6
funcional de la 4
variable. 2
Toda estructura 0
70,00 80,00 90,00 100,00 110,00 120,00 130,00
(función de
probabilidad) está
definida por unos
parámetros
ESTRUCTURA UNIFORME
Esta estructura es 1
utilizada en variables f ( x) = ,a ≤ x ≤ b
como concentración de b−a
contaminantes y errores
de medición.
Parámetros: a, b.
a b
ESTRUCTURA NORMAL
Parámetros: µ y σ
Punto de inflexión: µ−σ Punto de inflexión: µ+σ
µ
Mediana
Moda
−[ ( X − µ ) / σ ] 2
f ( x; µ , σ ) =
1
2π σ
e 2
ESTRUCTURA NORMAL(II)
µ igual, σ
diferente
µ
ESTRUCTURA NORMAL(III)
µ diferente, σ
igual
µ1 µ2
ESTRUCTURA NORMAL(IV)
Probabilidades
normales
TEOREMA DEL LÍMITE
CENTRAL
!Ejemplo!
Lanzamiento de dados
TEOREMA DEL LÍMITE
CENTRAL
Sean X1, X2….Xn, una secuencia de n

variables aleatorias independientes e
idénticamente distribuidas con media  y
varianza finita. Entonces el promedio
muestral tiene una distribución de
probabilidad con media y varianza:
µx = µx σ x2 =
σ x2
n y
Dicha distribución tiende hacia una
distribución normal conforme n tiende a
infinito.
TEOREMA DEL LÍMITE
CENTRAL
El número de horas que un automóvil

permanece en un centro comercial se
distribuye de manera desconocida con media
de 110 minutos y desviación de 60 minutos.
Usted, como administrador del centro
comercial decide realizar una muestra de la
duración en parqueadero de 200 automóviles.
¿Cuál es la probabilidad de que el
promedio de dicha muestra sea superior a
dos horas de parqueadero?
TEOREMA DEL LÍMITE
CENTRAL
_
P( X > 120) = 0.0092 = 0.92%
El riesgo de “equivocarse” con más
de 10 minutos de diferencia es
mínimo… luego se puede correr
ese riesgo.
DISEÑO DE EXPERIMENTOS
Objetivo:
Realizar calidad por diseño.
Niveles de la calidad
ØExtinción de incendios
ØCalidad por inspección
ØCalidad por control del proceso
ØCalidad por diseño
Objetivos de un experimento:
•Buscar la causa de la variación de una variable de

interés
•
•Maximizar o minimizar
•
•Compara respuestas a diversos niveles de variable
•
•Realizar un modelo matemático
EXPERIMENTO
“Establecer un conjunto de circunstancias, bajo un
protocolo específico para observar y evaluar las
implicaciones de las observaciones resultantes”
(Kuehl)
Los experimentos son planeados, y en lo posible,

se deben llevar a cabo off-line. En otro caso, se
trata de estudios comparativos
PASOS DEL DISEÑO
1.Definir objetivos y criterios
2.
3.Definir variables de respuesta y su medición
4.
5.Se definen los factores controlables y los que no
6.
7.Se determina el tipo de mediciones
8.
9.Se determinan los niveles de los factores
controlables
Ejemplo (parte I)
Objetivo: Determinar el efecto de la temperatura y

el empaque en la duración de la rosa recién
cortada.
ØVariable de respuesta: duración de la rosa recién

cortada
ØMedición: Hasta la caída del primer pétalo
Ejemplo (parte II)
Factores:
ØTemperatura: según control del cuarto frío
Ø
ØEmpaque: tres tipos de empaque
Ø
ØVariabilidad de cultivo (terreno, variedad, corte)
Ø
ØLugar de almacenamiento: cuarto frío
Ø
ØTemporada: cinco temporadas
ØTipos de factores: fijo, aleatorio y covariable

Ø
ØTratamiento: Nivel del factor.
Ø
ØTratamiento de control: Sin niveles de factor
(“cómo se ha operado hasta ahora”)
NIVELES DE VARIABILIDAD
Observación Yij
Distancia
.
total (Yij −Y j )
(Yij −Y ) Yj
(Y j −Y )
Y2
Y1
Medias de
tratamiento
Variabilidad por factores

Variabilidad por “error” aleatorio
Variabilidad por bloques o covariables
Unidad experimental: entidad sujeta al tratamiento
Unidad de observación: Unidad sobre la que se

realiza la medición
Réplicas: Número de unidades experimentales

sujetas a tratamiento
Error experimental: Variación inherente a las

unidades experimentales
CONTROL DEL ERROR
ØPor técnica
Ø
ØPor selección de unidades experimentales
(uniformidad)
Ø
ØPor bloqueo
Ø
ØPor diseño (aleatorización)
Ø
ØPor covariadas
PASOS DEL DISEÑO
6. Formular un modelo estadístico de las relaciones
entre variables (¿hay interacciones?)
7. Diseñar una distribución de experimentos que
garantice: validez, precisión, facilidad y
generalización
8. Diseñar un mecanismo de orden de las pruebas-
aleatorización
8. Ejecutar y analizar prueba piloto- regresar a 1.
9. Ejecutar el experimento
10. Realizar experimentos de confirmación
PASOS DEL DISEÑO
(resumen)
1.Definir objetivo y variable de respuesta
2.
3.Definir fuentes de variación (controlables o no)
4.
5.Definir procedimiento de trabajo (aleatorización,
mediciones, protocolo)
6.
7.Realizar prueba piloto, y ajustar con sus
resultados (muestra, protocolo)
8.
9.Realizar el análisis de acuerdo con el objetivo
Comparación de grupos
COMPARACIÓN DE GRUPOS
Más de 2 niveles (tratamientos) ANOVA
σx ≠σy t para dos muestras-

varianzas iguales
X −Y X y Y independientes
(competencia)
t para dos muestras-
σx =σy varianzas desiguales
2 niveles
X o Y emparejadas (evolución) T para muestras emparejadas
X −Y
(2 niveles , Conozco desviaciones , independientes )
Z para dos muestras
CASOS DE COMPARACIÓN DE
MEDIAS
1.Independencia, normalidad e igualdad de varianzas:
Prueba t independientes
2.
3.Independencia, normalidad y desigualdad de
varianzas. Prueba t independientes
4.
5.Independencia, no normalidad. Prueba U
6.
7.Dependencia, normalidad: Prueba t relacionadas
8.
9.Dependencia, no normalidad: Prueba rangos y
signos
PRUEBAS DE HIPÓTESIS-
NORMALIDAD
H 0 : normalidad
H1 : No normalidad
Si significancia ( valor p ) < 5 %:

No normales
Si significancia ( valor p ) > 5 %:

Normales
PRUEBAS DE HIPÓTESIS- DIFERENCIA
ENTRE GRUPOS INDEPENDIENTES
H 0 : grupos iguales
H1 : grupos diferentes

Grupos diferentes

Grupos iguales
ENTRE GRUPOS INDEPENDIENTES
H 0 : grupos iguales
H1 : grupos diferentes
Si las variables son normales : t

de student
Si las variables no son normales o

son nominales : U ( mann - whitney )
ENTRE GRUPOS DEPENDIENTES
H 0 : antes = despues
H1 : antes ≠ despues

antes y después no difieren .

Antes y después difieren
ENTRE GRUPOS DEPENDIENTES
H 0 : antes = despues
H1 : antes ≠ despues
Si las variables son normales : t

de student
Si las variables no son normales o

son nominales : wilcoxon
INDEPENDENCIA
H 0 : independencia
H1 : dependencia
Grupos de sujetos diferentes :

Dependencia
Los mismos sujetos evaluados

repetidamente : dependientes
TAMAÑOS DE MUESTRA
ØPara la diferencia de medias (dos grupos)
σ 2 * ( z1−α / 2 + z1− β ) 2
n = 2*
(δ ) 2
ANOVA de un factor
BLOQUEO
División del experimento (aplicación de todos los

tratamientos) en grupos homogéneos a partir de
una variable que no es de interés (generalmente
exógena) y que se supone no interactúa con los
factores
ØEl dilema del corral
ØEl ejemplo de los zapatos
ØTipos de factores: fijo, aleatorio y covariable

Ø
ØTratamiento: Nivel del factor.
Ø
ØTratamiento de control: Sin niveles de factor
(“cómo se ha operado hasta ahora”)
Réplicas: Número de unidades experimentales

sujetas a tratamiento
Error experimental: Variación inherente a las

unidades experimentales
TAMAÑOS DE MUESTRA
ØSe recomienda mínimo 10 réplicas por cada nivel

de tratamiento.
DISEÑO FACTORIAL COMPLETO
ØTodos los factores se prueban a todos los niveles

en todas las posibles combinaciones.
ØSupuesto: todas las interacciones pueden ser
importantes.
ØA cada bloque se le aplican todos los
tratamientos
DISEÑO FACTORIAL COMPLETO -
tamaño de muestra
Si se tienen 3 factores cada uno con dos niveles,

haciendo 10 réplicas….
Son necesarias 10*23 =80 mediciones totales
Si se tienen 8 factores con 3 niveles, haciendo 10
réplicas…..
Son necesarias 10*38 =65610 mediciones totales
Modelo lineal general
ASOCIACIONES DESCRIPTIVAS:
NOMINAL-ESCALAR (anova)
Análisis de varianza Comparación de medias
Observación Yij
Distancia
.
total (Yij −Y j )
(Yij −Y )
350,00
Yj
(Y j −Y )
Y2
Y1
Medias de
tratamiento
ASOCIACIONES DESCRIPTIVAS:
NOMINAL-ESCALAR (anova)
Suposiciones:
ØIgualdad de las varianzas
ØNormalidad de los residuales

ANÁLISIS DE INTERACCIONES
No hay efecto principal ni interacción
(duración indiferente a temp. o empaque)
Factor B (empaque)
Fino
Grueso
Media de
La Variable
Dependiente
Baja Media Alta

Factor A (temperatura)
No hay interacción, pero sí efecto principal del

factor B (empaque). Es mejor el fino.
Factor B (empaque)
Fino
Grueso
Media de
La Variable
Dependiente
Baja Media Alta

No hay interacción, pero sí efecto principal del
factor A (temperatura). Mejor a más temperatura
Factor B (empaque)
Fino
Grueso
Media de
La Variable
Dependiente
Baja Media Alta

Hay interacción, y por tanto, también algún efecto
principal. A temperatura baja, es mejor empaque
fino; a temperatura media, mejor el empaque
grueso, y a temperatura alta es indiferente.
Factor B (empaque)
Fino
Media de
La Variable Grueso
Dependiente
Baja Media Alta

DISEÑO FACTORIAL FRACCIONARIO
ØLos factores se prueban a todos los niveles en

ciertas combinaciones de las mismas.
ØSupuesto: Algunas interacciones son irrelevantes
(generalmente las de orden más alto).
ØSe define una fracción k del experimento
factorial total, quitando las interacciones más
altas.
Regresiones
400
300
200
100
HP
0
0 10 20 30 40 50 60
TAMAÑODEL MOTOR
CORRELACIÓN
n
∑ ( ( X i − X )(Yi − Y ) )
i =1
r( X ,Y ) =
n n
(
∑ iX − X ) ∑ i
(Y −
2
Y ) 2
i =1 i =1
Correlación: grado de asociación lineal

¿qué tan asociadas están las variables?
REGRESIÓN LINEAL
Y = b + mx Yi = β 0 + β1 xi + ε i
REGRESION LINEAL
Dos interpretaciones:
ØEl promedio de la variable dependiente (Y) bajo

la condición de un valor de la variable
independiente (X)- Factor predictivo
Ø
ØEl mejor ajuste de los datos a una recta- factor
explicativo
INTERPRETACIÓN DE LA REGRESION
LINEAL
ØEl coeficiente es el grado en que varía la

variable dependiente (Y) por cada unidad de la
variable independiente (X)- Razón de cambio
Ø
ØEl coeficiente es el de mejor ajuste a los datos o
el resultado de Y (dependiente) cuando X es cero
(independiente)
CALIDAD BÁSICA DE LA REGRESION
LINEAL
ØS
Ø
ØR y R2
Ø
ØAnova
Ø
ØSignificancia y signo de los parámetros
CALIDAD DE LA REGRESION LINEAL
ØS: variabilidad de la predicción. Se compara
como coeficiente de variación frente a el promedio
de la variable dependiente (Y)
Ø
ØR2 (r-sq): Porcentaje de la variabilidad que logra
captar o recoger el conjunto de variables
dependientes
ANÁLISIS DE VARIANZA
Es una prueba de hipótesis con :
H0: Las variables son independientes

H1: Las variables están asociadas
Una alternativa más precisa de interpretación es:
H0: Las variable independiente explica

tanto como el azar (error aleatorio)
H1: La variable independiente explica más
que el azar (error aleatorio)
PRUEBA DE HIPÓTESIS PARA LOS
PARÁMETROS
Esta prueba examina cada una de las variables
independientes e indica si tienen o no significado
en el modelo
H0: La variable no tiene significado o no está

asociada (B=0)
H1: Las variable tiene significado y está
asociada (B<>0)
SUPOSICIONES
ØNormalidad de los residuos con media cero:
prueba de normalidad- estadísticos de residuo
Ø
ØNo autocorrelación de residuos: prueba de
durbin-watson. Regla práctica: d >1.8
Ø
ØNo homoscedasticidad: Gráfico predicciones
(estándar) vs residuos estándar
Ø
ØSuposiciones de modelamiento…. (más adelante)
TAMAÑO DE MUESTRA
ØLo mejor es tener más de una medición por valor

de la(s) variable(s) independiente(s) y garantizar la
mayor cobertura posible de la misma en rango.
Ø
ØRadios empíricos: 10 a 15 datos por variable
independiente (Harrell); 5 mínimo, 20
recomendado (Hair); 50 a 1 si se hace stepwise.
REGRESION LINEAL MÚLTIPLE
A tener en cuenta:
ØLa navaja de Occham (overfitting): incluir más

variables no necesariamente es mejor.
Ø
ØMulticolinealidad: variables que explican lo
mismo.
SUPOSICIONES DE
MODELAMIENTO
ØOtras variables: Dispersión de nueva variable vs.
Modelo existente y Outliers.
Ø
ØRelación funcional: predicciones estándar vs.
Residuos estándar. Dispersión usual.
Ø
ØMulticolinealidad: Correlaciones multivariadas
y/o análisis factorial.
Ø
ØOutliers: Diagnósticos de influencia.
Ø
ØOverfitting: AIC, valores de F.
EL MÉTODO STEPWISE
Hace pruebas de hipótesis parciales:
Ø¿Dado el modelo actual de regresión , vale la

pena incluir alguna variable? (Hacia adelante)
Ø
Ø¿Dado el modelo actual de regresión , vale la
pena excluir alguna variable? (Hacia atrás)
MODELO PREESPECIFICADO
Se supone que el modelo fue predefinido de
antemano, no debió haber sido visto con
exploración previa.
¿qué hacer? Si hay suficientes datos dividir la base

en tres: exploración, entrenamiento y validación.
REGRESION LINEAL POLINOMIAL
Modelo Cúbico

PRESENTADOE

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

PRESENTADOE

Uploaded by

Copyright:

Available Formats

FUNDAMENTOS

Confianza: Probabilidad de que el

Error máximo: Basado en el error

(n grande) Aprox. PRUEBA Z

Diferencia entre el valor

Si significancia (valor p) > 5%: No Rechazo H0

Si significancia (valor p) < 5%: Rechazo H0

Si significancia (valor p) > 5%: No Rechazo H0

La función que asigna

Punto de inflexión: µ−σ Punto de inflexión: µ+σ

Sean X1, X2….Xn, una secuencia de n

El número de horas que un automóvil

•Buscar la causa de la variación de una variable de

Los experimentos son planeados, y en lo posible,

Objetivo: Determinar el efecto de la temperatura y

ØVariable de respuesta: duración de la rosa recién

ØTipos de factores: fijo, aleatorio y covariable

Variabilidad por factores

Unidad experimental: entidad sujeta al tratamiento

Unidad de observación: Unidad sobre la que se

Réplicas: Número de unidades experimentales

Error experimental: Variación inherente a las

σx ≠σy t para dos muestras-

X o Y emparejadas (evolución) T para muestras emparejadas

Si significancia ( valor p ) < 5 %:

Si significancia ( valor p ) > 5 %:

Si significancia ( valor p ) < 5 %:

Si significancia ( valor p ) > 5 %:

Si las variables son normales : t

Si las variables no son normales o

Si significancia ( valor p ) < 5 %:

Si significancia ( valor p ) > 5 %:

Si las variables son normales : t

Si las variables no son normales o

Grupos de sujetos diferentes :

Los mismos sujetos evaluados

ØPara la diferencia de medias (dos grupos)

División del experimento (aplicación de todos los

ØTipos de factores: fijo, aleatorio y covariable

Réplicas: Número de unidades experimentales

Error experimental: Variación inherente a las

ØSe recomienda mínimo 10 réplicas por cada nivel

ØTodos los factores se prueban a todos los niveles

Si se tienen 3 factores cada uno con dos niveles,

ØIgualdad de las varianzas

ØNormalidad de los residuales

Baja Media Alta

No hay interacción, pero sí efecto principal del

Baja Media Alta

Baja Media Alta

Baja Media Alta

ØLos factores se prueban a todos los niveles en

Correlación: grado de asociación lineal

ØEl promedio de la variable dependiente (Y) bajo

ØEl coeficiente es el grado en que varía la

H0: Las variables son independientes

Una alternativa más precisa de interpretación es:

H0: Las variable independiente explica

H0: La variable no tiene significado o no está

ØLo mejor es tener más de una medición por valor

ØLa navaja de Occham (overfitting): incluir más

Ø¿Dado el modelo actual de regresión , vale la

¿qué hacer? Si hay suficientes datos dividir la base

You might also like