Professional Documents
Culture Documents
INGENIERÍA
CIVIL MENCIÓN
GEOTECNIA Y
VÍAS TERRESTRES
CURSO:
MATEMÁTICA
AVANZADA PARA
INGENIEROS.
ELAVORADO POR:
JORGE ARTURO
CUMPA
MARQUEZ
Contenido
TABLA DE CONTINGENCIA ............................................................................................................. 2
CONTRASTE DE INDEPENDENCIA ................................................................................................. 3
CONTRASTE DE HOMOGENEIDAD ................................................................................................ 5
ANÁLISIS DE VARIANZA ................................................................................................................. 7
DISEÑO ESTADÍSTICO DE EXPERIMENTOS ................................................................................. 12
DISEÑO COMPLETAMENTE ALEATORIZADO ............................................................................ 13
DISEÑOS EN BLOQUES COMPLETOS ALEATORIZADOS .......................................................... 17
1
TABLA DE CONTINGENCIA
En estadística las tablas de contingencia se emplean para registrar y analizar la asociación entre dos o más
variables, habitualmente de naturaleza cualitativa (nominales u ordinales).
Ejemplo
Supóngase que se tienen dos variables, la primera el género (Masculino - Femenino) y la segunda recoge
si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de
100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos
variables puedes resolver cualquier operación de probabilidad o algebra:
Hombre 43 9 52
Mujer 44 4 48
TOTAL 87 13 100
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la
cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a
la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación
estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson, supuesto que las
cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada
columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si
no existe asociación se dice que ambas variables son independientes.
El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más
simple es el coeficiente phi que se define por
donde χ2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede oscilar
entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de
asociación, el coeficiente Φ de Cramer no está acotado.
Estudio de diferencia de proporciones
Hay situaciones en las que tenemos probabilidades de éxito cercanas al cero o del uno en donde las
proporciones pueden ser poco representativas sobre el comportamiento dentro de los grupos. Por ejemplo:
2
Vamos a definir el riesgo relativo como , para los ejemplos anteriores:
En el primer caso el éxito dentro de los grupos es 10 veces mayor que en el otro. Si X e Y independientes,
entonces con lo que su riesgo relativo es . Ahora bien, ¿cómo estimar r?
CONTRASTE DE INDEPENDENCIA
A través de este contraste pretendemos probar si existe independencia entre dos variables o atributos (en
el conjunto de la población) a partir de las observaciones de las dos característica (en una muestra).Se
trata, en realidad, de un caso particular del contraste de adherencia a un ajuste, en el que el modelo teórico
sujeto a contraste es el de una distribución bidimensional con variables independientes.
X\Y y1 y2 yj ym
x1 n1,1 n1,2 · · n1,* Donde : ni,j es la frecuencia conjunta
3
luego en el caso de independencia cada una de las ij frecuencias conjuntas
estadístico
hay que puntualizar que el citado estadístico se distribuirá con una distribución c 2 con (m-1)(n-1) grados
de libertad.
pero además :
una de las m + n ecuaciones anteriores será combinación lineal de las otras m+n-1.
Como no estima ningún parámetro el número de grados de libertad será el número de sumandos (variables)
EJEMPLO
Se dispone de las observaciones del color del pelo y de los ojos de 400 individuos según la siguiente tabla:
4
Contrastar con un nivel de significación del 1 % la independencia de estos atributos. ( ir a script de
realización)
construimos el estadístico
y el valor crítico para a =0.01 y g. l .= 4 es 13.3 (ir a tabla de la c 2 ) ;de modo que dado que el estadístico
es mayor que el valor de la tabla 55,13>13,3 rechazamos la hipótesis planteada. En consecuencia podemos
concluir que existe dependencia entre el color de los ojos y el del pelo .
CONTRASTE DE HOMOGENEIDAD
A través de este contraste pretendemos determinar si varias poblaciones distintas (m) tienen una estructura
similar o, por decirlo de otro modo, si son o no homogéneas en lo que se refiere a la forma de distribuirse
en ellas una cierta variable o atributo que puede tomar un conjunto de n valores o tipos diferentes (en todas
las poblaciones). Para ello partiremos de la información de m muestras de las m poblaciones y trabajaremos
con las frecuencias que en cada población tiene cada posible valor de la variable (o tipo del atributo).
Si llamamos ni,j a la frecuencia con que se da el valor o tipo i en la muestra j, podemos construir una tabla
con los datos similar a la que utilizábamos en el contraste de independencia.
La hipótesis que queremos contrastar es que la distribución de la variable (o atributo) es homogénea en las
j poblaciones, por lo tanto la frecuencia teórica con que se dará el valor o el tipo x i deberá ser tal que la
proporción de observaciones (frecuencias relativas) del valor o tipo xi deberá ser la misma en todas las
muestras
5
y será obviamente la misma que la proporción de observaciones de ese tipo que hay en el total , que
EJEMPLO
Para intentar mejorar la posición en el mercado de cierto producto se llevaron a cabo tres campañas de
promoción entre los minoristas distribuidores en otras tantas localidades: A,B,C. Se desea contrastar si las
tres campañas son homogéneas respecto a los resultados en el incremento de las ventas en las tiendas,
con un nivel de significación del 5 % .Para ello se han recogido los siguientes datos:
aumentan ventas
421 283 250 954
aumentan ventas
421 283 250 954
6
aplicando la expresión del estadístico
quedará su valor establecido en 29.871131
el estadístico tendrá una distribución chi-dos con (m-1)·(n-1) g.l. es decir (3-1)·(2-1)=2 (ir a tabla de la c 2 )
el valor crítico para dicha distribución con nivel de significación a =0.05 será 5.99 ;
dado que el estadístico es mayor rechazamos la hipótesis de que las tres campañas de promoción
sean homogéneas.
ANÁLISIS DE VARIANZA
El análisis de Varianza contrasta la hipótesis de igualdad de las Medias de más de dos grupos, y tiene su
fundamento en la relación entre la variación explicada por las diferencias entre grupos y la variación
individual.
Los valores del cuerpo central de la tabla representan las puntuaciones obtenidas por el sujeto "i" en el
grupo "j". Por ejemplo, X32=14 simboliza que el sujeto número tres del grupo 2 ha obtenido una puntuación
igual a 14.
Las puntuaciones de cada grupo son una muestra de la población de pacientes a los que se administra
cada tratamiento (los del grupo 1, de la población a la que se administra el tratamiento 1, los del grupo 2,
de la población a la que se administra el tratamiento 2, etc.). Las Medias de las poblaciones se simbolizan
m1, m2, m3, etc. Queremos saber si estas Medias son semejantes o diferentes a la finalización del
tratamiento, porque eso significaría que los tratamientos afectan de manera diferente a los pacientes. La
Hipótesis Nula es:
7
donde MCE y MCI son las Medias Cuadráticas "entre" e "intra" respectivamente.
a) El efecto del tratamiento en cada grupo es medido por la Media de las medidas de depresión de cada
grupo.
b) Si todos los tratamientos tuvieran el mismo efecto, esperaríamos que las Medias de los grupos fueran
semejantes:
En cambio, cuanto más diferentes sean los efectos de los tratamientos, más diferentes esperamos que
sean las Medias.
c) La Media Cuadrática "entre" mide la variación explicada por las diferencias entre las Medias de los grupos
más la variación explicada por diferencias individuales:
donde
si las Medias fueran semejantes, la Media Cuadrática "entre" sería igual a 0 (porque la Media de cada grupo
sería igual a la Media total). Si las Medias fueran diferentes, la Media Cuadrática "entre" será mayor cuanto
más y mayores sean las diferencias.
donde
8
La Media Cuadrática "intra" mide la variación explicada por diferencias individuales porque solo depende
de las diferencias dentro de cada grupo. En cambio, las diferencias entre grupos no explican la variación
"intra".
f) Para generalizar a la población se opera con los valores esperados de la Medias Cuadráticas:
el valor esperado de la Media Cuadrática "entre" es igual a la Varianza explicada (ocasionada) por las
diferencias individuales más una cantidad cuyo valor depende de las diferencias entre los tratamientos
(entre las muestras).
El valor esperado de la Media Cuadrática "intra" es igual a la Varianza explicada por diferencias individuales.
g) Si la Hipótesis Nula fuera verdadera, es decir, si NO hubiera diferencias entre las Medias poblacionales,
el valor del término de la derecha en la expresión del valor esperado de la Media Cuadrática "entre", que
es:
tomaría el valor 0 (porque las diferencias dentro del paréntesis siempre serían 0).
En consecuencia, el estadístico F sería una razón de dos estimadores de la misma Varianza y seguiría la
distribución F con J-1 y J(n-1) grados de libertad.
h) Si la Hipótesis Nula fuera falsa, es a decir, si hubiera diferencias entre las Medias poblacionales, la
expresión
9
tomaría un valor superior a 0. En consecuencia, el estadístico F NO sería una razón de dos estimadores
de la misma Varianza y el cociente F NO seguiría la distribución FJ-1,J(n-1).
i) En conclusión, si el estadístico F sigue la distribución FJ-1,J(n-1) pensaremos que no hay evidencia suficiente
por rechazar la Hipótesis Nula. En cambio, si el estadístico F NO sigue la distribución FJ-1,J(n-1), pensaremos
que es más razonable rechazar la Hipótesis Nula.
Los supuestos del apartado a) son satisfechos (generalmente) si los datos son seleccionados
aleatoriamente, pero es conveniente verificar el cumplimiento de los supuestos con las pruebas del
apartado 6.
Comparación de medias
Si la prueba F resulta significativa puede que todas o algunas de las Medias sean diferentes. Para saber
entre qué Medias hay diferencias se puede aplicar las pruebas de comparación de medias como la prueba
de Tuckey, la prueba de Scheffé (especialmente robusta a la violación de los supuestos estadísticos), la de
Duncan (más potente cuanto mayor es el número de Medias comparadas), o la de Dunnett (especialmente
adecuada para hacer comparaciones con un grupo de referencia).
Modelo
donde
El modelo indica que podemos expresar el valor observado del individuo "i" en el grupo "j" como la adición
de la magnitud general de la variable más la magnitud específica del grupo "j" más un componente
específico del individuo "i".
10
El término del modelo que interesa es a (la magnitud de la variable o posición específica del grupo). El
estimador de a es la esperanza de la Media Cuadrática "entre" MCE. La prueba F somete a contraste la
hipótesis que un grupo (al menos) ocupa una posición diferente (la variable tiene una magnitud específica
en ese grupo) a la de los otros grupos.
ANOVA intrasujetos
El análisis de los datos de grupos relacionados presenta características específicas: Cada fila define un
grupo de datos del mismo sujeto. En consecuencia, la MCI no es un estimador adecuado de la variación
aleatoria porque los datos no son independientes. Por otro lado, parte de la variación observada entre
columnas es explicada por el efecto de los tratamientos (si hay efecto). Por esta razón la variación entre
las filas (que es variación entre sujetos) mide la variación ocasionada por diferencias entre tratamientos
más la variación ocasionada por diferencias individuales entre sujetos.
Para resolver el problema, se define la variación aleatoria como el residuo de sustraer la variación "entre
tratamientos" y la variación "entre sujetos" de la variación total:
La prueba F tiene el mismo sentido que en el Análisis de Varianza intersujetos, pero se hacen poniendo en
el numerador la Media Cuadrática que corresponda y en el denominador la Media Cuadrática residual.
Prueba F para someter a contraste la Hipótesis Nula de que los tratamientos no son efectivos:
Prueba F para someter a contraste que la variación ocasionada por diferencias individuales es nula:
11
DISEÑO ESTADÍSTICO DE EXPERIMENTOS
Una prueba o serie de pruebas en las cuales se introducen cambios deliberados en las variables de entrada
que forman el proceso, de manera que sea posible observar e identificar las causas de los cambios en la
variable de salida
REALIZAR UN EXPERIMENTO
Aplicar los distintos niveles, o combinaciones de niveles cuando hay presentes más de un factor, a distintas
unidades experimentales y se observa el valor de la variable respuesta.
¥ Unidades experimentales: (personas, elementos físicos)
¥ Factor: Variable controlable por el experimentador (Niveles del factor o tratamientos)
¥ Variable de interés: Variable Respuesta
¥ Error experimental o perturbación: Variables no controlables por el experimentador
¥ Tamaño del experimento: número total de observaciones.
OBJETIVO
Estudiar el efecto que sobre la Variable Respuesta tiene un conjunto de otras variables que reciben el
nombre de Factores
ETAPAS
1) Diseñar un experimento con una estructura lo más adecuada posible a la situación que se desea estudiar
y a los medios disponibles.
a) Planteamiento general del problema y de los objetivos que se persiguen.
b) Selección y definición de la variable respuesta.
c) Elección de los factores y niveles que han de intervenir en el experimento.
d) Determinación del conjunto de unidades experimentales incluidas en el estudio.
e) Determinación de los procedimientos por los cuales los tratamientos se asignan a las unidades
experimentales.
2) Realizar la experimentación de acuerdo con el plan previamente establecido en el diseño.
12
3) Analizar estadísticamente los resultados obtenidos y comprobar si las hipótesis establecidas y el modelo
de diseño elegido se adecuan a la situación estudiada.
4) Realizar las modificaciones oportunas para ampliar o modificar el diseño.
5) Obtener las conclusiones apropiadas.
PRINCIPIOS BÁSICOS DEL DISEÑO DE EXPERIMENTOS
¥ Aleatorización: La asignación de las unidades experimentales a los distintos tratamientos y el orden en el
que se realizan los ensayos se determinan al azar.
¥ Replicación.
¥ Homogeneidad del material experimental.
¥ Una compañía algodonera que emplea diversos fertilizantes desea comprobar si éstos tienen efectos
diferentes sobre el rendimiento de la semilla de algodón.
¥ Una profesora de estadística que imparte en grupos experimentales de alumnos, en los que explica la
misma materia pero siguiendo distintos métodos de enseñanza, desea comprobar si el método de
enseñanza utilizado influye en las calificaciones de los alumnos.
¥ Una industria química, que obtiene un determinado producto, está interesada en comprobar si los cambios
de temperatura influyen en la cantidad de producto obtenido.
13
¥ uij : Variables aleatorias que engloban un conjunto de factores, cada uno de los cuales influye en la
respuesta sólo en pequeña magnitud pero que de forma conjunta debe tenerse en cuenta. Deben verificar
las siguientes condiciones:
14
Nota: Las expresiones de estas sumas de cuadrados están dadas en el Apéndice.
COEFICIENTE DE DETERMINACIÓN
R2 = SCT r / SCT
R2 : Proporción de la variabilidad total presente en los datos que es explicada por el modelo de análisis de
la varianza.
EJEMPLOS
1. Una compañía textil utiliza diversos telares para la producción de telas. Aunque se desea que los telares
sean homogéneos con el objeto de producir tela de resistencia uniforme, se supone que puede existir una
variación significativa en la resistencia de la tela debida a la utilización de distintos telares. A su disposición
tiene 5 tipos de telares con los que realiza determinaciones de la resistencia de la tela. Este experimento
se realiza en orden aleatorio y los resultados se muestran en la tabla siguiente
15
3. Una fábrica de textiles dispone de un gran número de telares. En principio, se supone que cada uno de
ellos debe producir la misma cantidad de tela por unidad de tiempo. Para investigar esta suposición se
seleccionan al azar cinco telares, y se mide la cantidad de tela producida en cinco ocasiones diferentes. Se
obtienen los datos de la tabla adjunta. ¿Del estudio se concluye que todos los telares tienen el mismo
rendimiento?
16
♣ Contrastes: Barlett, Cochran, Hartley y Levene
H0 : H0 : σ21 = · · · = σ2I vs H1 : σ2i 6= σ2j para algún par (i, j)
COMPARACIONES MÚLTIPLES
Técnicas cuyo objeto es identificar:
17
¥ Se realiza una observación por tratamiento en cada bloque: N = IJ observaciones.
¥ La asignación de los tratamientos a las unidades experimentales en cada bloque se determina
aleatoriamente.
¥ Los tratamientos y los bloques son factores de efectos fijos.
¥ No hay interacción entre los tratamientos y los bloques: (El efecto de un factor no depende del nivel del
otro factor): Efectos de los factores son aditivos.
MODELO ESTADÍSTICO
yij = μ + τ i + βj + uij i = 1, 2, · · · , I ; j = 1, 2, · · · , J
¥ yij : La variable aleatoria que representa la observación (i)-ésima del bloque (j)-ésimo.
¥ μ es un efecto constante. Media global.
18
1) SCT : Suma total de cuadrados.
2) SCT r: Suma de cuadrados entre tratamientos.
3) SCBl: Suma de cuadrados entre bloques
4) SCR: Suma de cuadrados del error o residual.
1´) CMT : Cuadrado medio total : CMT = SCT /(N − 1)
2´) CMT r : Cuadrado medio entre tratamientos: CMT r =SCT r/(I − 1)
3´) CMBl : Cuadrado medio entre bloques: CMBl =SCBl/(J − 1)
4´) CMR : Cuadrado medio residual: CMR =SCR/(I − 1)(J − 1)
Nota: Las expresiones de estas sumas de cuadrados están dadas en el Apéndice.
ANÁLISIS ESTADÍSTICO
¥ Contraste de interés: H0τ ≡ τ 1 = · · · = τ I = 0
19
Variable respuesta: Resistencia de la fibra
Factor principal: Producto químico. (Niveles: 5)
Factor secundario o factor bloque: Máquinas. (Niveles: 4)
Diseño en bloques completos al azar
20