Professional Documents
Culture Documents
" OH, OH, ACABO DE DESCUBRIR QUE EL 79% DE MIS RATAS TIENEN CÁNCER...
¡Y AÚN NO LES HE INYECTADO NADA!
Un poco de filosofía
• “Como investigador y enseñando biología a menudo nos
confrontamos con colegas y estudiantes que “buscan un
buen análisis para sus datos”, en la mayoría de los casos,
hay muy poca cosa que hacer, más que enfatizar a) un
planeamiento profundo, b) diseño experimental cuidadoso,
y c) un entendimiento del procedimiento estadístico a priori
a la colecta de datos.
• Nosotros preferimos “análisis buscando buenos datos”. No
podemos exagera la necesidad de una apropiada
planificación y diseño.”
– BioΣtat I. A Univariate Statistical Toolbox. Version 2.0 Tutorial
Manual.
• Richard Pimentel, Ph.D. Department of Biological Science. California
Polytechnic State University. San Luis Obispo.
• James D. Smith, Ph.D. Department of Biological Science. California
Polytechnic State University. Fullerton
VARIABLE
• Una variable es lo que está siendo observado o
medido.
• es una característica o propiedad de una persona, un
objeto o una situación,
• que comprende un conjunto de valores diferentes o
categorías.
• La altura es una variable, al igual que el peso, tipo de
sangre y género.
• Las variables cuantitativas, como la altura, el peso o la
edad, están poseídos de grado y así se puede medir.
• Las variables cualitativas, como el sexo, el grupo
sanguíneo o nacionalidad, sólo poseen clases: no
pueden ser expresadas en unidades.
TIPOS DE VARIABLES
• Variables Independientes y Dependientes
– VD: es el objeto de interés, que varía en respuesta
a alguna intervención.
– VI: es la intervención o lo que está siendo
aplicado.
• Variables Discretas y Continuas
– VD toman valores numéricos enteros.
– VC tomar cualquier valor de un intervalo
determinado
NATURALEZA DE LOS DATOS
• Datos nominales
• Una variable como el género sólo puede tomar dos valores: mujer y
varón.
• Ninguno de los dos es “más alto” o “mejor” que el otro, los podemos
enumerar colocando varón en primer lugar o primero la mujer sin
que se pierde ninguna información. Esta variable recibe el nombre de
nominal.
• La variable nominal consiste en categorías a las que se asigna un
nombre sin que exista ningún orden implícito entre ellas.
• Se codifica los datos nominales con números. Mujer 1 y Varón 0.
• Los números son nombres alternativos, no tienen valor cuantitativo.
• Podemos cambiar el código haciendo Mujer = 0 y Varón = 1, y las
conclusiones a las que vamos llegar serán idénticas.
• Datos ordinales
• Las calificaciones de un estudiante como sobresaliente /notable/aprobado no
aprobado tienen cuatro categorías.
• Existe un orden entre estos valores.
• No podemos suponer que la diferencia entre “sobresaliente” o “notable” y
“aprobado” sea la misma entre “aprobado” y “no aprobado”.
• Esto se ve mejor en las calificaciones numéricas; existe una pequeña diferencia
entre un 4 y un 5; pero la diferencia es abismal entre un 2 y un 3.
• Es igual que los resultados de caballo; sabemos que el caballo que ganó fue más
veloz que el que quedó segundo, y todavía más que el tercero. Pero puede haber
existido una diferencia de un segundo entre los dos primeros, mientras que
respecto al tercero puede haber sido de 10 segundos.
• Así, las calificaciones y el orden de finalización de una carrera de caballos se
denominan variables ordinales.
• Una variable ordinal consiste en categorías ordenadas, de manera que las
diferencias entre categorías pueden no ser iguales.
• Las variables que podemos encontrar en medicina preventiva son ordinales por
naturaleza.
• Los pacientes se clasifican a menudo como muy a) mejorado, b) un poco mejorado,
c) estacionario, d) empeorado y e) muerto; o de a) emergencia, b) urgente y c)
optativo.
• Algunas veces se utilizan números, como en los niveles I a IV del cáncer. ¿La
diferencia entre en el grado de la enfermedad entre el nivel I y el nivel II de cáncer
es la misma que la que hay entre los niveles II y III o entre los III y IV? Si la
respuesta es no, la escala es ordinal.
• Datos interválicos
• El punto cero no tiene especial significación y podemos cambiarlo.
• Para ilustrarlo, comparemos la inteligencia, medida mediante algún test
CI, con algo como por ejemplo, el peso donde el cero es significativo.
• Todos sabemos el significado de un peso cero. No podemos decidir de
repente que restaremos 10 kilos de cualquier cosa que pesemos y decir
que algo que previamente pesaba 11 kilos ahora pesa 1 kilo.
• Una escala de inteligencia tiene una entidad diferente. Decimos que la
media del CI es 100, pero esto es solamente un convenio.
• En el próximo congreso mundial de expertos en CI pueden decidir que a
partir de ahora, consideraremos que la media es 500 sin más que añadir
400 a todos los datos.
• No hemos ganado nada, pero por el mismo motivo, tampoco hemos
perdido nada; el único cambio necesario es que ahora tendremos que
ajustar de nuevo los parámetros que habíamos aprendido de acuerdo con
la nueva media.
• Veamos ahora las implicaciones que ello conlleva. Como los intervalos son
iguales, la diferencia entre un CI de 70 y uno de 80 es la misma entre 120 y
130. Sin embargo, un CI de 100 no es dos veces más elevado que uno de
50.
• La cuestión es que si el cero es artificial y móvil, las diferencias entre
números son significativas, pero las razones entre ellas, no.
• Datos proporcionales
• Si el punto cero es significativo, las razones entre números
lo son también, y nos hemos tropezado con una variable
proporcional.
• Una variable proporcional tiene intervalos iguales entre
valores y un punto cero significativo.
• La mayoría de los tests de laboratorio son variables
proporcionales, al igual que las categorías físicas tales como
la altura y el peso.
• Una persona que pesa 100 kilos es dos veces más pesada
que una que pesa 50 kilos; incluso si convertimos los kilos
en libras, la proporción es la misma: de 220 libras a 110. En
el fondo, para un estudio estadístico, ambos pueden
tratarse de la misma manera.
• Observemos que cada peldaño en la jerarquía ascendente
que va de los datos nominales a los proporcionales toma la
hipótesis del peldaño anterior para añadir una nueva
restricción
NATURALEZA DE LOS DATOS
TIPO DE DATOS CARACTERÍSTICAS
Nominales Categorías con nombre
Diferencia Delta δ d
Error Tipo I Alfa α a
Error Tipo II Beta β b
Proporción Pi π p
Muestra y Población
Muestra Población
NOMBRES
Estadístico Parámetro
Media µ
Varianza S2 σ2
Desviación
S σ
estándar
Muestreo aleatorio simple
• Cada elemento de la muestra tiene igual
probabilidad de ser seleccionada y que cada
elemento de la población total tenga una
oportunidad igual de ser incluido en la muestra.
• Ejemplo. Tenemos una población de cuatro
estudiantes en un seminario y queremos cuatro
(4) muestras de dos estudiantes cada vez para
entrevistarlos.
Cómo hacer un muestreo aleatorio. Tabla de
Dígitos Aleatorios
1581922396 2068577984 8262130892 8374856049 4637567488
0928105582 7295088579 9586111652 7055508767 6472382934
4112077556 3440672486 1882412963 0684012006 0933147914
7457477468 5435810788 9670852913 1291265730 4890031305
0099520858 3090908872 2039593181 5973470495 9776135501
7245174840 2275698645 8416549348 4676463101 2229367983
6749420382 4832630032 5670984959 5432114610 2966095680
5503161011 7413686599 1198757695 0414294470 0140121598
7164238934 7666127259 5263097712 5133648980 4011966963
3593969525 0272759769 0385998136 9999089966 7544056852
4192054466 0700014629 5169439659 8408705169 1074373131
9697426117 6488888550 4031652526 8123543276 0927534537
2007950579 9564268448 3457416988 1531027886 7016633739
Como funciona
1581922396 2068577984
Nombres Número
Julián 1
0928105582 7295088579
Verónica 2 4112077556 3440672486
Eliana 3 7457477468 5435810788
Pedro 4
0099520858 3090908872
M1 M2 7245174840 2275698645
Julián Pedro 6749420382 4832630032
Eliana Pedro 5503161011 7413686599
Verónica Julián
7164238934 7666127259
Pedro Verónica
3593969525 0272759769
4192054466 0700014629
9697426117 6488888550
2007950579 9564268448
Población Finita
• Una población finita de cuatro estudiantes.
• La población tiene un número entero (N) que
indica cuántos elementos hay en la población.
Julián Verónica
Julián Eliana
Julián Pedro
Verónica Eliana
Verónica Pedro
Eliana Pedro
Población Infinita
• El término población infinita es cuando una
población no puede enumerarse en un periodo
razonable de tiempo.
• El concepto teórico de población infinita es como
una aproximación de una población finita
enorme.
• El concepto teórico de variable aleatoria continua
como una aproximación de una variable aleatoria
discreta que pudiera asumir muchos valores
estrechamente cercanos.
• Los principios del muestreo
aleatorio simple son la base
de la inferencia estadística.
• Proceso de obtener
información de una
población a partir su
muestra.
Diseño de experimentos
• Un evento es uno o más de los
resultados posibles de hacer algo.
• Un experimento es la actividad que
tendría como resultado tales
eventos.
• En el experimento del lanzamiento
de una moneda, los eventos posibles
serían caras o cruces.
Planeación de experimentos
• Si hemos de conducir experimentos
que produzcan resultados
significativos en forma de
conclusiones aprovechables, es de
suma importancia la forma en que se
diseñen estos experimentos.
• El muestreo es sólo una parte del
diseño total de un experimento.
Diseño experimental-Ejemplo
• Se afirma que la batería de la empresa SuperPower
pondrá en marcha mejor el motor de su automóvil que
una batería X. SuperPower y diseña su experimento de la
siguiente manera:
• Objetivo: SuperPower desea probar su batería frente a
su competidor. Aunque es posible diseñar un
experimento que pruebe las dos baterías con respecto a
varias características (tiempo de vida, tamaño, poder de
arranque, peso y costo, para nombrar sólo unas cuantas),
SuperPower ha decidido limitar este experimento a su
poder de arranque.
• Lo que se medirá: se conoce también como la variable
de respuesta. Si SuperPower ha de diseñar un
experimento que compare el poder de arranque de su
batería con el de otra, debe definir cómo se medirá el
poder de arranque.
• Existen varias formas de hacer esto. Por ejemplo,
SuperPower podría medir
– 1) el tiempo que tardaron las baterías en agotarse
mientras ponían en marcha un motor,
– 2) el número total de arranques de motor que agotaron las
baterías o
– 3) el número de meses en uso que se podría esperar
duraran las dos baterías.
• SuperPower decide que la variable de respuesta en
este experimento será 1) el tiempo que tardan las
baterías en agotarse mientras encienden motores.
• Qué tamaño de muestra: SuperPower elige un
tamaño de muestra lo suficientemente grande
para respaldar sus afirmaciones respecto a su
batería sin temor a ser desmentido; sin embargo,
sabe que mientras más baterías pruebe, el costo
del experimento será más alto.
• Hay una utilidad decreciente en el muestreo: el
muestreo de más elementos disminuye el error
estándar, puede ser que el beneficio no valga el
costo.
• Al no desear elegir un tamaño de muestra
demasiado caro, SuperPower decide que será
suficiente comparar 10 baterías de cada una de
las dos compañías.
• Conducción del experimento: SuperPower debe tener
cuidado de efectuar su experimento bajo condiciones
controladas; debe asegurarse de estar midiendo el
poder de arranque, y de que las otras variables (como
la temperatura, la edad del motor y la condición de los
cables de la batería, por nombrar unas cuantas) se
mantengan tan constantes como sea factible.
• Al intentar lograr precisamente esto, el grupo
estadístico de SuperPower utiliza automóviles nuevos
de la misma marca y modelo, lleva a cabo las pruebas a
la misma temperatura externa y tiene cuidado en ser
bastante preciso al medir la variable de tiempo.
• De esta manera, SuperPower reúne los datos
experimentales sobre el rendimiento de 20 baterías.
• Análisis de los datos: Los datos obtenidos sobre
las pruebas de las 20 baterías individuales están
sujetos a la prueba de hipótesis, “Prueba de
hipótesis: pruebas de dos muestras”.
• A la compañía SuperPower le interesa saber si
existe una diferencia significativa entre el poder
de arranque de su batería y el de su competidor.
• Resulta ser que la diferencia que existe entre la
vida media de arranque de la batería de
SuperPower y la de su competidor sí es
significativa.
• SuperPower incorpora el resultado de este
experimento en su publicidad.
Reacción a las afirmaciones experimentales
• ¿Cómo debemos nosotros, como consumidores, reaccionar a las
nuevas afirmaciones sobre la vida de la batería en su reciente
publicidad?
• ¿Debemos concluir, por las pruebas que ha efectuado la compañía,
que la batería de SuperPower es superior a la batería de la
competencia?
• ¿Cómo sabemos que las marcas y condiciones de los motores de los
automóviles del experimento fueron idénticas?
• ¿Y estamos absolutamente seguros de que los cables de la batería
eran idénticos en tamaño y resistencia a la corriente?
• ¿Y qué hay con respecto a las temperaturas ambientales existentes
durante las pruebas?, ¿fueron iguales?
• ¿Cómo debemos reaccionar frente a la afirmación, si se hace, de
que “sometimos los resultados experimentales a extensas pruebas
estadísticas”?
• ¿Cómo podremos determinar si una diferencia tal en el tiempo de
vida de las baterías es demasiado grande para ser atribuida al azar.
• En este punto, nosotros, como consumidores, debemos ser lo
suficientemente escépticos.
Otras opciones abiertas
• Claro está que la compañía SuperPower habría tenido las
mismas preocupaciones que nosotros, y con toda
probabilidad no habría hecho afirmaciones publicitarias
importantes solamente sobre la base del diseño
experimental que acabamos de describir.
• Un posible curso de acción para evitar la crítica sería
asegurar que todas las variables, excepto la que se esté
midiendo, hayan sido realmente controladas.
• A pesar del cuidado que se tuvo para producir tales
condiciones controladas, resulta que estos experimentos
sobrecontrolados realmente no solucionan el problema.
• Normalmente, en vez de invertir recursos en intentos de
eliminar variaciones experimentales, se elige una ruta
completamente diferente.
• Lo siguiente muestra cómo es posible lograr lo anterior.
Experimentos factoriales
• En el caso de la compañía SuperPower,
teníamos dos baterías (refirámonos a ellas
como A y B) y tres condiciones de prueba que
nos interesaban:
– 1) temperatura,
– 2) edad del motor y
– 3) condición del cable de la batería.
• Introducimos el concepto de experimentos
factoriales.
Auto Temperatura Motor Cable
Marca A Caliente H Nuevo N Bueno G
Marca B Fría C Viejo O Desgastado W
• En la mayor parte de los experimentos podríamos encontrar
más de dos condiciones de temperatura,
más de dos categorías de condiciones del motor del
automóvil y
más del cable de la batería.
• Pero es mejor introducir la idea de experimentos factoriales
usando un ejemplo simplificado en cierta medida.
• Entonces, como hay dos baterías, dos posibilidades de
temperatura, dos posibilidades de condiciones de motor y dos
posibilidades del cable de la batería, hay 2 X 2 X 2 X 2 = 16
combinaciones posibles de factores.
• Si quisiéramos escribir estas 16 posibilidades, se verían como la
Tabla siguiente:
RATAMIENTO FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 SÍMBOLO
TEMPERATURA
1 BATERIA A
CALIENTE
MOTOR NUEVO CABLE BUENO A C N B
TEMPERATURA CABLE
2 BATERIA A
CALIENTE
MOTOR NUEVO
DESGASTADO A C N D
TEMPERATURA
3 BATERIA A
CALIENTE
MOTOR VIEJO CABLE BUENO A C V B
TEMPERATURA CABLE
4 BATERIA A
CALIENTE
MOTOR VIEJO
DESGASTADO A C V D
TEMPERATURA
5 BATERIA A
FRÍA
MOTOR NUEVO CABLE BUENO A F N B
TEMPERATURA CABLE
6 BATERIA A
FRÍA
MOTOR NUEVO
DESGASTADO A F N D
TEMPERATURA
7 BATERIA A
FRÍA
MOTOR VIEJO CABLE BUENO A F V B
TEMPERATURA CABLE
8 BATERIA A
FRÍA
MOTOR VIEJO
DESGASTADO B F V D
TEMPERATURA
9 BATERIA B
CALIENTE
MOTOR NUEVO CABLE BUENO B C N B
TEMPERATURA CABLE
10 BATERIA B
CALIENTE
MOTOR NUEVO
DESGASTADO B C N D
TEMPERATURA
11 BATERIA B
CALIENTE
MOTOR VIEJO CABLE BUENO B C V B
TEMPERATURA CABLE
12 BATERIA B
CALIENTE
MOTOR VIEJO
DESGASTADO B C V D
TEMPERATURA
13 BATERIA B
FRÍA
MOTOR NUEVO CABLE BUENO B F N B
TEMPERATURA CABLE
14 BATERIA B
FRÍA
MOTOR NUEVO
DESGASTADO B F N D
TEMPERATURA
15 BATERIA B
FRÍA
MOTOR VIEJO CABLE BUENO B F V B
TEMPERATURA CABLE
16 BATERIA B
FRÍA
MOTOR VIEJO
DESGASTADO B F V D
• Una vez establecidas todas las combinaciones posibles de factores
involucrados en este experimento, sería posible llevar a cabo las 16
pruebas de la tabla.
• Si hiciéramos esto, habríamos efectuado un experimento factorial
completo, porque cada uno de los dos niveles de cada uno de los
cuatro factores se habrían utilizado una vez con cada combinación
posible de otros niveles de otros factores.
• Esta forma de diseño permite usar técnicas para probar el efecto de
cada uno de los factores. En experimento real, difícilmente
llevaríamos a cabo las pruebas en el orden en el que aparecen en la
tabla.
• Se acomodaron así para facilitar el conteo de las combinaciones y
determinar que todas combinaciones posibles realmente estuvieran
representadas.
• En la práctica, dejaríamos al azar el orden de las pruebas, tal vez
poniendo en un sombrero 16 números y determinando el orden del
experimento según fueran saliendo.
Mayor eficiencia en el diseño experimental
• Nuestro experimento de cuatro factores
requieren 16 pruebas para comparar todos los
niveles con todos los factores.
• Si tuviéramos que comparar las mismas dos
baterías, pero esta vez con cinco niveles de
temperatura, cuatro mediciones de condiciones
de motor y tres mediciones de condiciones del
cable de la batería, serían necesarias 2 X 5 X 4 X
3 = 120 pruebas para un experimento factorial
completo.
Cuadrado latino
• Los especialistas en estadística han reducido el
número de pruebas.
• Una compañía de productos de consumo que
desea probar en el mercado un nuevo dentífrico
en cuatro ciudades, con cuatro tipos de
empaques y con cuatro pautas de publicidad.
• En un caso así, un experimento factorial completo
tomaría 4 X 4 X 4 = 64 pruebas. Sin embargo, si
hacemos una planeación inteligente, podemos
llevarlo a cabo con 16 pruebas.
A = Ciudad 1 I = Empaque 1 1 = Pauta publicitaria 1
B = Ciudad 2 II = Empaque 2 2 = Pauta publicitaria 2
C = Ciudad 3 III = Empaque 3 3 = Pauta publicitaria 3
D = Ciudad 4 IV = Empaque 4 4 = Pauta publicitaria 4
El análisis
Pautas publicitarias
estadístico de los
1 2 3 4 datos del diseño
I C B D A experimental de un
cuadrado latino
Empaques
Ciudades
II B C A D
requiere una forma
III D A B C de análisis de
IV A D C B varianza.
Error Estándar: σ, s, o ETM
Una ciudad tiene 100,000 habitantes y su
distribución de contenido de medias de sodio en
la sangre de la población de personas de 25
años es la siguiente;
Tomamos varias muestras de 10
persona de 25 años de esa ciudad de
100,000 habitantes.
Hacemos el histograma de cada
muestra y calculamos la media y la
desviación estándar de las misma.
X
σ
σX
n
En resumen
𝑥1 ,x 𝑠1 𝑥2 , 𝑠x 2 𝑥3 , x𝑠3 𝑥𝑛x , 𝑠𝑛
X
−1𝜎𝑥 +1𝜎𝑥
σ
68.26% σX
n
X
Asociando las fórmulas tendremos
Valor tipo de un valor único 𝑋𝑗 − 𝑋
𝑍=
de una muestra 𝑆
μ n 2 2, x 2
x
2
1 x2
n 3 3, x 3
x1 x 2 x 3
3
n 4 4, x 4
x 1 x2 x3 x4
4
n , x
A medida que aumentamos el tamaño de la muestra, la
media de la muestra se aproxima a la media de la
población. ¿Cuánto se aproxima?
σ
σX
n
σ σ
σX σX
n n
¿Cuál es el significado del ETM?
• El ETM muestra la proximidad de los valores
medios obtenidos a partir de muestras sucesivas
respecto del verdadero valor de la media de la
población.
𝜎2
7,0 1,0
𝜎 𝜎2 𝑁𝑃 − 𝑁
8,5 6,3
𝜎𝑥2 = = 𝜎𝑥2 = × 5,0 1,0
X 𝑛 𝑛 𝑁 𝑁𝑃 − 1 5,5 0,3
7,0 1,0
6= 6 8,0
9,5
4,0
12,3
6,5 0,3
Si el valor de n es grande (n ≥ 30), la distribución muestral de las medias es 7,0 1,0
aproximadamente normal con media µ y desviación estándar σ, 8,5 6,3
9,5 12,3
independientemente de la población (siempre y cuando la media y la varianza
11,0 25,0
poblacionales sean finitas y el tamaño de la población sea por lo menos el doble Suma
del tamaño de la muestra). Si la población es infinita, este resultado es un caso 150,0 135,0
especial del teorema del límite central de la teoría avanzada de la probabilidad, el
cual muestra que la exactitud de la aproximación aumenta a medida que N
aumenta. Esto suele indicarse diciendo que la distribución muestral es
asintóticamente normal. Si la población está distribuida normalmente, la
distribución muestral de las medias también es normal aun cuando el valor de N
sea pequeño (es decir, N < 30).
Relación entre σ, , µ y n
Uno de los indicadores de la calidad del aire es el número medio de
microgramos de partículas en suspensión por metro cúbico de aire.
Es decir, el interés se centra en μ, la media de la variable aleatoria X,
número de microgramos de partículas en suspensión por metro
cúbico de aire.
xj xj- z=(xj-)/s
58 -3 -0,57
57 -4 -0,76
59 -2 -0,38
70 9 1,72
61 0 0
= 61
s =5,24
CÁLCULOS BÁSICOS
xj xj-
58 -3
57 𝑠2 𝑒𝑠 𝑢𝑛𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑠𝑒𝑠𝑔𝑎𝑑𝑎 𝑑𝑒 𝜎 2
-4
59 -2
70 9
61 0
= 61
s2 = 27,46
s = 5,24
x μ
z
σ
s n σ diferencia α
n 5,24 5 2,34 4,59 1,96
10 1,66 3,25
𝛿
1.96 = 15 1,35 2,65
𝜎𝑥
20 1,17 2,30
25 1,05 2,05
30 0,96 1,88
𝛿 = 1.96 × 𝜎𝑥 35 0,89 1,74
40 0,83 1,62
= 1.96 × 2.34 = 4.59
45 0,78 1,53
50 0,74 1,45
5,00
4,50
4,00
3,50
3,00
2,50
etm
2,00
diferencia
1,50
1,00
0,50
0,00
5 10 15 20 25 30 35 40 45 50
TAMAÑO DE LA MUESTRA
Algunas veces la media se
desviará por el hecho de
Esto implica que en una
que las colas de la curva
muestra aleatoria, la
están cada vez más cerca
media de los datos
del eje X significa que
tendrá un valor muy
cuantos mayores sean las
próximo al de la media
diferencias entres los
de la población.
valores medios de la
muestra y la
población, menor será la
frecuencia con la que se
presenten.
• Hay una probabilidad finita de que las grandes
diferencias aparezcan de forma inesperada.
• El problema existe cuando realizamos un estudio
y encontramos una diferencia.
• ¿A qué conclusión debemos llegar?
• La causa puede ser:
– Los dos grupos son diferentes
– Son solo debido al azar
• Ahora como determinamos si es lo uno o lo otro.
• La respuesta aparece con el concepto de
Significatividad al 5%.
SIGNIFICATIVIDAD
• Es la probabilidad de que haya una
diferencia cualquiera de cualquier
magnitud.
• Si la muestra es pequeña, se pueden
producir enormes diferencias no
significativas.
• Si la muestra es
grande, incluso, diferencias muy
pequeñas pueden ser significativas.
Concepto de significatividad al 5%
• Si hay una diferencia entre las medias, dado los valores
de la σ y n, y ocurre más de 5 veces de cada 100, la
probabilidad se debe al azar (las medias no son
diferentes).
2 2 2 4 0,38125
0,33125
Probabilidad
1 1 1 1 1 0,28125 0,25 5%
× × = 3 = = 0.125 = 12.5% 0,23125
2 2 2 2 8 0,18125
0,13125
0,125
1 1 1 1 1 1 0,08125
0,0625
Lanzamientos
1
= 0.05 = 5%
20
1 1 1 1 1 1 1
× × × × = 5= = 0.03125 = 3.125%
2 2 2 2 2 2 32
Niveles de significancia
• Cuando se prueba determinada hipótesis, a la probabilidad máxima con la que se está
dispuesto a cometer un Error Tipo I se le llama Nivel de Significancia de la prueba.
• Esta probabilidad acostumbra denotarse α y se especifica antes de tomar cualquier
muestra para evitar que los resultados obtenidos influyan sobre la elección del valor de
esta probabilidad.
• En la práctica, se acostumbran los niveles de significancia 0.05 o 0.01, aunque también se
usan otros valores.
• Si, por ejemplo, al diseñar la regla de decisión se elige el nivel de significancia 0.05
(5%), entonces existen 5 posibilidades en 100 de que se rechace una hipótesis que debía
ser aceptada; es decir, se tiene una confianza de aproximadamente 95% de que se ha
tomado la decisión correcta.
• En tal caso se dice que la hipótesis ha sido rechazada al nivel de significancia 0.05, lo que
significa que la hipótesis tiene una probabilidad de 0.05 de ser errónea.
Z= -1,96 Z= 1,96
Test de Z - 95% - UNILATERAL
95%
5% 50%
45%
100%
0,4500
Z= 1,645
• Como ejercicio se deja al
lector obtener los valores
del 99% bilateral y
unilateral.
PRUEBA DE HIPÓTESIS DE UNA
SOLA MUESTRA
• Prueba de Hipótesis de una muestra
• La hiponatremia (bajo contenido de sodio en
la sangre) es el deseo compulsivo de frotarse
con sal cualquier herida. El laboratorio clínico
de un hospital establece que la media normal
(µ) del suero sódico es de 140 mmol/L y una
desviación estándar (σ)de 2.5 mmol/L.
• Se elige un total de 25 (n) personas de la
administración del hospital y se realiza el
análisis de sodio de la sangre de los mismos.
La media resultante () es 138 mmol/L. ¿Es
este valor una evidencia de que los
administrativos analizados son
hiponatrémicos?
DATOS
POBLACIÓN
μ = 140
σ = 2.5
MUESTRA
n = 25
= 138
s = 2.5
Error tipo de la media σ
• Tiene una media de 138 en una muestra
de 25 personas.
• ETM será
σ 2.5
σX 0.5
n 25
DATOS
POBLACIÓN
μ = 140
σ = 2.5
MUESTRA
n = 25
= 138
s = 2,5
σ 2.5
σX 0.5
n 25
x μ x μ 138 140 2
z 4,0
d = 140-138 = 2 σX 2,5 0,5
25 25
El área entre ambas
medias se debe calcular El área entre 0 y -4 es
para saber el valor del
área azul a la izquierda 0,4999
de 138.
μ
138 140
Z= -4 Z= 0
x μ x μ 138 140 2
z 4,0
σX 2,5 0,5
25 25
-4 -1,96 +1,96 Z
0
Diagrama de flujo del procedimiento de cuatro pasos
Paso 1
Establezca la H0 a ser probada por ejemplo, H0:
µ = 140, H1: µ ≠ 140, H1: µ < 140 o H1: µ > 140
Paso 2
Especifique el nivel de significancia, α = 5%.
Paso 3
Calcule la razón z=(-μ)/(σ⁄√n) Use la Tabla de
la Curva Normal Estándar para encontrar la
probabilidad p de Z.
Paso 4
Establezca la conclusión: retenga H0 si p>α;
rechace H0 si p<α.
Para nuestro ejemplo tenemos
Paso 1: H0: no existe diferencia entre los administrativos
del hospital y las personas normales: X μ
H1: existe diferencia entre los administrativos del
hospital y las personas normales: X μ
Paso 2: α 5%
x μ 138 140 2
z 4
Paso 3: σ 2.5 0.5
n 25
Paso 4: La probabilidad de observar valores menores que
138 es 0.0001 (< 2,5%). Se recha la Ho a favor de H1.
-4
Z= -1,96 Z= 1,96
Error β es la prob. de aceptar la H0 cuando la H1 es cierta
139.02 − 138.0
𝑍= = 2.04
0.5
𝛽 = 0.5 − 0.4793 = 0.0207
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 % = 97.93%
𝑆𝑖 𝑃𝑜𝑡. ≥ 60%
𝑑𝑒𝑠𝑖𝑐𝑖ó𝑛 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎
𝜇
α/2
0 -1,96 0 +1,96 Z
X
Error β es la prob. de aceptar la H0 cuando la H1 es cierta
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 % = 97.93%
𝑆𝑖 𝑃𝑜𝑡. ≥ 60%
𝑑𝑒𝑠𝑖𝑐𝑖ó𝑛 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎
𝜇
139.02 − 138.0
𝑍= = 2.04
0.5
𝛽 = 0.5 − 0.4793 = 0.0207
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 % = 97.93
β
0 2,04 Z
X
Test de hipótesis como herramienta de prueba:
siempre hay errores
Estado real
VERDAD DESCONOCIDA
DECISIÓN TOMADA H0 cierta H1 cierta
105 − 100 ∆𝑋
= 𝑍𝛼 + 𝑍𝛽 = 3.24 = 𝑍𝛼 + 𝑍𝛽
𝑆 𝑛 𝑆 𝑛
2
𝑍𝛼 + 𝑍𝛽 × 𝑆
𝑛=
𝑍𝛼 + 𝑍𝛽 × 𝑆 ∆𝑋
𝑛= = 𝑆 2
∆𝑋 𝑛 = 𝑍𝛼 + 𝑍𝛽
∆𝑋
La Tabla B da el tamaño de la muestra necesaria para mostrar diferencias entre las medias igual a σ/δ
=S/Δ, que en este caso particular es 15/5 igual a 3. Mirando la Tabla B, encontramos la razón 3, y
observando las columnas para el error α 5% y error β 10% encontramos que el tamaño de la muestra es
96, que es muy cercano a 95.
𝑠 2
𝑛= 𝑧𝛼 + 𝑧𝛽
𝑥
2
15
𝑛= 1.96 + 1.28
5
𝑛 = 94.5 ≈ 95
Efecto Tamaño
Podemos hacer esto para cada par de valores
posibles S y ∆. Pero lo que haremos es calcular n
para diferentes razones de S/∆, esta razón se
llama Efecto Tamaño EFT. Este efecto es como el
valor Z y nos da la magnitud de la diferencia en
unidades estándar. Si la diferencia que se ha
obtenido es de 5 puntos y la S es de 15, el efecto
tamaño es 5/15 = 0.33.
Poblaciones diferentes
• μ1 ≠ μ2
μ2 μ1
Poblaciones iguales
μ1 = μ2
μ2 μ1
Error alfa y error beta
μ1 μ0
α β
DISEÑO EXPERIMENTAL
Es una técnica estadística que permite identificar y
cuantificar las causas de un efecto dentro de un
estudio experimental.
Se manipulan deliberadamente una o más
variables, vinculadas a las causas, para medir el
efecto que tienen en otra variable de interés.
Prescribe una serie de pautas relativas:
a qué variables hay que manipular,
de qué manera,
cuántas veces hay que repetir el experimento y
en qué orden para poder establecer con un grado de confianza
predefinido la necesidad de
una presunta relación de causa-efecto.
EL DISEÑO EXPERIMENTAL DETERMINA
Inicio
Dos
Medida u
Ordinal Medida u
Nominal Nominal
Tipo de Ordinal Tipo de
datos datos
T-test relacionado
Test
T-test independiente (pool Test de Chi- McNemar
o varianza separada) cuadrado para No-paramétrico-
asociación Test de
No-paramétrico-Test de Wilcoxon, Test de
Mann-Whitney signo
Elección de test para Comparar medias de dos o más muestras de un tratamiento
Diseño Experimental
Entre Suejetos Dentro Sujetos
Tipo de Datos
(Muestras Independientes) (Muestras Relacionadas)
Dos Muestras Dos Muestras
Interválico Muestra independientes t-test Muestras pareadas t-test
Ordinal Test de Wilcoxon-Mann Whitney Test de Signo de Rango. Test de Signo
Nominal Chi-Cuadrado McNemar
Tres o más Muestras Tres o más Muestras
Interválico ANOVA un factor ANOVA medidas repetidas
Ordinal Muestras K de Krustal-Wallis Friedman
Nominal Chi Cuadrado Cochran´s Q (solo datos nominales)
Test de t Student
• Para comparar los promedios de dos muestras
independientes de datos, la prueba t para muestras
independientes es a menudo apropiado.
• En su forma original, la prueba t para muestras
independientes utiliza una estimación media o agrupada
de la varianza de la población supuestamente constante.
• Por esta razón, se conoce a veces como prueba t
agrupada (pooled t test.)
• A veces los datos pueden no ajustarse a los requisitos de
la prueba t para muestras independientes.
• Si las varianzas de las muestras y/o tamaños de las
muestras son marcadamente diferentes, la prueba t de
varianza separada puede ser una opción más segura o
posiblemente recurrir a una prueba no paramétrica.
Ejemplo de una prueba t paramétrica
• Para ayudar a profes jóvenes a tener éxito en el mundo
académico, se ha ideado un curso de orientación en la que
aprenden como utilizar grandes palabras, cuando la
pequeña también la haría. Y para ayudarse a sobrevivir en
el mundo académico, decide hacer una investigación sobre
el mismo. Por lo tanto, se aleatoriza la mitad de tus profes
dispuestos a tomar el curso y la otra mitad a prescindir, a
continuación, medir todas las palabras oscuras que
murmuran. ¿Cómo voy utiliza estos datos para decir si
curso tuvo éxito? En pocas palabras, ¿cómo se puede
determinar la cantidad de la variación en las puntuaciones
hayan resultado de la diferencia entre los grupos y la
cantidad de variación dentro de los de grupos? La
siguiente tabla muestra los valores obtenidos luego de
asistir al curso y los obtenidos por el control
Participantes Control
35 22
31 25
29 23 Participantes Control
35 27
28 29 S 4,55 4
39 30 S2 20,67 16
41 28 n 10 10
37 30
39 33
38 21
33 29
• Para realizar la comparación de las medias, se
utiliza la prueba t de dos muestras. La fórmula
utilizada varia dependiente del tamaño de los
grupos involucrados, es decir si n1 es igual a n2
o no lo es. Para este caso en particular
utilizamos la siguiente fórmula:
Resultado de Excel
Prueba t para dos muestras suponiendo varianzas desiguales
Participantes Control
Media 35 27
Varianza 20,6666667 16
Observaciones 10 10
Diferencia hipotética de las medias 0
Grados de libertad 18
Estadístico t 4,17786374
P(T<=t) una cola 0,00028268
Valor crítico de t (una cola) 1,73406359
P(T<=t) dos colas 0,00056535
Valor crítico de t (dos colas) 2,10092204
El cociente intelectual (CI) de 16 estudiantes de una región de una
ciudad resultó con una media de 107 y una desviación estándar de
10, el CI de 14 estudiantes de otra región de esa ciudad resultó de
112 y la desviación estándar de 8. Al nivel de significancia: a) 0.01 y
b) 0.05, ¿hay diferencia entre los CI de estos dos grupos?
R1 R2 Alfa
Media 112 107 1%
Desviación estándar 8 10 5%
Tamaño 14 16
gl: grados de libertad
• Para calcular un estadístico, es necesario emplear
observaciones obtenidas de una muestra y también
ciertos parámetros poblacionales. Si estos parámetros
no se conocen, es necesario estimarlos a partir de la
muestra. El número de grados de libertad de un
estadístico, que por lo general se denota ѵ, se define
como la cantidad n de observaciones en la muestra (es
decir, el tamaño de la muestra) menos la cantidad k de
parámetros poblacionales que tengan que estimarse a
partir de las observaciones muestrales. En símbolos, ѵ
= n − k. En el caso de la media, la cantidad de
observaciones independientes en la muestra es n, y a
partir de ellas se calculan . Como se necesita estimar
μ, k = 1 y por lo tanto ѵ = n − 1.
Ver Tabla C
• Para nuestro caso, el grado de libertad es
18, debido a que se determinaron dos
medias aritméticas y la cantidad total de
datos es 20, por lo tanto 20 – 2 = 18. Para
un test de dos colas con 5% de
significancia el valor crítico para t es 2.10.
Si el valor t calculado es mayor que el
valor crítico 2.10, por tanto la diferencia
entre las medias es significativa.
• Para muestras con diferentes tamaños de n1 ≠
n2, la fórmula generalizada de test de t es la
siguiente:
Tamaño de la muestra y potencia
2
𝑍𝛼 + 𝑍𝛽 × 𝑆
𝑛 =2×
∆𝑋
La inversa 𝐸𝑓𝑒𝑐𝑡𝑜 𝑡𝑎𝑚𝑎ñ𝑜
𝑠 ∆𝑥
=𝑑
∆𝑥 𝑠
Para hacer funcionar esta ecuación:
• Como mínimo necesitamos conocer la media y la desviación
estándar, si no lo tienes: créalos, y en aras de conseguir una beca
por una fundación, tratar de justificar los datos con algo de
literatura.
• ¿Cuán grande es el efecto del tratamiento, (1- 2) = ∆, voy a
obtener?, esta pregunta nunca se sabe, porque si supiéramos, no
necesitaríamos hacer el estudio. Debes inventarlo, si el tamaño de
la muestra es más de lo que puedes conseguir en un año, dobla el
efecto del tratamiento. Si es muy pequeño reduce a la mitad el
efecto del tratamiento.
• La Tabla D nos da el tamaño que necesitamos, la primera columna
d es la razón δ/σ ó ∆/σ. Esta del revés como aparece en la
fórmula, pero es la forma estándar de expresar la diferencia de las
medias en unidades estándar, la expresión se denomina efecto
tamaño.
• Las Tablas E de apéndice da el tamaño que debería tener cada
muestra y la potencia del test, cuyo valor mínimo es de 80%, para
un valor significativo importante.
ANOVA Análisis de Varianza
• Es un conjunto de técnicas, cada uno de los
cuales se basa en un modelo de cómo se
generaron los datos y culmina en pruebas
que son sólo apropiado para ese modelo en
particular.
• Por lo tanto, es importante identificar
correctamente los experimentos de
ANOVA, con el fin de elegir las pruebas
correctas. Se describirán los experimentos
de ANOVA más comunes.
ANOVA: Un factor
• Los términos Factor y Nivel son las variables
independientes y el valor respectivamente.
• Un factor puede ser variable independiente o una
característica del participante, tal como el género,
que 'manipulamos' estadísticamente, mediante el
muestreo de las personas de cada categorías del
conjunto.
• Las variables de los participantes son tratados
exactamente de la misma manera que VIs que
están siendo manipulados directamente por el
experimentador
Factores Entre los sujetos y Dentro de
los de sujetos
• Entre sujetos: es decir, el participante se
prueba bajo una sola condición (es decir, en
un nivel) del factor. El género es un ejemplo
obvio.
• Dentro sujetos, es decir, el participante se
prueba en todas las diferentes condiciones
(niveles) que constituyen el factor.
– Un experimento con un factor dentro sujetos
también se dice que tiene medidas repetidas en
ese factor.
(a) Un factor entre sujetos experimentales
Factor: droga
Nivel Control Drogas A Droga B Droga C
Sujeto Grupo 1 Grupo 2 Grupo 3 Grupo 4
(b) Un factor dentro de sujetos experimentales
Factor: formas del objeto
Nivel Círculo Cuadrado Triángulo Diamante
Sujeto Los participantes realizan con las cuatro formas
Nivel del Nivel del factor color
factor género Rojo Azul
Hombres Cada participante prueba con objetivos de rojo y azul
Entre grupos
27,875 3 9,292 3,296 0,031 2,866
(marcas)
Total 129,375 39
Suma de Cuadrados SC (entre)
Sujetos Ramsés Jeque Troyano Sin nombre
1 4 5 7 2
2 4 5 8 1
3 5 6 7 2
4 5 6 9 3
5 6 7 6 3
6 3 6 3 4
7 4 4 2 5
8 4 5 2 4
9 3 6 2 4
10 4 3 3 3
Suma 42 53 49 31
Media 4,2 5,3 4,9 3,1
Gran media
4,375
G
• De esta tabla se obtiene la Suma de Cuadrados
(entre) que es el cuadrado de la desviación entre
la media de cada grupo con la gran media G.
Debido a que cada grupo posee 10 muestras de
valores, dicho valor final queda multiplicado por
10. En resumen se obtiene:
2
𝑆𝐶 𝑒𝑛𝑡𝑟𝑒 = 𝑛 𝑋 −𝑋
Suma de cuadrados SC (dentro)
• El siguiente paso para el análisis es la obtención
de la suma de cuadrados dentro que es la
desviación al cuadrado entre los valores
individuales de cada grupo con la media de dicho
grupo. Un ejemplo del cálculo seria la media
Ramsés menos la el valor individual del primer
individuo elevado al cuadrado: (4,2 – 4)2 = (0,2)2 =
0.04, cuyo valor se observa en el ángulo superior
izquierdo de la siguiente tabla. El resto de los
valores que se observa en la tabla sigue el mismo
procedimiento.
Diferencia al cuadrado por grupo
0,04 0,09 4,41 1,21
0,04 0,09 9,61 4,41
0,64 0,49 4,41 1,21
0,64 0,49 16,81 0,01
3,24 2,89 1,21 0,01
(Xj-)2
1,44 0,49 3,61 0,81
0,04 1,69 8,41 3,61
0,04 0,09 8,41 0,81
1,44 0,49 8,41 0,81
0,04 5,29 3,61 0,01
Suma 7,6 12,1 68,9 12,9
Suma
101,5
• La sumatoria del cálculo para la obtención se
observa en la siguiente ecuación.
2
𝑆𝐶 𝑑𝑒𝑛𝑡𝑟𝑜 = 𝑋𝑗 − 𝑋
Grados de libertad (df o gl)
• gl: Para calcular un estadístico, es necesario emplear observaciones
obtenidas de una muestra y también ciertos parámetros
poblacionales. Si estos parámetros no se conocen, es necesario
estimarlos a partir de la muestra. El número de grados de libertad
de un estadístico, que por lo general se denota ѵ, se define como la
cantidad n de observaciones en la muestra (es decir, el tamaño de
la muestra) menos la cantidad k de parámetros poblacionales que
tengan que estimarse a partir de las observaciones muestrales. En
símbolos, ѵ = n − k. En el caso del la media, la cantidad de
observaciones independientes en la muestra es N, y a partir de ellas
se calculan . Como se necesita estimar μ, k = 1 y por lo tanto ѵ = n
− 1.
• El siguiente paso de es determinar los grados de libertad para los
dos términos anteriores (Suma de cuadrados entre y dentro) para
determinar la media de cuadrados de ambos términos.
• Tenemos 4 grupos para SC entre, pero un grado de libertad se ha
perdido en el cálculo de la gran media. Luego el gl para la SC entre
es:
𝑔𝑙 𝑒𝑛𝑡𝑟𝑒 = 4 − 1 = 3
• Para la SC dentro se tiene 40 términos (datos):
4 grupos y 10 individuos por grupo. Pero
empleamos 1 gl por cada media determinada
y por tanto perdemos un total de 4. Luego el
gl para la SC entre es:
𝑔𝑙 𝑑𝑒𝑛𝑡𝑟𝑜 = 40 − 4 = 36
• Finalmente para determinar el gl totales
vendrán dados por los 40 términos y uno
perdido al determinar la gran media. Luego el
gl para el total es:
𝑔𝑙 𝑑𝑒𝑛𝑡𝑟𝑜 = 40 − 1 = 39
Medias de cuadrados
• Ahora determinamos la media de cuadrados
de la suma de cuadrados entre y dentro
dividiendo por sus respectivos grados de
libertad, en este caso 3 y 36 y obtenemos la
media cuadrada. Debido a que el gl es casi
igual al número de términos de la suma.
Cociente de las medias cuadradas – F
• Finalmente obtenemos el cociente de las medias
cuadradas, el valor F, que es la relación señal-
ruido de la diferencia entre grupos y dentro de
los grupos.
• Todo esto se resume en la tabla de ANOVA que se
muestra a continuación. Podemos ver si el valor F
calculado es significativo o no lo es.
• Al comparar los valores F calculado con F crítica
que sale de la Tabla se encuentra que Fcalculada >
Fvc.
• Quien haya hecho la marca sin nombre uso
diferente tipo de receta para elaborar su
producto.
El resultado se expresa mejor realizando una
comparación entre las medias utilizando un gráfico de
barras. Como se observa en el siguiente gráfico.
Decisión
• El punto crítico para un contraste con
α = 0.05 es aproximadamente 2,866.
• El valor observado de F es 3,296 es
mayor que 2,866.
• Tenemos prueba estadística de que
los tres tratamientos difieren en el
efecto medio.
Tamaño y Potencia del Test
• Tamaño y potencia del test
• Tendremos en cuenta el efecto tamaño, d, que
expresa el efecto del tratamiento en unidades de
desviación estándar, S. consideramos dos puntos:
– Hay varias medias.
– Las medias pueden estar distribuidas de varias formas.
• Por tanto, tendremos que hacer un par
estimaciones:
– Una sobre la media de las diferencias entre las medias.
– La otra sobre la probable distribución.
• Llamamos ∆ entre la mayor y la menor de las medias y d es la
razón δ/σ ó ∆ /S llamada efecto tamaño. Tenemos que distribuir
las medias entre ∆ .
• Hay una posibilidad que se presenta cuando tenemos tres grupos;
dos medicamentos y un placebo. Presumiblemente, los dos
medicamentos deben estar próximos en uno de los extremos de la
distribución de medias y el placebo en otro.
• Pero si tenemos un montón de tratamientos, medias, una primera
conjetura es que deberían de estar distribuidos por igual a lo largo
de la línea.
• Una tercera variación puede consistir en que hay un tratamiento
claramente ganador, el otro no hace nada, y el último se halla en el
centro.
• Para determinar el tamaño de la muestra se multiplica el valor d por
una fórmula (f) que varía dependiendo de la distribución de las
medias:
– Dispersión mínima
– Dispersión máxima
– Dispersión intermedia
Tamaño y Potencia del Test
1
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛 𝑚í𝑛𝑖𝑚𝑎 = 𝑑 ×
2𝑘
𝑘+1
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖ó𝑛 𝑖𝑛𝑡𝑒𝑟𝑚𝑒𝑑𝑖𝑎 = 𝑑 ×
3 𝑘−1
𝑘2 − 1
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖ó𝑛 𝑚á𝑥𝑖𝑚𝑎 𝑘 = 𝑖𝑚𝑝𝑎𝑟 = 𝑑 ×
2𝑘
1 𝑘+1 1 5+1 1
𝑓=𝑑× = 1.25 × = 1.25 × 0.5 = 0.442
2 3 𝑘−1 2 3 5−1 2
4 5 7 2 4,50
4 5 8 1 4,50
No circuncidados 5 6 7 2 5,00 5,05
5 6 9 3 5,75
6 7 6 3 5,50
Media del grupo 4,8 5,8 7,4 2,2
3 6 3 4 4,00
4 4 2 5 3,75
Con circuncisión 4 5 2 4 3,75 3,70
3 6 2 4 3,75
4 3 3 3 3,25
Media del grupo 3,6 4,8 2,4 4,0
Media de la
4,2 5,3 4,9 3,1 4,375
marca
Análisis de varianza de dos factores con varias muestras por grupo
Sin circuncisión
Cuenta 5 5 5 5 20
Suma 24 29 37 11 101
Promedio 4,8 5,8 7,4 2,2 5,05
Varianza 0,7 0,7 1,3 0,7 4,471
Con circuncisión
Cuenta 5 5 5 5 20
Suma 18 24 12 20 74
Promedio 3,6 4,8 2,4 4 3,7
Varianza 0,3 1,7 0,3 0,5 1,378
Total
Cuenta 10 10 10 10
Suma 42 53 49 31
Promedio 4,2 5,3 4,9 3,1
Varianza 0,844 1,344 7,655 1,433
ANÁLISIS DE VARIANZA
Origen SC GL MC F p VC F
Condición 18,225 1 18,225 23,516 0,000 4,149
Marcas 27,875 3 9,292 11,989 0,000 2,901
Interacción 58,475 3 19,492 25,151 0,000 2,901
Total 129,375 39
Suma de Cuadrados de Condición
• Igual a la sumatoria de de las medias de los no
circuncidados menos la gran media elevado al
cuadrado.
2 2
𝑆𝐶𝑐𝑜𝑛𝑑𝑖𝑐𝑖 ó𝑛 = 20 × 5.05 − 4.375 + 3.70 − 4.375 = 18.225
Dentro del
24,800 32 0,775
grupo
Regla de decisión
• Rechazar H0(A) si el estadístico FA cae en la
zona crítica. Mantener H0(A) en caso
contrario.
• Rechazar H0(B) si el estadístico FB cae en la
zona crítica. Mantener H0(B) en caso
contrario.
• Rechazar H0(AB) si FAB cae en la zona
crítica. Mantener H0(AB) en caso contrario.
Resultado
• Se rechazar la H0(A) de igualdad entre las medias en la
condición (no circuncidado/circuncidado) debido a que
el estadístico FA cae en la zona crítica, FA 23,516>FAC
4,149. Hay diferencia significativa entre los no
circuncidados y circuncidados.
• Se rechazar la H0(B) (marcas de preservativos) debido a
que el estadístico FB cae en la zona crítica, FB
11,989>FBC 2,901. Hay diferencia significativa entre las
marcas de preservativos.
• Se rechazar H0(AB) debido a la presencia de una
interacción entre los factores A y B debido a que
estadístico FAB cae en la zona crítica, FAB 25,151>FABC
2,901. Existe una interacción entre los factores A y B.
Suma de cuadrados e interacciones
determinadas por factores e interacción
Estatus de
Dentro del circuns
grupo, 24,8 A, 18,225
Estatus de circuns A
Marca Marca B
B, 27,875 Interacción AxB
Dentro del grupo
Interacción
AxB, 58,475
Grado de satisfacción y situación respecto a la circuncisión
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
Ramsés Jeque Troyano Desconocido
Marca
8,0
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
Troyano Desconocido