You are on page 1of 264

Lean Seis Sigma

Programa de certificacin
de Black Belts
VI. Lean Seis Sigma Anlisis
B
Segunda Parte
P. Reyes / Abril de 2010

VI.F Mtodos de anlisis


adicionales

Mtodos adicionales de
anlisis
1. Anlisis de brecha
2. Anlisis de causa raz
3. Anlisis del Muda

VI.F.1 Anlisis de brecha

El anlisis de brecha (Gap Analysis) es una


herramienta de evaluacin para comparar el
desempeo actual de la organizacin, a un
desempeo potencial deseado.

Identifica la diferencia de lo que es y lo que


debera ser

Anlisis de brecha

Se pueden redirigir los esfuerzos a objetivos


como:

Permanecer en el negocio
Mantener o incrementar la participacin del
mercado
Mejorar el clima laboral
Igualar o exceder a Benchmarks
Igualar o exceder a la competencia
Reducir tiempos de ciclo
Lograr certificaciones
Mejorar la productividad
Mejorar los niveles de calidad
6

Anlisis de brecha

Se requieren tres categoras de informacin

Dnde estamos?
Dnde queremos ir?
Cmo vamos a medir los resultados?

Planeacin de escenarios

Al elaborar planes estratgicos, los directivos


pueden confiarse o ser orgullosos de aceptar
cambios. Por lo que se sugiere considerar
escenarios del mejor y del peor caso, para
evitar errores en la toma de decisiones

Los escenarios permiten imaginar el


desempeo futuro de la organizacin ante
riesgos, para tomar las mejores decisiones y
atender estos eventos. Aunque algunos
elementos sean desconocidos
8

Planeacin de escenarios

El proceso de planeacin es como sigue:

Seleccionar al personal que pueda dar muchas


perspectivas
Desarrollar una lista de cambios percibidos,
sociales, tcnicos y econmicos
Agrupar estas percepciones en patrones
relacionados
Desarrollar una lista de las mejores
percepciones (prioridades)

Planeacin de escenarios

El proceso de planeacin es como sigue:

Desarrollar un escenario grueso del futuro


basado en estas prioridades
Determinar como afectan los escenarios a la
organizacin
Determinar los cursos de accin potenciales a
tomar
Monitorear, evaluar, y revisar los escenarios

10

Planeacin de escenarios

Por lo comn se perciben de 6 10 amenazas


u oportunidades en 2 o 3 escenarios
desarrollados. Evitar las siguientes trampas:

No utilizar un facilitador experimentado

Considerar escenarios como pronsticos

Hacer escenarios simplistas

Limitar el impacto global de los escenarios

11

Planeacin de escenarios

Evitar las siguientes trampas..:

No incluir a un equipo directivo en el proceso

Tratar los escenarios solo como actividad


informativa

Limitar el estmulo imaginativo en el diseo del


escenario

No desarrollar escenarios para rea de impacto


clave del negocio

12

Planeacin Hoshin

Es una herramienta de ejecucin, usada para


organizar y desplegar planes estratgicos

Hoshin traduce la visin de la empresa en


resultados medibles dramticos y rupturas
estratgicas

Hoshin se enfoca a identificar los pocos logros


vitales de ruptura

13

Planeacin Hoshin

Tiene seis objetivos:

Alinear las metas organizacionales

Enfocarse en las pocas brechas vitales


estratgicas

Trabajar con otros para cerrar las brechas

Especificar los mtodos para lograr los objetivos

Hacer visible el enlace entre planes locales

14

Otras tcnicas de anlisis


clave

Benchmarking

Anlisis FODA

Anlisis PEST

Las cinco fuerzas competitivas de Porter

15

Evaluacin organizacional

Anlisis funcional con datos de coleccin:

Entrevistas cara a cara


Seleccin de muestra apropiada
Entradas de grupo de enfoque
Observaciones de visitas a la planta
Datos colectados de fuentes de la industria

Se divide a la organizacin en reas


funcionales clave

Liderazgo, prcticas de negocio, anlisis


financiero, mercadotecnia, gestin de la calidad,
diseo y desarrollo, manufactura, salud y
seguridad, etc
16

Evaluacin organizacional

Se deben analizar los resultados y presentarlos


a la direccin, quien debe promover e
implementar planes de accin claros

Normalmente el consultor colecta y resume la


informacin en categoras principales para su
revisin por la direccin. Quienes deben
generar e implementar las soluciones y guiar
al xito

17

Mtricas organizacionales

Se establecen metas de desempeo


organizacional y sus mtricas en las reas de:

Utilidades
Tiempos de ciclo
Recursos
Respuestas del mercado

Por cada meta organizacional mayor deben


desarrollarse mtricas, con unidades y
mtodos de medicin.
18

Mtricas organizacionales
Para los anteriores, las mtricas pueden ser:
Utilidades a corto y largo plazo

Valor de acciones, inversin de capital, costos


personales, comparaciones competitivas, ROI,
ventas$

Tiempos de ciclo

Tiempos de ciclo actuales


Benchmarks internos
Benchmarks externos
Reduccin en tiempos de ciclo

19

Mtricas organizacionales

Recursos
No. De proyectos de mejora, ROI de proyectos,
estudios de capacidad de procesos, reducciones de
variabilidad, costos de calidad con relacin a una
base, porcentaje de defectos con relacin a alguna
base

Respuestas del mercado


Encuestas con clientes
Anlisis de devoluciones
Desarrollo de nuevos productos
Retencin de clientes
Prdidas con clientes
Tasas de cortesas e instalaciones

20

Mtricas organizacionales
Las mtricas permiten medir los avances en
relacin a las metas organizacionales

De acuerdo a Juran se debe tomar en cuenta lo


siguiente:

Las mtricas deben tener un significado


estndar
Deben apoyar el proceso de toma de decisiones
Deben proporcionar informacin valiosa
Debe ser fcil de instalar
Si son valiosas, deben usarse en todo

Las mtricas se basan en la retroalimentacin


con base en clientes, proveedores,21
o internas

VI.F.2 Anlisis de causa


raz

22

Anlisis de causa raz

Un equipo tiene la responsabilidad de


determinar la causa raz de una deficiencia y
corregirla. Pueden tomar varios pasos:

Situacin (presa con fuga)


Accin inmediata (desahogarla)
Accin intermedia (reparar la presa)
Accin en la causa raz (identificar que caus la
fuga para evitar su recurrencia y reconstruir la
presa)

23

Anlisis de causa raz


Se pueden utilizar las siguientes herramientas:
Herramientas subjetivas:

Preguntar por qu cinco veces, tormenta de


ideas,

anlisis de flujo de proceso, PHVA, grupo


nominal,

observacin de operacin, diagrama de causa


efecto,

24 de
tcnicas de consenso, seis sombreros

Anlisis de causa raz


Se pueden utilizar las siguientes herramientas:
Herramientas analticas:

Coleccin y anlisis de datos

Anlisis de Pareto, anlisis de regresin, hoja de


verificacin

Anlisis de matriz de datos


Anlisis de capacidad de procesos, divisin de
variacin

Subgrupos de datos, experimentos simples, DOE

25

Anlisis de causa raz


Ante una accin correctiva permanente, la
direccin debe determinar si:

El anlisis de causa raz ha identificado el


impacto completo del problema

La accin correctiva es efectiva para eliminar o


prevenir la recurrencia

La accin correctiva es realista y sostenible


26

Los 5 Por qus

Se hace la pregunta Por qu? Cinco veces

Por qu? Nos faltaron partes por mquina


daada
Por qu? La mquina no ha tenido
mantenimiento en los ltimos 3 meses
Por qu? El departamento de mantenimiento se
ha reducido a 6 personas de 8
Por qu? Se pas del presupuesto, les quitaron
el tiempo extra y dos personas
Por qu? La empresa no ha tenido los
resultados esperados y el director ha hecho
recortes para salvar la situacin, teme por su
puesto
27

5Ws y 1H

El mtodo de las 5Ws y 1H se resume al


preguntar quin?, qu?, cundo?, dnde?,
por qu? Y cmo?.

Pueden usarse las ramas del diagrama de


causa efecto

28

Diagrama de causa efecto

Rompe el problema en partes ms pequeas


Muestra muchas causas potenciales
grficamente
Muestra como interactan las causas
Sigue las reglas de la tormenta de ideas
Las sesiones tienen tres partes:

Tormenta de ideas
Dar prioridades (identificar las tres causas
principales)
Desarrollo de un plan de accin

29

Diagrama de Pareto

Sirve para identificar problemas u


oportunidades prioritarias o mayores

De acuerdo a Juran permite identificar los


pocos vitales de los muchos triviales

El principio de Pareto sugiere que unas


cuantas categoras de problemas (20% aprox.)
presentan la mayor oportunidad para la
mejora (80% aprox.)
30

Mtodo de las 8 disciplinas Ford

El mtodo de Ford para el anlisis de causa


raz es:
D1. Establecer el equipo
D2. Describir el problema
D3. Desarrollar una accin de contencin
D4. Identificar la causa raz
D5. Desarrollar alternativas de solucin
D6. Implementar una accin correctiva
permanente
D7. Prevenir la recurrencia
D8. Reconocer al equipo y las contribuciones
individuales
31

Anlisis de rbol de falla FTA

FTA es un mtodo sistemtico deductivo, para


definir un evento singular especfico e
indeseable, y determinar todas las posibles
razones (fallas) que pueden hacer que ocurra
el evento

Se utiliza el las primeras fases del diseo


como herramienta para impulsar
modificaciones iniciales de diseo.

32

Anlisis de rbol de falla FTA

Otras reas de su aplicacin son:

Anlisis funcional de sistemas complejos


Evaluacin de requerimientos de seguridad,
confiabilidad,
defectos de diseo,
riesgos de peligro,
acciones correctivas,
simplificacin de mantenimiento y deteccin de
falla,
eliminacin lgica de causas de falla

33

Anlisis de rbol de falla FTA

Se prefiere el FTA en vez del FMEA cuando:

La seguridad el personal es importante


Se pueden identificar un nmero pequeo de
eventos superiores
Hay alto potencial de falla
El problema es cuantificar la evaluacin del
riesgo
La funcionalidad del producto es altamente
compleja
El producto no es reaprables

34

Anlisis de rbol de falla FTA

Se prefiere el FMEA en vez del FTA cuando:

Los eventos superiores no se pueden definir


explcitamente
Son factibles mltiples perfiles potencialmente
exitosos
La identificacin de todos los modos de falla es
importante
La funcionalidad del producto tiene poca
intervencin externa

35

Anlisis de rbol de falla FTA

Smbolos de compuertas lgicas para


determinar la confiabilidad del sistema. Hay
smbolos de eventos y smbolos de
compuertas

Smbolos de eventos

Evento superior, falla a nivel sistema o evento


indeseable
Evento bsico, evento falla de ms bajo nivel
a estudiar
Evento de falla, evento de falla de bajo nivel. Puede recibir
entradas o proporcionar salidas a una compuerta lgica

36

Anlisis de rbol de falla FTA

Smbolos de compuertas lgicas

AND. El evento de salida ocurre solo


Si ocurren todos los eventos de entrada
Simultaneamente
OR. El evento de salida ocurre si
Ocurre alguno de los eventos de
La entrada
37

Anlisis de rbol de falla FTA

Ejemplo: se asume que falla el sistema


superior

38

Anlisis de rbol de falla FTA

La probabilidad de falla del sistema es 5.02%.


Se indica que el teclado es prioritario (0.20),
despus la CPU (0.015) y el monitor (0.015)

39

VI.F.3 Anlisis del Muda

40

Anlisis de Muda

Las actividades que no agregan valor se


clasifican como Muda, de acuerdo a Imai son:

Sobreproduccin
Inventarios
Reparaciones / rechazos
Movimientos
Transportes
Re Procesos
Esperas

41

Sobreproduccin

Se produce ms en cierto momento, por:

Producir ms de lo necesario por el siguiente


proceso
Producir antes de lo requerido por el siguiente
proceso
Producir ms rpido de lo requerido por el
siguiente proceso

Sus consecuencias son:

Espacio extra en las instalaciones del cliente


Materias primas adicionales en uso
Utilizacin de energticos y transportes
adicionales

42

Inventario en exceso

Las partes, materias primas, inventario en


proceso, refacciones y productos terminados
forman el inventario, el inventario es Muda ya
que requiere:

Espacio en piso, Transporte, Montacargas


Sistemas de transportadores
Inters sobre el costo de los materiales

Puede verse afectado por:

El polvo, deterioro, obsolescencia


Humedad (oxidacin), dao durante el manejo

43

Inventario en exceso

Las partes, materias primas, inventario en


proceso, refacciones y productos terminados
forman el inventario, el inventario es Muda ya
que requiere:

Espacio en piso, Transporte, Montacargas


Sistemas de transportadores
Inters sobre el costo de los materiales

Puede verse afectado por:

El polvo, deterioro, obsolescencia


Humedad (oxidacin), dao durante el manejo

44

Reparaciones / defectos

Las reparaciones o el retrabajo de partes


defectivas significa un segundo intento de
producirlas bien. Se rompe el Takt Time

Puede haber desperdicio de materiales o


productos no recuperable

Si hay defectos, no puede implementarse el


flujo de una pieza
Los cambios de diseo tambin son Muda

45

Movimientos

Los movimientos adicionales del personal son


Muda. Caminar mucho, cargar pesado,
agacharse, estirarse mucho, repetir
movimientos, etc.

El lugar de trabajo debe disearse


ergonmicamente, analizando cada estacin
de trabajo

La ergonoma puede causar daos y


produccin perdida
46

Movimientos

Algunas reglas de la ergonoma incluyen:

Enfatizar la seguridad todas las veces


Adecuar el empelado a la tarea
Cambiar el lugar de trabajo para que se adecue
al empleado
Mantener posiciones neutrales del cuerpo
Redisear las herramientas para reducir
esfuerzo y daos
Variar las tareas con rotacin de puestos
Hacer que la mquina sirva al ser humano

47

Reprocesos

Consiste de pasos adicionales en el proceso de


manufactura, por ejemplo:

Remocin de rebabas
Maquinado de partes mal moldeadas
Agregar procesos de manejo adicionales
Realizar procesos de inspeccin
Repetir cambios al producto innecesarios
Mantener copias adicionales de informacin

48

Transportes

Todo transporte es Muda excepto la entrega al


cliente. Incluye:

Uso de montacargas
Uso de transportadores
Uso de movedores de pallets y camiones

Puede ser causado por:

Deficiente distribucin de planta o de celdas


Tiempos de espera largos, reas grandes de
almacenaje, o problemas de programacin

49

Esperas

Ocurre cuando un operador est listo para


realizar su operacin, pero permanece ocioso,
por falla de mquina, falta de partes, paros de
lnea, etc. El Muda de espera puede ser por:

Operadores ociosos
Fallas de maquinaria
Tiempos de ajuste y preparacin largos
Tareas no programadas a tiempo
Flujo de materiales en lotes
Juntas largas e innecesarias

50

Mudas adicionales

Otros mudas adicionales a los 7 desperdicios


son:

Recursos mal utilizados


Recursos poco utilizados
Actividades de conteo
Bsqueda de herramientas o partes
Sistemas mltiples
Manos mltiples
Aprobaciones innecesarias
Fallas de mquinas
Envo de producto defectivo al cliente o mal
servicio
51

VI.B.3 Regresin lineal


mltiple

52

Regresin mltiple

Cuando se usa ms de una variable independiente para


predecir los valores de una variable dependiente, el
proceso se llama anlisis de regresin mltiple, incluye
el uso de ecuaciones lineales.

Yu 0 1 X u1 2 X u 2 ....... k X uk u
Se asume que los errores u tienen las caractersticas
siguientes:
Tienen media cero y varianza comn 2.
Son estadsticamente independientes.
Estn distribuidos en forma normal.

53

Regresin mltiple
Estimacin de los parmetros del modelo

Se trata de minimizar los errores cuadrticos en:


N

R ( 0 , 1 ,..., k ) (Yu 0 1 X u1 2 X u 2 ..... uk ) 2


u 1

El modelo de regresin mltiple en forma matricial es:


Y = X + = [1 : D] +
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la 1. columna
es 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1,54
2, ......, k

Regresin mltiple
Estimacin de los parmetros del modelo:
b = (XX)-1 XY
El vector de valores ajustados
Y Xb
como:

se puede expresar

Y Xb X ( X ' X ) 1 X ' Y Hy

La varianza del modelo se estima como:


SSE (Y Y ) e e' e
2

i 1

2
i

SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb

SSE Y ' Y b' X ' Y

s 2 MSE

SSE
N 55
p

Tamao de muestra

Tomar 5 observaciones para cada una de las


variables independientes, si esta razn es
menor de5 a 1, se tiene el riesgo de
sobreajustar el modelo

Un mejor nivel deseable es tomar 15 a 20


observaciones por cada variable
independiente

56

Ejemplo de regresin
mltiple

Un embotellador est analizando las rutas de servicio de


mquinas dispensadoras, est interesado en predecir la
cantidad de tiempo requerida por el chofer para surtir
las mquinas en el local (Y).

La actividad de servicio incluye llenar la mquina con


refrescos y un mantenimiento menor.

Se tienen como variables el nmero de envases con que


llena la mquina (X1) y la distancia que tiene que
caminar (X2).

57

Ejemplo de regresin
mltiple

58

Ejemplo de regresin mltiple


Solucin matricial

59

Ejemplo de regresin mltiple


Solucin matricial

60

Ejemplo de regresin mltiple


Solucin matricial

61

Ejemplo de regresin mltiple


Solucin matricial

Intervalo de confianza para Beta 1

b1 t.025, 22 se(b1 ) 1 b1 t.025, 22 se(b1 )


1.61591 ( 2.074) (10.6239)(0.00274378) 1 1.6191 ( 2.074)(0.17073)
Por tanto el intervalo de confianza para el 95% es:
1.26181 1 1.97001

62

Ejemplo de regresin mltiple


Solucin matricial

El embotellador desea construir un intervalo de


confianza sobre el tiempo medio de entrega para un
local requiriendo:
X1 = 8 envases y cuya distancia es X2 = 275 pies.
2.34123
1
Y0 X ' 0 b 1,8,275 1.61591 19.22minutos
X0 8

0.01438
275

La varianza de la Y0 estimada es (tomando M8=inv(XX) :


1
Var (Y0 ) S 2 X ' 0 ( X ' X ) 1 X 0 10.62391,8,275 M 8 8 10.6239(0.05346) 0.56794

275

63

Ejemplo de regresin mltiple


Solucin matricial

El intervalo de confianza sobre el tiempo medio de


entrega para un local requiriendo es para 95% de nivel
de confianza:

19.22 2.074 0.56794 Y0 19.22 2.074 0.56794

Que se reduce a: 17.66 Y0 20.78

64

Ejemplo de regresin mltiple


Solucin matricial

El anlisis de varianza es:

65

Ejemplo de regresin mltiple


Solucin matricial

El comportamiento de los residuos es como sigue:

66

Multicolinealidad

La multicolinealidad implica una dependencia cercana


entre regresores (columnas de la matriz X ), de tal
forma que si hay una dependencia lineal exacta har
que la matriz XX sea singular.

La presencia de dependencias cercanamente lineales


impactan dramticamente en la habilidad para estimar
los coeficientes de regresin.

La varianza de los coeficientes de la regresin son


inflados debido a la multicolinealidad. Es evidente por
los valores diferentes de cero que no estn en la
diagonal principal de XX. Que son correlaciones
simples entre los regresores.

67

Multicolinealidad

Una prueba fcil de probar si hay multicolinealidad


entre dos variables es que su coeficiente de correlacin
sea mayor a 0.7

Los elementos de la diagonal principal de la matriz XX


se denominan Factores de inflacin de varianza (VIFs) y
se usan como un diagnstico importante de
multicolinealidad. Para el componente j simo se
1
tiene:
VIF j
1 R 2j

Si es mayor a 10 implica que se tienen serios problemas


de multicolinealidad.
68

Anlisis de los residuos

Los residuos graficados vs la Y estimada, pueden


mostrar diferentes patrones indicando adecuacin o no
adecuacin del modelo:

Grfica de residuos aleatorios cuya suma es cero (null


plot) indica modelo adecuado

Grfica de residuos mostrando una no linealidad


curvilnea indica necesidad de transformar las variables

Si los residuos se van abriendo indica que la varianza


muestra heteroestacidad y se requiere transformar las
variables. Se puede probar con la prueba de Levene de
homogeneidad de varianzas
69

Escalamiento de residuos

En algunos casos es difcil hacer comparaciones directas


entre los coeficientes de la regresin debido a que la
magnitud de bj refleja las unidades de medicin del
regresor Xj. Por ejemplo:

Y 5 X 1 1000 X 2

Para facilitarla visualizacin de residuos ante grandes


diferencias en los coeficientes, se sugiere estandarizar o
estudentizar los residuos

70

Escalamiento de residuos

Residuos estandarizados

Se obtienen dividiendo cada residuo entre la


desviacin estndar de los residuos

di

ei
,
MSE

Despus de la estandarizacin, los residuos


tienen una media de 0 y desviacin estndar de
1

Con ms de 50 datos siguen a la distribucin t,


de manera que si exceden a 1.96 (lmite
para
71

Escalamiento de residuos

Residuos estudentizados

Son similares a los residuos donde se elimina una


observacin y se predice su valor, pero adems se
elimina la i-sima observacin en el clculo de la
desviacin estndar usada para estandarizar la sima observacin

Puede identificar observaciones que tienen una gran


influencia pero que no son detectadas por los
residuos estandarizados

H = X (XX)-1X es
e la matriz sombrero o hat matriz.

ri

MSE (1 hii )

72

Escalamiento de residuos

El estadstico PRESS (Prediction Error Sum of Squares)


es una medida similar a la R2 en la regresin. Difiere en
que se estiman n-1 modelos de regresin.

En cada modelo se omite una observacin en la


estimacin del modelo de regresin y entonces se
predice el valor de la observacin omitida con el modelo
estimado. El residuo isimo ser:

e( i ) Yi Y( i )

El residuo PRESS es la suma al cuadrado de los residuos


individuales e indica una medida de la capacidad de
N
prediccin
2
PRESS
2
2
PRESS e( i ) Yi Y( i )
i 1

RPr ediccin 1

SYY 73

Grficas parciales de
regresin

Para mostrar el impacto de casos individuales es ms


efectiva la grfica de regresin parcial. Un caso outlier
impacta en la pendiente de la ecuacin de regresin (y
su coeficiente).

Una comparacin visual de la grfica de regresin


parcial con y sin la observacin muestra la influencia de
la observacin

El coeficiente de correlacin parcial es la correlacin de


la variable independiente Xi la variable dependiente Y
cuando se han eliminado de ambos Xi y Y

La correlacin semiparcial refleja la correlacin


74 entre las

Matriz sombrero

Los puntos de influencia son observaciones


substancialmente diferentes de las observaciones
remanentes en una o ms variables independientes

Contiene valores (sombrero en su diagonal) para cada


observacin que representa influencia. Representa los
efectos combinados de todos las variables
independientes para cada caso

75

Matriz sombrero

Los valores en la diagonal de la matriz sombrero miden


dos aspectos:
Para cada observacin miden la distancia de la
observacin al centro de la media de todas las
observaciones de las variables independientes

Valores altos en la diagonal indica que la observacin


tiene mucho peso para la prediccin del valor de la
variable dependiente, minimizando su residuo
El rango de valores es de 0 a 1, con media p/n, p es
el nmero de predictores y n es el tamao de
muestra. Valores lmite se encuentran en 2p/n y 3p/n

76

Distancia de Mahalanobis

D2 es una medida comparable a los valores sombrero


(hat values) que considera slo la distancia de una
observacin del valor medio de las variables
independientes.

Es otra forma de identificar outliers

La significancia estadstica de la distancia de


Malahanobis se puede hacer a partir de tablas del texto:
Barnett, V., Outliers in Statistical Data, 2nd. Edition,
Nueva York, Wiley, 2984

77

Influencia en coeficientes
individuales

El impacto de eliminar una observacin simple en


cada uno de los coeficientes de la regresin
mltiple se muestra con la DFBETA y su versin
estandarizada SDFBETA.

Se sugiere aplicar como lmites 1.0 o 2 para


tamaos de muestra pequeos y n para muestras
medias y grandes

La distancia de Cook (Di) captura el impacto de una


observacin:
La dimensin del cambio en los valores pronosticados
cuando se omite la observacin y la distancia de las
otras observaciones, el lmite es 1 o 4/(n-k-1)
78

Influencia en coeficientes
individuales

La medida COVRATIO estima el efecto de la


observacin en la eficiencia del proceso, en sus
errores estndar de los coeficientes de la
regresin. Considera a todos los coeficientes
colectivamente.

El lmite puede ser establecido en 1 3p/n, los


valores mayores al lmite hacen el proceso ms eficiente y
los menores ms ineficiente

La medida SDFFIT es el grado en que cambian los


valores ajustados o pronosticados cuando el caso se
elimina. El valor lmite es 2*raz((k+1)/(n-k-1))

Ejemplo de regresin
mltiple
Solucin con Excel y Minitab

80

Ejemplo de Regresin Mltiple


Cat. (US News) GMAT
Stanford
1
711 82000
Harvard
2
670 80000
Penn (Wharton) 3
662 79000
MIT (Sloan)
4
650 78000
Chicago
5
680 65000
Northwestern
6
660 70000
Columbia
7
660 83000
Dartmouth
8
670 70000
Duke
9
646 67500
Berkeley
10 653 70000
Virginia
11
660 66000
Michigan
12 645 65000
NYU
13 646 70583
Carnegie Mellon 14 640 67200
Yale
15 675 65000
U.N.C.
16 630 60000
UCLA
17 651 65000
Texas-Austin
18 630 60000
Indiana
19 630 61500
Cornell
20 637 64000
Rochester
21 630 58500
Ohio State
22 611 61000
Emory
23 626 60000
Purdue
24 603 63700
Maryland
25 640 53000

Salario Inicial ($)


7.4
12.8
14.7
15.1
25.0
16.0
14.8
12.6
20.5
13.3
18.9
28.0
20.9
30.8
23.5
19.8
17.5
27.3
44.7
25.4
36.0
23.2
33.0
20.7
18.9

% Aceptacin

81

nterpretacin de Resultados de Excel- Regresin Multiple


SUMMARY OUTPUT
Regression Statistics
Multiple R
0.8749313 R Square 0.76550478
Adjusted R Square
0.732005463 Standard Error 4050.855918 Observations
25
ANOVA
df SS
MS
F
Significance F
Regression 3
1.12E+09
374977790.1
22.851355 8.17E-07
Residual
21 3.45E+08
16409433.67
Total
24 1.47E+09
Coefficients Standard
t Stat
P-value Lower 95% U pper 95%
Error
Intercept
122481.40 41473.13 2.953271081 0.007589
36233.29
208729.5
X Variable1 -926.873
513.424
X Variable2 -59.9488
65.76118
X Variable3 -191.7291
69.49917

198.8104 -4.662094325 0.0001336


60.44875 -0.991730876 0.3326192
125.6138 -1.526337637 0.1418472

-1340.32 -185.659
-452.957

Resultados de Excel- Regresin slo con slo X1


SUMMARY OUTPUT
Regression Statistics
Multiple R
0.855974

R Square 0.732691
Adjusted R Square
0.721069
Standard Error
4132.688
Observations 25
ANOVA
df
Regression
Residual
Total

SS
MS
F
1
1.08E+09
23 3.93E+08
24 1.47E+09

Significance F
1.08E+09
63.04264
17079107

4.88E-08

Coefficients Standard Error


t Stat
P-value Lower 95% Upper 95%
Intercept
79230.32
1703.951
46.49801
2.98E-2475705.43405
82755.20595
X Variable1 -910.077
114.6201 -7.93994
4.88E-08-1147.186411
-672.9674353

Con
Conslo
sloX1,
X1,el
el Modelo
Modelose
sesimplifica
simplificaenormemente
enormemente
2
poca
pocaimportancia
importanciaprctica
prcticase
se pierde
pierdeen
enRR2 (ajustada)
(ajustada)

Reduccin
del Modelo
Vuelva a correr
la regresin usando la categora
US News, como el nico agente de prediccin (predictor)
La ecuacin de regresin es:
y = 79230 - 910 x
Predictor
Constante
x

Coef
Desv. Estndar T
79230 1704
46.50
-910.1 114.6
-7.94

S = 4133

R2 = 73.3%

p
0.000
0.000

R2 (ajustada) = 72.1%

Anlisis de Variancia
Fuente
Regresin
Error
Total

DF
1
23
24

SS
MS
F
1076712008
1076712008
392819470
17079107
1469531477

p
63.04

0.000

El
El Modelo
Modelo se
se simplifica
simplifica enormemente..poca
enormemente..poca
22
importancia
prctica
se
pierde
en
R
importancia prctica se pierde en R (ajustada)
(ajustada)

Corrida en Minitab

Se introducen los datos en varias columnas C1


a C5 incluyendo la respuesta Y (heatflux) y las
variables predictoras Xs (North, South, East)
HeatFlux

Insolation

East

South

North

271.8

783.35 33.53

40.55

16.66

264.0

748.45 36.50

36.19

16.46

238.8

684.45 34.66

37.31

17.66

230.7

827.80 33.13

32.52

17.50

251.6

860.45 35.75

33.71

16.40

257.9

875.15 34.46

34.14

16.28

85

Corrida en Minitab

Utilzar el archivo de ejemplo Exh_regr.mtw


Opcin: Stat > Regression > Regression
Para regresin lineal indicar la columna de
respuesta Y (Score2) y X (Score1)

En Regresin lienal en opciones se puede


poner un valor Xo para predecir la respuesta e
intervalos. Las grficas se obtienen Stat >
Regression > Regression > Fitted line Plots

Para regresin mltiple Y (heatflux) y las


columnas de los predictores (north, south,
86
east)

Resultados de la regresin
lineal
The regression equation is
Score2 = 1.12 + 0.218 Score1
Predictor
Constant
Score1

Coef

SE Coef

1.1177

0.1093

10.23

0.000

0.21767

0.01740

12.51

0.000

S = 0.1274

R-Sq = 95.7%

R-Sq(adj) = 95.1%

Analysis of Variance
Source
Regression

DF

SS

MS

2.5419

2.5419

156.56

0.000

Residual Error

Total

0.1136
8

0.0162

2.6556

Predicted Values for New Observations


New Obs
1

2.6414

Fit

SE Fit
0.0474

95.0% CI
(

2.5292,

New Obs
1

2.7536)

95.0% PI
(

2.3197,

Score1
7.00

87

2.9631)

Resultados de la regresin
lineal
Regression Plot
Score2 = 1.11771 + 0.217670 Score1
S = 0.127419

R-Sq = 95.7 %

R-Sq(adj) = 95.1 %

Score2

3.5

2.5

Regression
1.5

95% CI
95% PI
2

Score1

88

Resultados de la regresin
Mltiple
The regression equation is
HeatFlux = 389 - 24.1 North + 5.32 South + 2.12 East
Predictor

Coef

SE Coef

389.17

66.09

5.89

0.000

North

-24.132

1.869

-12.92

0.000

South

5.3185

0.9629

5.52

0.000

2.125

1.214

1.75

0.092

Constant

East
S = 8.598

R-Sq = 87.4%

R-Sq(adj) = 85.9%

Analysis of Variance
Source
Regression

DF

SS

MS

12833.9

4278.0

57.87

0.000

Residual Error

25

1848.1

Total

28

73.9

14681.9

Source

DF

Seq SS

North

10578.7

South

2028.9

East

226.3

89

Resumen de la Regresin

La regresin slo puede utilizarse con informacin de variables


continuas.

Los residuos deben distribuirse normalmente con media cero.

Importancia prctica: (R2). Importancia estadstica: (valores p)

La regresin puede usarse con un predictor X o ms,


para una respuesta dada

Reduzca el modelo de regresin cuando sea posible,


sin perder mucha importancia prctica

90

VI.B.4 Herramientas
multivariadas

91

Herramientas multivariadas
1. Introduccin
2. Anlisis de componentes principales
3. Anlisis factorial
4. Anlisis discriminante
5. MANOVA
92

Introduccin

En el anlisis multivariado se incluyen dos o


ms variables dependientes Y1, Y2, etc.
Consideradas simultneamente para las
variables independientes X1, X2, ., Xn

Normalmente se resuelven con herramientas


computacionales tales como Minitab y SPSS.

Entre las herramientas principales se


encuentran:

Componentes principales, anlisis factorial,


anlisis discriminante, anlisis de
conglomerados, anlisis cannico, 93
MANOVA

Anlisis de componentes
principales

El anlisis (PCA) y el anlisis factorial (FA) se


usan para encontrar patrones de correlacin
entre muchas variables posibles y
subconjuntos de datos

Busca reducirlas a un menor nmero de


componentes o factores que representen la
mayor parte de la varianza.

Normalmente se requieren al menos 100


observaciones y cinco observaciones por
variable
94

Anlisis de componentes
principales

Pasos de anlisis en Minitab

Se usa una matriz de correlacin para


determinar la relacin entre componentes
Las matrices definen cantidades como
eigenvalores y eigenvectores
Se suman los eigenvalores y se calculan las
proporciones de cada componente
Se identifican los PC1, PC2, que explican la
mayor parte de la varianza
Se puede hacer un diagrama de Pareto como
apoyo

95

Ejemplo: Alimentos en
Europa

96

Corrida en Minitab
2Stat > Multivariate > Principal components
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4En Number of factors to extract, 3. Seleccionar
Correlation Matrix
5Click Graphs y seleccionar Scree Plot, Score plot
for first 2 components Loading plot for first 2
components
8 Click Storage e indicar las columnas donde se
guarden los coeficientes y los valores Z (scores) Coef1
Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de dilogo

97

Ejemplo: Alimentos en
Europa

Dos componentes exceden


El eigenvalor de ref. de 1
98

Ejemplo: Alimentos en
Europa

99

Ejemplo: factores principales para


crecimiento tecnolgico en la
comunidad

Factores independientes

Miles de trabajadores en alta tecnologa


Cultura emprendedora (inicios por ao)
Interacciones con la universidad (proyectos por
ao)
Clases de creatividad (porcentaje de
profesionales)
Cantidad de capital de aventura (millones de
dlares)

100

Matriz de correlacin del


ejemplo

101

Resultados

La suma de los eigenvalores es aprox. cinco

La proporcin de la varianza explicada por el


componente 1 es de 71.7%

PC1 y PC2 explican el 89.2% de la varianza,


por tanto son los componentes principales

102

Anlisis factorial

Es una tcnica de reduccin de variables para


identificar factores que expliquen la variacin,
aunque se reiere un juicio subjetivo.

Las variables de salida estn relacionadas


linealmente con las variables de entrada.

Las variables deben ser medibles y simtricas.


Debe haber cuatro o ms factores de entrada
para cada variable independiente
103

Anlisis factorial

Se especifican un cierto nmero de factores


comunes

El anlisis factorial se hace en dos etapas:

Extraccin de factores, para identificar los


factores principales para un estudio posterior
Rotacin de factores, para hacerlos ms
significativos

104

Corrida con Minitab


2Stat > Multivariate > Factor Analysis.
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4En Number of factors to extract, 4.
En Method of Extraction, seleccionar Principal
components
6En Type of Rotation, seleccionar Varimax.
7Click Graphs y seleccionar Loading plot for first 2
factors y Scree Plot.
Click Results y seleccionar Sort loadings.
Seleccionar Storage e indicar columnas para
ponderaciones, coeficientes, Zs, eigenvalores, etc.
Click OK en cada uno de los cuadros de d

105

Ejemplo

106

Ejemplo:

107

Anlisis discriminante

Si se tiene una muestra con grupos conocidos,


el anlisis discriminante clasifica las
observaciones o atributos en dos o ms grupos

Puede utilizarse como herramienta predictiva o


descriptiva

Las variables deben ser multivariadamente


normales, con la misma varianza y covarianza
poblacional entre variables dependientes, y las
muestras exhiben independencia
108

pases

109

Corrida con Minitab


2Stat > Multivariate > Discriminant
Analysis.
3En Groups, poner SalmonOrigin.
4 En Predictors, poner Freshwater Marine.
Click OK.

110

Corrida con Minitab

111

Anlisis de conglomerados

112

Anlisis de conglomerados

Se usa para determinar agrupaciones o


clasificaciones de un conjunto de datos

Las personas se pueden agrupar por IQ,


padres, hbitos de estudio, etc.

Se trata de dar sentido a grandes cantidades


de datos de cuestionarios, ecnuestas, etc.

113

Ejemplo

Suponer que un estudio


de mercado trata de
determinar segmentos
de mercado en base a los
patrones de lealtad de
marcas (V1) y tiendas
(V2), medidas del 0 al 10
en 7 personas (A-G).

Variables V1

V2

114

Corrida en Minitab

Stat > Multivariate Anlisis > Cluster


Observations
Distance Measured Euclidean Seleccionar
Show Dendogram OK

115

Anlisis de correlacin
cannico

Prueba la hiptesis de que los efectos pueden


tener causas mltiples y de que las causas
pueden tener efectos mltiples (Hotelling
1935)

Es como una regresin mltiple para


determinar la correlacin entre dos conjuntos
de combinaciones lineales, cada conjunto
puede tener varias variables relacionadas.
La relacin de un conjunto de variables
dependientes a un conjunto de variables
independientes forma combinaciones lineales

116

Anlisis de correlacin
cannico

Se usan los ms altos valores de correlacin


para los conjuntos. Los pares de
combinaciones lineales se denominan variates
cannicas con correlaciones cannicas (Rc con
valor mayor a 0.3)

Por ejemplo se quiere determinar si hay una


correlacin entre las caractersticas de un
ingeniero industrial y las habilidades
requeridas en la descripcin de puesto del
mismo ingeniero.
117

coches

118

coches

119

coches

120

coches

121

Ejemplo: Statgraphics coches


La primera correlacin de 0.94 tiene correlaciones
cannicas asociadas:
U1 = 0.262 Engine Size + 0.127 Horsepower +
0.024 Length + 0.041 Wheelbase - 0.068 Width +
0.004 Rear Seat + 0.658 Weight
V1 = 0.257 Mid Price 0.097 * GPM Highway +
0.652 GPM City + 0.322 U Turn Space
Las variables estn estandarizadas. Parece haber
una relacin primaria entre peso del vehculo y las
millas por galn de rendimiento.
122

MANOVA
(Anlisis de varianza mltiple)

Es un modelo para analizar la relacin entre


una o ms variables independientes y dos o
ms variables dependientes

Prueba si hay diferencias significativas en las


medias de grupos de una combinancin de
respuestas Y.

Los datos deben ser normales, con covarianza


homogenea y observaciones independientes
123

MANOVA
(Anlisis de varianza mltiple)

124

Diferencias de ANOVA y MANOVA

125

Ejemplo:
Extrusin de pelcula plstica

Se realiza un estudio para determinar las


condiciones ptimas para extruir pelcula
plstica.

Se miden tres respuestas Tear, gloss y


opacity cinco veces en cada combinacin de
dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos
y altos.

Se utiliza el MANOVA balanceado para probar


la igualdad de las medias.
126

Ejemplo:
Extrusin de pelcula plstica

127

Ejemplo:
Extrusin de pelcula plstica
1Abrir el archivo EXH_MVAR.MTW.
2Seleccionar Stat > ANOVA > Balanced
MANOVA.
3En Responses, poner Tear Gloss Opacity.
4En Model, poner Extrusion | Additive.
5Click Results. En Display of Results,
seleccionar Matrices (hypothesis, error,
partial correlations) y Eigen analysis.
6 Click OK en cada cuadro de dilogo.
128

Ejemplo

129

Ejemplo:
Extrusin de pelcula plstica
Las matrices SSCP evalan la contribucin a la
variabilidad de manera similar a la suma de
cuadrados en la ANOVA univariada.
Las correlaciones parciales entre Tear y Gloss son
pequeas. Como la estructura de las
correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una
de las respuestas.

130

VI.B.5 Anlisis de datos


por atributos

131

Anlisis de datos por


atributos

Si los CTQs son variables continuas, se usa la


regresin, dependiendo de la naturaleza de la
caracterstica crtica para el cliente (CTSs)
como ste la expresa:
CTS
HERRAMIENTA
Nominal (Verde, Rojo, azul) Regresin Logstica
Nominal
Atributo (Pasa/No pasa)
Regresin Logstica
Binaria
Ordinal (1, 2, 3, 4, 5)
Regresin Logstica
Ordinal

132

Anlisis de datos por


atributos

El anlisis de datos por atributos se organiza


en valores, categoras o grupos dicotmicos

Las decisiones incluyen: si / no, pasa / no pasa,


bueno / malo,
pobre/justo/bueno/superior/excelente, etc.

Entre los modelos no lineales de regresin


usados se tienen: regresin logstica, regresin
logit y regresin probit
133

Anlisis de datos por


atributos

Regresin logstica

Relaciona variables independientes categricas


a una variable dependiente (Y). Minitab incluye
los modelos binario, ordinal y nominal

Regresin logit

Es subconjunto del modelo log-lineal. Tiene solo


una variable dependiente, usa determinaciones
de probabilidad o tasa de probabilidad

134

Anlisis de datos por


atributos

Regresin probit

Es similar a la prueba de vida acelerada, la


unidad se somete a esfuerzo con la respuesta
pasa/falla, bueno o malo. Es una respuesta
binaria en un tiempo de falla futuro

135

Regresin logstica o binaria


En caso de informacin cualitativa es
necesario traducir las preferencias del cliente
expresadas como atributos a un intervalo de
valores
aceptables
de
variables
(Especificaciones).

136

Regresin logstica o binaria

Es similar a la regresin mltiple excepto que


la respuesta es binaria (si/no, bueno/malo,
etc.) Sus coeficientes se determinan por el
mtodo de mxima verosimilitud

Su funcin tiene forma de S, con valores


mximos de Cero y Uno.
Yi = 0, 1

137

Regresin logstica o binaria

La probabilidad de que el resultado est en


cierta categora es:

El mtodo de clculo del coeficiente b es


diferente que en la regresin lineal

Los coeficientes se determinan con la relacin


sig.:
138

Regresin logstica

Condiciones:

Hay solo dos resultados posibles


Hay solo un resultado por evento
Los resultados son independientes
estadsticamente
Todos los predictores relevantes estn en el
modelo
Es mutuamente exclusivo y colectivamente
exhaustivo
Los tamaos de muestra son mayores que para
la regresin mltiple

Los efectos positivos se obtienen con


139b1>1 y

Regresin logstica
Relacin con ajuste pobre

Relacin con buen ajuste

140

Regresin logstica Procedimiento

Definir el atributo a traducir (y)


Definir la variable apropiada para el atributo
(x)
Definir el modelo matemtico a probar
Determinar los defectos que est dispuesto a
aceptar
Recolecte informacin de x vs y. Asigne 1
si falla y 0 si es aceptable.
Analice la informacin mediante Regresin
Logstica Binaria
141

Regresin logsticaProcedimiento

142

Regresin logstica Procedimiento


Coeficientes del modelo

P-Value de Deviance

Observe el P-Value de Deviance en la


Sesin, debe de ser grande (P >0.10)
Obtenga los coeficientes del modelo (De la
Sesin)
143

Regresin logstica Procedimiento


Construya el modelo de regresin para la
probabilidad de falla estar dado por :
b +b x +....
e
Donde :
P(Falla) =
b +b x +....
b , b , ... = Coeficientes del modelo
1 +e
0

Identifique el(los) valor(es) de x que le


generarn como mximo la cantidad de
defectos que usted est dispuesto a aceptar
[4]
144

Ejemplo de riesgo de paro


cardiaco

Para Fuma, el coeficiente negativo de -1.193 y la tasa


de posibilidades de 0.30, indica que quien fuma, tiende
a tener una tasa de pulso ms alta que los sujetos que
no fuman. Si los sujetos tienen el mismo peso, las
posibilidades de que los fumadores tengan un pulso
bajo sea slo del 30% de las posibilidades de que los no
fumadores tengan un pulso bajo.
145

Regresin logstica ordinal


Cuando la respuesta CTS es de tipo ordinal
(Varias categoras de respuesta como
totalmente de acuerdo, de acuerdo, en
desacuerdo y totalmente en desacuerdo) y
el Factor CTQ es de naturaleza continua,
entonces, para definir Especificaciones, la
herramienta a utilizar es la Regresin
Logstica Ordinal.

146

Regresin logstica ordinal Procedimiento

Defina la variable de respuesta a traducir


(y CTS)
Defina el CTQ (x) variable a relacionar con
el CTS
Defina el modelo matemtico a probar
Determine los defectos que est dispuesto a
aceptar en la categora de inters
Recolecte informacin de x vs y
Analice la informacin mediante Regresin
Logstica Ordinal
147

Regresin logstica ordinal Procedimiento

Stat > Regression > Ordinal Logistic


Regression

Seleccione la respuesta (y)


Seleccione los trminos que estima tiene el
modelo [3]

Constantes y
Coeficientes
del modelo

148

Regresin logstica ordinal Procedimiento

Observe el P-Value de Deviance en la


Sesin, debe de ser grande (P >0.10)

Obtenga las constantes y coeficientes del


modelo (De la Sesin)

Construya los modelos de regresin para la


probabilidad acumulada por categora

149

Regresin logstica ordinal Procedimiento


P

acumulada hasta
categora i

e
1+

Ki+b1x1+ b2x2....

Ki+b1x1+ b2x2....

Donde :
Ki = Constante de la categora i
b1, b2, ... = Coeficientes del modelo

Constantes y
Coeficientes
del modelo

Identifique el(los) valor(es) de x que le generarn como mximo la


cantidad de defectos que usted est dispuesto a aceptar en la
categora de inters [4]

150

Regresin logstica ordinal Procedimiento

LIE LSE

Expectativas
(CTSs)

Especificaciones

Tipo
Importan.

CTQs

Producto
(General)

Matriz de
Diseo

Una vez que se tienen establecidos los CTQs


con los que se medir el desempeo del
producto, es necesario indicar las
Especificaciones de los mismos
Parmetros
de Diseo
(DPs)

Otra

Clientes
Usuarios
Finales

Producto
(Especfico)

151

Anlisis Logit

Usa razones para determinar que tanta


posibilidad tiene una observacin de pernecer
a un grupo que a otro.

Una posibilidad de 0.8 de estar en el grupo A


se puede expresar como una tasa de
posibilidades de 4:1 ( que es p/(1-p)), cuyo
logaritmo es el logit.

La probabilidad para un valor L est dado por


la ecuacin
152

Anlisis Logit - ejemplo


50 estudiantes tomaron un examen, donde solo 27
pasaron. Cules son las posibilidades de pasar?
Posibilidades = P/(1-P) = 0.54/0.46 = 1.17 o 1.71:1
Un estudiante que estudia 80 horas tiene un 54.5% de
pasar, cules son las posibilidades?
Posibilidades = 0.545/(1-0.545) = 1.198 o 1.198:1
Logit = ln(p/(1-p)) = ln(1.189) = 0.1809 y despejando al
Exp(b1) = exp(0.1082) = 1.11 que es la tasa de pasar a
otro nivel

153

Anlisis Probit

Es similar a las pruebas de vida acelerada y


anlisis de sobrevivencia. Un artculo sujeto a
esfuerzo puede fallar o sobrevivir. El modelo
probit tiene un valor esperado de 0 y una
varianza de 1.

Requiere tamaos de muestra muy grandes


para diferenciarse del modelo logit

Los coeficientes b del modelo logit difieren del


probit en 1.814 con: bl = -1.1814154
bp

VI.C.7 Pruebas de bondad


de ajuste

155

(O
i
E
)

Bondad de ajuste

PRUEBAS DE BONDAD DE AJUSTE

Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma
de distribucin particular planteada como hiptesis
Si el ajuste es razonablemente cercano, puede concluirse que s exite la forma de distribucin
planteada como hiptesis

2
2iK

Por ejemplo:

Ho: La distribucin poblacional es uniforme


Ha: La distribucin poblacional no es uniforme
Se usa el estadstico Chi-Cuadrado

Oi = Frecuencia de los eventos observados en los datos muestrales

Ei = Frecuencia de los eventos esperados si la hiptesis nula es correcta


Para que la prueba sea confiable Ei >= 5. De otra forma se combinan las categorias para
cumplir con este requisito.
K = Nmero de categoras o clases

156

Bondad de ajuste
Ejemplo:
Se venden n = 48 botes en 4 meses. Si la demanda es uniforme se esperara que se vendieran
12 botes / mes. La cantidad real que se vendi fue:
Ventas (Oi) Ventas (Ei)
Tipo de bote observadas esperadas
A
15
12
B
11
12
C
10
12
D
12
12
DISTR.CHI

Entonces el estadstico Chi Cuadrado de la muestra es = 1.17 el valor P corresp.=

0.76020818

El Chi Cuadrado de excel se determina con alfa = 0.05 y K - 1 grados de libetad = 3


Chi cuadrado de excel = 7.815
El estadstico Chi cuadrado calculado de 1.17 es menor al de excel de 7.815 por tanto se acepta
la hiptesis nula
PRUEBA.CHI.INV

157

Prueba de Bondad de ajuste


para la distribucin de Poisson
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. De
Poisson
Ha: Caso contrario
2. Tomar una muestra aleatoria, anotar la frecuencia
observada fi y calcular la media de ocurrencias
3. Calcular la frecuencia esperada de ocurrencias ei.
Multiplicar el tamao de muestra con la prob. de Poisson
para cada valor de la variable aleatoria.
Si hay menos
n
( f i ei ) 2
2
de 5 combinar las categoras
e
i 1
i

4. Calcular el estadstico
de prueba
2 2
5. Rechazar Ho si

158 y alfa
o si p < alfa. Con gl=k-p-1

Ejemplo:
Distribucin de Poisson =5

Ho: No. de clientes que llega en intervalos de 5 min. tiene una


distribucin de Poisson
Ha: No se sigue una distribucin de
Poisson
Clientes
Frec. observada f(x) de Poisson
128*f(x)
cantidad
esperada
0

0.0067

0.8576

0.0337

4.3136

10

0.0842

10.7776

12

0.1404

17.9712

18

0.1755

22.4640

22

0.1755

22.4640

22

0.1462

18.7136

16

0.1044

13.3662

12

0.0653

8.3584

0.0363

4.6464

0.0318

1594.0704

10 o ms

Ejemplo:
Distribucin de Poisson =5

Combinando X=0,1 y X=9, 10 o ms para que la frecuencia


observada sea mayor a 5 y se pueda aplicar la distribucin Chi
Cuadrada se tiene
Clientes
Frec. Observada f(x) de Poisson
128*f(x)
frecuencia
(fi)
esperada (ei)
0o1

10

0.0067+0.0337

5.1712

10

0.0842

10.7776

12

0.1404

17.9712

18

0.1755

22.4640

22

0.1755

22.4640

22

0.1462

18.7136

16

0.1044

13.3662

12

0.0653

8.3584

9 o ms

0.0363+0.0318

8.7168

160

Estadstico y conclusin
Con los datos anteriores se calcula el estadstico Chi
cuadrada que se compara con Chi Cuadrada de alfa
para k-p-1 grados de libertad (K categoras: 9, p
parmetros a estimar: 1 media).

( f i ei ) 2

ei
i 1
2

2 2

Ho se rechaza si

o si p es mayor que alfa.

El valor de Chi Cuadrada calculado es de 10.9766 y el


valor Chi Cuadrada de alfa 0.05 con 2 gl. Es de 14.07 no
se rechaza Ho
161
En este caso p = 0.14 > 0.05 por tanto no se
rechaza Ho y

Prueba de Bondad de ajuste


para la distribucin Normal
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. Normal
Ha: Caso contrario
2. Tomar una muestra aleatoria, calcular la media y la
desviacin estndar
3. Definir K intervalos de valores de forma que la
frecuencia esperada sea 5 cuando menos para cada uno
(intervalos de igual probabilidad). Anotar la frecuencia
observada de los valores de datos fi, en cada intervalo

162

Prueba de Bondad de ajuste


para la distribucin Normal
4. Calcular el nmero de ocurrencias esperado ei, para
cada intervalo de valores. Multiplicar el tamao de
muestra por la probabilidad de que una variable
aleatoria est en el intervalo.

5. Calcular el estadstico de prueba


2 2
6. Rechazar Ho si
nivel de significancia

( f i ei ) 2

ei
i 1
n

o si p < alfa. Con gl=k-p-1 y alfa

163

Prueba de Bondad de ajuste


para la distribucin Normal

Ejemplo: datos de calificaciones: Media = 68.42; S =


10.41
Calificaciones
71

66

61

65

54

93

60

86

70

70

73

73

55

63

56

62

76

54

82

79

76

68

53

58

85

80

56

61

61

64

65

62

90

69

76

79

77

54

64

74

65

65

61

56

63

80

56

71

79

84

164

Prueba de Bondad de ajuste


para la distribucin Normal
Ho: la poblacin tiene una distribucin normal con media
68.42 y S=10.41 Ha: Caso contrario
Para una muestra de 50 con una frecuencia mnima
esperada de 5 se tiene el 10% al menos por cada celda
La primera celda correspondiente al 10% est en Z =
-1.28 con
X = (Media - Z*S) = 55.10
Para el rea del 20%, Z = -0.84 y X = 59.68
y as sucesivamente

165

Prueba de Bondad de ajuste


para la distribucin Normal
Intervalo

Frecuencia
observada
(fi)

Frecuencia
esperada
(ei)

Menos de
55.10

55.10 a
59.68

59.68 a
63.01

63.01 a
65.82

65.82 a
68.42

68.42 a
71.02

71.02 a

Se registran las
frecuencias de
los datos
tomados de las
calificaciones

166

Prueba de Bondad de ajuste


para la distribucin Normal

Se determina el estadstico Chi Cuadrado = 7.2

( f i ei ) 2

ei
i 1
2

El Valor de Chi Cuadrado de alfa = 0.10 para k p 1


grados de libertad. K = 10 categoras, p = 2
parmetros. Gl = 7. Chi Cuadrado es 12.017

Como 2 2 no se puede rechazar la hiptesis nula de


normalidad de las calificaciones

167

Prueba de Bondad de ajuste


para la distribucin Multinomial
1. Enunciar la hiptesis nula y alternativa
Ho: La poblacin sigue una distribucin de probabilidad
multinomial con probabilidades especificadas para cada
una de las K categoras
Ha: Caso contrario
2. Tomar una muestra aleatoria y anotar las frecuencias
observadas fi para cada categora
3. Suponiendo que Ho es cierta, determinar la frecuencia
esperada ei, en cada categora multiplicando la
probabilidad de la categora por el tamao de muestra

168

Prueba de Bondad de ajuste


para la distribucin Multinomial
4. Se determina el estadstico Chi Cuadrado de prueba

( f i ei ) 2

ei
i 1
2

5. Regla de rechazo:
2
2

Si
no se puede rechazar la hiptesis nula

Rechazar si el valor p es menor a alfa


Con alfa nivel de significancia y los grados de libertad son
k-1

169

Prueba de Bondad de ajuste


para la distribucin Multinomial
Ejemplo: El ao pasado la participacin de mercado para
la empresa A fue del 30%, 50% para la empresa B y
20% para la empresa C. La empresa C hace una prueba
con un nuevo producto para estimar su impacto en las
preferencias del mercado.
Se tom una muestra de 200 clientes resultando
preferencias de compra de: 48 para A, 98 para B y 54
para C.
De acuerdo a las probabilidades esperadas, en los 200
clientes las preferencias esperadas son:
A=200*0.3=60, B=200*0.5=100, C=200*0.2=40

170

Prueba de Bondad de ajuste


para la distribucin Multinomial
Datos para calcular el estadstico de prueba Chi Cuadrado
Categora

Proporcin
hipottica

Frecuencia
observada

Frecuencia
esperada

Empresa A

0.3

48

60

Empresa B

0.5

98

100

Empresa C

0.2

54

40

171

Prueba de Bondad de ajuste


para la distribucin Multinomial
Chi Cuadrado calculado = 7.34
Chi cuadrado de alfa = 0.05 con k 1 = 2 grados de
libertad = 2 es de 5.99. El valor p correspondiente es
de 0.025.
Como 7.34 es mayor a 5.99 o el valor p de 0.025 es menor
a alfa de 0.05 se rechaza la hiptesis nula Ho y se
concluye que el nuevo producto modificar las
preferencias del mercado actuales
La participacin de la empresa C aumenta con el nuevo
producto

172

Prueba de Bondad
de ajuste en Minitab
La columna C1 Observadas contiene las frecuencias
observadas y la C2 esperadas las frecuencias
esperadas
Calc > Calculator > Store result in variable ChiCuadrada
Teclear en el cuadro de expresin sum((ObservadasEsperadas)**2/Esperadas)
Calc > Probability distributions > Chi Square
Seleccionar Cummulative probability
Degrees of freedom 2
Input column ChiCuadrada; Optional Storage CumProb
OK
Calc > Calculator > Store results in variable p

173

Prueba de Bondad
de ajuste en Minitab

Ejemplo: investigacin de mercado

Observadas Esperadas ChiCuadrada


48
60
7.34
98

100

54

40

CumProb
0.974524

174

p
0.0254765

Prueba de Bondad
de ajuste en Excel

Ejemplo: investigacin de mercado

1. Calcular el estadstico Chi Cuadrada con =(A2-B2)^2/B2


y Suma
Chi cuadrada = 7.34
2. El valor P es =distr.chi(7.34, 2)
3. El estadstico Chi Cuadrada de alfa es:
=prueba.chi.inv(0.05,2) = 5.99
4. Como p es menor a alfa de 0.05 se rechaza la Ho

175

VI.C.8 Tablas de contingencia


Prueba Chi2 (2)

176

Para qu se utiliza?
1. Para probar si una serie de datos
observada, concuerda con el modelo (serie
esperada) de la informacin.
2. Para probar las diferencias entre las
proporciones de varios grupos (tabla de
contingencia).
Para todos los casos,

Ho: No hay diferencia


Ha: Hay diferencia

177

Ejemplo 1: Chi Cuadrada(


2
)
Se lanza una moneda al aire 100 veces y
que obtenemos 63 guilas y 37 soles.
La proporcin de guilas y soles sucede
por casualidad? O, se concluye que la
moneda est cargada?

Ho: La moneda es buena


Ha: La moneda est cargada
178

Ejemplo 1: Chi Cuadrada(


Observada

Esperada

)
(fo - fe)2
fe

( fo )

( fe )

Aguilas

63

50

3.38

Soles

37

50

3.38

2 = 3.38 + 3.38
2 = 6.76

c=
2

j=1

Estadstico Chi Cuadrada


(fo - fe)2
fe

179

Ejemplo 1: Chi cuadrada


Funcin de Distribucin Acumulada Chi2 con 1 grado de
libertad (d.f)
2c
P(2c > x)
6.7600
p = 1 - 0.9907 = 0.0093
De tablas X2Crtica, (0.05, 1) = 3.8414
Ho: La moneda es buena.
Ha: La moneda est cargada.
Para un 95% de confianza antes de concluir que la moneda est
cargada, se requiere que X2c > X2Crtica o que el valor de p sea
0.05.
Como p 0.05, se puede concluir -con un 95% de confianza que la moneda est cargada.

180

Clculo en Excel del estadstico Chi cuadrada


1. Posicionarse en una celda vaca
2. Accesar el men de funciones con Fx
3. Seleccionar STATISTICAL o ESTADSTICAS, CHIINV.
4. Dar valores de probabilidad (0.05) y grados de libertad,
normalmente (n - 1) para un parmetro o (# de renglones -1)
* (# de columnas - 1) para el caso de tablas de proporciones.

181

Tabla de Valores Crticos Seleccionados de Chi2


df

.250

.100

.050

.025

.010

.005

.001

1
2
3
4
5

1.323
2.773
4.108
5.385
6.626

2.706
4.605
6.251
7.779
9.236

3.841
5.991
7.815
9.488
11.070

5.024
7.378
9.348
11.143
12.832

6.635
9.210
11.345
13.277
15.086

7.879
10.597
12.838
14.860
16.750

10.828
13.816
16.266
18.467
20.515

6
7
8
9
10

7.841
9.037
10.219
11.389
12.549

10.645
12.017
13.362
14.684
15.987

12.592
14.067
15.507
16.919
18.307

14.449
16.013
17.535
19.023
20.483

16.812
18.475
20.090
21.666
23.209

18.548
20.278
21.955
23.589
25.188

22.458
24.322
26.125
27.877
29.588

11
12
13
14
15

13.701
14.845
15.984
17.117
18.245

17.275
18.549
19.812
21.064
22.307

19.675
21.026
22.362
23.685
24.996

21.920
23.337
24.736
26.119
27.488

24.725
26.217
27.688
29.141
30.578

26.757
28.300
29.819
31.319
32.801

31.264
32.909
34.528
36.123
37.697

16
17
18
19
20

19.369
20.489
21.605
22.718
23.828

23.542
24.769
25.989
27.204
28.412

26.296
27.587
28.869
30.144
31.410

28.845
30.191
31.526
32.852
34.170

32.000
33.409
34.805
36.191
37.566

34.267
35.718
37.156
38.582
39.997

39.252
40.790
43.312
43.820
45.315

21
22
23
24
25

24.935
26.039
27.141
28.241
29.339

29.615
30.813
32.007
33.196
34.382

32.671
33.924
35.172
36.415
37.652

35.479
36.781
38.076
39.364
40.646

38.932
40.289
41.638
42.980
44.314

41.401
42.796
44.181
45.558
46.928

46.797
48.268
49.728
51.179
52.620

26
27
28
29
30

30.434
31.528
32.620
33.711
34.800

35.563
36.741
37.916
39.087
40.256

38.885
40.113
41.337
42.557
43.773

41.923
43.194
44.461
45.722
46.979

45.642
46.963
48.278
49.588
50.892

48.290
49.645
50.993
52.336
53.672

54.052
55.476
56.892
58.302
59.703

40
50
60

45.616
56.334
66.981

51.805
63.167
74.397

55.758
67.505
79.082

59.342
71.420
83.298

63.691
76.154
88.379

66.766
79.490
91.952

73.402
86.661
99.607

70
80
90
100

77.577
88.130
98.650
109.141

85.527
96.578
107.565
118.498

90.531
101.879
113.145
124.342

95.023
106.629
118.136
129.561

100.425
112.329
124.116
135.807

104.215
116.321
128.299
140.169

112.317
124.839
137.208
149.449

182

Tabla de contingencia

Una tabla de clasificacin de dos vas (filas y columnas)


que contiene frecuencias originales, se puede analizar
para determinar si las dos variables (clasificaciones) son
independientes o tienen una asociacin significativa.

La prueba Chi Cuadrada probar si hay dependencia


entre las dos clasificaciones.

Adems se puede calcular el coeficiente de


contingencia (correlacin) que en todo caso muestra la
fuerza de la dependencia

183

Tabla de contingencia

Para esta prueba se usa la prueba Chi Cuadrada donde:

Entre mayor sea su valor, mayor ser la diferencia de la


discrepancia entre frecuencias observadas y tericas.
Esta prueba es similar a la de bondad de ajuste.

184

Tabla de contingencia

Ejemplo: Cada una de las 15 celdas hace una


contribucin al estadstico Chi Cuadrado (una celda)

Asumiendo Alfa = 0.1 y Gl= (reng 1)*(Col 1) = 4*2 =


8 Chi-Cuadrado de alfa = 20.09
Como Chi Cuadrada calculada >> Chi C. Alfa, se
rechaza Ho de igualdad de resultados entre negocios

185

Ejemplo 2: Chi2 Para comparacin de


dos grupos; son las mismas
proporciones?)
Ho: No existen diferencias en los ndices de defectos de las dos mquinas.
Ha: Existen diferencias en los ndices de defectos de las dos mquinas.
Los valores observados (fo) son los siguientes:
Partes buenas

Partes defectuosas

mquina 1

fo = 517

fo = 17

Total = 534

mquina 2

fo = 234

fo = 11

Total = 245

Total

751

28

779

El ndice de defectos totales es 28 / 779 = 3.6%

186

Ejemplo 2: Chi2 Para comparacin de


dos grupos; son las mismas
proporciones?)
Clculo de los valores esperados
Partes buenas

Partes defectuosas

mquina 1

fo = 751*534/779

fo = 28*534/779

Total = 534

mquina 2

fo = 751*245/779

fo = 28*245/779

Total = 245

779
Basados en este ndice, los valores esperados (fe) seran:

mquina 1

Partes
buenas
530.53

mquina 2

233.47

Partes defectuosas
3.47
1.53

187

Prueba de chi cuadrada:


Los conteos esperados estn debajo de los conteos observados
Partes buenas
Partes Defectuosas
Total
1
532
2
534
530.53
3.47
2
Total

232
233.47
764

3
1.53
5

235
769

Chi2 = 0.004 + 0.624 + 0.009 + 1.418 = 2.056


DF= 1; valor de p = 0.152
2 celdas con conteos esperados menores a 5.0
Nota: Chi cuadrada no podr aplicarse en los casos donde los conteos seas menores a 5 en 20%
de celdas.
Si cualquiera de los conteos esperados en las celdas es menor a uno, no deber usarse Chi 2.
Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo
renglones y/o columnas, las categoras pueden ser de utilidad.

188

Tabla de Chi2
Tabla de valores crticos seleccionados para Chi2

DF

.250

.100

.050

1
2
3
4
5

1.323
2.773
4.108
5.385
6.626

2.706
4.605
6.251
7.779
9.236

3.841
5.991
7.815
9.488
11.070

6
7
8
9
10

7.841
9.037
10.219
11.389
12.549

10.645
12.017
13.362
14.684
15.987

11
12
13
14
15

13.701
14.845
15.984
17.117
18.245

16
17
18
19
20

19.369
20.489
21.605
22.718
23.828

.025

.010

.005

5.024
7.378
9.348
11.143
12.832

6.635
9.210
11.345
13.277
15.086

7.879
10.597
12.838
14.860
16.750

10.828
13.816
16.266
18.467
20.515

12.592
14.067
15.507
16.919
18.307

14.449
16.013
17.535
19.023
20.483

16.812
18.475
20.090
21.666
23.209

18.548
20.278
21.955
23.589
25.188

22.458
24.322
26.125
27.877
29.588

17.275
18.549
19.812
21.064
22.307

19.675
21.026
22.362
23.685
24.996

21.920
23.337
24.736
26.119
27.488

24.725
26.217
27.688
29.141
30.578

26.757
28.300
29.819
31.319
32.801

31.264
32.909
34.528
36.123
37.697

23.542
24.769
25.989
27.204
28.412

26.296
27.587
28.869
30.144
31.410

28.845
30.191
31.526
32.852
34.170

32.000
33.409
34.805
36.191
37.566

34.267
35.718
37.156
38.582
39.997

39.252
40.790
43.312
43.820
45.315

189

.001

Problema: Fugas
Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la
reduccin de tiempo de ciclo.

Variacin en familias a probar


Operador a operador
Ho: No existe diferencia en los ndices de defecto de los diferentes
operadores
Ha: Existe diferencia en los ndices de defecto de los diferentes
operadores
Mquina a mquina
Ho: No existe diferencia en los ndices de defecto de las diferentes
mquinas
Ha: Existe diferencia en los ndices de defecto de las diferentes
mquinas
Tamao de la muestra:
5000 + total de oportunidades (172 piezas)

190

Prueba de chi2 (mquina a mquina)


Los conteos esperados estn colocados debajo de los conteos observados
Con fugas Sin fugas Total
1
30
610
640
32.11
607.89
2

235
223.38

3
3
12.84
4
Total

18
17.66
286

4217
4228.62
253
243.16

4452
256

334
334.34

352

5414

5700

Chi2 = 0.139 + 0.007 + 0.604 + 0.032 + 7.546 + 0.399 + 0.006 +


0.000 = 8.734
DF= (4-1)(2-1) = 3; valor P = 0.033

191

Prueba de chi2 (operador a operador)


Los conteos esperados estn colocados debajo de los conteos observados.
Con gotera Sin gotera
Total
1
6
122
128
6.61 121.39
2

1
6.61

127
121.39

128

200
3836
4036
208.55
3827.45

54
202
256
13.23
242.77

5
699
704
36.38
667.62

128

12
116
6.61 121.39
Total
278
5102

5380

Chi2 = 0.057 + 0.003 + 4.765 + 0.260 + 0.351 + 0.019 +125.666 + 6.847 + 27.065 + 1.475
+ 4.386 + 0.239 = 171.132
DF= 5; valor P = 0.000
192

Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?


(en este caso, operador a operador y mquina a mquina)

Se utiliza un procedimiento denominado Coeficiente de Contingencia como clave


para determinar qu grupo de variacin debe investigarse primero.
Chi Cuadrada

Coeficiente de
Contingencia
Chi2

x 100

N
N

CC

Mquina

8.734

5700

0.15

Operador

171.132

5380

3.18

Controlador Mayor
SI el tamao de la muestra (N), es similar para los grupos. Al dividir entre N,
probablemente, llevar a la misma ruta que hubiera alcanzado con slo ver la
estadstica Chi2.
Sin embargo, si N tiene una variacin considerable, dependiendo del grupo de
variacin que se investiga, el coeficiente de contingencia puede ser una herramienta
valiosa para determinar la prioridad sobre qu grupo debe investigarse primero.

193

Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?


(en este caso, operador a operador y mquina a mquina)
Ahora que la informacin nos
ha llevado a investigar a los
Con gotera Sin gotera Total
grupos de operador a
1
6
122
128
operador. Qu debemos
6.61 121.39
hacer ahora?
Encontremos cul de los
2
1
127
128
operadores estaban fuera del
6.61
121.39
estndar.
Era alguno de ellos
3
200
3836
4036
notablemente peor (o mejor)
208.55
3827.45
que el resto?

Mucho peor que


lo esperado

54
202
256
13.23
242.77

Mucho mejor que


lo esperado

5
699
704
36.38
667.62

12
116
6.61 121.39

(Estos mismos operadores fueron quienes


tuvieron los nmeros ms grandes de chi2)

128

194

Operador a operador: = 0.000


Rechace
Ho y acepte Ha
(Existe una diferencia significativa entre los operadores)
Los operadores 4 y 5 estn fuera del estndar:
El operador 4 es notablemente peor que el resto,
El operador 5 es notablemente mejor que los dems
Cul es el prximo paso? Hable con todos los operadores para averiguar qu diferencias
pueden existen en sus tcnicas.
El operador 4 no tena experiencia en este tipo de trabajo y apenas se estaba acostumbrado a
soldar este producto en particular.
El operador 5 encontr un modo de mejor de hacer el ensamble, con lo cual consigui mejorar
el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonmica. Se aadi
un colocador para ensamblar la parte en forma segura. (Esto tambin redujo el tiempo que
requeran los operadores para acostumbrarse a trabajar en esta forma)

195

Ejercicios
1. Se quiere evaluar la habilidad de tres inspectores de rayos
X en un aeropuerto para detectar artculos clave. Como
prueba se pusieron radios de transistores en 90 maletas,
cada inspector fue expuesto a 30 maletas conteniendo radios
mezcladas entre otras que nos los contenan. Los resultados
se resumen a continuacin:
Inspectores
1 2 3
Radios detectados
Radios no detectados

27 25 22
3 5 8

Con un 95% de confianza, existe una diferencia entre los


inspectores?
Ho: p1 = p2 = p3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)

196

Ejercicios
1. Se quiere evaluar si hay preferencia por manejar en un
carril de una autopista dependiendo de la hora del da. Los
datos se resumen a continuacin:
Hora del da
Carril
1:00
3:00
Izquierdo 44 37 18
Central
28 50 72
Derecho
8 13 30

5:00

Con un 95% de confianza, existe una diferencia entre las


preferencias de los automovilistas dependiendo de la hora?
Ho: P1 = P2 = P3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)

197

Coeficiente de Contingencia

Coeficiente de contingencia es el grado de relacin o


dependencia de las clasificaciones en la tabla de
contingencias es:

C2

X2
X2 N

Donde N es la frecuencia total y X es el estadstico Chi


Cuadrado calculado

198

Coeficiente de Contingencia

Para los datos del ejemplo anterior se tiene:

C2

2
X2
66
.
22
2

0.38
2
2
X N
66.22 393

El valor mximo de C se obtiene de:

Max C

k 2
82

0.866
k
8
199

Correlacin de atributos

Para tablas de orden k * k, el coeficiente de correlacin,


r, es :

X
N (k 1)

Donde 0<= r <= 1

200

VI.C.9 Pruebas de
Hiptesis no paramtricas

201

Pruebas no paramtricas

Las pruebas paramtricas asumen una distribucin para


la poblacin, tal como la Normal

Las pruebas no paramtricas no asumen una


distribucin especfica de la poblacin

Bajo los mismos tamaos de muestra la Potencia o


probabilidad de rechazar Ho cuando es falsa es mayor
en las pruebas paramtricas que en las no paramtricas

Una ventaja de las pruebas no paramtricas es que los


resultados de la prueba son ms robustos contra
violacin de los supuestos

202

Prueba de Hiptesis
Atributo

Variable
No Normal
Varianza
Homogeneidad
de la Variacin
de Levene

Tablas de
Contingencia de

Medianas

Correlacin

Correlacin
Prueba de signos

Normal

Wilcoxon
MannWhitney
KurskalWallis
Prueba de Mood
Friedman

Variancia

Prueba-F
Homogeneidad
de la Variacin
de Bartlett

Medias
Pruebas de t
Muestra-1
Muestra-2

Residuos
distribuidos
normalmente

ANOVA
Una va
Dos vas

Correlacin
Regresin

203

Resumen de pruebas de Hiptesis


Datos Normales

Datos No Normales

Pruebas de Variancias
Pruebas de Varianzas
X2 : Compara la variancia de una
Homogeneidad de la varianza de
muestra con una variancia de un Levene : Compara dos o ms
universo conocido.
varianzas de muestras de la misma
poblacin.
Prueba F : Compara dos varianzas
de muestras.
Homogeneidad de la variancia de
Bartlett: Compara dos o ms
varianzas muestras de la misma
poblacin.
204

Resumen de pruebas de Hiptesis


Datos Normales
Pruebas de los Promedios

Datos No Normales
Pruebas de la Mediana

Prueba t de 1 muestra : Prueba si el promedio


de la muestra es igual a un promedio
conocido o meta conocida.
Prueba t de 2 muestras : Prueba si los dos
promedios de las muestras son iguales.
ANOVA de un factor: Prueba si ms de dos
promedios de las muestras son iguales.
ANOVA de dos factores : Prueba si los
promedios de las muestras clasificadas
bajo dos categoras, son iguales.

Prueba de signos o Prueba Wilcoxon : Prueba si


la mediana de la muestra es igual a un valor
conocido o a un valor a alcanzar.
Prueba Mann-Whitney : Prueba si dos medianas
de muestras son iguales.
Prueba Kruskal-Wallis: Prueba si ms de dos
medianas de muestras son iguales. Asume que
todas las distribuciones tienen la misma forma.
Prueba de la mediana de Mood : Otra prueba
para ms de dos medianas. Prueba ms firme
para los valores atpicos contenidos en la
informacin.
Prueba Friedman : Prueba si las medianas de las
muestras, clasificadas bajo dos categoras, son
iguales.
Correlacin : Prueba la relacin lineal entre dos
variables.

Correlacin : Prueba la relacin lineal entre


dos variables.
Regresin : Define la relacin lineal entre una
variable dependiente y una independiente.
(Aqu la "normalidad" se aplica al valor
residual de la regresin)

205

Acciones a tomar con datos No Normales


Revise y asegrese de que los datos no siguen una distribucin normal.

Desarrollar una Prueba de normalidad (para verificar realmente lo


anormal. Para la prueba de Bartlet el valor de p debe ser < 0.05)
Desarrollar una Prueba de Corridas (para verificar que no existen
sucesos no aleatorios que puedan haber distorsionado la informacin)
Revisar la informacin para detectar errores (tipogrficos, etc.).
Investiguar los valores atpicos.
Una muestra pequea (n < 30) proveniente de un universo normal, se
mostrar algunas veces como anormal.
Intentar transformar los datos. Las transformaciones comunes incluyen:
- Raz cuadrada de todos los datos
- Logaritmo de todos los datos
- Cuadrado de todos los datos
Si la informacin es todava anormal, entonces usar las herramientas no
paramtricas.
206

7B8. Definiciones

Promedio : Es la media aritmtica de la informacin. Es la suma de todos


los datos, dividida entre el nmero de datos de referencia.

Mediana: Valor del punto medio de los datos, cuando se ordenan en forma
ascendente (en caso de datos pares, obtener promedio).

Moda : Valor que se repite con ms frecuencia sobre el conjunto de datos.


Ejemplo:
Se cuestion a veinte personas sobre cunto tiempo les tomaba estar
listas para ir a trabajar, en las maanas. Sus respuestas (en minutos) se
muestran ms adelante. Cules son el promedio y la mediana para esta
muestra?
30, 37, 25, 35, 42, 35, 35, 47, 45, 60
39, 45, 30, 38, 35, 40, 44, 55, 47, 43

207

Un dibujo dice ms que mil palabras


Promedio

Mediana

28.0

35.0

42.0

49.0

56.0

63.0

C1

++++++

Promedio = 40.35

Mediana = 39.5

El promedio puede estar influenciado considerablemente por los


valores atpicos porque, cuando se calcula un promedio, se incluyen
los valores reales de estos valores.
La mediana, por otra parte, asigna la misma importancia a todas las
observaciones, independientemente de los valores reales de los
valores atpicos, ya que es la que sencuentra en la posicin media de
los valores ordenados.

208

Pruebas Alternativas comnmente


usadas
Pruebas para datos No normales

Analoga con datos normales

Prueba de Corridas (la misma


prueba para ambos tipos de
informacin)

Prueba de Corridas : Calcula la


probabilidad de que un X nmero de
puntos de referencia, est por encima o
por debajo del promedio aleatoriamente.

Prueba de signos, de 1 muestra :


Prueba la probabilidad de que la
mediana de la muestra, sea igual al valor
hipottico.

Prueba Mann-Whitney : Comprueba el


rango de dos muestras, por la diferencia
entre dos medianas del universo.

Prueba t de 2 muestras

Prueba de la Mediana de Mood :


Prueba para ms de dos medianas del
universo. Ms robusta para los valores
atpicos o para los errores en la
informacin.

ANOVA de un factor

Prueba t de una muestra

209

Prueba de Rachas
Considere los siguientes datos (que se muestran aqu en orden cronolgico):
325, 210, 400, 72, 150, 145, 110, 507, 56, 120, 99, 144, 110, 110,
320, 290, 101, 0, 80, 500, 201, 50, 140, 80, 220, 180, 240, 309, 80

Es importante tener los datos registrados en orden cronolgico.


Una representacin grfica de los datos se asemeja a esto:
600

Promedio

500

Primera
"corrida"

400
300
200
100
0

Segunda racha"
Racha: Un punto o una serie consecutiva de puntos que caen
en un lado del promedio.
Nmero total de Rachas: 12
Nmero total de puntos > al promedio: 11
Nmero total de puntos < al promedio: 18

Prueba de Rachas
Ho: Los datos son aleatorios
Ha:Los datos NO so aleatorios
Prueba de Rachas
Promedio K = 184.4483

Promedio

Nmero de rachas observado = 12


Nmero de rachas esperado = 14.6552
=> No se rechaza Ho
11 observaciones por encima de K; 18 por
debajo
La prueba es significativa en p= 0.2860
No se puede rechazar Ho con valor alfa = 0.05

Este es el valor p
de las Prueba de
Corridas

Ya que p > 0.05, no podemos rechazar la hiptesis nula.


Los datos son aceptados, siendo aleatorios.

Clculos de la Prueba de Rachas


El estadstico Z cuando n > 20 se calcula como:
Z = (G - MediaG) / DesvStG
Con MediaG = 1 + (2n1*n2) / (n1 + n2)
DesvStG = Raiz [ (2n1*n2) (2n1*n2 - n1 -n2) / (n1 + n2)^2* (n1+n2 -1)
Del ejemplo anterior G = 12;
MediaG = 14.655

n1 = 11n2 = 18

DesStG = 2.4843

Z1 = (12 - 14.655) / 2.4843 = -1.0687


P(Z1) = 0.1430 y para dos colas se tiene
P(Z1) + P(Z2) = 0.2860 > Alfa crtico de 0.05, no rechazndose Ho
Si las n1 y n2 son menores a 21, entonces se consulta la tabla de
valores crticos para el nmero de Rachas G

212

Corrida con Minitab

Stat > Nonparametrics > Runs Test


Variable C1, Above and below the mean

Runs Test: C1
Runs test for C1
Runs above and below K = 184.448
The observed number of runs = 12
The expected number of runs = 14.6552
11 observations above K, 18 below
P-value = 0.285
P > 0.05
No rechazar
Ho

213

Prueba de Signos de la Mediana


Ho : La mediana de la muestra es igual a la mediana de la hiptesis
Ha : Las medianas son diferentes
Ejemplo (usando los datos del ejemplo anterior):
Ho: Valor de la mediana = 115.0
Ha: Valor de la mediana diferente de 115.0
N DEBAJO IGUAL ENCIMA VALOR P MEDIANA
29 12
0
17
0.4576
144.0
Ya que p >0.05, no se puede rechazar la hiptesis nula.
No se puede probar que la mediana real y la mediana hipottica son
diferentes.
En las pginas siguientes se muestra el detalle del clculo.

214

Clculos de la Prueba de Signos de la


Mediana
Ejemplo: Con los datos del ejemplo anterior y ordenndo de menor a
mayor se tiene: n = 29, Mediana de Ho = 115
No. Valor
1 0 2 50 3 56 4 72 5 80 6 80 7 80 8 99 9 101 10 110 -

Signo No. Valor Signo


11 110 - 21 220 +
12 110 - 22 240 +
13 120 + 23 290 +
14 140 + 24 309 +
15 144 + 25 320 +
16 145 + 26 325 +
17 150 + 27 400 +
18 180 + 28 500 +
19 201 + 29 507 +
20 210 +

No. Valor

Signo

Con la mediana en 144. Si el valor contra el cual se desea


probar es 115, entonces hay 12 valores por debajo de el (-) y 17
valores por arriba (+).

215

Clculos de la Prueba de Signos de la


Mediana

El estadstico X es el el nmero de veces que ocurre el signo menos


frecuente, en este caso el 12 (-).
Cmo n 25, se calcula el estadstico Z para la prueba de signos con:
Z = [ (Y + 0.5) - (0.5*n) ]/ 0.5 n
En este caso Z1 = - 0.74278 y P(Z1) = 0.2288 para la cola izquierda
en forma similar P(Z2) 0-2288 para la cola derecha, por lo que la
probabilidad total es 0.4576 >> 0.05 del criterio de rechazo.
Si n hubiera sido < 25 entonces se hubiera consultado la tabla de
valores crticos para la prueba de signo.

216

Prueba de Signos de la Mediana


Es esto correcto?144 podra ser igual a 115?
Bueno, veamos una grfica de la informacin

115

100

200

300

400

500

144

Despus de todo, tal vez


esto SEA lo correcto.
217

Corrida en Minitab
Stat > Nonparametrics > 1-Sample sign Variable C1
Confidence interval 95% Test Median 115 Alternative
Not equal
SignTestforMedian:Signos

Signtestofmedian=115.0versusnot
=115.0
NBelowEqualAbove
PMedian
Signos2912017
0.4583144.0
Como P > 0.05 no se rechaza Ho y la mediana es 115

218

Prueba de Signos de la Mediana


Para observaciones pareadas
Calificaciones de amas de casa a dos limpiadores de
ventanas:

Ho: p = 0.5 no hay preferencia de A sobre B


Ha: p<>0.5
Ama

Casa

Limpiad
or

10

Hay evidencia que indique


cierta preferencia de las ama
de casa por lo limpiadores?
219

Prueba de Signos de la Mediana


Product
o

Familia

10

Media = 0.5*n
Desv. Estand.= 0.5*raiz(n)

Zc = (Y media) / Desv. Estnd


Rechazar Ho si Zc ><Zalfa/2
Hay evidencia que indique
cierta preferencia por un
Producto A o B?
220

Prueba de Signos de la Mediana


Media = 0.5*11 = 5.5
Desv. Estand.= 0.5*raiz(n) = 1.67
Para Zc = (8 5.5) / 1.67 = 1.497
Zexcel = 1.96 para alfa/2 = 0.025
Como Zc < Zexcel no se rechaza Ho o
Como p value = 0.067 > 0.025
No hay evidencia suficiente de que los
Consumidores prefieran al producto B
221

Wilconox
Es la alternativa no paramtrica de la prueba paramtrica de
muestras pareadas

Ejemplo: HO: Las poblaciones son idnticas Ha: Caso


contrario
Trabaja Mtodo Mtodo Diferen Abs(difere
Rango
dor
1
2
cias
n.)
Rango
c/signo

10.2

9.5

0.7

0.7

9.6

9.8

-0.2

0.2

-2

9.2

8.8

0.4

0.4

3.5

3.5

10.6

10.1

0.5

0.5

5.5

5.5

9.9

10.3

-0.4

0.4

3.5

-3.5

10.2

9.3

0.9

0.9

10

10

10.6

10.5

0.1

0.1

10

10

Eliminar

11.2

10.6

0.6

0.6

10

10.7

10.2

0.5

0.5

5.5

5.5

11

10.6

9.8

0.8

0.8

222

T = 44

Prueba rango con signo de


Wilconox
Distribucin muestral T para poblaciones idnticas
Se aproxima a la distribucin normal para n >= 10

T 0

n(n 1)(2n 1)
6

En este caso n = pares eliminando las que son iguales con dif. =
0 para el trabajador 8.
= raiz(10 x 11 x 21/6) = 19.62
Z = (T )/ = 44/19.62 = 2.24
Z alfa/2 = Z0.025 = 1.96
Como Zc = 2.24 > Z0.025 se rechaza Ho, los mtodos son
diferentes
223

Prueba en Minitab para prueba


de mediana con Wilconox

File> Open worksheet > Exh_Stat


Stat > Nonparametrics > 1-Sample Wilconox
Variables C1 Test Median 77
Altenative Not equal

Achievement
77
88
85

Wilcoxon Signed Rank Test: Achievement


Test of median = 77.00 versus median not = 77.00
for Wilcoxon
Estimated
for Wilcoxon
Estimated
N Test Statistic
P
Median
Achievement 9
8
19.5 0.889
77.50

74
75
62
80

Ho: Mediana = 77 Ha: Mediana <> 77


Como P de 0.889 >> alfa de 0.05 no se rechaza Ho

224

70
83

Prueba de MannWhitney
Se llev a cabo un estudio que analiza la frecuencia del pulso en dos
grupos de personas de edades diferentes, despus de diez minutos de
ejercicios aerbicos.
Los datos resultantes se muestran a continuacin.

Edad 40-44
C1
Tuvieron diferencias
140
significativas las frecuencias de
135
pulso de ambos grupos?
150
140
144
154
160
144
136
148

Edad 16-20
C2
130
166
128
126
140
136
132
128
124

225

Prueba de MannWhitney

Ordenando los datos y asignndoles el (rango) de su posicin relativa se tiene (promediando


posiciones para el caso de que sean iguales):

Edad 40-44
C1
(7) 135
(8.5) 136
(11) 140
(11) 140
(13.5) 144
(13.5) 144
(15) 148
(16) 150
(17) 154
(18) 160

Edad 16-20
C2
(1) 124
(2) 126
(3.5) 128
(3.5) 128
(5) 130
(6) 132
(8.5) 136
(11)140
(15)166

n1 = 10
Ta = 130.5

n2 = 9
Tb = 55.5

226

Prueba de MannWhitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales
Ha: Las distribuciones de frecuencias relativas poblacionales no son idnticas
Ho: 1 = 2 Ha: 1 2 1, 2 = Medianas de las poblaciones
Ordenando los datos y asignndoles su posicin relativa se tiene:
Ua = n1*n2 + (n1) * (n1 + 1) /2 - Ta
Ub = n1*n2 + (n2) * (n2 + 1) /2 - Tb
Ua + Ub = n1 * n2
Ua = 90 + 55 - 130.5 = 14.5
P(Ua) = 0.006 Ub = 90 + 45 - 55.5 = 79.5
El menor de los dos es Ua.
Para alfa = 0.05 el valor de Uo = 25
Como Ua < 25 se rechaza la Hiptesis Ho de que las medianas son iguales.

Dado que p < 0.05, rechazamos la hiptesis nula.


Estadsticamente existe una diferencia significativa entre los
227
dos grupos de edad.

Prueba de MannWhitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales
Ha: Las distribuciones de frecuencias relativas poblacionales no son idnticas
Ua = 14.5
Ub = 79.5
Utilizando el estadstico Z y la distribucin normal se tiene:
45
12.24
Z = [ (U - (n1* n2 / 2 ) / Raiz (n1 * n2 * (n1 + n2 + 1) / 12)
Con Ua y Ub se tiene:
Za = (14.5 - 45) / 12.24 = - 2.49
P(Z) = 0.0064 similar a la anterior
Zb = (79.5 -45) / 12.24 = 2.81 P(total) = 2 * 0.0064 = 0.0128 menor = 0.05
El valor crtico de Z para alfa 0.025 por ser prueba de dos colas, es 1.96.
Como Za > Zcrtico se rechaza la Hiptesis Ho de que las medianas son iguales.

Dado que p < 0.05, rechazamos la hiptesis nula.


Estadsticamente existe una diferencia significativa entre los
228
dos grupos de edad.

Prueba de Mann-Whitney
16-20 aos de edad
40-44 aos de
edad

140
135
150
140
144
154
160
144
136
148

130
10
5
20
10
14
24
30
14
6
18

166
-26
-31
-16
-26
-22
-12
-6
-22
-30
-18

128
12
7
22
12
16
26
32
16
8
20

126
14
9
24
14
18
28
34
18
10
22

140
0
-5
10
0
4
14
20
4
-4
8

136
4
-1
14
4
8
18
24
8
0
12

132
8
3
18
8
12
22
28
12
4
16

128
12
7
22
12
16
26
32
16
8
20

124
16
11
26
16
20
30
36
20
12
24

Diferencias entre los encabezados de


los renglones y las columnas
De esta manera, se calcula la mediana de todas estas diferencias, denominada
"punto estimado". Este punto estimado es una aproximacin de la diferencia entre
las medianas de los dos grupos (ETA1 y ETA2).
Una vez ajustados los "enlaces" (eventos de un mismo valor en ambos grupos de
informacin), Minitab usa este punto estimado para calcular el valor p.

Corrida en Minitab

Stat > Nonparametrics > Mann Whitney


First Sample C1 Second Sample C2 Conf. Level 95%
Alternative Not equal

ann-Whitney Test and CI: C1, C2


N Median
P>0.05
1 10 144.00
Se rechaza Ho
2 9 130.00
oint estimate for ETA1-ETA2 is 12.00
5.5 Percent CI for ETA1-ETA2 is (4.01,20.00)
= 130.5
st of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.014
he test is significant at 0.0140 (adjusted for ties)
230

Prueba de Kruskal
Wallis
Ordenando los datos de ventas y asignndoles el (rango) de su posicin relativa se tiene
(promediando posiciones para el caso de que sean iguales):

Zona 1
(15.5) 147
(17.5) 17.5
(9) 128
(19) 162
(12) 135
(10) 132
(22) 181
(13) 138

Zona 2
(17.5) 160
(14) 140
(21) 173
(4) 113
(1) 85
(7) 120
(25) 285
(5) 117
(11) 133
(6) 119

Zona 3
(24) 215
(8) 127
(2) 98
(15.5) 127
(23) 184
(3) 109
(20) 169

n1 = 8
Ta = 118

n2 = 10
Tb = 111.5

n3 = 7
Tc = 95.5

N = n1 + n2 + n3 = 25

231

Prueba de Kruskal
Wallis

Ho: Las poblaciones A, B y C son iguales


Ha: Las poblaciones no son iguales
Ho: 1 = 2 = 3 Ha: 1 2 3 ; 1, 2, 3 = Medianas de las poblaciones
Calculando el valor del estadstico H se tiene:
H = [ 12 /( N* ( N + 1)) ] * [ Ta2 / n1 + Tb2 / n2 + Tc2 / n3 ] - 3 * ( N +1 )
H = 0.01846 * (1740.5 + 1243.225 + 1302.893 ) - 78 = 1.138
Se compara con el estadstico 2 para = 0.05 y G.l. = k - 1 = 3-1 = 1 (k muestras)
2 crtico = 5.991 (vlido siempre que las muestras tengan al menos 5 elementos)

Como H < 2 crtico, no se rechaza la Hiptesis Ho: Afirmando que no hay


diferencia entre las poblaciones

232

Corrida en Minitab

Stat > Nonparametrics > Kruskal Wallis


Response C1 Factor C2 OK

Kruskal-Wallis Test: Datos versus Factor


Kruskal-Wallis Test on Datos
Factor N Median Ave Rank
Z
Zona 1 7 138.0
14.7 0.98
Zona 2 10 126.5
11.1 -0.82
Zona 3 7 127.0
12.3 -0.10
Overall 24
12.5
P > 0.05
H = 1.08 DF = 2 P = 0.581 No se rechaza Ho
H = 1.09 DF = 2 P = 0.581 (adjusted for ties)
233

Prueba de Medianas de Mood

Realiza prueba de hiptesis de igualdad de medias en un


diseo de una va. La prueba es robusta contra Outliers y
errores en datos y es adecuada para anlisis preliminares

Determina si K grupos independientes han sido extraidas de la


misma poblacin con medianas iguales o poblaciones con
formas similares

Con base en la gran mediana, anotar un signo positivo si la


observacin excede la mediana o un signo menos si es menor.
Los valores que coincidan se reparten en los grupos

Hacer una tabla de contingencia K x 2 con las frecuencias de


signos ms y menos en cada grupo K

234

Prueba de Medianas de Mood

Se determina el estadstico Chi Cuadrada con:

(O E )

E
2

Probar Ho: Todas las medianas son iguales


Ha: Al menos una mediana es diferente
Se compara Chi Cuadrada calculada con Chi Cuadrada de
alfa para 0.05 y (reng 1)*(Col 1) grados de libertad

235

Corrida con Minitab


Se les da a 179 participantes una conferencia
con dibujos para ilustrar el tema. Despus se
les da la prueba OTIS que mide la habilidad
intelectual. Los participantes se clasificaron
por nivel educativo 0-No prof., 1-Prof., 2-Prepa
Ho: h1 = h2 = h3
son iguales

Ha: no todas las medianas

File > Open Worksheet > Cartoon.mtw


Stat > Nonparametrics > Moods Median Test
Response Otis Factor ED Ok

236

Corrida con Minitab


Mood Median Test: Otis versus ED

P>0.05

Mood median test for Otis


Chi-Square = 49.08

DF = 2

P = 0.0005 Se

rechaza Ho
Individual 95.0% CIs
ED N<= N> Median Q3-Q1 ----+---------+--------+---------+-0

47 9

97.5 17.3 (-----*-----)

29 24 106.0 21.5

15 55 116.5 16.3

(------*------)
(----*----)

----+---------+---------+---------+-96.0
Overall median = 107.0

104.0

112.0

120.0

237

Diseos factoriales aleatorias


bloqueados de Friedman
Esta prueba es una alternativa al ANOVA de dos
vas, es una generalizacin de las pruebas
pareadas con signo. La aditividad es requerida
para para estimar los efectos de los
tratamientos
Ho: Los tratamientos no tienen un efecto
significativo
Ha: Algunos tratamientos tienen efecto
significativo
238

Diseos factoriales aleatorias


bloqueados de Friedman
Resultados de salida:
Se muestra el estadstico de prueba con
distribucin Chi Cuadrada aproximada con gl =
Tratamientos 1.

Si hay observaciones parecidas en uno o ms


bloques, se usa el rango promedio y se
muestra el estadstico corregido

La mediana estimada es la gran mediana ms


el efecto del tratamiento
239

Diseos factoriales aleatorias


bloqueados de Friedman
Ejemplo:
Se evala el efecto del tratamiento de una
droga en la actividad enzimtica con tres
niveles, probado en cuatro animales

Open the worksheet EXH_STAT.MTW.


Stat > Nonparametrics > Friedman.
Response, seleccionar EnzymeActivity.
En Treatment, seleccionar Therapy.
En Blocks, seleccionar Litter. Click OK.
240

Diseos factoriales aleatorias


bloqueados de Friedman
Datos:

EnzymeActivity

Therapy

Litter

0.15

0.26

0.23

0.99

0.55

0.26

-0.22

0.99

0.55

0.66

0.77

0.99

4241

Diseos factoriales aleatorias


bloqueados de Friedman
Resultados:

Friedman Test: EnzymeActivity versus


Therapy blocked by Litter
S = 2.38 DF = 2 P = 0.305 No

rechazar Ho
S = 3.80 DF = 2 P = 0.150 (adjusted for
ties)
Sum
of
Therapy N Est Median Ranks
1

0.2450

6.5

0.3117

7.0

0.5783 10.5

Grand median = 0.3783

242

Diseos factoriales aleatorias


bloqueados de Friedman
Resultados:
El estadstico de prueba S tiene un valor P de 0.305 sin
ajustar para observaciones en cero y 0.150 para el
valor ajustado.

Por tanto no hay evidencia suficiente para rechazar Ho

Las medianas estimadas asociadas con los


tratamientos son la gran mediana ms los efectos
estimados de los tratamientos.

El estadstico de prueba se determina con base a los


rangos en cada bloque y totales

243

Diseos factoriales aleatorias


bloqueados de Friedman
Resultados:

244

Diseos factoriales aleatorias


bloqueados de Friedman
Resultados:

245

Diseos factoriales aleatorias


bloqueados de Friedman
Resultados:

246

Prueba de igualdad de
varianzas de Levene

Se usa para probar la hiptesis nula de que las


varianzas de k mltiples poblacionales son iguales

Las igualdad de varianzas en las muestras se denomina


homogeneidad de varianzas

La prueba de Levene es menos sensible que la prueba


de Bartlett o la prueba F cuando se apartan de la
normalidad

La prueba de Bartlett tiene un mejor desempeo para la


distribucin normal o aproximadamente normal

247

Prueba de igualdad de
varianzas de Levene
Para dos muestras el procedimiento es como sigue:

Determinar la media

Calcular la desviacin de cada observacin


respecto a la media

Z es el cuadrado de las desviaciones respecto a la


media

Aplicar la prueba t a las dos medias de los datos

248

Rot

Temp

Oxygen

13

Prueba de igualdad 11
3
de Varianzas-Minitab10

10

10

10

10

10

10

15

10

10

10

10

10

10

26

16

19

16

24

16

15

16

22

16

18

16

20

16

10

24

16

10

16

10

Se estudian tamaos de
papa inyectando con
bacterias y sujetas a
diferentes temperaturas.
Antes del ANOVA se
verifica la igualdad de
varianzas

Stat > ANOVA > Test for


equal variances
Response Rot
Factors Temp Oxigen
Confidence level 95%

249

Resultados

250

Resultados
Test for Equal Variances: Rot versus Temp, Oxygen
95% Bonferroni confidence intervals for standard
deviations
Temp Oxygen N

Lower

StDev

Upper

10

2 3 2.26029 5.29150 81.890

10

6 3 1.28146 3.00000 46.427

10

10 3 2.80104 6.55744 101.481

16

2 3 1.54013 3.60555 55.799

16

6 3 1.50012 3.51188 54.349

16

10 3 3.55677 8.32666 128.862

Bartlett's Test (normal distribution)


Test statistic = 2.71, p-value = 0.744 P>0.05 no

rechazar Ho
Levene's Test (any continuous distribution)
Test statistic = 0.37, p-value = 0.858

251

Prueba de la concordancia del


Coeficiente de Kendall

El coeficiente expresa el grado de asociacin entre las


calificaciones mltiples realizadas por un evaluador

Ho: Las variables son independientes


Ha: Las variables estn asociadas

Kendall usa la informacin relacionada con las


calificaciones relativas y es sensible a la seriedad de
mala clasificacin

Por ejemplo para K = jueces N = Muestras = 10


Rango medio = 220 / 22 S = 1066 Gl = n-1 = 9
Chi Cuadrada crtica = X2 0.01,9 = 21.67

252

Prueba de la concordancia del


Coeficiente de Kendall

El Estadstico Chi Cuadrada calculado es:

Como Chi Cuadrada de alfa es menor que la calculada,


los cuatro jueces estn asociados significativamente.
Constituyen un panel uniforme. No quiere decir que
estn en lo correcto, solo que responden de manera
uniforme a los estmulos

253

El coeficiente de correlacin de
rangos de Spearman (rs)

El coeficiente de correlacin es una medida de la


asociacin que requiere que ambas variables sean
medidas en al menos una escala ordinal de manera que
las muestras u observaciones a ser analizadas pueden
ser clasificadas en rangos en dos series ordenadas 2

r 1

Ho: Las variables son independientess


Ha: Las variables estn asociadas

6 d

N N
3

Para el ejemplo anterior si N = 10, el coeficiente es:

6(5.5)
rs 1
1 0.03 0.97
990

254

Coeficiente de correlacin
de rangos para monotona
de preferencias
Una persona interesada en adquirir un TV asigna
rangos a modelos de cada uno de 8
fabricantes
Preferencia

Precio
(rango)

449.50 (1)

525.00 (5)

Rang
o
Di

Di
cuadrada

36

479.95 (3)

-1

499.95 (4)

-1

580.00 (8)

549.95 (7)

-7

49

469.95 (2)

532.50 (6)

-4

16

Fab.

255

Coeficiente de correlacin
de rangos para monotona
de preferencias
Ho: No existe asociacin entre los rangos
Ha: Existe asociacin entre los rangos o es positiva o negativa
El coeficiente de correlacin de rangos de Spearman es:
Rs = 1 6*suma(di cuadrada) / (n(n cuadrada 1))
En este caso: Rs = 1 6(144)/(8*(64-1) = -0.714
R0 se determina de la tabla de Valores crticos del coeficiente de
correlacin del coeficiente de correlacin de rangos de
Spearman

Rt = 0.686
Por tanto si hay asociacin significativa en las
preferencias

256

Tabla de constantes
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Alfa=0.05
0.900
0.829
0.714
0.643
0.600
0.564
0.523
0.497
0.475
0.457
0.441
0.425
0.412
0.388
0.377
0.368
0.359
0.351
0.343
0.336
0.329
0.329
0.323
0.317
0.311
0.305

Alfa = 0.025
0.886
0.786
0.738
0.683
0.648
0.623
0.591
0.566
0.545
0.525
0.507
0.490
0.476
0.462
0.450
0.438
0.428
0.418
0.409
0.400
0.392
0.385
0.377
0.370
0.364

257

Corrida con Minitab


Para la corrida en Minitab primero
se deben determinar los
rangos en forma manual para
las variables X y Y.
Stat > Basic statistics >
Correlation
Variables Preferencia Precio

Correlations: Preferencia,
Precio
Pearson correlation of
Preferencia and Precio =
-0.714
P-Value = 0.047

Fabric Prefeante rencia Precio

Preci
o

449

525

479

499

580

549

469

532

258

Ejemplo con Minitab


Se estudia la relacin entre
colgeno y Proline en
pacientes con cirrosis
Stat > Basic statistics >
Correlation
Variables Colgeno Proline

Correlations: Colageno,
Proline
Pearson correlation of
Colageno and Proline =
0.935
P-Value = 0.002

Paciente

Colgeno

Proline

7.1

2.8

7.1

2.9

7.2

2.8

8.3

2.6

9.4

3.5

10.5

4.6

11.4

259

Resumen de pruebas
no paramtricas

Prueba de signos de 1 muestra: Prueba la igualdad de la


mediana a un valor y determina el intervalo de
confianza

Prueba de Wilconox de 1 muestra: Prueba la igualdad de


la mediana a un valor con rangos con signo y determina
el intervalo de confianza

Comparacin de dos medianas poblacionales de Mann


Whitney: Prueba la igualdad de las medianas y
determina el intervalo de confianza

260

Resumen de pruebas
no paramtricas

Comparacin de igualdad de medianas poblacionales de


Kruskal Wallis: Prueba la igualdad de las medianas en
un diseo de una va y determina el intervalo de
confianza

Comparacin de medianas poblacionales de Mood:


Prueba la igualdad de medianas con un diseo de una
va

261

262

263

Salidas de la Fase de Anlisis

Causas raz validadas

Gua de oportunidades de mejora

264

You might also like