You are on page 1of 27

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA
V

ANLISIS DE DATOS CON INFOSTAT.

Introduccin.
El material que se presenta a continuacin contiene resultados del anlisis estadstico de
datos realizados con el software Infostat, empleando los procedimientos desarrollados en la
asignatura.
Su objetivo es complementar las aplicaciones de las diferentes herramientas estadsticas
desarrolladas en la asignatura, con la finalidad de familiarizar al alumno en la lectura e
interpretacin de salidas de software estadstico cuyo manejo es fundamental en esta disciplina.
Para facilitar la presentacin del tema se ha tomado como referencia un problema
ingenieril para el cual se plantean diferentes estrategias de anlisis estadstico, se muestran las
correspondientes salidas de Infostat y se realiza un breve anlisis de los resultados obtenidos.
Problema Propuesto.
En una fbrica autopartista se debe controlar el proceso de produccin de una pieza
mecanizada por un torno, que ltimamente ha registrado muchos reclamos por defectos de
fabricacin.
Se conforma un grupo de trabajo con la misin de resolver el problema. Este grupo debe
reunir toda la informacin posible relacionada con el tema; se plantea como primera actividad
explorar las causas de los reclamos. Buscando en la documentacin del rea de calidad, el grupo
pudo identificar reclamos relacionados con defectos encontrados en:
Dimetro, Longitud, Rugosidad, Embalaje, Causas menores agrupadas como otros.

Realizado un relevamiento sobre una muestra de 50 entregas, se pudo identificar los


siguientes defectos que ocasionaron reclamos:
Dimetro
Dimetro
Dimetro
Rugosidad
Dimetro
Longitud
Dimetro
Longitud
Longitud
Dimetro

Longitud
Longitud
Dimetro
Embalaje
Dimetro
Longitud
Dimetro
Longitud
Longitud
Dimetro

Dimetro
Dimetro
Dimetro
Embalaje
Dimetro
Longitud
Dimetro
Rugosidad
Longitud
Dimetro

Longitud
Longitud
Dimetro
Embalaje
Dimetro
Longitud
Dimetro
Otros
Dimetro
Dimetro

Longitud
Rugosidad
Rugosidad
Otros
Rugosidad
Dimetro
Dimetro
Dimetro
Dimetro
Dimetro

Con esos datos se elaboraron una tabla de frecuencias y un diagrama de Pareto.

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

Distribucin de frecuencias
Variable
Error
Error
Error
Error
Error

Clase
1
2
3
4
5

Categorias
Dimetro
Embalaje
Longitud
Otros
Rugosidad

FA
26
3
14
2
5

FR
0,52
0,06
0,28
0,04
0,10

Ordenando por frecuencias decrecientes se obtiene


Error
Dimetro
Longitud
Rugosidad
Embalaje
Otros

FA
26
14
5
3
2

FR
0,52
0,28
0,10
0,06
0,04

Agrupando los reclamos de acuerdo al defecto que origin el mismo y teniendo en cuenta
la informacin de la tabla precedente, se puede apreciar que los reclamos ms frecuentes estn
relacionados con el dimetro de las piezas, ya que constituye el 52 % de los mismos.
Por otra parte considerando el dimetro y la longitud de las piezas, se observa que entre
ambos suman el 80 % de los reclamos, es decir que estas dos causas son responsables de la
mayor parte de los reclamos: Se concluye que la mayora de los problemas estn relacionados
con caractersticas dimensionales de las piezas.

El anlisis del Diagrama de Pareto, que se muestra a continuacin, confirma las


conclusiones obtenidas en base a la tabla, por lo que el Grupo de Trabajo decide continuar con
el anlisis particular de las caractersticas dimensionales de las piezas en una primera etapa,
dejando el tratamiento de los problemas menos frecuentes para ms adelante.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Diagrama de Pareto
D ia g r a m a d e P a r e t o

Frecuencias relativas

0 ,6 0
0 ,5 0
0 ,4 0
0 ,3 0
0 ,2 0
0 ,1 0
0 ,0 0
D i m e t r o

L o n g it u d

R u g o s id a d

T ip o s d e e rro r

E m b a la je

O tr o s

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

En primer lugar se estudia el comportamiento de la siguiente variable:


X: dimetro de la pieza.
Las especificaciones de ingeniera de la caracterstica son las siguientes: 20 mm. 1 mm. Las
piezas que estn fuera de ese rango deben ser rechazadas (retrabajadas o descartadas). Para
controlar el proceso de fabricacin de la pieza, se extrajo una muestra de 125 piezas producidas
consecutivamente, que arroj los siguientes valores:
Dimetro

Mquina

Dimetro

Mquina

Dimetro

Mquina

Dimetro

Mquina

Dimetro

Mquina

19,81

19,35

19,81

20,64

19,37

21,87

20,73

19,64

19,53

20,72

20,78

20,15

19,95

20,87

20,86

20,50

20,63

21,13

20,53

21,33

21,06

20,01

20,71

20,21

20,03

20,83

20,19

19,81

20,05

20,15

20,98

21,05

19,82

18,66

20,19

21,67

19,60

20,35

20,25

20,86

21,47

20,28

20,62

19,76

19,56

19,88

20,88

20,75

20,96

20,39

21,23

20,04

20,74

20,01

19,77

20,94

20,10

20,79

20,29

20,51

20,00

20,29

20,42

19,09

20,39

20,68

19,01

19,09

20,15

19,92

21,14

20,25

21,12

20,54

20,24

20,58

20,81

19,92

19,86

21,07

20,24

20,15

19,98

19,76

20,03

19,78

19,47

20,21

21,08

19,14

20,78

19,85

21,32

20,38

21,10

20,34

19,83

20,15

20,11

21,00

19,91

19,70

20,39

21,94

20,49

20,61

20,86

20,14

19,59

19,49

19,98

19,74

20,40

21,46

19,69

19,27

19,75

20,42

19,61

19,62

20,54

20,31

20,53

20,61

19,02

Como primer medida se realiza el Diagrama de Puntos y Diagrama de Caja, con el fin de detectar
la presencia de datos atpicos o anmalos.

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

D ia g r a m a d e d e n s id a d d e p u n t o s
2 2 ,5 0
2 2 ,0 0

Dimetro

2 1 ,5 0
2 1 ,0 0
2 0 ,5 0
2 0 ,0 0
1 9 ,5 0
1 9 ,0 0
1 8 ,5 0

 El diagrama de puntos permite observar que la mayor concentracin de datos se produce

levemente por encima de los 20 mm.

D ia g r a m a d e c a ja
2 2 ,5 0
2 2 ,0 0

Dimetro

2 1 ,5 0
2 1 ,0 0
2 0 ,5 0
2 0 ,0 0
1 9 ,5 0
1 9 ,0 0
1 8 ,5 0

 En el diagrama de caja se observa que la media aritmtica prcticamente coincide con la

mediana, y que los brazos del diagrama son bastante parecidos. Esto mostrara la simetra de
la distribucin.
 No se observan datos atpicos.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Luego, continuando con el anlisis se elabora una tabla de frecuencias distribuyendo los datos en
7 intervalos de clase.

recordando que:
 LI y LS representan respectivamente los Lmites Inferior y Superior del Intervalo de clase.
 MC es la Marca de Clase o punto medio del intervalo.
 FA es la Frecuencia Absoluta, FR es la Frecuencia Relativa, FAA la Frecuencia Absoluta

Acumulada y FRA la Frecuencia Relativa Acumulada.


Se tiene
Variable
Dimetro
Dimetro
Dimetro
Dimetro
Dimetro
Dimetro
Dimetro

Clase
1
2
3
4
5
6
7

LI
18,50
19,00
19,50
20,00
20,50
21,00
21,50

LS
19,00
19,50
20,00
20,50
21,00
21,50
22,00

MC
18,75
19,25
19,75
20,25
20,75
21,25
21,75

FA
1
10
30
37
31
13
3

FR
0,01
0,08
0,24
0,30
0,25
0,10
0,02

FAA
1
11
41
78
109
122
125

FRA
0,01
0,09
0,33
0,62
0,87
0,98
1,00

Observando la tabla de frecuencias, se tiene que:


 El intervalo modal (con mayor frecuencia) en este caso es el que va de 20 a 20,5 mm., e

incluye al 30 % de los datos.


 Hay 17 piezas (un 13 %) con el dimetro fuera del intervalo de tolerancia de la caracterstica

(que va de 19 a 21 mm.).

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Adems se dibujan algunos diagramas tiles para analizar la distribucin de la variable:


Histograma, Polgono de Frecuencias. Adems, en el mismo grfico se incluyen el valor nominal
y las especificaciones de la caracterstica controlada

H is t o g r a m a y P o lg o n o d e F r e c u e n c ia s
0 ,3 0

frecuencia relativa

0 ,2 5
0 ,2 0
0 ,1 5
0 ,1 0
0 ,0 5
0 ,0 0
1 8 ,0

1 9 ,0

2 0 ,0

2 1 ,0

2 2 ,0

2 3 ,0

D i m e tr o

 Tanto el histograma como el polgono de frecuencias muestran que la distribucin de la

variable es bastante simtrica.


 Se observa que la mayor concentracin de observaciones se localiza en el intervalo de 20 a

20,5 mm.
 Teniendo en cuanta las especificaciones de la caracterstica estudiada (20 mm 1 mm) se

puede apreciar que la distribucin excede dichas especificacin -marcados en el grfico-, y


no se encuentra correctamente centrada dentro de los mismos (esta desplazada hacia la
derecha).

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

Finalmente se calculan las medidas descriptivas.

Estadstica descriptiva
Resumen
Dimetro
n
125,000
Media
20,296
D.E.
0,624
Var(n-1)
0,389
Var(n)
0,386
CV
3,074
Mn
18,656
Mx
21,941
Mediana
20,255
Q1
19,852
Q3
20,744
Asimetra
0,075
Kurtosis
-0,046

 La media y la mediana son muy parecidas.


 El coeficiente de asimetra es muy bajo en valor absoluto (aunque su signo indica asimetra

positiva con sesgo a la derecha) esto confirma lo sealado en los anlisis presedentes, la
distribucin de la variable es prcticamente simtrica.
 El coeficiente de Kurtosis muy cercano a cero, esto indica que la distribucin de la variable

tiene un grado de apuntamiento similar a una Normal.


 La varianza comn es prcticamente igual a la corregida, porque la muestra considerada es

de tamao considerable.
 El coeficiente de variacin indica que el desvo es un 3 % de la media.

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

Uno de los integrantes del grupo de trabajo remarca que las piezas provienen de dos mquinas
diferentes, por lo que se propone estratificar los datos por mquina para ver si existen diferencias
en sus resultados.
Para obtener la estadstica descriptiva, estratificando por mquina se realiza

Estadstica
Mquina
1
2

descriptiva
Variable
n
Dimetro
50
Dimetro
75

Media D.E.
20,36 0,62
20,25 0,63

CV
3,06
3,09

Mn
Mx Asimetra
19,01 21,87
0,21
18,66 21,94 -4,6E-03

Asimismo, para realizar el Grfico de Caja pero estratificando por Mquina, procedemos

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

C o m p a r a c i n p o r m q u in a
2 2 ,5 0
2 2 ,0 0

Dimetro

2 1 ,5 0
2 1 ,0 0
2 0 ,5 0
2 0 ,0 0
1 9 ,5 0
1 9 ,0 0
1 8 ,5 0
1

M q u in a

Como se puede apreciar tanto grfica como analticamente, las principales propiedades de la
variable son muy parecidas en ambos casos (aunque la distribucin de los datos de la Mquina 1
est ubicada levemente por encima de la 2), por lo que es razonable suponer que los resultados
de ambas mquinas no difieren considerablemente en trminos prcticos.

Teniendo en cuenta las propiedades de la variable analizada anteriormente, se decide emplear la


distribucin Normal para modelar el comportamiento de la variable. (OBSERVACIN: Mas
adelante analizaremos con herramientas de inferencia estadstica si la decisin fue la adecuada)
En base a los resultados de la muestra se ajusta el modelo Normal que describe la distribucin de
probabilidades de la variable en estudio.

A j u s te : N o r m a l ( 2 0 ,2 9 6 ,0 ,3 8 9 )

0 ,3 0

fr e c u e n c ia r e la tiv a

0 ,2 5
0 ,2 0
0 ,1 5
0 ,1 0
0 ,0 5
0 ,0 0
1 8 ,0

1 9 ,0

2 0 ,0

2 1 ,0

2 2 ,0

2 3 ,0

D i m e tr o

Empleando la distribucin Normal, con los parmetros estimados en base a la muestra anterior, se
calcula con Infostat la probabilidad de que una pieza est fuera de especificacin.
P (X < 19) = 0,01885801534
P (X > 20) = 0,1295018017 .
TOTAL = 0,14835981704
Esta probabilidad es bastante parecida a la proporcin de
piezas observadas fuera de tolerancia (que era igual a 0,13).

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Conociendo la probabilidad de que una pieza sea rechazada, y sabiendo que los despachos de esta
pieza se realizan en cajones que contienen 16 piezas, el grupo desea calcular la probabilidad de
que un cajn cualquiera contenga al menos una pieza defectuosa. Empleando el modelo Binomial
con n=16 y p=0,1484, el Infostat permite calcular la siguiente probabilidad:
P (X 1) = 0,9234807959
Para monitorear el funcionamiento del proceso, se puede controlar el dimetro de una pieza
tomada al azar de la produccin con una determinada frecuencia, o se puede tomar una muestra de
varias piezas y controlar el dimetro medio. A fin de evaluar la precisin de cada alternativa, se
compara la distribucin de probabilidades de la variable original con la distribucin de la media
muestral para muestras de tamao 5 y 50.
F u n c io n e s d e d e n s id a d
5 ,0

n = 50

D e n s id a d

3 ,8

2 ,5

n=5
1 ,3

n=1
0 ,0
1 8 ,0 0

1 9 ,0 0

2 0 ,0 0

2 1 ,0 0

2 2 ,0 0

2 3 ,0 0

V a ria b le

Como se puede apreciar, la precisin de la estimacin es ms grande cuando se trabaja con


promedios que cuando se trabaja con observaciones individuales, y a su vez es mayor a medida
que aumenta el tamao de la muestra (la distribucin tiene menor dispersin en torno a su
media).

Para realizar inferencias sobre el dimetro, el grupo debe comprobar en primer lugar si es
razonable suponer que la variable tiene distribucin Normal. Para esto se implementan las pruebas
de bondad de ajuste Chi-Cuadrado y de Kolmogorov, empleando los datos de la muestra inicial.
A continuacin se ilustrar el modo de realizar diversas pruebas de hiptesis utilizando el
software. En ellas, no se han planteado las Hiptesis Nula y Alternativa ya que el objetivo en esta
parte de la Gua es mostrar cmo se realizan estas pruebas con Infostat. En cada caso, usted
deber plantear las hiptesis correspondientes a cada prueba. Por lo tanto:
Recuerde plantear SIEMPRE la Hiptesis Nula y la Alternativa, en funcin de la variable
estudiada y del problema planeado!

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA
Volviendo al problema en estudio:
X: dimetro de la pieza
Utilizando Infostat en este ejemplo, se tiene:

1. Si se elige la Prueba de Bondad de Ajuste

Ajuste: Normal con estimacin de parmetros: Media= 20,29574 y varianza=


0,38933
Variable Clase LI
Dimetro 1
18,65
Dimetro 2
19,20
Dimetro 3
19,75
Dimetro 4
20,30
Dimetro 5
20,85
Dimetro 6
21,40

LS
19,20
19,75
20,30
20,85
21,40
21,95

MC
18,93
19,48
20,03
20,58
21,13
21,68

FA
6
15
45
34
20
5

FR
0,05
0,12
0,36
0,27
0,16
0,04

E(FA)
4,94
18,92
38,98
38,76
18,60
4,80

E(FR) Chi-Cuadrado
0,04
0,23
0,15
1,04
0,31
1,97
0,31
2,55
0,15
2,66
0,04
2,67

0,4459

Teniendo en cuenta esta salida tenemos que:; ^ = 20,29574 y 2;^ = 0,38933 y estamos
planteando
H0: X tiene distribucin Normal con media 20,29574 y varianza 0,38933.
H1: X no tiene distribucin Normal con media 20,29574 y varianza 0,38933.
En la salida se vislumbra que:
 LI y LS son los Lmites Inferior y Superior de los intervalos de clase en que se agruparon las

observaciones individuales, y MC es la Marca de Clase de cada intervalo.


 FA y FR son las Frecuencias Absolutas y Relativas observadas.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

 E(FA) y E(FR) son las Frecuencias Absolutas y Relativas esperadas, calculadas en base al

modelo propuesto (suponiendo H0 verdadera).

(fobs fest )

, valores necesarios
fest
2
fobsi festi )
(
2
para obtener una estimacin del estadstico de prueba =
, que en este
festi
i
caso vale 2,67 (valor reportado en la ltima fila). En este caso los grados de libertad son 3
(pues k = 6, r = 2 cantidad de parmetros estimados).

 La columna Chi-Cuadrado va calculando y acumulando

 la ltima columna (p) reporta el valor p: que es la probabilidad de observar un valor mayor o

igual al valor del estadstico de prueba estimado dado que la hiptesis nula es verdadera.
Grficamente

p(X2,67)

 Al comparar el valor p con el nivel de significacin elegido permite concluir acerca del

resultado de la prueba (rechazar o no la hiptesis nula).


o Si el p-valor< significa que la estimacin del estadstico de prueba cae en zona de
rechazo, por lo que se rechaza la hiptesis nula.
o En cambio, si el p-valor> no se rechaza la hiptesis nula.
En el ejemplo planteado, si suponemos que se haba elegido un nivel de significacin = 0.05
entonces para elaborar su conclusin puede
A) Tener presente todas las columnas de la salida a excepcin de la columna donde figura el
2
valor p y buscar en la tabla de la distribucin Chi-cuadrado el punto crtico ,k-r-1
que en
2
2
este caso sera Yc= 0,05;3
=12,837. Luego como obs
=2,67 es menor que Yc no se
rechaza H0. En conclusin la distribucin del dimetro de la pieza puede modelarse con la

distribucin Normal con los parmetros especificados en el encabezamiento de la tabla.

B) Tener presente todas las columnas de la salida. Entonces como p(X2,67) es mayor al nivel
elegido 0,05 se puede decir que no se rechaza H0 y por ende que la distribucin del dimetro de

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

la pieza puede modelarse con la distribucin Normal con los parmetros especificados en el
encabezamiento de la tabla (los parmetros son estimados automticamente a partir de la muestra
en estudio).

2. Si se elige la Prueba de Bondad de Kolmogorov-Smirnov


Teniendo en cuenta que:; ^ = 20,29574 y 2;^ = 0,38933 estamos planteando
H0: X tiene distribucin Normal con media 20,29574 y varianza 0,38933.
H1: X no tiene distribucin Normal con media 20,29574 y varianza 0,38933.

Prueba de Kolmogorov para bondad de ajuste


Variable
Dimetro

Ajuste
Normal(20,296,0,389)

media
20,30

varianza
0,39

n
125

Estadistico D
0,03

p-valor
0,9993

En la salida se vislumbra que:


 En la columna Ajuste se indica el modelo propuesto y sus parmetros.
 El Estadstico D es la mayor diferencia entre la Distribucin de Frecuencias Relativas

Acumuladas observada y esperada (bajo el modelo supuesto).


 El p-valor es la probabilidad asociada a dicho estadstico.

En el ejemplo planteado, si suponemos que se haba elegido un nivel de significacin = 0.05


entonces para elaborar su conclusin puede
A) Tener presente todas las columnas de la salida a excepcin de la columna donde figura el
valor p y buscar en la tabla de Kolmogorov-Smirnov el punto crtico Dc que en este caso
sera Dc= . Luego como D =0,03 es menor que Yc no se rechaza H0. En conclusin la
distribucin del dimetro de la pieza puede modelarse con la distribucin Normal con los
parmetros especificados en el encabezamiento de la tabla.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

B) Tener presente todas las columnas de la salida. Entonces como p=0,9993 es mayor al nivel
elegido 0,05 se puede decir que no se rechaza H0 y por ende que la distribucin del dimetro de
la pieza puede modelarse con la distribucin Normal con los parmetros especificados en el
encabezamiento de la tabla.

Comprobada la normalidad de la variable, ahora el grupo desea verificar si el dimetro cumple o


no con los requerimientos de diseo. En primer lugar, recordemos que con los datos de la muestra
inicial se calcularon estimaciones insesgadas de la verdadera media y varianza.
Resumen
n
Media
D.E.
Var(n-1)

Dimetro
125,000
20,296
0,624
0,389

Se calcularon la media aritmtica y la varianza muestral corregida porque son


estimaciones insesgadas de la verdadera media y varianza poblacionales (significa que el valor
esperado de esos estimadores coincide con los parmetros poblacionales).
Esto es: ; ^ = 20,29574 y 2;^ = 0,38933

El dimetro tiene un valor nominal de 20 mm. Empleando un intervalo de confianza del 95 %


para la media, el grupo va a explorar si la media de la variable cumple con esa especificacin.

Intervalos de confianza
Bilateral
Estimacin paramtrica
Variable
Dimetro

Parmetro
Media

Estimacin
20,30

La tabla muestra
 la estimacin puntual de la media,
 el error estndar de la media,
 el tamao de la muestra y

E.E.
0,06

n
125

LI(95%)
20,19

LS(95%)
20,41

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

 un intervalo de confianza del 95 % para la verdadera media calculado en base a la

distribucin t.

Graficando

In t e r v a lo d e c o n f i a n z a p a r a la m e d ia
2 0 ,5 0
2 0 ,4 0

D i m e tro

2 0 ,3 0
2 0 ,2 0
2 0 ,1 0
2 0 ,0 0
1 9 ,9 0

El intervalo obtenido [20,19; 20,41] tiene un 95% de confianza de incluir a la verdadera


media poblacional del dimetro (es decir la media de toda la produccin de piezas de ese tipo),
pero no incluye al valor nominal y est ntegramente por encima de ese valor. Por lo tanto
existen fuertes evidencias estadsticas que permiten suponer que la verdadera media poblacional
es significativamente mayor al valor nominal, por lo que el proceso no est correctamente
centrado en el valor objetivo.

Otro procedimiento que el grupo emplea para comprobar si el dimetro medio difiere
significativamente del valor nominal (20 mm.) es la prueba de hiptesis. En este caso, como las

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

evidencias parecen sugerir que el dimetro obtenido es mayor, se decide utilizar una prueba de
unilateral derecha. Es decir, se plantea que:
H0: = 20 mm.
H1: > 20 mm.
Valor del
parmetro bajo H0

Prueba T para un parmetro


Valor del parmetro probado: 20
Variable
Dimetro

n
125

Media
DE
20,30 0,62

LI(95) LS(95) T
20,19 20,41 5,30

p(Bilateral)
<0,0001

La tabla proporciona
 el tamao de la muestra,
 estimaciones puntuales de la media y el desvo estndar de la variable,
 un intervalo de confianza del 95 % para la verdadera media,
 la estimacin del estadstico de prueba (que tiene distribucin t), y
 el p-valor asociado a dicha estimacin.
En este caso el valor p es menor a cualquiera de los niveles de significacin usados, lo
que indica que el estadstico de prueba (T) cae en zona de rechazo. Por lo tanto se rechaza la
hiptesis nula de que la media poblacional es igual a 20, comprobndose la hiptesis alternativa
que postula que es significativamente mayor a ese valor.
Observacin: si no se desea considerar la informacin acerca del p-valor, se puede calcular el
punto crtico tc = t, n-1 que en este caso sera tc= t0,05;124 =1,657.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Funcin de densidad
0,40

T Student(124): p(evento)=0,0500

Densidad

0,30

0,20

0,10

0,00
-5,04

-2,52

0,00

2,52

5,04

Variable

Luego como T = 5,30 es mayor que tc, se rechaza H0. En conclusin media poblacional del
dimetro de la pieza es significativamente mayor a 20..

Por otra parte el grupo desea comparar el funcionamiento de las dos mquinas que
producen la pieza en estudio. Para comparar el centrado de las dos mquinas, el grupo compara
los intervalos de confianza del 95 % para las verdaderas medias.

Intervalos de confianza

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA
Bilateral
Estimacin paramtrica
Mquina Variable
1
Dimetro

Parmetro
Media

Media

Dimetro

Estimacin
20,36

E.E.
0,09

n
50

20,25

0,07

75

LI(95%) LS(95%)
20,18 20,53
20,11

20,40

La tabla contiene
 estimaciones puntuales de la media para ambos grupos,
 los errores estndar de la media,
 los tamaos muestrales y
 los intervalos de confianza del 95 % para la verdadera media de cada poblacin.
Graficando

C o m p a r a c i n d e m q u in a s
2 0 ,6 0
2 0 ,5 0

D i m e tro

2 0 ,4 0
2 0 ,3 0
2 0 ,2 0
2 0 ,1 0
2 0 ,0 0
1 9 ,9 0
1

M q u in a

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

Los intervalos de confianza para la media se solapan, lo que indica que es razonable
suponer que las verdaderas medias no difieren significativamente para ambas mquinas.

Ahora, para comprobar si la dispersin de las dos mquinas es similar, el grupo usa la
prueba de comparacin de varianzas poblacionales. Planteamos
H0: 2 maq1 = 2 maq2
H1: 2 maq1 2 maq2

Prueba F para igualdad de varianzas


Variable
Dimetro

Grupo(1)
{1}

Grupo(2) n(1)
(2}
50

n(2)
75

Var(1) Var(2) F
0,39
0,39 0,99

p
prueba
0,9546 Bilateral

La tabla proporciona
 los tamaos de cada muestra,
 estimaciones puntuales de las varianzas de ambas muestras,
 una estimacin del estadstico de prueba (que tiene distribucin F),
 y el valor p asociado a dicha estimacin. Se explicita que es una prueba bilateral.
Como el valor p es mayor a cualquiera de los niveles de significacin usados, significa
que el estadstico de prueba (F) cae en zona de aceptacin, por lo que no se rechaza la hiptesis
de igualdad de varianzas poblacionales. Entonces la dispersin de las dos mquinas es similar.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Observacin: recuerde que si no se desea considerar la informacin acerca del p-valor, se pueden
calcular los puntos crticos Fc1 = F1-/2, (n1 1), (n2 1) y Fc2 = F/2, (n1 1), (n2 1) para luego analizar si
el valor obtenido F, cae o no en la regin de rechazo.
Funcin de densidad
F de Snedecor(49,74,0): p(evento)=0,0500

1,6

Densidad

1,2

0,8

0,4

0,0
0,00

0,60

1,20

1,79

2,39

Variable

Fc1 = F1-/2, (n1 1), (n2 1) = F0,0975, 49, 74 = 0,589


Fc2 = F/2, (n1 1), (n2 1) = F0,025, 49, 74 = 1,652

Luego, como 0,589 F (= 0,99) 1,652 no se rechaza hiptesis nula.

Si queremos comparar el centrado de las dos mquinas, entonces realizamos la prueba de


igualdad de medias poblacionales. Planteamos
H0: maq1 = maq2
H1: maq1 maq2

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

Prueba T para muestras Independientes


Clasific
Mquina

Variable Grupo(1) Grupo(2) n(1) n(2)


Dimetro {1}
{2}
50 75

media(1)
20,36

media(2)
20,25

p(Var.Hom.) T
0,9828
0,90

p
0,3677

prueba
Bilateral

La tabla proporciona
 los tamaos de cada muestra,
 estimaciones puntuales de la media para cada grupo,
 el valor p para la prueba de homogeneidad de varianzas (donde se hipotetiza que las
varianzas poblacionales son iguales),
 el estadstico T para la prueba de igualdad de medias poblacionales (que tiene
distribucin t), y
 el valor p asociado a la estimacin de dicho estadstico.
Nuevamente el valor p es mayor a cualquiera de los niveles de significacin usados, lo
que indica que la estimacin del estadstico de prueba (T) cae en zona de aceptacin, por lo que
no se rechaza la hiptesis de igualdad de medias poblacionales.
Por lo tanto, para ambas mquinas, las verdaderas medias no difieren significativamente.
Esta conclusin es coincidente con la obtenida a partir de la comparacin de los intervalos de
confianza para la media.
Observacin: recuerde que si no se desea considerar la informacin acerca del p-valor, se pueden
calcular los puntos crticos tc1 y tc2 para luego analizar si el valor obtenido T, cae o no en la
regin de rechazo.

Finalmente, el grupo de trabajo sospecha que en el proceso de fabricacin de la pieza, el


dimetro obtenido depende significativamente de la velocidad de avance de la mquina que lo
produce.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Para comprobar si la suposicin es razonable, se extrae la siguiente muestra de


observaciones conjuntas de velocidad vs. dimetro.
Dimetro
Velocidad

19,85
43

20,00 20,08 20,25 20,37 20,40 20,55 20,61 20,62 20,68 20,81 20,89 20,90 21,10 21,35
46

46

48

48

49

49

49

50

50

51

52

52

54

Para analizar la relacin entre las dos variables, se elabora un diagrama de dispersin, se
realiza el anlisis de correlacin, y se ajusta un modelo de regresin lineal simple.

Diagrama de Dispersin
21,43

Dimetro

21,01

20,60

20,19

19,77
42

46

50

53

57

Velocidad

Analizando el grfico de dispersin, este nos muestra una clara relacin entre ambas
variables, de tipo lineal.

Coeficientes de correlacin

56

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

Correlacion de Pearson: coeficientes\probabilidades

Dimetro
Velocidad

Dimetro
1,00
0,98

Velocidad
3,8E-11
1,00

Notar que
 Por debajo de la diagonal principal se proporciona el coeficiente de correlacin, y
 por encima el valor p asociado a la prueba de hiptesis sobre el coeficiente de

correlacin poblacional, es decir H0: = 0 vs. H1: 0.


Como el coeficiente de correlacin es igual a 0,98 nos est indicando que existe un
elevado grado de asociacin lineal entre las dos variables. Por otro lado, el valor p es menor a
cualquiera de los niveles de significacin usados, indicndonos que se rechaza la hiptesis de
que el coeficiente de correlacin poblacional es igual a cero. Es decir que el coeficiente de
correlacin poblacional es significativamente diferente de cero, hay asociacin lineal
Se ajusta un modelo de regresin lineal simple.

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Grficamente obtenemos
21,46

Dimetro

21,01

20,56

20,11

19,66
42,35

45,92

49,50

53,08

56,65

Velocidad

Anlisis de regresin lineal


Variable
Dimetro

N
15

R
0,97

R Aj ECMP
0,97 0,01

La tabla muestra
 el coeficiente de determinacin,
 su valor ajustado (por los grados de libertad), y
 el Error Cuadrtico Medio de Prediccin.
El coeficiente de determinacin es igual a 0,97, entonces el 97 % de la variacin de la
variable dependiente, al variar la independiente, se explica por el modelo.
Coeficientes de regresin y estadsticos asociados
Coef
const
Velocidad

Est.
EE
14,36 0,31
0,13 0,01

LI(95%)
13,68
0,11

LS(95%)
15,03
0,14

T
p-valor
46,13 <0,0001
19,99 <0,0001

CpMallows

Esta tabla proporciona


 una estimacin de cada uno de los coeficientes del modelo lineal simple,
 su error estndar,

372,15

PROBABILIDAD Y ESTADSTICA

Anlisis de datos con Infostat

 un intervalo de confianza del 95 % para el verdadero valor del parmetro,


 el estadstico T para la prueba de hiptesis sobre el coeficiente. En cada caso se

hipotetiza H0: = 0 vs. H1: 0 y H0: = 0 vs. H1: 0 respectivamente.


 y el p-valor asociado a cada una de dichas pruebas.

Teniendo en cuenta la informacin que proporciona la Tabla de coeficientes de


regresin y estadsticos asociados resulta que el modelo ajustado es el siguiente:
y = a + b x
y = 14,36 + 0,13 x
siendo el dimetro la variable dependiente y y la velocidad la variable regresora x.
Si observamos los intervalos de confianza para el verdadero valor de cada uno de los
parmetros, vemos que ninguno de ellos incluye el cero.
Los valores p asociados a ambos coeficientes son menores a cualquiera de los niveles de
significacin usados, lo que permite rechazar la hiptesis nula de que los coeficientes no son
significativos.
Observacin: recuerde que si no se desea considerar la informacin acerca del p-valor, se pueden
calcular para cada prueba, los puntos crticos tc1 y tc2 para luego analizar si el valor obtenido T,
cae o no en la regin de rechazo.

Validacin de los supuestos


Normalidad

Anlisis de datos con Infostat

PROBABILIDAD Y ESTADSTICA

Cuantiles observados(RDUO_Dimetro)

Grfico Q-Q plot


0,13

n= 15 r= 0,982 (RDUO_Dimetro)

0,06

0,00

-0,06

-0,13
-0,13

-0,06

0,00

0,06

0,13

Cuantiles de una Normal(2,7756E-017,0,0054661)

El Q-Q plot se realiza con los residuos del modelo de regresin y usando como distribucin
terica la Normal. Los puntos se disponen en una recta a 45 indicando que el supuesto
distribucional para los residuos se cumple.

You might also like