Professional Documents
Culture Documents
I.
OBJETIVO
Revisar los principales conceptos y aplicaciones de los fundamentos de
estadstica, debido a su importante relacin con las actividades de control
de calidad en la industria alimentaria.
II.
Frecuencia acumulada.
Nmero de observaciones que son menores que el lmite superior
de la clase.
Se obtiene sumando las frecuencias (absolutas o relativas) en
sentido
descendente.
Rango.
En estadstica, el rango representa la diferencia entre el
valor mximo y el valor mnimo de un conjunto de datos.
El rango nos muestra qu tan distribuidos estn los valores
en una serie. Si el rango es un nmero muy alto, entonces
los valores de la serie estn bastante distribuidos; en
cambio, si se trata de un nmero pequeo, quiere decir que
los valores de la serie estn muy cerca entre s.
Diagrama de frecuencia.
Esta representacin grfica se corresponde con la de una
funcin constante entre cada dos valores de la variable a
representar hasta el menor de los dos valores de la variable
que construyen el tramo en el que es constante.
Ejemplo:
Tambin para el ejemplo del Nmero de Hijos, se tendr undiagrama de
frecuenciascomo el del siguiente grfico.
Diagrama de barras.
El diagrama
de
barras (o grfico
de
barras)
es
un grfico que se utiliza para representar datos de variables
cualitativas o
discretas.
Est
formado
por barras rectangulares cuya altura es proporcional a la
frecuencia de cada uno de los valores de la variable.
4. Pirmide de poblacin:
Una pirmide de poblacin es un diagrama de barras bidireccional que muestra
la poblacin por sexo y rangos de edad en un momento determinado.
En el eje vertical se representan los intervalos de edades. En el eje horizontal
se representan los porcentajes de poblacin. En una direccin se representarn
los hombres y en el otro las mujeres.
Polgono de frecuencia.
Alternativo al histograma de frecuencias podemos
representar la informacin a travs de los llamados
polgonos de frecuencias. Estos se construyen a partir de los
puntos medios de cada clase. La utilizacin de los puntos
medios o marcas de clase son llevados al escenario grfico
mediante la utilizacin de los polgonos de frecuencias. Se
construye uniendo los puntos medios de cada clase
localizados en las tapas superiores de los rectngulos
utilizados en los histogramas de las grficas. Su utilidad se
hace necesaria cuando desean destacarse las variables de
tendencia central, como son media, modas y medianas.
Ejemplo: Una maquina llena un recipiente con una cantidad medida de caf.
El peso del caf en cada recipiente tiene una distribucin normal con una
media de 510g de caf y una desviacin estndar de 4g. Cul es la
f ( y)=
1
e( y510 ) / 2(4)
2 .4
2
La cantidad
z=
y510
4
f ( y)=
1 z /2
e
2
2
f ( z ) dz
E = (X)=NxP
Ecuacin 2. Esperanza de la distribucin Binomial.
Ejemplo 3.
Con el propsito de verificar si se aceptan los lotes de piezas de que se reciben
en una determinada fbrica, se lleva a cabo un plan de control consistente en
seleccionar 10 artculos al azar de cada lote y determinar el nmero de piezas
defectuosas. Un lote se rechaza si se encuentran dos o ms piezas
defectuosas. Cul es la probabilidad de aceptar lotes con un 5 % de piezas
defectuosas?
Sea el suceso A: ser pieza defectuosa.
La probabilidad de A, ser p= 0,05 al ser la proporcin de defectuosos de lote
del 5%.
Sea la variable X nmero piezas defectuosas en el lote B (n=10, p=0,05).
Sea el coeficiente de aceptacin, a (o c), a = 2.
P ( aceptar ) =
10
Distribucin de Poisson.
La distribucin de Poisson se utiliza en situaciones donde los
sucesos son impredecibles o de ocurrencia aleatoria. En
otras palabras no se sabe el total de posibles resultados.
Permite determinar la probabilidad de ocurrencia de un
suceso con resultado discreto.
Es muy til cuando la muestra o segmento n es grande y la
probabilidad de xitos p es pequea.
Se utiliza cuando la probabilidad del evento que nos
interesa se distribuye dentro de un segmento n dado como
por ejemplo distancia, rea, volumen o tiempo definido.
Frmula de Poisson:
n = nmero de experimentos
exito
p = probabilidad de
En teora
de
la
hipergeomtrica es
probabilidad la distribucin
relacionada
mide
la
probabilidad
de
obtener x (
de
probabilidad de
una
variable
aleatoria
con
distribucin
donde
es el tamao de poblacin,
extrada,
es el tamao de la muestra
es el nmero de elementos en la
elementos de un total
y su varianza,
se obtiene
X=2
n= 10
t=5
N= 20
NT T
)( )
X
N X X
p
,T ,n =
N
N
( )
n
5 205 5
( )(
)( )
2 102 2
=0.3482
20
( )
10
Para poder entender esta relacin tendremos que analizarlo en forma grfica:
edad
15
30
18
42
28
19
31
peso
60
75
67
80
60
65
92
La
correlacin
se
puede
explicar con la pendiente de esa recta
estimada y de esta forma nos podemos dar
cuenta que tambin existe el caso en el que
al crecer la variable independiente
decrezca la variable dependiente. En
aquellas rectas estimadas cuya pendiente
sea cero entonces podremos decir que no
existe correlacin.
As en estadstica podremos calcular la correlacin para datos no agrupados
con la siguiente formula.
En
R
N
X
Y
i 1
i 1
n xi y i x i * y i
i 1
n x xi n y i2
i 1 i 1
i 1
n
2
i
y
i 1
donde:
= coeficiente de correlacin
=
nmero
de
pares
ordenados
= variable independiente
= variable independiente
Ejemplo:
Edad (x)
15
30
18
42
28
19
31
183
Peso (y)
60
75
67
80
60
65
92
499
X2
225
900
324
1764
784
361
961
5319
Y2
3600
5625
4489
6400
3600
4225
8464
36403
X* Y
900
2250
1206
3360
1680
1235
2852
13483
n
n
n
n xi yi xi * yi
i 1
i 1
i 1
n 2 n 2 n 2 n 2
n xi xi n yi yi
i 1
i 1 i 1
i 1
n fx xi fx xi n fy y i fy y i
nmero de clases de "x".
i 1
i 1
i 1
i 1
Tambin
podemos
observar que hay varios
tipos de "f" es decir, la que se encuentra sola (sin subndice) que nos habla de
las frecuencias celdares (cada una de las frecuencias que se encuentran en la
interseccin entre una columna y un rengln) y las "f" con subndices que
representan las frecuencias de cada una de las variables.
k
n f xi y i fx xi * fy y i
fy
fx y
4
19
178
1035.5
fx
y^2
7921
56434.
75
de
64.5
clase
de "Y" 74.5
84.5
94.5
fx
fx
x
fx
x^2
0
0
9
13.9
05
21.4
832
25
580.5
521.5
422.5
1
3
4
12
17
7
3
48
19.7 29.66 12.91 5.83 82.06
4
5
5
5
32.4 51.76 23.82 11.3 140.898
723 5425 8175 490
2
75
378
3116
37442.
25
38851.
75
35701.
25
35721
212072
f x y 5380.7
7
Correlacin 0.695
=
i 1
i 1
n f xi y i f x x i * fy y i
j 1 i 1
2
2
2
k
k
n f x x i f x x i n f y y i fy y i
i 1
i 1
i 1
i 1
l
0.695
47
15
100
120
1500
2000
Coeficiente de correlacin.
Curvilnea.
Cuando las variables X e Y se relacionan segn una
lnea curva, se
habla de regresin no lineal o
curvilnea. Es una funcin de segundo grado la que se
ajusta lo suficiente a la situacin real dada.
La expresin general de un polinomio de segundo grado es:
Y =a+bX+cX2 donde a , b y c son los parmetros.
El problema consiste, por tanto, en determinar dichos parmetros para
una distribucin dada. Se seguir para ello, un razonamiento y la utilizacin de
las ecuaciones normales de Gauss. Las ecuaciones normales son:
Y = na + b X + C X2 (1)
X Y = a X + b X2 + C X3 (2)
X2 Y = a X2 + b X3 + C X4 (3)
Para lo cual se necesita elaborar el cuadro con cada una de las variables que
aparecen en las ecuaciones normales y los resultados obtenidos en este
sustituirlos en ellas para encontrar los valores de las constantes.
Para encontrar los valores de las constantes utilizaremos matrices.
Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en
general, suelen ser nmeros ordenados en filas y columnas.
Se llama matriz de orden "m n" a un conjunto rectangular de elementos aij
dispuestos en m filas y en n columnas. El orden de una matriz tambin se
denomina dimensin o tamao, siendo m y n nmeros naturales.
Las matrices se denotan con letras maysculas: A, B, C, ... y los elementos de
las mismas con letras minsculas y subndices que indican el lugar ocupado: a,
b, c, ... Un elemento genrico que ocupe la fila i y la columna j se escribe aij . Si
el elemento genrico aparece entre parntesis tambin representa a toda la
matriz : A = (aij)
Al encontrar los valores de las constantes que buscamos sustituimos los
valores en la ecuacin de regresin curvilnea para obtener los resultados que
buscamos. Y poder hacer las estimaciones correspondientes.
CRESIMIENTO PROMEDIO(EN %)
80
105
75
Experimentos factoriales.
Por lo tanto, se puede definir a los experimentos factoriales
como aquellos en los que se comparan o estudian
simultneamente dos o ms factores principales, incluyendo
los diferentes niveles o modalidades de cada uno. El Anova
en experimentos factoriales constituye una tcnica
estadstica para analizar el efecto de dos o ms variables
independientes (factores) sobre una variable respuesta.
Como en estos experimentos los tratamientos se forman
combinando cada nivel de un factor con cada uno de los
niveles del otro (o de los otros, si hubiere ms de dos), este
tipo de experimento permite adems evaluar los efectos de
las interacciones. Se dice que entre dos factores hay
interaccin si los efectos de un nivel de un factor dependen
de los niveles del otro.
Dicho con otras palabras la respuesta de un factor es
influenciada en forma diferenciada por los niveles del otro.
La existencia de interacciones indica que los efectos de los
factores sobre la respuesta no son aditivos y por tanto no
pueden separarse los efectos de los factores.
Tabla 1: Expresiones para el clculo del cuadro de anlisis de la varianza de un
experimento bifactorial con diseo completamente aleatorizado.
EJEMPLO.
Pasos:
Ordenar los datos en funcin de los momentos antes y despus, y obtener las
diferencias entre ambos.
Calcular la media aritmtica de las diferencias ( ).
Calcular la desviacin estndar de las diferencias (sd).
Calcular el valor de t por medio de la ecuacin.
Calcular los grados de libertad (gl) gl = N - 1.
Comparar el valor de t calculado con respecto a grados de libertad en la tabla
respectiva, a fin de obtener la probabilidad.
Decidir si se acepta o rechaza la hiptesis.
Ecuacin t.
gl = N1 + N2 -2 = 10 + 10 - 2 = 18
El valor de to se compara con los valores crticos de la tabla (tt) con 18 grados
de libertad, y se obtiene que en el valor ms cercano al calculado, la
probabilidad es de 0.001 (valor crtico de t: 3.92).
Decisin.
Como el valor de to (3.99) tiene una probabilidad de significancia menor que
0.001, tambin es menor que 0.05, propuesto como nivel de significancia, por
lo cual se acepta Ha y se rechaza Ho.
Interpretacin.
Las diferencias en talla de ambos nios de condiciones socioeconmicas
antagnicas (alta y baja) difieren notoriamente en el nivel de confianza de p
menor que 0.001.
Prueban de Ducan.
Donde el CM
, el
determinar
los valores de
(intervalos o amplitudes estandarizadas significativos)
utilizando las tablas de amplitudes estandarizadas de Duncan dadas por Harter
(1960) y que se encuentran en el libro de Miller (1992). Para encontrar estos
valores, se requieren los grados de libertad del error y el valor de
.
3. Determinar las amplitudes mnimas significativas denotadas por
calculados por la expresin:
4.
Se
ordenan
de
manera
creciente
los
resultados
promedios
del
experimento
5. Se comparan las medias ordenadas
comparar en el siguiente orden:
as:comienza a
a) El promedio ms alto,
con el ms bajo,
comparando esta diferencia
con el intervalo mnimo significativo . Si esta diferencia es no significativa
entonces todas las otras diferencias son no significantes. Si la diferencia es
significativa se continua con b)
b) Posteriormente se calcula la diferencia entre el valor ms alto
penltimo
y el
con la ms
pequea
Este proceso contina hasta que han sido comparadas las diferencias entre
todos los
posibles pares.
por
y
y
son los tamaos de muestra correspondientes a las medias de
tratamientos menos pequeo y ms grande respectivamente.
Ejemplo: Al aplicar el mtodo de Duncan a los datos del ejemplo del algodn
se tiene:
1. El error estndar de la media es
se
compara con
porque entre
hay inclusive
medias.Ver numeral 4 .
Prueba de Tukey.
Este procedimiento fue propuesto por Tukey (1952) para
probar la hiptesis
Se rechaza
Nosotros comparamos
si
con
Donde
es
el
percentil
de
la
distribucin
rango
En esta prueba se utiliza un slo valor con el cual se comparan todos los
posibles pares de medias. El mtodo de comparacin de Tukey fue reformado
por Kramer (1956) para casos en el que el nmero de rplicas no es igual. Este
mtodo es conocido como mtodo de Tukey-Kramer. Este simplemente
reemplaza la expresin dada en Tukey por:
Donde
en un D.C.A.
Rechazar
si
Cuando las rplicas son muy diferentes este mtodo es menos sensible que el
de Scheff.
Ejemplo: En el ejemplo de los medicamentos los contrastes C , C
comparaciones independientes, as
hiptesis
si
y C , son
El valor de
es 2.522
2.4.2. NO PARAMETRICAS.
Prueva para k muestras independientes.
En este apartado se presentan dos pruebas que permiten contrastar si k >2
muestras aleatorias e independientes proceden de una misma poblacin, es
decir, si un factor que subdivide la poblacin de origen incide de forma
significativa sobre el valor central de la poblacin. Estos contrastes son
alternativas no paramtricas al anlisis de la varianza cuando se incumple
alguno de los supuestos bsicos de dicho anlisis. El nico requisito para
aplicar estos contrastes es que la variable est medida al menos en una escala
ordinal.
PRUEBA H DE KRUSKAL-WALLIS
Este contraste permite decidir si puede aceptarse la hiptesis de que k
muestras independientes proceden de la misma poblacin o de poblaciones
idnticas con la misma mediana. El nico supuesto necesario es que las
distribuciones subyacentes de las variables sean continuas y que stas hayan
sido medidas por lo menos en una escala ordinal.
Sean n1, n2 ... nk los tamaos de cada una de las muestras y n el total de
observaciones. Para el clculo del estadstico de prueba se ordenan las n
observaciones de menor a mayor y se les asignan rangos desde 1 hasta n. A
continuacin se obtiene la suma de los rangos correspondientes a los
elementos de cada muestra, Rj y se halla el rango promedio. Si la hiptesis
nula es cierta, es de esperar que el rango promedio sea aproximadamente
igual para las k muestras; cuando dichos promedios sean muy diferentes es un
indicio de que H0 es falsa.
El estadstico de prueba es:
Muestra
Superiore
s a Me
Inferiores
a
Me
Inferior o
iguales a
Me
Total
El estadstico de prueba
es:
En primer lugar el output nos muestra el rango promedio que han obtenido los
atletas en cada uno de los das de competicin, podemos observar como media
de las posiciones que han ocupado el tercer da parece ser mayor que la de los
dos primeros das. Posteriormente el programa nos presenta la prueba de
inferencia
correspondiente:
Partiendo de este resultado podemos concluir que la posicin en la que han
terminado la carrera este grupo de atletas se ha ido modificando a lo largo de
los tres das en los que hemos obtenido los datos.
III.
BIBLIOGRAFIA
.http://www.virtual.unal.edu.co
.https://www.clubensayos.com/Temas-Variados/RegresionCurvilinea/34154.html
.http://www.vitutor.com/pro/3/b_g.html (Consultado 29/09/2008).
. JORGE GALBIATI RIESCO: DISEO DE EXPERIMENTOFACTORIALES
APLICADOS A
PROCESOS INDUSTRIALES
.EDICIONES DIAZ DE SANTOS, S.A: CONTROL DE CALIDAD- TEORIA Y
APLICASIONES
.Dette H., Melas VB, Pepelyshev A. Optimal designs for a class of
nonlinear regression models. Ann Stats 2004, 32: 214267