Professional Documents
Culture Documents
AG-EE-EM-ET-EQ 1011
FORMULARIO
AG-EE-EM-ET-EQ 1011
x
=
Media geom
etrica
v
u k
uY
N
G = t xni i
k
X
xi ni
i=1
i=1
Moda
M o = xi tal que ni es maximo
Distribuciones no agrupadas
Distribuciones agrupadas
- Intervalos de igual amplitud: [li , Li ) tal que ni es maximo
M o = li +
ni+1
ai
ni1 + ni+1
hi+1
ai
hi1 + hi+1
Mediana
Distribuciones no agrupadas
Ni1 <
N
< Ni = M e = xi
2
Ni1 <
N
xi + xi+1
= Ni = M e =
2
2
Distribuciones agrupadas
Ni1 <
N
Ni = M e [li , Li )
2
M e = li +
N/2 Ni1
ai
Ni Ni1
Percentil de orden r
Distribuciones no agrupadas
Ni1 <
N r
< Ni = Pr = xi
100
Ni1 <
N r
xi + xi+1
= Ni = Pr =
100
2
Distribuciones agrupadas
Ni1 <
N r
Ni = Pr [li , Li )
100
Pr = li +
N r/100 Ni1
ai
Ni Ni1
FORMULARIO
AG-EE-EM-ET-EQ 1011
Varianza
s2x =
Cuasi-varianza
k
X
(xi x
)2 ni
i=1
k
X
x2 ni
i
i=1
s2
x =
x
2
k
X
(xi x
)2 ni
i=1
N 1
N
s2
N 1 x
La desviaci
on tpica (s
o s ) se obtiene calculando la raz cuadrada positiva de la varianza.
Recorrido
Re = xmax xmin
Recorrido intercuartlico
Coeficiente de variaci
on de Pearson
sx
CV =
x
RI = Q3 Q1
CAP =
m3
s3x
x
M o
sx
a3 3a2 a1 +2a31
a2 a21 )3
Si CAP > 0
o g1 > 0 la distribucion es asimetrica POSITIVA.
Si CAP = 0
o g1 = 0 la distribucion es SIMETRICA.
Si CAP < 0
o g1 < 0 la distribucion es asimetrica NEGATIVA.
Coeficiente de curtosis: g2 =
m4
s4x
3=
a2 a21 )4
P
xr n
ar = ki=1 iN i
P
x)r ni
mr = ki=1 (xi
N
EN PRACTICAS:
Para dos variables categoricas (ATRIBUTOS) se puede calcular el coeficiente
de contingencia (C) para medir la relacion entre los atributos. Siempre toma valores en el intervalo
[0, 1]. Cuanto m
as pr
oximo a cero, hay menor relacion y cuanto mas proximo a 1, hay mayor relaci
on.
Se calcula con la siguiente expresi
on, siendo 2 el valor que se obtiene al realizar el Test de chi-cuadrado
(con el R-Commander, en el procedimiento de la Tabla de contingencia).
s
2
Coeficiente de contingencia C =
2 + N
FORMULARIO
AG-EE-EM-ET-EQ 1011
Covarianza
sxy =
h X
k
h X
k
X
X
(xi x
)(yj y)nij
xi yj nij
=
x
y
N
N
i=1 j=1
i=1 j=1
Coeficiente de correlaci
on lineal de Pearson
sxy
rxy =
sx sy
Recta de regresi
on
Recta de regresi
on de Y sobre X
y = a + bx
Recta de regresi
on de X sobre Y
x = a0 + b0 y
Varianza residual
s2e =
con
s2y =
a0 = x
b0 y
Coeficiente de determinaci
on
N
X
(y y)2
R2 =
i=1
a = y b
x
b0 = sxy /s2y
N
X
(yi y )2
i=1
b = sxy /s2x
con
s2y
s2e
=
1
s2y
s2y
2
SOLO en el caso de regresion lineal: R2 = rxy
Modelos de regresi
on no lineal simple
y = kxb
Modelo potencial
Modelo exponencial
y=
Varianza residual
=
a = log k
b=b
a = log c
b = log k
Coeficiente de determinacion
N
X
(yi y )2
i
i=1
y = a + bx + cx2
P
P
P 2
y
=
aN
+
b
x
+
c
x
i
i
i
i
i
i
P 3
P
P
P 2
y
x
=
a
x
+
b
x
+
c
i
i
i
Pi 2
Pi 2
Pi i3
Pi xi4
y
x
=
a
x
+
b
x
+
c
i i i
i i
i i
i xi
Modelo parab
olico
s2e
ck x
R2 = 1
s2e
s2y
FORMULARIO
AG-EE-EM-ET-EQ 1011
2. Probabilidad y Modelos
2.1 Probabilidad
P (A B) = P (A) + P (B) P (A B)
P (A B C) = P (A) + P (B) + P (C) P (A B) P (A C) P B C) + P (A B C))
P (A B) = P (A) P (B/A) = P (B) P (A/B)
P (A B) = P (A) P (A B)
P (A B) = P (A B)
P (A B) = P (A B)
2.2 Combinatoria
Vn,k =
n!
(n k)!
V Rn,r = nr
CRn,r =
Cn,k =
n!
k!(n k)!
(n + r 1)!
r!(n 1)!
Pk = k!
k!
k1 !k2 ! . . . kr !
con x = 0, 1
E[X] = 0 q + 1 p = p
Distribuci
on binomial. X Bi(n, p)
n
px (1p)nx con x = 0, 1, 2, 3, . . . , n
f (x) =
x
E[X] = np
var[X] = p(1 p) = pq
Distribuci
on de Poisson. X P o()
f (x) =
e x
x!
con x = 0, 1, 2, 3, . . .
E[X] = var[X] =
Distribuci
on hipergeom
etrica. X HG(N, n, p) Cuando las n pruebas no son independientes.
Np
Nq
x
nx
N n
f (x) =
con x = 0, 1, 2, 3, . . . , n
E[X] = np
var[X] = npq
N 1
N
n
Distribuci
on binomial negativa. X BN (k, p) Cuando fijamos el n
umero de exitos k y nos
piden el n
umero de pruebas (independientes) necesarias.
kq
k
x1
f (x) =
pk (1 p)xk con x = k, k + 1, k + 2, k + 3, . . .
E[X] =
var[X] = 2
k1
p
p
FORMULARIO
AG-EE-EM-ET-EQ 1011
E[X] =
b+a
2
var[X] =
(b a)2
12
Distribuci
on Exponencial. X Exp()
f (x) = ex
con x 0
E[X] =
var[X] =
1
2
Distribuci
on Normal. X N (, 2 )
f (x) =
1
2 2
(x)2
2 2
x R
var[X] = 2
E[X] =
Distribuci
on 2 (ji cuadrado) de Pearson. X 2 (n) (donde n = grados de libertad)
Si Z1 , Z2 , . . . , Zn v.as. independientes tales que Zi , N (0, 1) entonces
X=
n
X
Zi2 , 2 (n)
E[X] = n
var[X] = 2n
i=1
Si n es grande entonces
Y =
2X , N ( 2n 1, 1)
Distribuci
on t de Student.
Dadas las v.as. independientes X , N (0, 1) e Y , 2 (n), la nueva v.a.
X
, t(n)
T =p
Y /n
E[T ] = 0
var[T ] =
n
n2
X/n
, F (n, m)
Y /m
E[F ] =
m
m2
var[F ] =
2m2 (n + m 2)
n(m 2)2 (m 4)
FORMULARIO
AG-EE-EM-ET-EQ 1011
3. Inferencia
3.1 Principales estadsticos del muestreo
Media muestral
Varianza muestral
P
P
n )2
Xi
(Xi X
2
Xn =
sX =
n
n
n , N (, )
X
n
n] =
E[X
n] =
var[X
2
n
n] =
E[X
n] =
var[X
2 N n
n N 1
Varianza muestral.
Si X1 , X2 , . . . , Xn son una m.a.s. con var[Xi ] = 2 entonces
ns2n
, 2n1
2
con
E[s2n ] =
(n 1)s2
n
, 2n1
2
con
n1 2
n
2
E[s2
n ]=
var[s2n ] =
2(n 1) 4
n2
var[s2
n ]=
2 4
n1
, t(n 1)
sn / n 1
n
X
, t(n 1)
sn / n
Proporci
on muestral.
Si tenemos una m.a.s. de tama
no n de una poblacion Bernouilli:
X = nP , Bi(n, p)
(siendo X = n
umero de exitos en la muestra, P = proporcion de exitos en la muestra)
Si n es grande aproximamos por una distribucion Normal.
Diferencia de proporciones muestrales.
P1 P2 , N (p1 p2 ,
p1 (1 p1 ) p2 (1 p2 )
+
)
n1
n2
FORMULARIO
AG-EE-EM-ET-EQ 1011
2 es
Consideramos la variable diferencia D que obtenemos Di = Xi Yi y suponemos que D
desconocida. Entonces
D
D
, t(n 1)
sD / n
2
s2
n /X
2 , F (n 1, m 1)
s2
m /Y
FORMULARIO
AG-EE-EM-ET-EQ 1011
[X n z1 2 , X n + z1 2 ]
n
n
Para , con 2 desconocida:
[X n t1 2 (n 1)
sn
sn
, X n + t1 2 (n 1)
]
n1
n1
s
s
[X n t1 2 (n 1) n , X n + t1 2 (n 1) n ]
n
n
Para p, (n grande):
r
[P z1 2
PQ
, P + z1 2
n
PQ
]
n
2 y 2 conocidas:
Para X Y , poblaciones independientes, con X
Y
r
r
2
2
X
Y2
X
2
[X n Y m z1 2
+
, X n Y m + z1 2
+ Y]
n
m
n
m
2 y 2 desconocidas pero iguales:
Para X Y , poblaciones independientes, con X
Y
s
s
2
2
nsX + msY 1
ns2X + ms2Y 1
1
1
[X n Y m t1 2 (n+m2)
( + ), X n Y m +t1 2 (n+m2)
( + )]
n+m2 n m
n+m2 n m
2 y 2
Para X Y , poblaciones independientes, (con tama
nos muestrales peque
nos) con X
Y
desconocidas pero distintas. Para saber el valor de mirad en pagina 8:
r
r
s2
s2
s2
s2
X
Y
X
[X n Y m t1 2 (n + m 2 )
+
, X n Y m + t1 2 (n + m 2 )
+ Y ]
n
m
n
m
Para tama
nos muestrales iguales o superiores a 30 se usa la distribucion N (0, 1) en lugar de la
distribucion t Student
Para X Y , poblaciones dependientes o relacionadas, donde D = X Y y s2
D es la varianza
insesgada de la variable diferencia D.
s
s
[D t1 2 (n 1) D , D + t1 2 (n 1) D ]
n
n
FORMULARIO
AG-EE-EM-ET-EQ 1011
10
Para p1 p2 :
r
[P1 P2 z1 2
P1 Q1 P2 Q2
+
, P1 P2 + z1 2
n1
n2
P1 Q1 P2 Q2
+
]
n1
n2
ns2n
ns2n
,
]
21 (n 1) 2 (n 1)
2
(A)
(n 1)s2
(n 1)s2
n
n
,
]
21 (n 1) 2 (n 1)
2
ns2n
ns2n
,
]
(n 1) + z1 2 2n (n 1) z1 2 2n
]
2
2
2
sm F1 2 (n 1, m 1) sm F 2 (n 1, m 1)
2
12
ns2n (m 1)
1
ns2n (m 1)
1
]
2
2
2
msm (n 1) F1 2 (n 1, m 1) msm (n 1) F 2 (n 1, m 1)
2
3.4 Tama
no muestral para obtener intervalos de precisi
on determinada
Para la media, si conocemos 2 :
E = z1 2 = n = (z1 2 )2
E
n
Para la media, si desconocemos 2 : cuando n > 30 obtendremos
n = (z1 2
sn 2
)
E
Para la proporci
on:
r
E=z
1
2
2
P Qz1
00 5z1 2 2
PQ
2
= n =
(
)
n
E2
E
En la primera expresi
on de n utilizaremos estimaciones de p y q obtenidas en estudios previos
(P y Q). En la segunda expresi
on utilizamos el maximo producto p q 00 5 00 5
Para la varianza:
r
E = z1 2
Utilizaremos estimaci
on de 2 .
2 2
4
2
= n = 2z1
2 E2
n
FORMULARIO
AG-EE-EM-ET-EQ 1011
11
T =
X n
0
/ n
T =
, N (0, 1)
X n0
sn / n1
, t(n 1)
T =
X n Y m d0
q
, N (0, 1)
y2
x2
+
n
m
T =q
X n Y m d0
ns2n +ms2m 1
n+m2 ( n
, t(n + m 2)
1
m)
H0 : x y = d0
H0 : x y = d0
T =
T =
X n Y m d0
q
, N (0, 1)
s2
s2
X
Y
n + m
X n Y m d0
q
, t(n+m2)
s2
s2
Y
X
+
n
m
( en p
agina 8)
H0 : x y = D = d0
T =
H0 : x y = D = d0
T = P p0
p0 q0 /n
, N (0, 1)
Px Py d0
T =q
, N (0, 1)
Py Qy
Px Qx
+
n
m
D d0
T =
, N (0, 1)
D d0
sD
n1
, t(n1)
FORMULARIO
AG-EE-EM-ET-EQ 1011
i) para la varianza, H0 : 2 = 02
T =
12
ns2n
02
(n1)s2
02
T =
, 2 (n 1)
s2
x
s2
y
, F (n 1, m 1)
(La poblaci
on X es la de mayor varianza muestral, y siempre se contrasta la alternativa x2 > y2 )
r
k) para el coeficiente de correlaci
on lineal, H0 : = 0
T = 1r
n 2 , t(n 2)
2
3.6 Regiones de aceptaci
on
Para las distribuciones simetricas de la normal y t de Student:
R0 =] vc1 , +[
R0 =] , vc1 [
R0 =] vc1 2 , +vc1 2 [
R0 =]vc , +[
R0 =]0, vc1 [
R0 =]vc 2 , vc1 2 [
FORMULARIO
AG-EE-EM-ET-EQ 1011
13
4. ANOVA de un factor
Suponiendo poblaciones normales con la misma varianza (aunque sea desconocida)
4.1 Resoluci
on del modelo Anova de 1 factor completamente aleatorizado
Hipotesis que se contrasta en el Anova:
H0 : 1 = 2 = ... = J =
H1 : noH0
F
ormulas para calcular sumas de cuadrados:
nj
J X
X
SCT =
nj
Yij2
1 XX
Yij )2 = a b
(
N
j=1 i=1
j=1 i=1
nj
J nj
J
X
1 XX
1 X
2
(
Yij ) (
Yij )2 = c b
SCE =
nj
N
i=1
j=1
j=1 i=1
nj
J X
X
Yij2
j=1 i=1
nj
J
X
1 X
(
Yij )2 = a c
nj
j=1
i=1
La tabla ANOVA:
SC
gl
MC
Factor
SCE
J 1
SCE
J1
Residual
SCR
N J
SCR
N J
TOTAL
SCT
N 1
Fuente de variaci
on
Estad. contraste
F =
M CE
M CR
Regi
on de rechazo: R1 = [F1 (J 1, N J), +[
4.2 Para comprobar que las varianzas son iguales se puede aplicar la Prueba de Bartlett-Box:
H0 : 12 = 22 = . . . = J2
El estadstico de contraste es
C = 20 3026[(N J)log
B=
PJ
2
j=1 (nj 1)sj
N J
C
A
2J1
PJ
j=1 (nj
con
1)logs2
j ]
donde s2
j es la cuasivarianza muestral en cada nivel del factor
P
1
1
A = 1 + 3(J1)
[( Jj=1 nj11 ) N J
]
Region crtica: R1 = [21 (J 1), +[
FORMULARIO
AG-EE-EM-ET-EQ 1011
14
S=
H1 : .j 6= .l
|Y.j Y.l |
q
M CR( n1 + n1 )
j
Si
p
S (J 1) F1 (J 1, N J)
entonces rechazamos H0 .
****** Si todos los niveles tienen la misma cantidad de datos (n) entonces no es necesario
calcular S.
Las medias poblacionales de los niveles j y l seran diferentes si
r
2
|Y.j Y.l |
M CR (J 1) F1 (J 1, N J)
n