You are on page 1of 11

Transformacin de Datos

Transformacin Raz Cuadrada Si las observaciones tiene una distribucin de Poisson debe
usarse yij o 1 yij
Transformacin Logartmica (para respuestas positivas) Si los datos tiene una distribucin
Lognormal ( ln Yij ~ Normal ), entonces la transformacin es logartmica ln Yij .
Transformacin Seno Inverso Para datos binomiales expresado en fracciones se debe usar
la transformacin seno inverso sen 1 yij
Ejemplos:
1.- Auhtry(1948) presenta los siguientes datos sobre la simbiosis del cruce de Medicago
sativa(53) M. Falcata(50) cruzados con la cepa B. Los datos son porcentajes de plantas
con ndulos de un total de 20 por celda. El experimento fue realizado como un diseo de
bloques completos al azar.
Padres
Bloques
1
2
3

53
11
16
6

50
65
67
76

F1
53 50
47
32
40

Lotes de F2 de cada F1
114-1 114-2 114-3 114-4
31
22
16
70
40
16
19
63
27
20
20
52

Como los datos estn expresados en porcentajes se origina de una distribucin Binomial,
Por tanto la transformacin ms adecuada es arco seno inverso. Para realizar estas
transformaciones se divide primero entre 100 y luego se aplica la transformacin sen 1 yij
. El cual es realizado con el paquete R que transforma a radianes.
simb<-read.table("genes.txt",header=T)
y<-simb[,1]
bloques<-as.factor(simb[,2])
genes<-as.factor(simb[,3])

y1<-asin((y/100)^.5)
modg1<-lm(y1~bloques+genes)
anva1<-aov(modg1)
summary(anva1)
Df
bloques
2
genes
6
Residuals
12
--Signif. codes:

Sum Sq
0.00439
1.07779
0.06140

Mean Sq
0.00219
0.17963
0.00512

F value
0.4287
35.1061

Pr(>F)
0.661
6.246e-07 ***

0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

par(mfrow=c(2,2))
plot(modg1)

ri1<-rstandard(modg1)
shapiro.test(ri1)
Shapiro-Wilk normality test
data: ri1
W = 0.9459, p-value = 0.2846

H0: los errores se distribuyen normalmente


H1: los errores no se distribuyen normalmente
Se acepta H0, No se ha encontrado suficiente evidencia esta dstica a un nivel de
significacin de 10% para afirmar que los errores no tienen una se distribuyen
normalmente. Se puede aceptar que distribuye normalmente
library(car)
ncvTest(modg1)
Non-constant Variance Score Test

Variance formula: ~ fitted.values


Chisquare = 0.8464849
Df = 1
Mensajes de aviso perdidos

p = 0.3575487

Ho: Los errores tienen variancia constante


H1: Los errores no tienen variancia constante
Se acepta Ho No sea encontrado suficiente evidencia estadstica para rechazar Ho, se puede
aceptar que cumple con el supuesto de homogeneidad de variancia
Transformaciones para estabilizar Variancia
Sea E Y la media de Y : Supngase que la desviacin estndar es proporcional a
alguna potencia de la media de Y , tal que

Y
Se desea determinar la transformacin de Y que produzca una variancia constante. Se
supone que la transformacin es una potencia de los datos originales, Esto es

Y* Y
Entonces se puede demostrar que:

Y Y 1
Se puede observar claramente que para que los datos transformados sea una constante,
1 . En la siguiente tabla se resumen algunas de las transformaciones ms usadas
para estabilizar la variancia. Ntese en este caso si 0 , la transformacin es logartmica:
Relacin entre Y y

Y constante

Y 1/ 2
Y

0
1/2
1

Y 3/ 2

3/2

Y 2

1
1
1/2
0
-1/2
-1

Transformacin
Ninguna
Raz cuadrada
Logartmica
Recproca de la Raz cuadrada
Recproca

En muchas situaciones de diseo experimental en las que se usan rplicas, puede


estimarse empricamente a partir de los datos. Puesto que la combinacin del i -simo de
los tratamientos yi i i , donde es una constante de proporcionalidad, puede
tomarse logaritmo natural para obtener:
ln yi ln ln i

Por lo tanto, una grfica de ln yi contra ln i sera una lnea recta con pendiente .
Puesto como no se conoce yi y i puede sustituirse estimaciones razonables como la
desviacin estndar ( Si ) y la media ( yi ) de las observaciones para el tratamiento i en lugar
de yi y i , respectivamente
Ejemplo: Un ingeniero civil est interesado en determinar si cuatro mtodos diferentes para
estimar la frecuencia de las inundaciones producen estimaciones equivalentes de la
descarga pico cuando se aplican a la misma cuenca. Cada procedimiento se usa seis veces
en la cuenca, y los datos de las descargas resultantes (en pies cbicos por segundo) se
muestran en la siguiente tabla:
Mtodo de
Estimacin
1
2
3
4

Observaciones
0.34
0.91
6.31
17.15

0.12
2.94
8.37
11.82

1.23
2.14
9.75
10.95

0.70
2.36
6.09
17.20

1.75
2.86
9.82
14.35

descarga<-read.table("descarga.txt",header=T)
y<-descarga[,1]
metodo<-as.factor(descarga[,2])
mod1<-lm(y~metodo)
anova(mod1)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value
Pr(>F)
metodo
3 708.35 236.12 76.067 4.111e-11 ***
Residuals 20 62.08
3.10
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
par(mfrow=c(2,2))
plot(mod1)

0.12
4.55
7.24
16.82

> library(car)
> ncvTest(mod1)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 9.604614
Df = 1

p = 0.001940891

> bartlett.test(y~metodo)
Bartlett test of homogeneity of variances
data: y by metodo
Bartlett's K-squared = 8.9958, df = 3, p-value = 0.02935

Entonces no existe homogeneidad de variancias en cuanto a las descargas entre los cuatro
mtodos de evaluacin.
yp<-tapply(y,metodo,mean)

0.0

lsi

0.5

1.0

si<-tapply(y,metodo,sd)
lyp<-log(yp)
lsi<-log(si)
plot(lyp,lsi)

0.0

0.5

1.0

1.5

2.0

2.5

lyp

> mod<-lm(lsi~lyp)
> mod
Call:
lm(formula = lsi ~ lyp)
Coefficients:
(Intercept)
-0.2781

lyp
0.4465

se puede usar la transformacin raz cuadrada ya que


=1-=1-0.4465=0.5535
yt<-y^0.5
mod2<-lm(yt~metodo)
anova(mod2)
Analysis of Variance Table
Response: yt
Df Sum Sq Mean Sq F value
Pr(>F)
metodo
3 32.684 10.895 81.049 2.296e-11 ***
Residuals 20 2.688
0.134
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

par(mfrow=c(2,2))
plot(mod2)

bartlett.test(yt~metodo)
Bartlett test of homogeneity of variances
data: yt by metodo
Bartlett's K-squared = 0.5247, df = 3, p-value = 0.9134
library(car)
ncvTest(mod2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.1582841
Df = 1
ri<-rstandard(mod2)
shapiro.test(ri)

p = 0.6907412

Shapiro-Wilk normality test


data: ri
W = 0.9588, p-value = 0.4141
bartlett.test(yt~metodo)
Bartlett test of homogeneity of variances
data: yt by metodo
Bartlett's K-squared = 0.5247, df = 3, p-value = 0.9134

Mtodo Analtico para encontrar (Transformacin de Box y Cox)


El mtodo de Box y Cox es la manera ms popular para determinar la transformacin que
se aplicar a la variable respuesta. Este mtodo est diseado estrictamente para valores
positivos de la respuesta y elige la transformacin para encontrar el mejor ajuste de la
respuesta de los datos. El mtodo transforma la respuesta Y t (Y ) donde la familia de
transformaciones indexada por es

Y 1
, si 0

t Y
ln Y , si =0

Para valores fijado de Y 0 , la t (Y ) es continua en . Se elige usando el mtodo de


mxima verosimilitud. El perfil del log-verosimilitud asume normalidad de los errores es

n
L ln( SCE / n) ( 1) ln Yi
2
donde SCE es la suma de cuadrado residual cuando t (Y ) es la variable respuesta. Se
puede calcular maximizando L , pero usualmente L es maximizado sobre una
malla de valores tales como 2, 1, 1/ 2, 0,1/ 2,1, 2 . Esto asegura que se elija el valor
de de manera que sea ms fcilmente de interpretar. Por ejemplo si 0.46 , podra
usarse mejor la transformacin de

Y , ya que es ms fcil de interpretar.

Nota Importante: Una vez transformado los datos todo el proceso de inferencia se realiza
con los datos transformados.
Con los datos del ejemplo anterior se tiene:
library(MASS)
boxcox(y~metodo)

ytb<-(y^0.5-1)/.5
mod3<-lm(ytb~metodo)
anova(mod3)
Analysis of Variance Table
Response: ytb
Df Sum Sq Mean Sq F value

Pr(>F)

metodo
3 130.737 43.579 81.049 2.296e-11 ***
Residuals 20 10.754
0.538
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
par(mfrow=c(2,2))
plot(mod3)

bartlett.test(ytb~metodo)
Bartlett test of homogeneity of variances
data: ytb by metodo
Bartlett's K-squared = 0.5247, df = 3, p-value = 0.9134
ri<-rstandard(mod3)

shapiro.test(ri)
Shapiro-Wilk normality test
data: ri
W = 0.9588, p-value = 0.4141
ncvTest(mod3)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.1582841
Df = 1

p = 0.6907412

You might also like