You are on page 1of 13

Modelo Analtico

Daniel Montezano
14 de Maro de 2014
Sumrio
1 Apresentao do modelo 1
1.1 Modelo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Funo Verossimilhana . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Distribuies a priori . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Distribuio a posteriori . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Amostragem MCMC . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Expresso para p(
0
|, Z, V ,

, ) . . . . . . . . . . 6
1.5.2 Expresso para p(

|
0
, , Z, V ,

, ) . . . . . . . . . . 7
1.5.3 Expresso para p(
2
j
|
0
, , Z, V ,

, ) . . . . . . . . . . 8
1.5.4 Expresso para p(
ij
|
0
, Z, V ,

, ) . . . . . . . . . 8
1.5.5 Expresso para p(z
i
|
0
, , V ,

, ) . . . . . . . . . . 9
1.5.6 Expresso para p(|
0
, , V , Z,

) . . . . . . . . . . 9
1.6 Funes Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1
Resumo
Desenvolvimento analtico do modelo de regresso RVM [2]. Esse desenvolvi-
mento vai auxiliar a (1) entender os problemas com os kernels, (2) entender onde
est a aleatoriedade no modelo e (3) obter estimativas para o erro de predio.
Captulo 1
Apresentao do modelo
1.1 Modelo de Dados
Prope-se estimar uxos metablicos a partir de dados de expresso gentica
com um modelo de regresso multivarivel com variveis latentes. O modelo de
dados :
v
i
= z
i
+
i
(1.1)
z
i
= K
0
i

0
+
i
(1.2)
em que:
i = 1 . . . n indica o nmero de observaes no conjunto de dados D{e
i
, v
i
}
assume-se que o vetor
i
= (
i1
, . . . ,
iq
)
T
uma varivel aleatria mul-
tivariada de dimenso q, com elementos independentes e normalmente
distribudos de mdia zero e matriz de covarincia

= diag(
2
1
, . . . ,
2
q
)
p(|

) =
1
(2)
q/2
1
|

|
1/2
exp
_

1
2


_
(1.3)
o vetor de erros residuais
i
= (
i1
, . . . ,
iq
)
T
uma varivel aleatria
multivariada de dimenso q com elementos independentes e normalmente
distribudos de mdia zero e matriz de covarincia

. Essa varivel, junto


com a varivel , modela toda a fonte de aleatoriedade que no explicada
pelo modelo de regresso.
p(|

) =
1
(2)
q/2
1
|

|
1/2
exp
_

1
2


_
(1.4)
a matriz K
0
i
uma matriz bloco-diagonal com cada bloco igual ao vetor
K
i
= (1, k(e
i
, e
1
|), . . . , k(e
i
, e
n
|)) e denida como K
0
i
= I
q
K
i
, em
1
que I
q
a matriz identidade de dimenso q, o smbolo indica a operao
produto de Kronecker, e parmetro do kernel k(, ). Essa matriz dene
as funes-base no-lineares do modelo de regresso.
K
0
i
=
_

_
K
i
0 0 . . . 0
0 K
i
0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . K
i
_

_
q(n+1)q
(1.5)
o vetor de coecientes de regresso
0
um vetor coluna de dimenso
q(n + 1) composto pelos q vetores de regresso para cada elemento j do
vetor v, denido como
0
= (
T
1
,
T
2
, . . . ,
T
q
)
T
:

0
= (
01
,
11
, . . . ,
n1
,
02
,
12
, . . . ,
n2
, . . . ,
0q
,
1q
, . . . ,
nq
)
T
(1.6)
z
i
so variveis latentes introduzidas no modelo:
p(z
i
|K
0
i

0
,

) =
1
(2)
q/2
1
|

|
1/2
exp
_

1
2
(z
i
K
0
i

0
)
T

(z
i
K
0
i

0
)
_
(1.7)
Cada elemento z
ij
do vetor z
i
dado por:
z
ij
=
0j
+
1j
k(e
i
, e
1
) +
2j
k(e
i
, e
2
) + . . . +
nj
k(e
i
, e
n
) +
ij
que pode ser escrita como z
ij
= K
i

j
+
ij
. fcil vericar que z
i
= K
0
i
+
i
,
conforme indicado no modelo de dados (1.2).
Esse modelo de regresso dene uma distribuio coondicional para as ob-
servaes de sada v
i
na forma:
p(v|z,

) = N(z,

) (1.8)
em que a mdia dada pelo vetor de variveis latentes z com distribuio [2]:
p(z|e,
z
) = N(f(e),

) (1.9)
em que
z
indica o conjunto de parmetros usados na Eq. (1.2) do modelo de
dados.
1.2 Funo Verossimilhana
A funo verossimilhana para o conjunto dos n dados observados e das variveis
latentes dada por [1]:
p(V , Z|) = p(V |Z, )p(Z|) (1.10)
em que V = (v
1
, v
2
, . . . , v
n
) e Z = (z
1
, z
2
, . . . , z
n
) representam respectiva-
mente o conjunto dos n vetores v
i
observados e respectivos vetores latentes z
i
.
2
Assumindo os vetores v e z i.i.d., segue que as distribuies do lado direito
da equao (1.10) sero dadas pelo produtrio das n distribuies gaussianas
multivariadas:
p(v
i
|z
i
, ) N(z
i
,

) (1.11)
p(z
i
|) N(K
0
i
,

) (1.12)
Resultando nas expresses:
p(V |Z, ) =
n

i=1
1
(2)
q/2
1
|

|
1/2
exp
_

1
2
(v
i
z
i
)
T

(v
i
z
i
)
_
(1.13)
e:
p(Z|) =
n

i=1
1
(2)
q/2
1
|

|
1/2
exp
_

1
2
(z
i
K
0
i

0
)
T

(z
i
K
0
i

0
)
_
(1.14)
1.3 Distribuies a priori
Para os parmetros do modelo em denem-se as distribuies a priori a seguir
baseadas na propriedade da conjugao, exceto para o parmetro do kernel, onde
optou-se pelo prior uniforme.
Para o kernel polinomial dene-se uma distribuio a priori uniforme dis-
creta:
p() = U{1, 2, . . . , C} (1.15)
em que a probabilidade de cada valor possvel para a varivel igual a 1/C.
Para o kernel gaussiano utiliza-se um prior uniforme contnuo:
p() = U(
min
,
max
) (1.16)
No caso das mquinas de vetor de relevncia, assume-se que os coecientes
de regresso em
0
so independentes e normalmente distribudos [4]. Cada um
dos q vetores de regresso
j
(i.e. coecientes da regresso para cada elemento
v
j
) recebe como prior uma distribuio normal com mdia zero e matriz de
covarincia
1
j
:
p(
j
|
j
) = N
n+1
(0,
1
j
) (1.17)
em que j = 1, . . . , q e
j
= diag(
0j
,
1j
, . . . ,
nj
).
Para o vetor completo de todos os coecientes de regresso
0
denido na
Eq. (1.6), o prior dado por:
p(
0
|) =
1
(2)
q(n+1)/2
1
||
1/2
exp
_

1
2

0
T

0
_
(1.18)
3
em que a matriz bloco-diagonal:
=
_

1
0 0 . . . 0
0
2
0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . .
q
_

_
[(n+1)q][(n+1)q]
(1.19)
Cada um dos hiperparmetros
ij
representa um valor de preciso (inverso
da varincia) e recebe um prior gama:
p(
ij
) =
1
(c)
d
c

c1
ij
exp(d
ij
) (1.20)
sendo que os parmetros c e d devem ser denidos de acordo com a forma de-
sejada para o prior. Esses valores, para um prior no-informativo em geral
so tomados como iguais a 10
4
, como indicado em [4]. o uso de hiper-
parmetros
ij
individuais para cada coeciente de regresso o que permite
esparsidade (e consequentemente baixa complexidade do modelo e suavidade da
funo aprendida) no modelo RVM. Durante o treinamento, os hiperparme-
tros
ij
correspondentes aos coecientes de regresso
ij
que no contribuem
para maximizao da funo de verossimilhana (i.e. no contribuem para a
funo mais provvel de ter gerado os dados observados), acabam sendo ma-
ximizados para valores muito grandes, efetivamente eliminando os coecientes
correspondentes do modelo de regresso ( [1],cap. 7).
No caso do vetor de efeitos aleatrios residuais assumiu-se a distribuio
normal da Eq. (1.4), e considera-se um prior wishart inverso para a matriz de
covarincia

:
p(

) =
|Q|

2
2
q
2

q
(

2
)
|

|
0.5(+q+1)
exp
_

1
2
tr(Q
1

)
_
(1.21)
em que so os graus de liberdade da distribuio e Q a matriz de escala.
Para que a distribuio seja prpria, necessrio que o nmero de graus de
liberdade seja no mnimo igual dimenso do vetor
i
. A matriz de escala deve
ser simtrica e positiva denida, como por exemplo a matriz identidade.
Visto que assume-se uma distribuio normal multivarivel com matriz de
covarincia diagonal para o vetor , dene-se separadamente a distribuio prior
para cada uma das varincias
1
, . . . ,
q
com uma funo gama inversa:
p(
2
j
) =

1
2
(
1
)
(
2
j
)
11
exp
_

2
j
_
(1.22)
1.4 Distribuio a posteriori
A distribuio posterior conjunta para os parmetros do modelo dada pela
multiplicao dos priors e da funo verossimilhana.
4
Assumindo que os vetores v
i
so independentes condicionados em z
i
, e des-
cartando os termos de normalizao de cada distribuio, possvel escrever a
expresso para a distribuio conjunta a posteriori dos parmetros do modelo
p(Z,
0
,

, , |V ) como sendo proporcional multiplicao dos seguintes


termos
1
:
verossimilhana para os dados v:
exp
_

1
2
n

i=1
(v
i
z
i
)
T

(v
i
z
i
)
_
(1.23)
verossimilhana da varivel latente z:
1
|

|
n/2
exp
_

1
2
n

i=1
(z
i
K
0
i

0
)
T

(z
i
K
0
i

0
)
_
(1.24)
prior para a matriz de covarincia

:
|

|
0.5(+q+1)
exp
_

1
2
tr(Q
1

)
_
(1.25)
prior para a matriz de covarincia

:
q

j=1
exp
_

2
j
_
(
2
j
)
11
(1.26)
prior para a matriz de coecientes de regresso :
1
||
1/2
exp
_

1
2

0
T

0
_
(1.27)
prior para a matriz de preciso :
n

i=1
q

j=1

c1
ij
exp(d
ij
) (1.28)
As distribuies a priori para o parmetro podem ser descartadas, visto
que so apenas valores constantes que independem do valor da varivel aleatria.
As distribuies de verossimilhana na forma de produtrios foram reescritas
na forma de somatrios no argumento da funo exponencial.
1
cf. [2]
5
1.5 Amostragem MCMC
Como a distribuio a posteriori conjunta denida pelas Eqs. (1.23) a (1.28)
demasiada complexa para permitir uma soluo analtica, sero aplicados os m-
todos de amostragem Markov Chain Monte Carlo para obter uma estimativa da
distribuio. O amostrador de Gibbs [3] amostra de PDFs condicionais de cada
parmetro condicionado em todas outras variveis. A seguir so apresentadas
as expresses para cada uma das PDFs condicionais.
1.5.1 Expresso para p(
0
|, Z, V ,

, )
A partir das Eqs. (1.24) e (1.27), descartando todos os termos que no dependem
de
0
e portanto so constantes, podemos escrever:
p

0 exp
_

1
2

0
T

0
_
exp
_

1
2
n

i=1
(z
i
K
0
i

0
)
T

(z
i
K
0
i

0
)
_
(1.29)
em que p

0 indica a PDF do vetor de coecientes de regresso


0
condicionada
em todos os outros parmetros e na varivel latente e nos dados de sada.
Combinando as duas funes exponenciais temos:
p

0 exp
_

1
2
_

0
T

0
+
n

i=1
(z
i
K
0
i

0
)
T

(z
i
K
0
i

0
)
__
(1.30)
Desenvolvendo o argumento da funo exponencial temos:
ln p

0
1
2
_

0
T

0
+
n

i=1
_
z
T
i

1

z
i
(K
0
i

0
)
T

z
i
z
T
i

1

K
0
i

+
0
T
(
n

i=1
K
0
i
T

K
0
i
)
0
_
(1.31)
Como:
z
T
i

1

K
0
i

0
= (
1

z
i
)
T
K
0
i

0
= (K
0
i

0
)
T

z
i
=
0
T
K
0
i
T

z
i
(1.32)
Segue que:
ln p

0
1
2

0
T
(
n

i=1
K
0
i
T

K
0
i
+)
0
+
0
T
n

i=1
K
0
i
T

z
i
+
n

i=1
z
T
i

1

z
i
(1.33)
Comparando esta ltma expresso com a expresso correspondente para a
distribuio gaussiana genrica:

1
2
(x )
T

1
(x ) =
1
2
x
t

1
(1.34)
Temos que a PDF p

0 normal multivariada com vetor de mdia

0 e
matriz de covarincia

0 iguais a:
6

0 =

0
_
n

i=1
K
0
i
T

z
i
_
(1.35)

0 =
_
n

i=1
K
0
i
T

K
0
i
+
_
1
(1.36)
1.5.2 Expresso para p(

|
0
, , Z, V ,

, )
A partir das Eqs. (1.24) e (1.25), descartando todos os termos que no dependem
de

e portanto so constantes, podemos escrever:


p


1
|

|
n/2
|

|
0.5(+q+1)
exp
_

1
2
tr(Q
1

)
1
2
n

i=1
(z
i
K
0
i

0
)
T

(z
i
K
0
i

0
)
_
(1.37)
em que p

indica a PDF da matriz de covarincia

condicionada em todos
os outros parmetros e na varivel latente e nos dados de sada.
A partir da propriedade cclica do trao e observando que det(A B) =
det(A) det(B) possvel escrever:
p

|
0.5(n++q+1)
exp
_

1
2
tr(Q
1

)
1
2
tr
_
n

i=1
(z
i
K
0
i

0
)(z
i
K
0
i

0
)
T

__
(1.38)
Usando a notao S
zn
para a matriz de covarincia amostral de z multipli-
cada por n 1, escrevemos:
p

|
0.5(n++q+1)
exp
_

1
2
tr(Q
1

)
1
2
tr(S
zn

)
_
(1.39)
Finalmente, devido propriedade do trao tr(A + B) = tr(A) + tr(B)
podemos escrever:
p

|
0.5(n++q+1)
exp
_

1
2
tr[(Q+S
zn
)
1

]
_
(1.40)
Comparando esta ltima expresso com a forma genrica para a distribuio
Wishart inversa, identicam-se os parmetros matriz de escala Q

e graus de
liberdade

abaixo:
Q

= Q+S
zn
= Q+
n

i=1
(z
i
K
0
i

0
)(z
i
K
0
i

0
)
T
(1.41)

= n + (1.42)
7
1.5.3 Expresso para p(
2

j
|
0
, , Z, V ,

, )
A partir das Eqs. (1.23) e (1.26), descartando todos os termos que no dependem
de

e portanto so constantes, podemos escrever:


p

j
(
2
j
)
11
exp
_

2
j
_
1
(
2
j
)
n/2
exp
_

1
2
n

i=1
(v
i
z
i
)
T

(v
i
z
i
)
_
(1.43)
em que p

j
indica a PDF de cada elemento da diagonal da matriz de covarincia

condicionada em todos os outros parmetros e na varivel latente e nos dados


de sada.
Como no somatrio apenas a varivel com ndice j varivel, possvel
escrever:
p

j
(
2
j
)
11n/2
exp
_

2
j
_

2
+
1
2
n

i=1
(v
ij
z
ij
)
2
__
(1.44)
Comparando esta ltima expresso com a expresso para a distribuio gama
inversa, podemos identicar os parmetros:

2
j
=
1
+
n
2
(1.45)

2
j
=
2
+

n
i=1
(v
ij
z
ij
)
2
2
(1.46)
1.5.4 Expresso para p(
ij
|
0
, Z, V ,

, )
A partir das Eqs. (1.27) e (1.28), descartando todos os termos que no dependem
de
ij
e portanto so constantes, podemos escrever:
p
ij

1

1/2
ij
exp
_

1
2

ij

ij
_
1
(c)
d
c

c1
ij
exp(d
ij
) (1.47)
em que p
ij
indica a PDF de cada elemento da diagonal da matriz condicio-
nada em todos os outros parmetros, na varivel latente e nos dados de sada.
Combinando termos similares e simplicando:
p
ij

(c+1/2)1
ij
exp
_

ij
2
+ d
_

ij
_
(1.48)
Finalmente, comparando esta ltima expresso com a expresso para a dis-
tribuio gama, podemos identicar os parmetros:
c

= c +
1
2
(1.49)
d

=

ij
2
+ d (1.50)
8
1.5.5 Expresso para p(z
i
|
0
, , V ,

, )
A partir das Eqs. (1.23) e (1.27), descartando todos os termos que no dependem
de z
i
e portanto so constantes, podemos escrever:
p
zi
exp
_

1
2
_
(v
i
z
i
)
T

(v
i
z
i
) + (z
i
K
0
i

0
)
T

(z
i
K
0
i

0
)
_
_
(1.51)
em que p
zi
indica a PDF de cada vetor z
i
condicionada em todos os outros
parmetros e nos dados de sada.
Seguindo um procedimento similar ao usado na obteno de p(
0
|, Z, V ,

, ),
identicamos p
zi
como uma distribuio normal multivarivel com parmetros
mdia e matriz de covarincia dados por:

zi
=
zi
(
1

v
i
+
1

K
0
i

0
) (1.52)

zi
= (
1

+
1

)
1
(1.53)
1.5.6 Expresso para p(|
0
, , V , Z,

)
Observando a Eq. (1.27) vemos que o parmetro entra na expresso como
parmetro do kernel k(, ) que perfaz cada elemento da matriz K
0
i
e portanto
apresenta uma distribuio no trivial. A amostragem dessa PDF dever ser
feita com um mtodo do tipo aceita-rejeita, a partir de uma distribuio pro-
posta da qual possvel amostrar.
1.6 Funes Kernel
Diferentes funes kernel podem ser utilizadas para construir a matriz K
0
i
a
partir dos vetores de expresso gentica. Inicialmente prope-se analisar este
modelo para o kernel gaussiano:
K(e
i
, e
j
|) = exp
_

e
i
e
j

2
2
_
(1.54)
e o kernel polinomial:
K(e
i
, e
j
|) = (e
T
i
e
j
+ 1.0)

(1.55)
No caso do kernel (1.54) o parmetro a largura de banda do kernel,
um indicativo da capacidade do kernel de discernir a similaridade entre os dois
vetores do argumento. Para o kernel polinomial o parmetro o grau do
polinmio, e indica quais monmios so usados como descritores no espao das
caractersticas.
9
Referncias Bibliogrcas
[1] Christopher Bishop. Pattern Recognition and Machine Learning. Springer,
New York, NY, 2007.
[2] Sounak Chakraborty, Malay Ghosh, and Bani K. Mallick. Bayesian nonlinear
regression for large p small n problems. J. Multivariate Analysis, 108(1):28
40, Jul 2012.
[3] Christian P. Robert and George Casella. Monte Carlo Statistical Methods.
Springer, New York, NY, 2004.
[4] Bernhard Schlkopf and Alexander J. Smola. Learnings with Kernels. MIT
Press, Cambridge, MA, 2002.
10

You might also like