Professional Documents
Culture Documents
𝜃 𝑇 𝑆𝐵 𝜃 𝜃 𝑇 𝜃
max 𝐽(𝜃) = max 𝑇
= max 𝑇
𝑆𝐵 𝑇 = max 𝜃2𝑇 𝑆𝐵 𝜃2
𝜃 𝑆𝑤 𝜃 𝜃 𝑆𝑤 𝜃 𝜃 𝑆𝑤 𝜃
𝜃 𝑇 𝑆𝑤 𝜃
𝜃2𝑇 𝑆𝑤 𝜃2 = =1
𝜃 𝑇 𝑆𝑤 𝜃
Por lo tanto los problemas son equivalentes:
max 𝜃 𝑇 𝑆𝐵 𝜃 𝑠. 𝑡. 𝜃 𝑇 𝑆𝑤 𝜃 = 1
1.b
𝐹 = 𝜃 𝑇 𝑆𝐵 𝜃 + 𝜆(𝜃 𝑇 𝑆𝑤 𝜃 − 1)
𝜕𝐹
= 𝜃 𝑇 𝑆𝑤 𝜃 − 1 = 0
𝜕𝜆
𝜃 𝑇 𝑆𝑤 𝜃 = 1
𝜕𝐹
= 0 → 2𝑆𝐵 𝜃 + 2𝜆𝑆𝑤 𝜃 = 0
𝜕𝜃
(𝑆𝐵 + 𝜆𝑆𝑤 )𝜃 = 0
𝜆 = −𝜃 𝑇 𝑆𝐵 𝜃
𝑆𝐵 = 𝑑𝑑𝑇 , 𝑑 = 𝑚2 − 𝑚1
(𝑆𝐵 + 𝜆𝑆𝑤 )𝜃 = 0
−1
𝑑𝑇 𝜃 𝑑𝑇 𝜃
−(𝑆𝑤 𝑑) ( ) = 𝜃 → 𝑐0 = −
𝜆 𝜆
𝜃 = 𝑐0 𝑆𝑤−1 𝑑
Solución:
𝑆𝑤−1 𝑑
𝜃=
𝑑𝑇 𝑆𝑤−1 𝑑
𝑑 = 𝑚2 − 𝑚1
2.a. El modelo base de regresión logística es
1
𝑝= 𝑇𝑥
1 + 𝑒 −𝜃
Notemos que el bias 𝜃0 se ha includo en el vector 𝜃. Usando aumentación de features con
algún kernel 𝜑(𝑥) tenemos:
1
𝑝𝜃 (𝑥) = 𝑇
1+ 𝑒 −𝜃 𝜑(𝑥)
. Caso contrario se le ubica en la otra. Vemos que la frontera cumple:
1 1 𝑇
𝑝= = → 𝑒 −𝜃 𝜑(𝑥) = 1 → 𝜃 𝑇 𝜑(𝑥) = 0
2 1 + 𝑒 −𝜃𝑇 𝜑(𝑥)
Entonces la frontera de decisión es 𝜃 𝑇 𝜑(𝑥) = 0, con 𝜑(𝑥) el kernel de transformación y 𝜃 los
pesos.
Recordemos que
𝑁
1
𝐽(𝜃) = − ∑(𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 )))
𝑁
𝑛=1
1 1
−𝑎𝜃𝑇 𝜑(𝑥
> 𝑇 𝜑(𝑥
1+𝑒 𝑛) 1 + 𝑒 −𝜃 𝑛)
𝑝𝑎𝜃 (𝑥𝑛 ) > 𝑝𝜃 (𝑥𝑛 ) → 𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 )
Dado que 𝑦𝑛 = 1 → (1 − 𝑦𝑛 ) = 0:
𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝑎𝜃 (𝑥𝑛 )) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 ))
1 1
−𝑎𝜃𝑇 𝜑(𝑥
< 𝑇 𝜑(𝑥 → 𝑝𝑎𝜃 (𝑥𝑛 ) < 𝑝𝜃 (𝑥𝑛 )
1+𝑒 𝑛) 1 + 𝑒 −𝜃 𝑛)
1 − 𝑝𝑎𝜃 (𝑥𝑛 ) > 1 − 𝑝𝜃 (𝑥𝑛 ) → (1 − 𝑦𝑛 ) log 1 − 𝑝𝑎𝜃 (𝑥𝑛 ) > (1 − 𝑦𝑛 ) log 1 − 𝑝𝜃 (𝑥𝑛 )
Dado que 𝑦𝑛 = 0 tenemos:
𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝑎𝜃 (𝑥𝑛 )) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 ))
𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝑎𝜃 (𝑥𝑛 )) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 ))
2.b.
1 1 𝑒 −𝑎
𝜎(𝑎) = → 𝜎(−𝑎) = =
1 + 𝑒 −𝑎 1 + 𝑒 𝑎 1 + 𝑒 −𝑎
𝜎(𝑎) + 𝜎(−𝑎) = 1 → 𝜎(−𝑎) = 1 − 𝜎(𝑎)
Obtenemos su inversa:
1 1 − 𝜎(𝑎) 1 − 𝜎(𝑎)
1 + 𝑒 −𝑎 = → 𝑒 −𝑎 = → −𝑎 = ln
𝜎(𝑎) 𝜎(𝑎) 𝜎(𝑎)
𝜎(𝑎) 𝑦
𝑎 = ln ( ) → 𝜎 −1 (𝑦) = ln ( )
1 − 𝜎(𝑎) 1−𝑦