You are on page 1of 3

1.

𝜃 𝑇 𝑆𝐵 𝜃 𝜃 𝑇 𝜃
max 𝐽(𝜃) = max 𝑇
= max 𝑇
𝑆𝐵 𝑇 = max 𝜃2𝑇 𝑆𝐵 𝜃2
𝜃 𝑆𝑤 𝜃 𝜃 𝑆𝑤 𝜃 𝜃 𝑆𝑤 𝜃
𝜃 𝑇 𝑆𝑤 𝜃
𝜃2𝑇 𝑆𝑤 𝜃2 = =1
𝜃 𝑇 𝑆𝑤 𝜃
Por lo tanto los problemas son equivalentes:

max 𝜃 𝑇 𝑆𝐵 𝜃 𝑠. 𝑡. 𝜃 𝑇 𝑆𝑤 𝜃 = 1

1.b

Usamos el multiplicador de Lagrange:

𝐹 = 𝜃 𝑇 𝑆𝐵 𝜃 + 𝜆(𝜃 𝑇 𝑆𝑤 𝜃 − 1)
𝜕𝐹
= 𝜃 𝑇 𝑆𝑤 𝜃 − 1 = 0
𝜕𝜆
𝜃 𝑇 𝑆𝑤 𝜃 = 1
𝜕𝐹
= 0 → 2𝑆𝐵 𝜃 + 2𝜆𝑆𝑤 𝜃 = 0
𝜕𝜃
(𝑆𝐵 + 𝜆𝑆𝑤 )𝜃 = 0

𝜆 = −𝜃 𝑇 𝑆𝐵 𝜃

𝑆𝐵 = 𝑑𝑑𝑇 , 𝑑 = 𝑚2 − 𝑚1
(𝑆𝐵 + 𝜆𝑆𝑤 )𝜃 = 0

(𝑆𝑤−1 𝑑𝑑𝑇 + 𝜆𝐼)𝜃 = 0


1
− 𝑆𝑤−1 𝑑𝑑𝑇 𝜃 = 𝜃
𝜆

−1
𝑑𝑇 𝜃 𝑑𝑇 𝜃
−(𝑆𝑤 𝑑) ( ) = 𝜃 → 𝑐0 = −
𝜆 𝜆

𝜃 = 𝑐0 𝑆𝑤−1 𝑑

𝜃 𝑇 𝑆𝑤 𝜃 = 1 → 𝑐02 (𝑑𝑇 (𝑆𝑤−1 )𝑇 )𝑆𝑤 (𝑆𝑤−1 𝑑) = 1

𝑐02 (𝑑𝑇 𝑆𝑤−1 𝑑) = 1


±1
𝑐0 =
𝑑𝑇 𝑆𝑤−1 𝑑
Tenemos que 𝑐0 puede ser positivo o negativo

Solución:
𝑆𝑤−1 𝑑
𝜃=
𝑑𝑇 𝑆𝑤−1 𝑑
𝑑 = 𝑚2 − 𝑚1
2.a. El modelo base de regresión logística es
1
𝑝= 𝑇𝑥
1 + 𝑒 −𝜃
Notemos que el bias 𝜃0 se ha includo en el vector 𝜃. Usando aumentación de features con
algún kernel 𝜑(𝑥) tenemos:
1
𝑝𝜃 (𝑥) = 𝑇
1+ 𝑒 −𝜃 𝜑(𝑥)
. Caso contrario se le ubica en la otra. Vemos que la frontera cumple:
1 1 𝑇
𝑝= = → 𝑒 −𝜃 𝜑(𝑥) = 1 → 𝜃 𝑇 𝜑(𝑥) = 0
2 1 + 𝑒 −𝜃𝑇 𝜑(𝑥)
Entonces la frontera de decisión es 𝜃 𝑇 𝜑(𝑥) = 0, con 𝜑(𝑥) el kernel de transformación y 𝜃 los
pesos.

Recordemos que
𝑁
1
𝐽(𝜃) = − ∑(𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 )))
𝑁
𝑛=1

Supongamos que ha encontrado la clasificación adecuadamente, es decir:

𝑦𝑛 = 1 → 𝑝(𝑥𝑛 ) > 0.5 ∧ 𝑦𝑛 = 0 → 𝑝(𝑥𝑛 ) < 0.5 , ∀𝑛 ∈ [1, 𝑁]


Tomemos un 𝑎 > 1. Veamos primero que para 𝑦𝑛 = 1:
1
𝑝𝜃 (𝑥𝑛 ) = 𝑇 𝜑(𝑥 > 0.5 → 𝜃 𝑇 𝜑(𝑥) > 0 → 𝑎𝜃 𝑇 𝜑(𝑥) > 𝜃 𝑇 𝜑(𝑥)
1 + 𝑒 −𝜃 𝑛)

1 1
−𝑎𝜃𝑇 𝜑(𝑥
> 𝑇 𝜑(𝑥
1+𝑒 𝑛) 1 + 𝑒 −𝜃 𝑛)

𝑝𝑎𝜃 (𝑥𝑛 ) > 𝑝𝜃 (𝑥𝑛 ) → 𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 )
Dado que 𝑦𝑛 = 1 → (1 − 𝑦𝑛 ) = 0:

𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝑎𝜃 (𝑥𝑛 )) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 ))

Veamos ahora para 𝑦𝑛 = 0:


1
𝑝𝜃 (𝑥𝑛 ) = 𝑇 𝜑(𝑥 < 0.5 → 𝜃 𝑇 𝜑(𝑥) < 0 → 𝑎𝜃 𝑇 𝜑(𝑥) < 𝜃 𝑇 𝜑(𝑥)
1 + 𝑒 −𝜃 𝑛)

1 1
−𝑎𝜃𝑇 𝜑(𝑥
< 𝑇 𝜑(𝑥 → 𝑝𝑎𝜃 (𝑥𝑛 ) < 𝑝𝜃 (𝑥𝑛 )
1+𝑒 𝑛) 1 + 𝑒 −𝜃 𝑛)

1 − 𝑝𝑎𝜃 (𝑥𝑛 ) > 1 − 𝑝𝜃 (𝑥𝑛 ) → (1 − 𝑦𝑛 ) log 1 − 𝑝𝑎𝜃 (𝑥𝑛 ) > (1 − 𝑦𝑛 ) log 1 − 𝑝𝜃 (𝑥𝑛 )
Dado que 𝑦𝑛 = 0 tenemos:

𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝑎𝜃 (𝑥𝑛 )) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 ))

En ambos casos de los valores de 𝑦𝑛 tenemos:

𝑦𝑛 log 𝑝𝑎𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝑎𝜃 (𝑥𝑛 )) > 𝑦𝑛 log 𝑝𝜃 (𝑥𝑛 ) + (1 − 𝑦𝑛 ) log(1 − 𝑝𝜃 (𝑥𝑛 ))

Aplicando sumatoria sobre 𝑛:

−𝑁𝐽(𝑎𝜃) > −𝑁𝐽(𝜃)


𝐽(𝑎𝜃) < 𝐽(𝜃)
Dado que el objetivo de regresión logística es minimizar el costo 𝐽(𝜃) tenemos que para un 𝜃
que cumple ya con la separación de la data: 𝜃 𝑇 𝜑(𝑥) = 0, el valor del costo 𝐽(𝑎𝜃) para cualquier
𝑎 > 1 será menor. Esto implica un crecimiento hacia el infinito del valor de 𝜃. En palabras más
intuitivas se puede entender esto como el envío de 𝑝𝜃 (𝑥) → 1 cuando 𝜃 𝑇 𝜑(𝑥) → ∞ y 𝑝𝜃 (𝑥) →
0 cuando 𝜃 𝑇 𝜑(𝑥) → −∞, en cuyos casos la función logaritmo toma su valor extremo y 𝐽 toma
su extremo también (𝐽 → 0).

2.b.
1 1 𝑒 −𝑎
𝜎(𝑎) = → 𝜎(−𝑎) = =
1 + 𝑒 −𝑎 1 + 𝑒 𝑎 1 + 𝑒 −𝑎
𝜎(𝑎) + 𝜎(−𝑎) = 1 → 𝜎(−𝑎) = 1 − 𝜎(𝑎)
Obtenemos su inversa:
1 1 − 𝜎(𝑎) 1 − 𝜎(𝑎)
1 + 𝑒 −𝑎 = → 𝑒 −𝑎 = → −𝑎 = ln
𝜎(𝑎) 𝜎(𝑎) 𝜎(𝑎)
𝜎(𝑎) 𝑦
𝑎 = ln ( ) → 𝜎 −1 (𝑦) = ln ( )
1 − 𝜎(𝑎) 1−𝑦

You might also like