Professional Documents
Culture Documents
Ломоносова
На правах рукописи
УДК 519.24
Специальность 01.01.09 —
«Дискретная математика и математическая кибернетика»
Научный руководитель:
к. ф.-м. н.
Ветров Дмитрий Петрович
Москва – 2014
Содержание
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2
3.2 Функция потерь для несбалансированных категорий . . . . . . . . . . . . . . . 69
3.3 Нелинейные ядра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3.1 Двойственная формулировка структурного SVM . . . . . . . . . . . . . . 70
3.3.2 Ядровой переход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.4 Обзор литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.1 Детали реализации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.2 Наборы данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5.3 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5.4 Обсуждение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.6 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3
Введение
4
В задачах низкоуровневой обработки изображений, в частности, в обратных задачах вос-
становления изображений, также необходимо учитывать зависимость между исходными яр-
костями пикселей, для чего часто моделируют априорное распределение над изображениями.
В задаче шумоподавления [9, 10] восстановленное значение цвета пикселя должно соответ-
ствовать цвету окружения. В задаче устранения размытости [11] также можно стремиться
получить характерные именно для реальных фотографий локальные участки изображения.
Биоинформатика. При поиске генов, кодирующих данный белок, также необходимо учи-
тывать контекст [16]. Участки экзонов и интронов в ДНК имеют некоторые инвариантные
характеристики, которые невозможно моделировать на локальном уровне.
В задаче определения структуры белка́ требуется определить конформации боковых це-
пей. Конформация одной цепи состоит из 4 или менее переменных, описывающих простран-
ственные углы, которые можно дискретизовать. Конформации соседних цепей зависят друг
от друга из-за образования нековалентных связей между ядрами участвующих в них атомов.
Поэтому конформации соседних цепей нужно определять совместно [17].
5
рам w. Такой подход называется порождающим (англ. generative) [18, §1.5.4]. Его недостат-
ком является необходимость моделировать распределение на признаки объектов x, которые
могут быть непрерывными и многомерными. Зная совместное распределение, можно порож-
дать новые пары (x, y), однако это само по себе не требуется для структурного предсказания.
Поэтому на практике чаще используется разделяющий (англ. discriminative) подход, в рамках
которого максимизируется условное правдоподобие 𝐽𝑗=1 P(y𝑗 | x𝑗 , w). Получив оценку мак-
∏︀
Если восстановление распределения необходимо только для поиска моды, можно ещё бо-
лее упростить модель. Значение функции распределения для неправильной метки ȳ может
быть любым, лишь бы оно было достаточно малым. Значит, для каждого объекта x можно
стремиться максимизировать отступ между значением плотности для верной метки y и второй
после неё:
log P(y | x, w) − max log P(ȳ | x, w) → max . (2)
ȳ̸=y w
На практике такая точечная оценка для вероятности «негативных» примеров может упростить
процесс обучения. Кроме этого, важным преимуществом такого подхода является возмож-
ность учитывать функции потерь, специфичные для задачи. В то время как максимизация
правдоподобия считает все неправильные метки одинаково плохими, небольшие отклонения
часто допустимы на практике. Например, в задаче семантической сегментации неправиль-
ная разметка небольшого числа пикселей является нежелательной, но не критичной. Поэтому
предлагается делать допустимый отступ зависимым от отклонения разметки. Если пользова-
тель задаёт функцию отклонения Δ(ȳ, y), то целевая функция для объекта обучающей выбор-
ки (x, y) выглядит следующим образом:
6
разметки, потому что предсказание может моделироваться с помощью хорошо разработанно-
го математического аппарата ненаправленных графических моделей. Более подробный обзор
графических моделей и структурного обучения приведён в главе 1.
Недостатком описанного выше подхода является большая вычислительная сложность как
на этапе обучения, так и на этапе предсказания. Были предприняты попытки создать кас-
кадную систему структурного предсказания, в которой точностью можно жертвовать ради
скорости предсказания [24]. Альтернативный подход заключается в использовании последова-
тельной классификации. Алгоритм «автоконтекст» [25] применяет простые классификаторы,
чтобы оценивать метки на основе меток других переменных. На практике он имеет неболь-
шую временну́ю сложность и позволяет учитывать контекст, однако в отличие от предыдущих
методов он не обоснован теоретически (то есть, алгоритм обучения нельзя представить в виде
минимизации некоторой целевой функции). Росс и др. [26] интерпретировали последователь-
ную классификацию как обобщение алгоритма передачи сообщений в фактор-графе, однако
это не добавило теоретических гарантий. Тем не менее, сравнительно небольшая вычисли-
тельная сложность обучения и предсказания, а также высокая гибкость модели, позволяют
рассматривать алгоритмы на основе последовательной классификации как один из мощных
подходов к задаче совместной разметки. Более подробный обзор связанных методов дан в
разделе 4.4.
7
переменными, который ранее редко использовался из-за трудностей при оптимизации
функционала. Принципиальная возможность их применимости была показана с помо-
щью эвристического способа обучения потенциалов [28, 29], затем для обучения был
применён структурный метод опорных векторов [30]. В этой работе также исследова-
на возможность ядерного перехода в структурном SVM и применение аналога гауссова
ядра, а также предложена модификация функции потерь, позволяющая обучаться на
данных с выраженным дисбалансом категорий. Результаты экспериментов на задаче се-
мантической сегментации трёхмерных облаков точек, полученных лазерным сканирова-
нием, показывают, что эти модификации позволяют настраивать более точную модель.
8
(г. Портлэнд, Орегон, США). Основные результаты по теме диссертации изложены в 7 на-
учных публикациях.
9
Таблица 1: Символы, используемые в тексте диссертации
символ значение
𝛼𝑡𝑛 Коэффициент, соответствующий вкладу типа факторов 𝑡 на итерации 𝑛
𝛼Ȳ Целевая переменная в двойственной формулировке SSVM
𝛽 Параметр, контролирующий вклад за неплотность рамок
𝛾 Ширина гауссова ядра
𝛾𝑛 Размер шага (суб)градиентного метода на 𝑛-й итерации
Δ(ȳ, y) Функция потерь для разметки ȳ относительно корректной разметки y
K(ȳ; z) Функция потерь для разметки ȳ относительно корректной аннотации z
𝜆 Множители Лагранжа в формулировке двойственного разложения
𝜇𝑓 →𝑣 Сообщение из фактора в вершину
𝜇𝑣→𝑓 Сообщение из вершины в фактор
𝜈𝑝𝑧¯ Штраф за пустоту строки 𝑝 рамки 𝑧¯
𝜎𝑘 Оценка числа пикселей категории 𝑘 в функции потерь для плотных рамок
𝜏𝑘 Оценка числа пикселей категории 𝑘 в функции потерь для зёрен
𝜏 Релаксация переопределённого представления конфигурации y
ϒ Переопределённое представление конфигурации y
Φ𝑓 (y𝒞𝑓 ) Фактор распределения Гиббса над элементами 𝒞𝑓
𝜑𝑓 (y𝒞𝑓 ) Потенциал клики 𝒞𝑓 в марковской сети
𝜓 𝑡 (y𝒞𝑓 ; x𝑓 ) Вектор обобщённых признаков фактора типа 𝑡 над 𝒞𝑓
𝜓(y; x) Суммарный вектор обобщённых признаков объекта x
𝜔𝑞𝑧¯ Штраф за пустоту столбца 𝑞 рамки 𝑧¯
b𝑣 Вектор убеждений о значении 𝑦𝑣
𝐶 Гиперпараметр SSVM, контролирующий силу регуляризации
𝒞𝑓 Подмножество индексов вершин марковской сети (суперпикселей)
𝑐𝑣 Площадь 𝑣-го суперпикселя
𝑑𝑓 Приёмник д-фактора 𝑓
𝐸(y) Энергия марковской сети на конфигурации y
𝐸 𝑖 (𝜇) Энергия в 𝑖-й подзадаче при двойственном разложении
ℰ Множество индексов рёбер парно-сепарабельной марковской сети
𝐹 Количество факторов в распределении Гиббса
ℱ Набор частей множества д-факторов обучающей выборки f
f Часть множества д-факторов обучающей выборки
g𝑛 Функция-предиктор на 𝑛-й итерации последовательной классификации
g(w) Градиент целевой функции SSVM по её параметрам
𝐻(Ȳ, Ỹ) Скалярное произведение обобщённых признаков
𝐼 Количество слабоаннотированных объектов
𝐽 Число объектов в обучающей выборке
𝐾 Количество меток категорий — компонентов разметки, |𝒦|
𝒦 Множество индексов меток категорий — компонентов разметки
10
Таблица 1: Символы, используемые в тексте диссертации
символ значение
𝒦 b , 𝒦p , 𝒦a Разбиение множества категорий в определении рамочной функции потерь
𝑘˙ Метка категории при аннотации зёрнами
ℒ(ȳ, y) Штраф за неправильную разметку
𝐿(z) Подмножество разметок y, совместных со слабой аннотацией z
𝐿(𝜆, {𝜇 ¯ 𝑖 }) Функция Лагранжа в формулировке двойственного разложения
𝑁 Число итераций в машинах вывода и градиентных методах
p = (𝑝, 𝑞) Координаты пикселя изображения
p𝑡 Трёхмерные координаты 𝑡-й точки облака
ṗ Координаты зерна при аннотации зёрнами
𝑄 Ядровая функция в нелинейном SSVM
𝑟𝑘 Штраф за неправильную классификацию суперпикселя категории 𝑘
𝒮𝑓 Передатчик д-фактора 𝑓
𝑠𝑘 Оценка числа пикселей категории 𝑘 в слабой функции потерь
𝒯 Множество типов факторов
𝑇 Число точек в облаке
𝑡(𝑓 ) Тип фактора 𝑓
𝒱 Множество индексов вершин марковской сети
𝑉 Число вершин марковской сети (суперпикселей), |𝒱|
𝑣, 𝑢 Индексы вершин марковской сети
𝑣(p) Функция, возвращающая номер суперпикселя, включающего p
w Вектор параметров модели (весов)
𝒳 Множество возможных признаковых описаний
x𝑗 Признаковое описание 𝑗-го объекта выборки
X Конкатенация признаков всех объектов выборки
xv𝑣 Признаковое описание 𝑣-й вершины объекта x
xe𝑣𝑢 Признаковое описание ребра (𝑣, 𝑢) объекта x
𝒴 Множество возможных целевых переменных (разметок)
y𝑗 Значение целевой переменной (разметка) 𝑗-го объекта выборки
Y Конкатенация разметок всех объектов выборки
𝑦𝑣 Значение 𝑣-го компонента разметки (метка 𝑣-го суперпикселя)
𝑍 Нормировочная константа в распределении Гиббса
z Слабая аннотация объекта
z𝑖 Слабая аннотация 𝑖-го объекта выборки
𝑧¯ Элемент рамочной аннотации изображения zbb
𝑧˙ Элемент зерновой аннотации изображения zos
11
Глава 1
12
Ф1 Ф2 Ф3 y1 y4
y5 y6
y1 y2 y3 y4 y5 y6 y2 y3
Определение 1.3. Марковской сетью (англ. Markov network, или Markov random field, MRF),
соответствующей строго положительному распределению Гиббса (∀y : P(y) > 0), называется
граф, вершины которого соответствуют компонентам y, и на каждом из множеств вершин 𝒞𝑓
образован полный подграф. В таком случае говорят, что распределение Гиббса факторизуется
на данную марковскую сеть. Пример марковской сети показан на рис. 1.1b.
13
где
𝐹
∑︁
𝐸(y) = 𝜑𝑓 (y𝒞𝑓 ), 𝜑𝑖 (y𝒞𝑓 ) = − log Φ𝑓 (y𝒞𝑓 ). (1.4)
𝑓 =1
Определение 1.4. Модой распределения P(y), или MAP-оценкой (англ. maximum a posteriori),
называется его самый вероятный элемент: yMAP = argmaxy P(y). Поскольку максимизация не
зависит от нормировочной константы 𝑍, MAP-оценка также является минимумом энергии
марковской сети: yMAP = argminy 𝐸(y).
В задачах разметки часто берут MAP-оценку в качестве ответа. Например, в задаче семан-
тической сегментации каждому суперпикселю соответствует элемент вектора y; оптимальная
конфигурация находится минимизацией энергии марковской сети специального вида. В прак-
тических задачах множества 𝒞𝑓 переменных, входящих в различные факторы, пересекаются,
поэтому приходится осуществлять глобальную оптимизацию.
Байесовская теория принятия решений позволяет учитывать функцию потерь, задавае-
мую из экспертных соображений [36, §5.7]. Например, в задаче семантической сегментации
предпочтительнее предсказать разметку, отличающуюся в одном пикселе, а не в половине
изображения. Пусть ȳ — верная разметка, тогда необходимо определить функцию ℒ : 𝒴 → R,
определяющую штраф за несоответствие разметки y верной разметке. Тогда вектор y вы-
водится как минимум математического ожидания функции потерь по апостериорному рас-
∑︀
пределению: yB = argminy EP(ȳ) ℒ(y; ȳ) = argminy ȳ∈𝒴 ℒ(y; ȳ)P(ȳ). Заметим, что эта
схема является обобщением MAP-оценивания: при использовании бинарной функции по-
терь ℒ(y; ȳ) = Jy ̸= ȳK оптимальное Байесовское решение совпадает с MAP-оценкой. На
практике использование нетривиальных функций потерь сопряжено с вычислительными труд-
ностями, поэтому они используются редко, однако при настройке параметров использова-
ние некоторых функций потерь помогает улучшить обобщающую способность модели, при
этом существует выпуклая верхняя оценка на соответствующую целевую функцию, см. раз-
дел 1.3.2.
Также в некоторых задачах приходится оценивать маргинальные распределения на индиви-
∑︀ ∑︀
дуальные переменные P(𝑦𝑣 ) ∝ y∖𝑦𝑣 exp(−𝐸(y)) или их группы P(y𝒞 ) ∝ y∖y𝒞 exp(−𝐸(y)).
Существуют алгоритмы, позволяющие найти приближённые значения маргиналов эффектив-
нее явного суммирования. Помимо непосредственного интереса к распределению на перемен-
ные, ненормированные маргиналы могут быть использованы для эффективного вычисления
математического ожидания признаков факторов, что требуется в некоторых методах обучения
параметров (раздел 1.3.1).
Рассмотрим класс марковских сетей, наиболее часто используемый на практике.
14
φv(yv)
|yv − xv|
φvu(yv , yu)
Рисунок 1.2: Пример использования 4-связной парно-сепарабельной марковской сети для по-
давления шума на изображении. (a) Зашумлённое изображение, в котором каждый пиксель
соответствует вершине марковской сети, и структура сети для части изображения. Исходные
интенсивности 𝑥𝑣 служат для задания унарных потенциалов. (b) Пример задания унарных и
парных потенциалов. Значение парного потенциала не зависит от исходных интенсивностей.
Оно поощряет близкие значения интенсивности восстановленного изображения в соседних
пикселях, при этом выше порога 𝑇trunc значение потенциала не наращивается: штраф для воз-
можных границ на изображении постоянен.
Заметим, что если в графе 𝐺 нет изолированных вершин, то унарные потенциалы избыточ-
ны — модификацией парных потенциалов можно получить эквивалентную функцию энергии.
Однако их часто моделируют отдельно, поскольку они имеют интерпретируемое значение, а
также могут быть важнее парных, поэтому при настройке параметров их параметры регуля-
ризуются слабее.
Рассмотрим пример. Парно-сепарабельная марковская сеть может использоваться для по-
давления некоторых видов шумов на изображении. Вершины 𝒱 могут индексировать пиксели,
а рёбра ℰ — задавать 4-связную систему соседства над ними, переменные 𝑦𝑣 кодируют восста-
новленные значения цвета соответствующих пикселей (рис. 1.2). Тогда унарные потенциалы
задаются так, чтобы штрафовать отклонение от цвета пикселя зашумлённого изображения,
а парные — чтобы штрафовать разность цветов соседних пикселей (используется априорное
предположение, что границы областей постоянных цветов занимают малую часть площади
15
изображения). В этой задаче унарные потенциалы имеют естественный смысл, поэтому их
удобно моделировать отдельно.
Большинство эффективных алгоритмов минимизации работают с парно-сепарабельными
энергиями, однако в последнее время стали активно изучаться методы оптимизации вывода
в марковских сетях с факторами высоких порядков, а также их приложения. Например, в
задаче подавления шумов такие факторы могут поощрять участки восстановленного изобра-
жения, похожие на ранее встретившиеся в обучающей выборке [10]. В задаче семантической
сегментации факторы высоких порядков, построенные над кластерами пикселей, позволя-
ют повысить качество разметки [6, 37]. В данной работе алгоритмы минимизации энергии
с потенциалами высоких порядков используются в алгоритме настройки параметров парно-
сепарабельных марковских сетей по слабой аннотации, см. главу 2.
16
Оптимизационная задача 1.1 (минимизация энергии как задача ЦЛП).
𝐾
∑︁ ∑︁ 𝐾 ∑︁
∑︁ ∑︁ 𝐾
min 𝜑𝑣 (𝑘)ϒ𝑣,𝑘 + 𝜑𝑣𝑢 (𝑘, 𝑙)ϒ𝑣𝑢,𝑘𝑙 , (1.6)
ϒ
𝑣∈𝒱 𝑘=1 (𝑣,𝑢)∈ℰ 𝑘=1 𝑙=1
𝐾
∑︁
при условиях ϒ𝑣,𝑘 = 1, ∀𝑣 ∈ 𝒱, (1.7)
𝑘=1
𝐾
∑︁ 𝐾
∑︁
ϒ𝑣𝑢,𝑘𝑙 = ϒ𝑢,𝑙 , ∀𝑙, ϒ𝑣𝑢,𝑘𝑙 = ϒ𝑣,𝑘 , ∀𝑘, ∀(𝑣, 𝑢) ∈ ℰ, (1.8)
𝑘=1 𝑙=1
2 |ℰ|
ϒ ∈ {0, 1}𝐾|𝒱|+𝐾 . (1.9)
𝐾
∑︁ ∑︁ 𝐾 ∑︁
∑︁ ∑︁ 𝐾
min 2 |ℰ|
𝜑𝑣 (𝑘)𝜏𝑣,𝑘 + 𝜑𝑣𝑢 (𝑘, 𝑙)𝜏𝑣𝑢,𝑘𝑙 , (1.10)
𝜏 ∈R𝐾|𝒱|+𝐾
𝑣∈𝒱 𝑘=1 (𝑣,𝑢)∈ℰ 𝑘=1 𝑙=1
𝐾
∑︁
при условиях 𝜏𝑣,𝑘 = 1, ∀𝑣 ∈ 𝒱, (1.11)
𝑘=1
𝐾
∑︁ 𝐾
∑︁
𝜏𝑣𝑢,𝑘𝑙 = 𝜏𝑢,𝑙 , ∀𝑙, 𝜏𝑣𝑢,𝑘𝑙 = 𝜏𝑣,𝑘 , ∀𝑘, ∀(𝑣, 𝑢) ∈ ℰ, (1.12)
𝑘=1 𝑙=1
𝜏 ≥ 0. (1.13)
17
ение итеративного процесса, в рамках которого между переменными и факторами пересы-
лаются сообщения, обновляющие убеждения (англ. beliefs) о маргинальных распределениях
или элементах MAP-оценки для отдельных переменных на основе влияния их «соседей» по
графической модели.
Мы определим формулы передачи сообщений для определения маргинальных распреде-
лений и затем покажем, как их можно модифицировать для нахождения MAP-оценки.
∏︁ 𝑘
∑︁
𝑏𝑣 (𝑦) ∝ 𝜇 𝑓 ′ →𝑣 (𝑦), 𝑏𝑣 (𝑦) = 1. (1.16)
𝑓 ′ : 𝑣∈𝒞𝑓 ′ 𝑦=1
18
1.2.3 Двойственное разложение
Группа методов на основе двойственного разложения (двойственной декомпозиции) рас-
сматривает двойственную оптимизационную задачу к задаче поиска минимума энергии мар-
ковской сети, которая является вогнутой, поэтому в ней возможно найти глобальный мак-
симум, являющийся нижней оценкой на значение энергии в прямой задаче [41]. Поскольку
рассматривается дискретная задача, в общем случае существует ненулевой зазор между мини-
мумом прямой и максимумом двойственной задачи, однако метод поиска максимума в двой-
ственной задаче позволяет выписать приближённое решение прямой задачи, а также оценить
сверху субоптимальность любого решения (разницу между энергией в точке и минимальной
энергией). Преимуществом данного метода является возможность использования потенциа-
лов высоких порядков [42].
Рассмотрим переопределённое представление ϒ вектора переменных y:
{︃
1, если 𝑦𝑣 = 𝑘,
ϒ𝑣,𝑘 = ∀𝑣 ∈ 𝒱, ∀𝑘 ∈ 𝒦. (1.17)
0, иначе,
где минимизация отдельных 𝐸 𝑖 (ϒ) может быть выполнена с низкими вычислительными за-
тратами (как правило, используются алгоритмы со сложностью не более линейной по числу
вершин в марковской сети). Самым простым примером такого представления является де-
композиция на отдельные факторы: 𝐸 𝑖 (ϒ) ≡ 𝜑𝑖 (y𝒞𝑖 ), ∀𝑖 ∈ 𝐹 , применимая, когда максималь-
ный порядок фактора ограничен сверху некоторой константой; тогда сложность минимиза-
ции 𝐸 𝑖 (ϒ) не зависит от общего числа переменных. С учётом (1.18) задача минимизации
энергии (1.4) эквивалентна следующей задаче:
где M = [ϒ𝑣 ]𝑣∈𝒱 ∈ {0, 1}𝐾·𝑉 | 𝑘∈𝒦 ϒ𝑣,𝑘 = 1, ∀𝑣 ∈ 𝒱 — ограничение, накладываемое видом
{︀ ∑︀ }︀
переопределённого представления.
Наша цель — построить релаксацию задачи 1.3, чтобы затем найти двойственную к ней.
𝑖
Для этого введём дополнительные переменные ϒ̄ , соответствующие подзадачам 𝐸 𝑖 , и запи-
шем эквивалентную задачу минимизации:
19
Оптимизационная задача 1.4 (минимизация разложенной энергии).
∑︁
min𝑖 𝐸 𝑖 (ϒ𝑖 ), (1.21)
ϒ,{ϒ̄ } 𝑖
𝑖
при условиях ϒ ∈ M, ϒ̄ ∈ M, ∀𝑖, (1.22)
𝑖
ϒ̄ = ϒ, ∀𝑖. (1.23)
𝑖
∑︁ 𝑖
∑︁ 𝑖 ∑︁ (︁ 𝑖 𝑖|
)︁ ∑︁
𝐿(𝜆, ϒ, {ϒ̄ }) = 𝐸 𝑖 (ϒ̄ ) + (ϒ̄ − ϒ)| 𝜆𝑖 = 𝐸 𝑖 (ϒ̄ ) + ϒ̄ 𝜆𝑖 − ϒ| 𝜆𝑖 . (1.24)
𝑖 𝑖 𝑖 𝑖
𝑖 𝑖
При любом фиксированном значении 𝜆 минимизация 𝐿(𝜆, ϒ, {ϒ̄ }) по ϒ, {ϒ̄ } при усло-
виях (1.22)–(1.23) эквивалентна задаче 1.4, а значит и исходной задаче минимизации энер-
гии 𝐸(ϒ). Если же опустить ограничения целостности (1.23), минимум функции Лагранжа
при любом значении 𝜆 будет служить нижней оценкой на минимум исходной энергии:
𝑖
min𝑖 𝐿(𝜆, ϒ, {ϒ̄ }) ≤ min 𝐸(ϒ), ∀𝜆. (1.25)
ϒ∈M,{ϒ̄ ∈M} ϒ∈M
𝑖
max min𝑖 𝐿(𝜆, ϒ, {ϒ̄ }) ≤ min 𝐸(ϒ). (1.26)
𝜆 ϒ∈M,{ϒ̄ ∈M} ϒ∈M
(1.27)
где {︁ }︁
˙ 𝑖 = argmin 𝐸 𝑖 (ϒ̄𝑖 ) + ϒ̄𝑖| 𝜆𝑖 ,
ϒ̄ ϒ̇ = argmax ϒ|
∑︀
𝜆𝑗 , ∀𝑖. (1.28)
𝑗
𝑖 ϒ∈M
ϒ̄ ∈M
20
𝑖
что и для минимизации 𝐸 𝑖 (ϒ̄ ) без дополнительных вычислительных затрат. Во второй
группе при вычислении ϒ̇ максимизация может проводиться независимо по векторам,
отвечающим разным переменным марковской сети 𝑣.
Существуют различные способы представить энергию в виде суммы (1.18) помимо деком-
позиции на отдельные факторы. Например, граф парно-сепарабельной марковской сети можно
разбить на пересекающиеся поддеревья — энергию в ациклической марковской сети можно
эффективно минимизировать с помощью алгоритма передачи сообщений (раздел 1.2.2). Ал-
горитм передачи сообщений с перевзвешиванием по деревьям (англ. tree-reweighted message
passing, TRW ) [43] представляет собой блочно-координатную оптимизацию двойственного
функционала при декомпозиции графа на поддеревья. За счёт сравнительно небольшого чис-
ла подзадач метод требует меньше вычислительных ресурсов, чем при разбиении на отдель-
ные факторы. Другой способ декомпозиции получается при разложении энергии на сумму так
называемых субмодулярных функций [45], точная минимизация которых возможна с приме-
нением алгоритмов разрезов на графах (см. раздел 1.2.4).
где 𝛿𝑣𝑢 ≥ 0. Такой вид потенциалов поощряет назначение смежным вершинам одной и той же
метки.
21
с пропускной способностью 𝜑𝑣 (2), иначе — дуга 𝑣 → 𝑡 с пропускной способностью 𝜑𝑣 (1).
Также каждому ребру марковской сети (𝑣, 𝑢) ∈ ℰ соодветствуют две дуги: 𝑢 → 𝑣 и 𝑣 → 𝑢
с одинаковой пропускной способностью 𝛿𝑣𝑢 . Легко показать, что любой конфигурации пере-
менных марковской сети соответствует разрез на графе между вершинами 𝑠 и 𝑡: вершины,
попавшие в разрез со стороны 𝑠, получают метку 1, остальные — метку 2, причём величина
разреза равняется энергии марковской сети. Таким образом, минимальный 𝑠–𝑡-разрез соот-
ветствует разметке, минимизирующей энергию марковской сети.
Определим более широкий класс парно-сепарабельных бинарных энергий, минимизация
которых сводится к разрезам на графах.
Определение 1.8. Вещественная функция двух бинарных аргументов 𝑓 : {1, 2}2 → R называ-
ется субмодулярной, если 𝑓 (1, 1) + 𝑓 (2, 2) ≤ 𝑓 (1, 2) + 𝑓 (2, 1). Парно-сепарабельная бинарная
энергия называется субмодулярной, если все её парные потенциалы — субмодулярные функ-
ции.
Таким образом, унарный потенциал соответствует либо дуге из 𝑠, либо дуге в 𝑡. В отли-
чие от предыдущего случая, ребру (𝑣, 𝑢) марковской сети соответствует одна дуга в графе,
имеющая пропускную способность 𝜑′𝑣𝑢 (2, 1). Минимальный разрез в полученном графе также
соответствует разметке, минимизирующей энергию марковской сети [46].
22
тимизация проводится только по подмножеству переменных марковской сети, причём каждая
переменная может либо оставить предыдущее значение, либо изменить его на некоторое дру-
гое, фиксированное на данном шаге. На каждом шаге значение энергии на текущей разметке
уменьшается, поэтому методы находят локальный минимум относительно соответствующего
вида шага.
Одним из таких алгоритмов является 𝛼-расширение [47]. На каждом шаге выбирается
одна из меток 𝛼 (случайно или поочерёдно), и над тем же графом 𝐺(𝒱, ℰ) строится допол-
нительная марковская сеть с бинарной энергией, в которой метке 1 соответствует сохранение
предыдущего значения, а метке 2 — изменение значения на 𝛼. Если текущая разметка равна y,
потенциалы назначаются следующим образом:
𝜑𝑣𝑢 (𝛽, 𝛾) + 𝜑𝑣𝑢 (𝛼, 𝛼) ≤ 𝜑𝑣𝑢 (𝛽, 𝛼) + 𝜑𝑣𝑢 (𝛼, 𝛾), ∀𝛼, 𝛽, 𝛾 ∈ 𝒦, ∀(𝑣, 𝑢) ∈ ℰ. (1.41)
Для выполнения этого условия достаточно, чтобы парные потенциалы удовлетворяли аксио-
мам метрики (а при 𝜑𝑣𝑢 (𝛼, 𝛼) = 0, 𝜑𝑣𝑢 (𝛼, 𝛽) ≥ 0 условие становится эквивалентным опреде-
лению метрики).
Другой метод из этой группы — 𝛼𝛽-замена [47]. Он отличается тем, что на каждом шаге
выбирается пара меток (𝛼 и 𝛽), и рассматриваются только те вершины, которые в текущей
разметке y уже имеют метку 𝛼 или 𝛽. Назначение переменной метки 1 в дополнительной
задаче соответствует сохранению метки, а метки 2 — изменению на противоположную (𝛼
на 𝛽, и наоборот). Метод 𝛼𝛽-замены применим к более широкому классу энергий — не тре-
буется выполнение парными потенциалами неравенства треугольника (1.41), однако в случае
применимости обоих вариантов, он как правило находит худший локальный минимум, чем
𝛼-расширение.
23
дел 1.2.3), однако в некоторых случаях возможно свести задачу к построению минимального
разреза в графе с помощью введения дополнительных вершин, что является предпочтитель-
ным из-за более высокой эффективности таких методов. Ниже мы конструктивно охарактери-
зуем класс потенциалов высокого порядка, допускающих такое сведение, и приведём примеры
функций, полезных на практике.
24
дый из таких минимумов может быть учтён при минимизации энергии с помощью добав-
ления одной бинарной переменной, а соответствующие ей парные потенциалы оказываются
субмодулярными [49, утв. 3.5], модифицированная функция энергии может быть эффективно
минимизирована с помощью алгоритма построения разреза в графе. Следствием этого явля-
∑︀
ется тот факт, что любая вогнутая функция от 𝑣∈𝒞 J𝑦𝑣 = 𝑘K может быть использована для
задания потенциала высокого порядка, и при этом будет возможно применение разрезов на
графе.
Для небинарных задач важным частным случаем (1.43) является модель Поттса в клас-
се 𝒫 𝑛 и её робастный вариант. Они используются в задаче сегментации изображений, чтобы
получить сегментацию более подробную, чем сегментацию на уровне суперпикселей. Для
этого марковская сеть строится над пикселями изображения (а не над суперпикселями), а для
задания потенциалов высокого порядка используются перекрывающиеся пересегментации,
каждому сегменту которых соответствует фактор высокого порядка, поощряющий назначение
всем пикселям соответствующего сегмента одной и той же метки [50, 51].
)︀ 𝛿𝒞 − 𝛿 𝑘
{︂ {︁ (︀ }︁ }︂
𝑘
∑︀
𝜑(y𝒞 ) = min min |𝒞| − 𝑣∈𝒞 J𝑦𝑣 = 𝑘K + 𝛿 , 𝛿𝒞 , (1.46)
𝑘∈𝒦 𝑇
25
Другим обобщением потенциала Поттса в классе 𝒫 𝑛 является потенциал, штрафующий
количество различных меток, использованных при разметке подмножества переменных. Он
часто используется в компьютерном зрении для регуляризации: например, в задаче восста-
новления геометрии сцены вероятнее конфигурация с меньшим числом плоскостей, а в задаче
сегментации изображений — с меньшим числом классов или кластеров.
Определение 1.13. Потенциалом, штрафующим наличие меток называется потенциальная
функция, представимая в виде
∑︁
𝜑(y𝒞 ) = 𝛿 𝑘 J∃𝑣 ∈ 𝒞 : 𝑦𝑣 = 𝑘K, (1.47)
𝑘∈𝒦
26
это распределение в параметрическом виде. Таким образом, моделирование состоит из двух
шагов: 1) формулировка условного распределения в параметрическом виде, 2) настройка па-
раметров w* так, что функции вероятностей P(y | x𝑗 , w* ) достигают бо́льших значений на
верных разметках y𝑗 , и меньших — на остальных, которая обычно осуществляется миними-
зацией некоторой целевой функции (эмпирического риска).
27
𝜑v (2; x𝑣 , w) = w 𝜓 v (2; x𝑣 )
∑︀
= ·
∑︀
= ·
Рисунок 1.3: Пример определения унарных (верхний ряд) и парных (нижний ряд) потенциа-
лов при логлинейной параметризации при количестве категорий 𝐾 = 3, количестве признаков
унарных потенциалов 𝑑v = 5 и количестве признаков парных потенциалов 𝑑e = 4 для кон-
фигураций 𝑦𝑣 = 2 и 𝑦𝑣 = 2, 𝑦𝑢 = 1. Векторы обобщённых признаков принимают ненулевые
значения только в соответствующих «колонках», куда записываются значения x𝑣 и x𝑣,𝑢 , соот-
ветственно. Значение потенциала вычисляется как скалярное произведение параметров w на
соответствующий вектор обобщённых признаков.
𝐽
∏︁
L(w) = P(y𝑗 | x𝑗 , w). (1.49)
𝑗=1
28
Найдём градиент логарифма функции правдоподобия:
𝐽 [︂
𝜕𝑍(x𝑗 , w)
]︂
𝜕 log L ∑︁ 𝑗 𝑗 1
= 𝜓(y ; x ) − = (1.50)
𝜕w 𝑗=1
𝑍(x𝑗 , w) 𝜕w
𝐽
[︃ )︀ ]︃
∑︁ 𝜕 exp w| 𝜓(ȳ; x𝑗 )
(︀
∑︁ 1
𝜓(y𝑗 ; x𝑗 ) − 𝑗 , w)
=
𝑗=1
𝑍(x ȳ
𝜕w
𝐽
[︃ ]︃
∑︁ ∑︁
𝑗 𝑗 𝑗 𝑗
𝜓(y ; x ) − 𝜓(ȳ; x )P(ȳ | x , w) =
𝑗=1 ȳ
𝐽
∑︁
𝐽Edata 𝜓(y; x) − Emodel 𝜓(y; x𝑗 ).
𝑗=1
∑︁ 𝐹
∑︁ ∑︁
Emodel 𝜓(y; x) = 𝑗 𝑗
𝜓(ȳ; x )P(ȳ | x , w) = 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 )P(ȳ | x𝑗 , w) = (1.51)
ȳ ȳ 𝑓 =1
𝐹 ∑︁ ∑︁
∑︁ 𝐹 ∑︁
∑︁
𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 )P(ȳ | x𝑗 , w) = 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 )P(ȳ𝒞𝑓 | x𝑗 , w).
𝑓 =1 ȳ𝒞𝑓 ȳ𝒱∖𝒞𝑓 𝑓 =1 ȳ𝒞𝑓
29
𝐽 𝜕 exp(w| 𝜓(ȳ;x𝑗 )) 𝑗 ,w)
𝑍(x𝑗 , w) − 𝜕𝑍(x exp w| 𝜓(ȳ; x𝑗 )
(︀ )︀
𝜕 2 log L ∑︁ ∑︁
𝜕w| 𝜕w|
= − 𝜓(ȳ; x𝑗 ) = (1.52)
𝜕w𝜕w| 𝑗=1 ȳ
𝑍 2 (x𝑗 , w)
𝐽 ∑︁
𝑍(x𝑗 , w) exp w| 𝜓(ȳ; x𝑗 ) [𝜓 | (ȳ; x𝑗 ) − Emodel 𝜓 | (y; x𝑗 )]
(︀ )︀
∑︁
𝑗
− 𝜓(ȳ; x ) =
𝑗=1 ȳ
𝑍 2 (x𝑗 , w)
𝐽
[︃ ]︃
∑︁ ∑︁ exp(w| 𝜓(ȳ; x𝑗 ))
− 𝜓(ȳ; x𝑗 )𝜓 | (ȳ; x𝑗 ) − Emodel 𝜓(y; x𝑗 ) · Emodel 𝜓 | (y; x𝑗 ) =
𝑗=1 ȳ
𝑍(x𝑗 , w)
𝐽
∑︁
Emodel 𝜓(y; x𝑗 )𝜓 | (y; x𝑗 ) − Emodel 𝜓(y; x𝑗 ) · Emodel 𝜓 | (y; x𝑗 ) =
[︀ ]︀
−
𝑗=1
𝐽
∑︁
− var [𝜓(y; x𝑗 )].
𝑗=1
𝑗
где y∖𝑣 — вектор, состоящий из всех компонент y𝑗 , кроме 𝑦𝑣𝑗 . Таким образом, полное прав-
доподобие заменяется на произведение условных вероятностей индивидуальных переменных
при известных верных значениях остальных. Вычислить такие условные распределения про-
ще, так как нормировочные константы теперь рассчитываются не для всех переменных, а для
групп смежных вершин марковской сети каждой из переменных, как правило, небольших по
размеру. Используя факторизацию марковской сети, имеем:
𝑗 𝑝𝑗 (𝑘)
P(𝑦𝑣𝑗 = 𝑘 | y∖𝑣 , x𝑗 , w) = ∑︀𝐾 𝑣 𝑗 , (1.54)
¯ 𝑝 𝑣 ( ¯
𝑘)
𝑘=1
30
где ненормированное условное распределение равно:
∏︁ (︁ )︀)︁
𝑝𝑗𝑣 (𝑘) = exp w| 𝜓 𝑡(𝑓 ) y𝒞𝑗 𝑓 |𝑦𝑣 =𝑘 ; x𝑗𝑓 ,
(︀
(1.55)
𝑓 :𝑣∈𝒞𝑓
где под y𝒞𝑗 𝑓 |𝑦𝑣 =𝑘 понимается вектор, в котором компонента, соответствующая индексу пере-
менной 𝑣, заменена на 𝑘.
Покажем, что вычисление такой функции и её градиента значительно проще на примере
парно-сепарабельной марковской сети над графом, заданным 4-связной решёткой (такие мар-
ковские сети часто используются в низкоуровневой обработке изображений, см. рис. 1.2a).
Каждая вершина графа входит не более чем в 4 фактора, поэтому в знаменателе (1.54) необ-
ходимо сложить не более 𝐾 4 слагаемых для каждой из переменных, то есть совершить поряд-
ка 𝑉 𝐾 4 операций для подсчёта градиента по одному объекту, что значительно меньше 𝐾 𝑉 .
Данный метод при обучении считает известными метки других переменных, что может
привести к получению смещённой оценки. Например, в обучающей выборке значение пере-
менной может точно определяться значением одной из «соседних» переменных, в результате
чего распределение будет моделировать детерминистическую связь между ними, при этом не
учитывая другие факторы, например локальные признаки. Однако на практике оценки макси-
мума псевдоправдоподобия часто близки к оценкам максимума правдоподобия [36, §19.5.4].
К логарифму правдоподобия или его аппроксимациям часто добавляют квадратичный ре-
гуляризатор на параметры w| w, что эквивалентно введению нормального априорного рас-
пределения с центром в нуле. Эта техника предотвращает чрезмерный рост параметров, со-
ответствующих наиболее сильным признакам, и таким образом предотвращает переобучение.
Тогда оптимум такой регуляризованной функции можно считать MAP-оценкой на парамет-
ры w. Градиент квадратичного регуляризатора линеен, поэтому не доставляет трудностей при
оптимизации.
31
апостериорному распределению. Хотя на этапе принятия решения это правило используется
редко из-за его трудоёмкости, оказывается выгодно использовать его в целевой функции при
обучении. Предположим, что задана функция потерь ℒ(ȳ; y), задающая отклонение некото-
рой разметки ȳ от верной разметки y. Тогда задача обучения ставится как минимизация по
параметрам w следующей целевой функции:
𝐽 ∑︁
∏︁
𝑅(w) = ℒ(ȳ; y𝑗 )P(ȳ | x𝑗 , w). (1.56)
𝑗=1 ȳ∈𝒴
Заметим, что при ℒ(ȳ; y𝑗 ) = Jȳ = y𝑗 K, 𝑅(w) эквивалентна правдоподобию (1.49). Обозна-
чим Δ(ȳ; y) = log ℒ(ȳ; y) и преобразуем логарифм 𝑅(w):
𝐽
[︃ )︀ ]︃
exp w| 𝜓(ȳ; x𝑗 )
(︀
∑︁ ∑︁
𝑗
log 𝑅(w) = log ℒ(ȳ; y ) = (1.57)
𝑗=1 ȳ∈𝒴
𝑍(x𝑗 , w)
𝐽
[︃ ]︃
∑︁ ∑︁ ∑︁
exp Δ(ȳ; y𝑗 ) + w| 𝜓(ȳ; x𝑗 ) − log exp w| 𝜓(ȳ; x𝑗 ) .
(︀ )︀ (︀ )︀
log
𝑗=1 ȳ∈𝒴 ȳ∈𝒴
∑︁ [︂ (︁ )︁]︂
𝑓 (y) ≤ log exp 𝑓 (ȳ) ≤ log |𝒴| exp max 𝑓 (ȳ) ≤ log |𝒴| + max 𝑓 (ȳ). (1.58)
ȳ∈𝒴 ȳ∈𝒴
ȳ∈𝒴
Получим:
𝐽 [︂
∑︁ ]︂
𝑗 | | 𝑗 𝑗 𝑗
{︀ }︀
log 𝑅(w) ≤ max Δ(ȳ; y ) + w 𝜓(ȳ; x ) − w 𝜓(y ; x ) + 𝐽 log |𝒴|. (1.59)
ȳ∈𝒴
𝑗=1
𝐽 [︂ ]︂
1 | ∑︁ {︀ 𝑗 | 𝑗
}︀ | 𝑗 𝑗
LMM (w) = w w + 𝐶 max Δ(ȳ; y ) + w 𝜓(ȳ; x ) − w 𝜓(y ; x ) , (1.60)
2 𝑗=1
ȳ∈𝒴
32
Рисунок 1.4: Пример, поясняющий идею максимизации отступа в структурном обучении
для объекта обучающей выборки (x, y). Горизонтальная ось представляет пространство раз-
меток. Красная кривая(︀ задаёт функцию )︀потерь Δ(ȳ; y), чёрные стрелки задают величи-
ну w| Δ𝜓(ȳ; x) = w| 𝜓(ȳ; x) − 𝜓(y; x) , а зелёная кривая — их сумму (в подписях опу-
щены постоянные параметры функций). Минимизация отступа стремится минимизировать
по w значение этой суммы в смысле нормы 𝐿∞ . На рисунке показана точка максимума этой
кривой ȳmax , не совпадающая с точкой максимума функции, показанной чёрными стрелками.
𝐽
1 ∑︁
min w| w + 𝐶 𝜉𝑗 , (1.61)
w,𝜉 2
𝑗=1
33
Алгоритм 1.1 Обучение SSVM методом секущей плоскости
1: Вход: обучающая выборка {(x𝑗 , y𝑗 )}𝐽𝑗=1 , гиперпараметры 𝐶, 𝜀.
2: Выход: параметры w.
3: 𝒲𝑗 ← ∅, 𝜉𝑗 ← 0, ∀𝑗 ∈ {1, . . . , 𝐽}
4: repeat
5: for all 𝑗 ∈ {1, . . . , 𝐽} do
6: ȳ ← argmaxy∈𝒴 {w| 𝜓(y; x𝑗 ) + Δ(y; y𝑗 )}
7: 𝑣𝑗 ← w| 𝜓(ȳ; x𝑗 ) − w| 𝜓(y𝑗 ; x𝑗 ) + Δ(ȳ; y𝑗 ) − 𝜉𝑗
8: if 𝑣𝑗 ≥ 𝜀 then
9: 𝒲𝑗 ← 𝒲𝑗 ∪ {ȳ}
(w, 𝜉) ← argminw,𝜉≥0 21 w| w + 𝐶 𝐽𝑗=1 𝜉𝑗
∑︀
10:
11: п. у. w| 𝜓(y𝑖 ; x𝑖 ) ≥ w| 𝜓(ȳ𝑖 ; x𝑖 ) + Δ(ȳ𝑖 ; y𝑖 ) − 𝜉𝑗 , ∀ȳ𝑖 ∈ 𝒲𝑖 , ∀𝑖 ∈ {1, . . . , 𝐽}
12: end if
13: end for
14: until 𝑣𝑗 < 𝜀, ∀𝑗 ∈ {1, . . . , 𝐽}
𝐽
1 ∑︁
min w| w + 𝐶 𝜉𝑗 , (1.63)
w,𝜉 2
𝑗=1
34
Субградиентные методы оптимизации
𝐽
𝜕LMM ∑︁
𝜓(ȳ𝑗 (w); x𝑗 ) − 𝜓(y𝑗 ; x𝑗 ) ,
[︀ ]︀
∋ g(w) = w + 𝐶 (1.65)
𝜕w 𝑗=1
где ȳ𝑗 (w) = argmaxȳ∈𝒴 {Δ(ȳ; y𝑗 ) + w| 𝜓(ȳ; x𝑗 )} при текущем значении w. Инициализировав
вектор параметров некоторым значением w0 , метод итеративно обновляет его значения по
формуле
w𝑛+1 = w𝑛 − 𝛾𝑛 g(w𝑛 ), (1.66)
где 𝛾𝑛 — убывающий размер шага. Поскольку целевая функция выпукла, существует такая
последовательность {𝛾𝑛 }, при которой оптимизация сходится к глобальному оптимуму. В
частности, достаточно, чтобы 𝛾𝑛 → 0, но ∞
∑︀
𝑛=0 𝛾𝑛 → +∞ [53]. Например, такому свойству
1
удовлетворяет последовательность 𝛾𝑛 = 𝑛+1 . В практических задачах важна скорость сходи-
мости, которая сильно зависит от выбора конкретной последовательности размеров шагов.
На практике бывает полезно ограничивать множество w. Например, при использовании
ассоциативных марковских сетей приходится полагать w ≥ 0 (см. раздел 2.2.1). Если на
каждой итерации брать проекцию w𝑛+1 на некоторое выпуклое множество, то метод сходится
к оптимуму целевой функции на этом выпуклом множестве [53].
Лакост-Жулие и др. [54] рассмотрели субградиентный метод для оптимизации двойствен-
ной функции к (1.60). Формулы пересчёта, выраженные через целевые переменные прямой
задачи, совпали с (1.66), однако удалось получить в аналитическом виде оптимальный раз-
мер шага 𝛾𝑛 на каждой итерации 𝑛. Кроме того, появилась возможность вычислять текущий
интервал двойственности, который является верхней оценкой отклонения значения целевой
функции в текущей точке от оптимума.
Исследования других применений субградиентного метода [55,56] показали, что неэффек-
тивно оценивать градиент точно на каждой итерации. Сумму по 𝐽 объектам в (1.65) можно
приблизить суммой по их случайному подмножеству:
|𝒥 | ∑︁ [︀
𝜓(ȳ𝑗 (w); x𝑗 ) − 𝜓(y𝑗 ; x𝑗 ) ,
]︀
g̃(w) = w + 𝐶 (1.67)
𝐽 𝑗∈𝒥
35
1.3.3 Обучение нелинейных моделей
До этого предполагалась логлинейная зависимость (1.48) правдоподобия от параметров
распределения. Далее рассмотрим графические вероятностные модели с более гибкой зависи-
мостью от параметров, однако явно представимые в виде распределения Гиббса (1.1). Суще-
ствуют также методы, модифицирующие алгоритмы вывода и настраивающие непосредствен-
но их параметры, не используя в явном виде параметризованное распределение [25, 26, 57], в
том числе попадающий в этот класс метод, предложенный в главе 4. Более подробный обзор
таких методов дан в разделе 4.4.
𝐽
[︃ {︂ 𝐹 𝐹
}︂ ∑︁ ]︃
∑︁ ∑︁
LFGB = max Δ(ȳ; y𝑗 ) − 𝜑𝑓 (ȳ𝒞𝑓 ; x𝑗 ) + 𝜑𝑓 (y𝒞𝑗 𝑓 ; x𝑗 ) , (1.68)
ȳ∈𝒴
𝑗=1 𝑓 =1 𝑓 =1
градиент в этой точке, покажем сначала, чему равен градиент функционала Fa [𝑔] ≡ 𝑔(a). Рас-
смотрим значение функционала при вариации аргумента:
∫︁
Fa [𝑔 + 𝜀𝜂] = 𝑔(a) + 𝜀𝜂(a) = 𝑔(a) + 𝜀 𝜂(x)𝜆a (x)𝑑x + O(𝜀2 ), (1.69)
𝐽
[︃ 𝐹 𝐹
]︃
𝛿LFGB ∑︁ ∑︁ 𝛿 (︁ )︁ ∑︁ 𝛿 (︁ )︁
− = 𝑔𝑛 𝜓 𝑡(𝑓 ) (y𝒞*𝑗𝑓 ; x𝑗𝑓 ) − 𝑔𝑛 𝜓 𝑡(𝑓 ) (y𝒞𝑗 𝑓 ; x𝑗𝑓 ) (1.70)
𝛿𝑔𝑛 𝑗=1 𝑓 =1
𝛿𝑔 𝑛
𝑓 =1
𝛿𝑔 𝑛
𝐽 ∑︁
∑︁ 𝐹 [︂ ]︂
= 𝜆𝜓𝑡(𝑓 ) (y*𝑗 ;x𝑗 ) − 𝜆𝜓𝑡(𝑓 ) (y𝑗 ;x𝑗 ) , (1.71)
𝒞𝑓 𝑓 𝒞𝑓 𝑓
𝑗=1 𝑓 =1
{︁ ∑︀𝐹 (︁ )︁ }︁
*𝑗 𝑗 𝑡(𝑓 ) 𝑗
где y = argmaxȳ∈𝒴 Δ(ȳ; y ) − 𝑓 =1 𝑔𝑛 𝜓 (ȳ𝒞𝑓 ; x𝑓 ) .
В случае, когда градиентный подъём выполняется в Евклидовом пространстве, делается
шаг по направлению отрицательного градиента, а финальное решение может быть представ-
36
лено как взвешенная сумма градиентов, найденных в процессе оптимизации. При восстанов-
лении функциональной зависимости 𝑔 от обобщённых признаков эту стратегию использовать
нельзя, так как сумма дельта-функций будет обладать низкой обобщающей способностью: для
большинства признаков тестовой выборки она будет равняться нулю, так как такие признаки
потенциалов не встречались в обучающей выборке, зато при случайном совпадении призна-
ков одного из потенциалов энергия устремится в бесконечность. Поэтому для регуляризации
на каждой итерации функционального градиентного бустинга будем настраивать функцию-
предиктор из некоторого множества ℋ, наилучшим образом приближающую отрицательный
функциональный градиент (1.70) в смысле скалярного произведения.
𝐽 ∑︁
𝐹 [︁
∑︁ (︀ 𝑡(𝑓 ) *𝑗 𝑗 )︀ (︀ 𝑡(𝑓 ) 𝑗 𝑗
)︀]︁
= argmax ℎ𝑛 𝜓 (y𝒞𝑓 ; x𝑓 ) − ℎ𝑛 𝜓 (y𝒞𝑓 ; x𝑓 ) . (1.73)
ℎ𝑛 ∈ℋ 𝑗=1 𝑓 =1
(︁ 𝑁
)︁ ∑︁ (︁ )︁
𝑡(𝑓 )
𝜑𝑓 (y𝒞𝑓 ; x) = 𝑔𝑁 +1 𝜓 (y𝒞𝑓 ; x𝑓 ) = 𝛾𝑛 ℎ*𝑛 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 ) , ∀𝑓. (1.75)
𝑛=1
37
Поле решающих деревьев
В поле решающих деревьев (англ. decision tree field) [59] используется другой вид нели-
нейной зависимости потенциальных функций от признаков. Каждому типу факторов 𝑡 со-
ответствует решающее дерево T𝑡 , вершинам 𝑞 которого соответствуют векторы парамет-
ров w𝑞𝑡 , определяющие значение потенциала для каждой из конфигураций меток. Обозна-
чим path(x𝑓 ; T𝑡 ) функцию, возвращающую для признаков фактора x𝑓 множество вершин
решающего дерева T𝑡 , «посещённых» при классификации объекта с признаками x𝑓 . Тогда
значение потенциальной функции определяется следующим образом:
∑︁
𝜑𝑓 (y𝒞𝑓 ; x) = 𝑤𝑞𝑡(𝑓 ) (y𝒞𝑓 ), ∀𝑓. (1.76)
𝑞∈path(x𝑓 ;T𝑡(𝑓 ) )
Обучение модели состоит из двух стадий: сначала определяется структура решающих де-
ревьев, затем настраиваются параметры. Для определения структуры дерева T𝑡 используется
алгоритм индукции решающих деревьев, где в качестве признаков используются все призна-
ки x𝑓 факторов соответствующего типа 𝑡, а в качестве правильных ответов используются
векторы их правильных разметок y𝒞𝑓 , причём каждый из 𝐾 |𝒞𝑓 | векторов считается отдельным
классом (предполагается, что все факторы одного типа имеют равный порядок). Затем струк-
тура дерева фиксируется, а гистограммы категорий в вершинах обнуляются — вместо них на
следующей стадии настраиваются коэффициенты w𝑞𝑡 .
Ключевым наблюдением является линейная зависимость энергии марковской сети от па-
раметров, которая в свою очередь вытекает из линейности потенциалов (1.76) по w. Из этого
следует, что правдоподобие (1.49) выпукло и дифференцируемо по w, однако оно не мо-
жет быть оптимизировано с помощью градиентных методов из-за невозможности эффектив-
но вычислять нормировочную константу. Вместо этого предлагается максимизировать 𝐿2 -
регуляризованный логарифм псевдоправдоподобия (1.53). Регуляризация важна, так как она
ведёт к уменьшению модуля параметров листовых вершин решающих деревьев и близких к
ним. Для их настройки используется небольшое количество данных, поэтому предпочтитель-
но для определения потенциалов использовать более близкие к корню вершины, так как их
параметры настраиваются надёжнее.
Поскольку число классов, используемых при определении структуры решающих деревьев,
экспоненциально зависит от порядка факторов, метод не позволяет использовать потенциалы
высоких порядков. Однако использование различных типов факторов позволяет учитывать
дальнодействующие зависимости между метками, например с помощью задания регулярной
структуры отступов в каждом пикселе изображения, в которой каждому отступу соответствует
тип фактора. Подобная идея используется при задании д-факторов в главе 4 данной работы.
38
Глава 2
39
(a) Изображение (b) Полная разметка
Рисунок 2.1: Различные типы аннотаций для изображения из набора данных MSRC
метке между изображениями. В этой главе мы представляем метод для обучения семантиче-
ской сегментации по смеси сильно- и слабоаннотированных изображений. Метод позволяет
учитывать разные типы слабой аннотации, даже в рамках одного изображения.
В задаче категоризации документов разметка текстового документа представляет собой
подмножество тегов (категорий) некоторого допустимого множества. Например, юридический
документ может быть помечен 4 категориями из возможных 201: [‘сельское хозяйство’, ‘тор-
говля’, ‘международные отношения’, ‘Украина’]. При получении такой разметки легко про-
пустить некоторые категории. Таким образом, слабой аннотацией документа может являться
некоторое подмножество этих четырёх категорий. Предлагаемый метод обучает модель, пред-
сказывающую полное множество категорий, имея лишь слабоаннотированную обучающую
выборку.
Работа базируется на недавних исследованиях по использованию структурного метода
опорных векторов с латентными переменными (англ. latent-variable structural support vector
machine, LV-SSVM) для задач обучения со слабым наблюдением [62–64]. В отличие от них,
предлагаемый метод использует специализированные функции потерь, которые измеряют рас-
согласованность разметки, предсказанной алгоритмом, с верной (возможно, слабой) аннота-
цией данного изображения. Мы определяем эти функции потерь так, чтобы они оценивали
матожидание расстояния Хэмминга от разметки, предсказанной алгоритмом, до разметок, удо-
влетворяющих слабой аннотации изображения. Благодаря такому определению, функции, спе-
циализированные для разных типов аннотаций, определены в одном масштабе. Таким обра-
зом, модель содержит только один гиперпараметр, который регулирует относительный вклад
40
полностью размеченных и слабо аннотированных данных. Он необходим, поскольку послед-
ние обычно менее информативны. В разделе 3.2 эмпирически показано, как балансирование
этого параметра может улучшить качество сегментации.
Для того чтобы обучить LV-SSVM с использованием различных типов аннотаций, необ-
ходимо определить специализированные функции потерь. Для введённых функций потерь
необходимо описать алгоритмы вывода, дополненного функцией потерь и вывода, согласован-
ного с аннотацией. Первый алгоритм выводит разметку изображения, высоко ранжируемую
текущей моделью, но при этом сильно отличающуюся от верной аннотации, а второй вы-
водит разметку, высоко ранжируемую текущей моделью, при этом согласующуюся с верной
аннотацией (для слабых аннотаций существует множество разметок, согласующихся с ними).
В разделе 2.2 показано, как решать эти оптимизационные задачи для различных функций по-
терь, используя эффективные комбинаторные алгоритмы, основанные на разрезах в графах.
Новизна работы заключается в следующем:
При наличии обучающей выборки {(x𝑗 , y𝑗 )}𝐽𝑗=1 это можно сделать с помощью структурно-
го SVM (поиск оптимума в задаче 1.5), как показано в разделе 1.3.2.
Определение 2.1. Слабой аннотацией экземпляра обучающей выборки будем называть лю-
бой такой объект z, для которого однозначно определяется непустое множество разме-
ток 𝐿(z) ⊆ 𝒴, совместных со слабой аннотацией.
41
2.1.1 Обобщённый SSVM
Рассмотрим случай, когда помимо 𝐽 полностью размеченных объектов, обучающая выбор-
ка содержит 𝐼 слабо аннотированных: {(x𝑖 , z𝑖 )}𝐽+𝐼
𝑖=𝐽+1 . Обобщим стандартную формулировку
SSVM на случай присутствия в обучающей выборке полностью размеченных и слабо анно-
тированных данных.
(2.4)
𝐽+𝐼 [︂
∑︁ ]︂ )︃
max w| 𝜓(ȳ; x𝑖 ) + K(ȳ; z𝑖 ) − max𝑖 w| 𝜓(y; x𝑖 )
{︀ }︀
𝛼 =
ȳ∈𝒴 y∈𝐿(z )
𝑖=𝐽+1
(︃ 𝐽 [︂ ]︂
1 | 𝐶 ∑︁ {︀ | 𝑗
}︀ | 𝑗 𝑗 𝑗
w w+ max w 𝜓(ȳ; x ) + Δ(ȳ; y ) − w 𝜓(y ; x ) + (2.6)
2 𝐽 +𝐼 𝑗=1
ȳ∈𝒴
𝐽+𝐼
)︃ 𝐽+𝐼
∑︁ 𝐶𝛼 ∑︁
max w| 𝜓(ȳ; x𝑖 ) + K(ȳ; z𝑖 ) max w| 𝜓(y; x𝑖 ).
{︀ }︀
𝛼 −
𝑖=𝐽+1
ȳ∈𝒴 𝐽 + 𝐼 𝑖=𝐽+1 y∈𝐿(z𝑖 )
Первые два слагаемых в (2.6) выпуклы, а последнее, с учётом знака «минус», вогнуто
по w. Эти факты следуют из того, что максимум конечного числа линейных функций является
выпуклым, так же как и сумма произвольных выпуклых функций. Следуя Йу и Йоахимсу [65],
мы используем эту специфическую структуру задачи — сумму выпуклой и вогнутой функ-
ции. Это позволяет применить выпукло-вогнутую процедуру (англ. convex-concave procedure,
CCCP) [66] для приближённой минимизации. Идея этого алгоритма заключается в том, что-
42
бы итеративно минимизировать сумму выпуклой функции и линеаризации вогнутой в точке
минимума с предыдущей итерации. Таким образом, на 𝑛-й итерации значение параметров
пересчитывается по формуле
{︃ (︃ 𝐽 [︂ ]︂
1 | 𝐶 ∑︁ {︀ | 𝑗
}︀ | 𝑗 𝑗 𝑗
w𝑛 = argmin w w+ max w 𝜓(ȳ; x ) + Δ(ȳ; y ) − w 𝜓(y ; x ) + (2.7)
w 2 𝐽 +𝐼 𝑗=1
ȳ∈𝒴
𝐼
)︃ 𝐽+𝐼
}︃
∑︁ 𝐶𝛼 ∑︁ |
max w| 𝜓(ȳ; x𝑖 ) + K(ȳ; z𝑖 ) w 𝜓(y𝑛𝑖 ; x𝑖 ) ,
{︀ }︀
𝛼 −
𝑖=1
ȳ∈𝒴 𝐽 + 𝐼 𝑖=𝐽+1
|
где y𝑛𝑖 = argmaxy∈𝐿(z𝑖 ) w𝑛−1 𝜓(y; x𝑖 ). В (2.7) необходимо минимизировать выпуклую функ-
цию, которая фактически совпадает с целевой функцией структурного SVM, для чего могут
применяться методы, описанные в разделе 1.3.2. Заметим, что эта функция зависит от w𝑛−1
не напрямую, а через выведенную мнимую разметку y𝑛𝑖 , ∀𝑖. Таким образом, алгоритм по-
очерёдно пересчитывает значения y𝑛𝑖 и w𝑛 . Гарантируется, что метод сходится к локальному
минимуму или седловой точке.
Таким образом, при оптимизации в обобщённом SSVM необходимо помимо вывода, до-
полненного функцией потерь Δ в (2.3), необходимо также эффективно выполнять вывод,
дополненный слабой функцией потерь K в (2.4), а также вывод, согласованный с аннотаци-
ей. Последние две задачи зависят от используемого типа аннотаций. В разделе 2.2 описаны
конкретные алгоритмы для трёх типов аннотаций.
𝐽
∏︁ 𝐽 ∑︁
∏︁
L(w) = P(z𝑗 | x𝑗 , w) = P(ȳ, z𝑗 | x𝑗 , w). (2.8)
𝑗=1 𝑗=1 ȳ∈𝒴
43
Распишем полное правдоподобие модели (т. е. правдоподобие при известных латентных
переменных) по определению условной вероятности:
Для обоснования связи двух методов нам понадобится точечная оценка нормировочной
константы. Докажем вспомогательное утверждение.
Лемма 2.1. Пусть (x, z) — слабоаннотированный объект обучающей выборки. Если слабая
функция потерь неотрицательна: K(ỹ; z) ≥ 0, ∀ỹ, то для любого вектора w верна следую-
щая оценка:
∑︁
exp w| 𝜓(ỹ; x) ≥ − max w| 𝜓(ỹ; x) + K(ỹ; z) + const,
(︀ )︀ {︀ }︀
− log (2.11)
ỹ∈𝒴
ỹ∈𝒴
Здесь первое неравенство следует из (1.58), где 𝑓 (ỹ) ≡ w| 𝜓(ỹ; x), а второе — из неотри-
цательности функции K. Константа − log |𝒴| не зависит от w, что завершает доказательство
леммы.
Теорема 2.1. Пусть слабая функция потерь неотрицательна: K(y; z) ≥ 0. Тогда, при условии
равенства начальных приближений w0 , выпукло-вогнутая процедура минимизации целевой
функции обобщённого SSVM (2.5) сходится к тому же вектору w* , что и EM-алгоритм для
максимизации распределения (2.10) со следующими модификациями:
44
∙ на E-шаге оценка матожидания производится не по действительному распределению
на латентные переменные, а по его точечной MAP-оценке;
𝐽
∑︁
Ey|z𝑗 ,x𝑗 ,w𝑛 log P(y | x𝑗 , w)P(z𝑗 | y)P(w) =
(︀ )︀
𝑄(w; w𝑛 ) = (2.14)
𝑗=1
𝐽 ∑︁
∑︁ [︂ ∑︁ ]︂
𝑗 | 𝑗 𝑗 𝑗 𝑗
(︀ | )︀
P(y | z , x , w𝑛 ) w 𝜓(y; x ) + logJy ∈ 𝐿(z )K − log exp w 𝜓(ỹ; x ) −
𝑗=1 y∈𝒴 ỹ∈𝒴
𝐽 |
w w + const.
2𝐶
𝐽 [︂ ]︂
˙
∑︁
| 𝑗 𝑗 𝑗
(︀ | 𝑗 𝑗
)︀ 𝐽 | ∑︁
𝑄(w; w𝑛 ) = w 𝜓(ȳ ; x ) − logJȳ ∈ 𝐿(z )K − log exp w 𝜓(ỹ; x ) − w w + const,
𝑗=1 ỹ∈𝒴
2𝐶
(2.15)
𝑗 𝑗 𝑗 𝑗 𝑗 𝑗
где ȳ = argmaxy∈𝒴 P(y | z , x , w𝑛 ) = argmaxy∈𝐿(z𝑗 ) P(y | x , w𝑛 ), ∀𝑗. Из ȳ ∈ 𝐿(z ) сле-
дует, что logJȳ𝑗 ∈ 𝐿(z𝑗 )K = 0. Зависимость от предыдущего значения w𝑛 в этой функции
выражается лишь через значения ȳ𝑗 .
На M-шаге итерации 𝑛 + 1 необходимо максимизировать эту функцию по w, однако она
содержит в себе экспоненциальное число слагаемых, с которым трудно работать. Получим
нижнюю оценку, используя результат леммы 2.1:
𝐽 [︂ ]︂
˙
∑︁
| 𝑗 𝑗
{︀ | 𝑗 𝑗
}︀ 𝐽 |
𝑄(w; w𝑛 ) ≥ w 𝜓(ȳ ; x ) − max w 𝜓(ỹ; x ) + K(ỹ; z ) − w w + const. (2.16)
𝑗=1
ỹ∈𝒴 2𝐶
45
Доказательство теоремы 2.1 позволяет лучше понять свойства описанного метода. Проце-
дура оптимизации аналогична той, что происходит в EM-алгоритме с жёстким присваивани-
ем. В этом алгоритме на каждом шаге максимизируется нижняя оценка логарифма апостери-
орного распределения (2.10). Покажем, что аналогичное свойство выполняется и в рассмот-
ренной модификации. Рассмотрим некоторое распределение на латентные переменные 𝑞(ỹ)
для 𝑗-го объекта обучающей выборки. Благодаря неравенству Йенсена, при любом выбо-
ре 𝑞(ỹ) справедлива следующая верхняя оценка [36, (11.85)]:
∑︁ P(z𝑗 , ỹ | x𝑗 , w) ∑︁ P(z𝑗 , ỹ | x𝑗 , w)
log P(z𝑗 | x𝑗 , w) = log 𝑞(ỹ) ≥ 𝑞(ỹ) log . (2.17)
ỹ
𝑞(ỹ) ỹ
𝑞(ỹ)
46
(a) Разбиение на суперпиксели (b) Плотность рамок (c) Множества 𝒱𝑘 и 𝒱0
Дальнейшие типы аннотации оперируют понятием объектов реального мира, таких как
конкретный автомобиль или человек. На изображениях им соответствуют образы объектов —
множества пикселей, получившихся проектированием этого объекта в пространство изоб-
ражения. Не все категории в задаче семантической сегментации соответствуют объектам —
такие категории как ‘трава’, ‘небо’ являются фоновыми, поэтому для них не подходят соот-
ветствующие типы аннотации. С формальной точки зрения, будем считать образом объекта
связную область пикселей изображения одной категории.
Определение 2.5. Рамкой, аннотирующей объект категории 𝑘, называется структура 𝑧¯, за-
дающая прямоугольник на изображении, включающий в себя образ этого объекта. Для 𝑧¯
определены функции label(¯ 𝑧 ), а также left(¯𝑧 ), right(¯
𝑧 ), top(¯
𝑧 ), bottom(¯
𝑧 ), определяющие гра-
′
ницы прямоугольника. Пусть y — разметка изображения, а 𝒫𝑘 — некоторое подмножество
пикселей, получивших метку 𝑘: 𝒫𝑘′ ⊂ {p | 𝑦𝑣(p) = 𝑘}. Рамка 𝑧¯ описывает множество 𝒫𝑘′ ,
если 𝒫𝑘′ ⊂ [left(¯
𝑧 ), right(¯
𝑧 )] × [top(¯𝑧 ), bottom(¯
𝑧 )], а также label(¯ 𝑧 ) = 𝑘 (см. рис. 2.1c).
Определение 2.6. Пусть задано число 𝑟 ∈ [0, 0.5). Будем называть рамку 𝑧¯ 𝑟-плотной по
отношению к множеству пикселей 𝒫𝑘′ , если выполняются следующие предположения о пере-
сечении множеств:
𝒫𝑘′ ∩ [left(¯
(︀ )︀
𝑧 ), left(¯
𝑧 ) + 𝑟(right(¯ 𝑧 ) − left(¯ 𝑧 ))] × [top(¯ 𝑧 ), bottom(¯ 𝑧 )] ̸= ∅, (2.18)
𝒫𝑘′ ∩ [right(¯
(︀ )︀
𝑧 ) − 𝑟(right(¯ 𝑧 ) − left(¯ 𝑧 )), right(¯ 𝑧 )] × [top(¯ 𝑧 ), bottom(¯ 𝑧 )] ̸= ∅, (2.19)
𝒫𝑘′ ∩ [left(¯
(︀ )︀
𝑧 ), right(¯𝑧 )] × [top(¯𝑧 ), top(¯ 𝑧 ) + 𝑟(bottom(¯ 𝑧 ) − top(¯ 𝑧 ))] ̸= ∅, (2.20)
𝒫𝑘′ ∩ [left(¯
(︀ )︀
𝑧 ), right(¯𝑧 )] × [bottom(¯ 𝑧 ) − 𝑟(bottom(¯ 𝑧 ) − top(¯ 𝑧 )), bottom(¯ 𝑧 )] ̸= ∅. (2.21)
47
Будем обозначать это отношение следующим образом: 𝑧¯ ⊒𝑟 𝒫𝑘′ .
причём все 𝒫𝑘𝑖 представляют собой связные множества. Тогда аннотация плотными рамками —
это множество zbb = {¯ 𝑧𝑘𝑖 ) = 𝑘, ∀𝑖, ∀𝑘 ∈ 𝒦′ .
𝑧𝑘𝑖 }𝑖,𝑘 , таких что 𝑧¯𝑘𝑖 ⊒𝑟 𝒫𝑘𝑖 , label(¯
собой связные множества. Тогда аннотация зёрнами — это множество zos = {𝑧˙𝑘𝑖 = (ṗ𝑘,𝑖 , 𝑘)}𝑖,𝑘 ,
таких что ṗ𝑘,𝑖 ∈ 𝒫𝑘𝑖 , ∀𝑖, ∀𝑘 ∈ 𝒦′ .
48
Будем моделировать сегментацию изображения с помощью парно-сепарабельной марков-
ской сети над графом 𝐺 = (𝒱, ℰ), переменные которой y ∈ R|𝒱| соответствуют суперпикселям
изображения (далее для упрощения нотации будем отождествлять переменные с соответству-
ющими им суперпикселями). На этапе вывода переменным назначаются метки категорий. Это
означает, что все пиксели, относящиеся к данному суперпикселю, получают его метку. Пар-
ные потенциалы объединяют все пары суперпикселей, имеющих общую границу (рис. 2.2a).
Обозначим xv𝑣 ∈ R𝑑v вектор признаков суперпикселя 𝑣 ∈ 𝒱, xe𝑢𝑣 ∈ R𝑑e — вектор признаков,
v e
⨁︀ ⨁︀
описывающий сходство соседних суперпикселей 𝑢 и 𝑣, а x = 𝑣∈𝒱 x𝑣 ⊕ (𝑢,𝑣)∈ℰ x𝑢𝑣 — их
конкатенацию. Каждая переменная 𝑦𝑣 , соответствующая суперпикселю 𝑣, принимает значение
одной из меток категорий из множества 𝒦 = {1, . . . , 𝐾}. Пространство 𝒳 содержит всевоз-
можные признаки изображения x, а пространство 𝒴 — всевозможные разметки y (на практике
изображения могут иметь разное число суперпикселей и разное число их соседних пар, одна-
ко в нотации этит факт игнорируется для простоты; обобщение на общий случай тривиально).
Будем использовать логлинейную параметризацию (1.48) потенциалов марковской сети:
𝐾
∑︁ ∑︁ ∑︁
|
log P(y | x, w) − const = w Ψ(x, y) = J𝑦𝑣 = 𝑘K(x|𝑣 w𝑘v ) + J𝑦𝑣 = 𝑦𝑢 K(x|𝑣𝑢 we ). (2.22)
𝑣∈𝒱 𝑘=1 (𝑣,𝑢)∈ℰ
Здесь w = 𝐾 v e v 𝑑v e 𝑑e
⨁︀
𝑘=1 w𝑘 ⊕ w — вектор параметров модели, w𝑘 ∈ R , w ∈ R . Мы полагаем
парные веса we и парные признаки xe𝑢𝑣 неотрицательными числами, и таким образом полу-
чаем ассоциативную фуннкцию энергии [68]. В этом случае задача вычисления MAP-оценки,
хотя и является NP-трудной, может быть эффективно решена приближённо (раздел 1.2.4).
В задаче сегментации в качестве функции потерь часто используется расстояние Хэмминга
(число неправильно распознанных пикселей):
∑︁
Δ(ȳ, y𝑗 ) = 𝑐𝑗𝑣 J𝑦¯𝑣 ̸= 𝑦𝑣𝑗 K, (2.23)
𝑣∈𝒱
где 𝑐𝑗𝑣 — площадь 𝑣-го суперпикселя 𝑗-го изображения. На практике в разметке суперпикселя
может встретиться несколько меток (такие суперпиксели называют гетерогенными). В этом
случае функция потерь также равна числу неверно распознанных пикселей. Чтобы не загро-
мождать нотацию, мы рассматриваем только гомогенные суперпиксели. Вывод тривиально
обобщается на гетерогенный случай.
Эта функция потерь декомпозируется по переменным. Это значит, что вывод, дополнен-
ный функцией потерь, вычислительно не сложнее, чем нахождение MAP-оценки, и также
может быть выполнен с помощью 𝛼-расширения. Известны также некоторые частные случаи
функций потерь высоких порядков (т.е. не разделяющуюся на функции от переменных или
их пар), которые допускают эффективный приближённый вывод [21, 22, 52].
49
2.2.2 Учёт аннотации метками изображений
Определение 2.10. Назовём сильной функцией потерь по метке изображения следующую
функцию:
∑︁
Δil (ȳ, y) = 𝑐𝑣 J@𝑢 ∈ 𝒱 : 𝑦𝑢 = 𝑦¯𝑣 ∨ @𝑢 ∈ 𝒱 : 𝑦¯𝑢 = 𝑦𝑣 K. (2.24)
𝑣∈𝒱
Определение 2.11. Пусть z — метка изображения. Назовём слабой функцией потерь по метке
изображения следующую функцию, параметризованную числами 𝑠𝑘 , для 𝑘 ∈ z:
∑︁ ∑︁ ∑︁ ∏︁
Kil (ȳ, z) = Kil (ȳ, z; 𝑠𝑘 ) = 𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + 𝑠𝑘 𝑦𝑣 ̸= 𝑘K.
J¯ (2.25)
𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱
1
Kil (ȳ, z) ≤ Δil (ȳ, y) ≤ Kil (ȳ, z). (2.26)
2
∑︁ ∑︁ ∑︁ ∏︁
Kil (ȳ, z) = 𝑐𝑣 J¯
𝑦𝑣 ̸∈ zK + 𝑐𝑣 J𝑦𝑣 = 𝑘K 𝑦𝑢 ̸= 𝑘K =
J¯
𝑣∈𝒱 𝑘∈z 𝑣∈𝒱 𝑢∈𝒱
∑︁ ∑︁
𝑐𝑣 J@𝑢 ∈ 𝒱 : 𝑦𝑢 = 𝑦¯𝑣 K + 𝑐𝑣 J@𝑢 ∈ 𝒱 : 𝑦¯𝑢 = 𝑦𝑣 K =
𝑣∈𝒱 𝑣∈𝒱
∑︁
𝑐𝑣 (J@𝑢 ∈ 𝒱 : 𝑦𝑢 = 𝑦¯𝑣 K + J@𝑢 ∈ 𝒱 : 𝑦¯𝑢 = 𝑦𝑣 K) . (2.27)
𝑣∈𝒱
Верность (2.26) следует из того факта, что для любых 𝑎 ∈ {0, 1}, 𝑏 ∈ {0, 1} верно 12 (𝑎 + 𝑏) ≤
max{𝑎, 𝑏} ≤ 𝑎 + 𝑏, что может быть проверено непосредственно.
Теорема 2.2. Пусть 𝑠^𝑘 = 𝑞𝑘 𝑠, тогда Kil (ȳ, z; 𝑠^𝑘 ) = EKil (ȳ, z; 𝑠𝑘 ), где матожидание берётся
по распределению {𝑠𝑘 }𝑘∈z ∼ ℳ(q, 𝑠), то есть 𝑠^𝑘 обеспечивает несмещённую оценку слабой
функции потерь.
50
Доказательство.
∑︁ ∑︁ ∑︁ ∏︁
EKil (ȳ, z; 𝑠𝑘 ) = 𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + E 𝑠𝑘 𝑦𝑣 ̸= 𝑘K =
J¯
𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱
∑︁ ∑︁ ∑︁ ∏︁ ∑︁ ∑︁ ∑︁ ∏︁
𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + E𝑠𝑘 𝑦𝑣 ̸= 𝑘K =
J¯ 𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + 𝑠^𝑘 𝑦𝑣 ̸= 𝑘K. (2.28)
J¯
𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱 𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱
Лемма 2.3. Вывод, дополненный слабой функцией потерь Kil , может быть выполнен как
минимизация парно-сепарабельной энергии с дополнительными потенциалами вида (1.47).
Первые два члена под минимумом разделяются на унарные и ассоциативные парные потенци-
алы, а третий — потенциал, штрафующий присутствие меток в глобальном факторе. Для ми-
нимизации может использоваться эффективный алгоритм на основе 𝛼-расширения [52].
51
2.2.3 Плотные рамки
Объекты на изображении удобно аннотировать плотными рамками. С другой стороны,
сегменты фоновых категорий не соответствуют объектам, аморфны и часто их плотная рам-
ка близка к границам изображения, поэтому рамки добавили бы мало информации к метке
изображения. В этом разделе рассматриваются аннотации, которые состоят одновременно из
рамок и меток изображения. Например, для изображения могут быть заданы рамки для авто-
мобилей и пешеходов, а также известно, что ещё присутствуют пиксели зданий, дороги, неба.
Будем предполагать, что в рамках конкретного изображения категория может быть задана ли-
бо рамками, либо меткой изображения, хотя тип аннотаций для категории может меняться от
изображения к изображению (см. в разделе 2.5.3 пример, демонстрирующий когда это может
быть полезно).
Определение 2.12 (слабая функция потерь при наличии рамок). Пусть слабая аннотация
изображения z задана парой (zil , zbb ) метки изображения и множества рамочных аннота-
ций zbb . Разобьём множество меток 𝒦 на три подмножества в соответствии со слабой
⋃︀
аннотацией z: метки, которые определены рамками (𝒦b = 𝑧∈zbb label(𝑧)), метки, кото-
рые присутствуют в других местах (𝒦p = zil ) и метки, которые отсутствуют на изоб-
ражении
{︁ (𝒦a = 𝒦 ∖ (𝒦b ∪ 𝒦p )). Множество }︁ суперпикселей 𝒱 также разбивается: 𝒱𝑘 =
⋃︀
𝑣 ∈ 𝒱 : ∃p ∈ 𝑧¯∈zbb :label(¯𝑧)=𝑘 box(¯
𝑧 ) : 𝑣 = 𝑣(p) — объединение суперпикселей, находящихся
⋃︀
хотя бы частично в рамках с меткой 𝑘 ∈ 𝒦b , и 𝒱0 = 𝒱 ∖ 𝑘∈𝒦b 𝒱𝑘 (рис. 2.2c). Тогда объединён-
ная слабая функция потерь выглядит так:
∑︁ ∑︁ ∑︁ ∏︁
Kil-bb (y, z) = 𝑐𝑣 J𝑦𝑣 = 𝑘K + 𝜎𝑘 J𝑦𝑣 ̸= 𝑘K+
𝑘∈𝒦a 𝑣∈𝒱 𝑘∈𝒦p 𝑣∈𝒱
∑︁𝑧) right(¯
∑︁ bottom(¯ ∏︁𝑧) ∑︁𝑧) bottom(¯
right(¯
∏︁ 𝑧)
(︃ )︃
𝛽 𝜈𝑝𝑧¯ J𝑦𝑣(𝑝,𝑞) ̸= label(¯
𝑧 )K + 𝜔𝑞𝑧¯ J𝑦𝑣(𝑝,𝑞) ̸= label(¯
𝑧 )K
𝑧¯∈zbb 𝑝=top(¯
𝑧 ) 𝑞=left(¯
𝑧) 𝑞=left(¯
𝑧 ) 𝑝=top(¯
𝑧)
∑︁ ∑︁
+ 𝑐𝑣 J𝑦𝑣 = 𝑘K. (2.31)
𝑘∈𝒦b 𝑣∈𝒱0
Первые два слагаемых несут такой же смысл, как в (2.29). Третье слагаемое штрафует
пустые строки и столбцы внутри рамок, т.е. те, которые не содержат ни одного пикселя,
выведенного как метка рамки (см. рис. 2.3). Последнее слагаемое штрафует метки рамок вне
соответствующих рамок. Оценим параметры этой функции 𝜎𝑘 , 𝛽, 𝜈𝑝𝑧¯, 𝜔𝑝𝑧¯, предполагая, что
половина каждой из рамок занята объектом соответствующей категории.
52
Рисунок 2.3: Пример разметки внутри рамки. Клетки соответствуют пикселям. Серые клетки
помечены меткой, равной метке рамки, белые — остальными метками. Разметка не является
плотной, так как верхняя строка и четыре левых столбца — пустые. Таким образом, в функции
потерь 5 ненулевых слагаемых, соответствующих этой рамке.
Доказательство. Пусть 𝑠𝑧¯ — количество пикселей внутри рамки 𝑧¯, принадлежащих кате-
гории label(¯ 𝑧 ). По предположению теоремы оно распределено по биномиальному закону:
𝑠𝑧¯ ∼ ℬ(0.5, |box(¯ 𝑧 )|). Математическое ожидание этой величины равно |box(¯ 𝑧 )|/2. Пусть 𝑠il —
число пикселей изображения, относящихся к категориям из 𝒦p . Зная 𝑠𝑧¯, можно оценить
𝑠il = 𝑠 − 𝑧¯∈zbb 𝑠𝑧¯. Рассуждая аналогично доказательству теоремы 2.3, получим оценку
∑︀
^𝑘 = E𝑠il /|zil |, которая позволяет несмещённо оценить Kil-bb . Поскольку 𝑠il линейно зависит
𝜎
от 𝑠𝑧¯, можно заменить последнее на его оценку. Отсюда
1
∑︀ ∑︀ ∑︀
𝑠− 𝑐𝑣 𝑠+ 𝑐𝑣
∑︀
𝑠− 𝑧¯∈zbb |𝑏𝑜𝑥(¯
𝑧 )|/2 2 𝑘∈𝒦b 𝑣∈𝒱𝑘 𝑣∈𝒱0
𝜎
^𝑘 = = = . (2.32)
|z |
il |zil | 2|zil |
Ещё более точную оценку можно получив, явно учтя в модели неравномерность распре-
𝑧 ). Коэффициенты 𝜈𝑝𝑧¯ и 𝜔𝑞𝑧¯
деления пикселей внутри рамки, для которых метка равна label(¯
позволяют варьировать штраф за пустые строки и столбцы соответственно, в зависимости от
их расположения в рамке. При достаточном количестве полностью размеченных изображений
можно обучить специфичные для категорий профили 𝜈 𝑧¯ и 𝜔 𝑧¯.
В предыдущем подразделе мы показали, как обрабатывать первые два слагаемых в вы-
воде, дополненном функцией потерь — первое разделяется на унарные потенциалы, а вто-
рое представляет собой штраф за наличие метки. Последнее слагаемое также разделяется на
унарные потенциалы. Третье слагаемое — сумма потенциалов высокого порядка. Для каждой
рамки 𝑧¯ каждая её строка и каждый столбец порождает потенциал над вершинами, соответ-
ствующими суперпикселям, которые пересекает эта строка/столбец. Так же как и в преды-
53
Алгоритм 2.1 Модификация алгоритма акцентирования для случая многоклассовой сегмен-
тации с ограничениями, задаваемыми рамочными аннотациями
1: Вход: Вектор признаков изображения x, вектор параметров w, множество рамочных ан-
нотаций zbb , параметр плотности 𝑟.
2: Выход: разметка y, согласованная с рамочными аннотациями zbb .
54
(a) Аннотация самолёта зерном (b) Штраф за другую метку
Рисунок 2.4: (a) Объект категории ‘самолёт’ аннотирован зерном. (b) Штраф за аннотацию
пикселя категорией, отличной от ‘самолёт’, гауссово убывающий в зависимости от расстояния
от положения пикселя до положения зерна. Чем ярче пиксель отмечен красным, тем больше
соответствующий штраф.
конечна, если ни один суперпиксель не пересекает рамки разных меток, поскольку на каждой
итерации хотя бы один суперпиксель внутри некоторой box(¯ 𝑧 ) меняет метку на label(¯
𝑧 ).
Эксперименты показали, что при использовании такого типа аннотаций важна инициа-
лизация латентных переменных при обучении LV-SSVM. Наилучший результат имел место,
𝑧 ) получили метку label(¯
когда изначально все суперпиксели внутри box(¯ 𝑧 ).
Заметим, что Кумар и др. [63] используют другой критерий для вывода, согласованного
с аннотацией — они предлагают штрафовать пустые строки и столбцы внутри рамки (точ-
ная противоположность того, что предлагаемый алгоритм делает при выводе, дополненном
рамочной функцией потерь). Эта эвристика не гарантирует плотность полученных сегментов
внутри рамок.
Определение 2.13 (слабая функция потерь при наличии зёрен). Пусть слабая аннотация изоб-
˙
ражения z задана парой (zil , zos ), где zos — это множество аннотаций зёрнами: 𝑧˙ = (ṗ, 𝑘).
Определим объединённую слабую функцию потерь так:
𝜋‖p − ṗ‖2
(︂ )︂
˙
∑︁ ∑︁ ∑︁ ∏︁ ∑︁ ∑︁
Kil-os (y, z) = 𝑐𝑣 J𝑦𝑣 = 𝑘K+ 𝜎𝑘 J𝑦𝑣 ̸= 𝑘K+𝛽 J𝑦𝑣(p) ̸= 𝑘K exp − .
𝑘∈𝒦a 𝑣∈𝒱 𝑘∈𝒦p 𝑣∈𝒱 ˙ p
𝜏𝑘˙
(ṗ,𝑘)
∈zos
(2.33)
Первые два слагаемых здесь несут тот же смысл, как в функции потерь для меток изоб-
ражения. Третье слагаемое поощряет назначение метки зерна в его окрестности (рис. 2.4b).
55
В нём внутренняя сумма берётся по всем пикселям изображения, 𝜏𝑘˙ — параметр, оцениваю-
˙ а 𝜋 — отношение длины окружности к её диаметру.
щий количество пикселей категории 𝑘,
Покажем, как назначать параметры в этом случае.
Теорема 2.4. Предположим, что в неизвестной разметке изображения число пикселей, от-
несённых к меткам из zil и zos распределено мультиномиально с равномерными параметрами,
и что для каждого зерна 𝑧˙ = (ṗ, 𝑘)˙ вероятность пикселя p принять метку 𝑘˙ определяет-
ся гауссовым парзеновским окном: exp (−𝜋‖p − ṗ‖2 /𝜏𝑘˙ ). Тогда при следующих параметрах
оценка функции Kil-os является несмещённой:
𝑠 𝑠
𝜏𝑘˙ = , 𝜎𝑘 = , 𝛽 = 1, (2.34)
(|zil | + #Lab(zos )) · ˙
#Obj(zos , 𝑘) |zil | + #Lab(zos )
если при этом зёрна находятся достаточно далеко друг от друга, а именно,
2 os os
∑︀
˙
(ṗ,𝑘)∈z os exp (−𝜋‖p − ṗ‖ /𝜏𝑘
˙ ) ≤ 1, ∀p. Здесь #Lab(z ) — число различных меток в z , а
𝜋‖p − ṗ‖2
∫︁ (︂ )︂
˙ ·
#Obj(z , 𝑘) os
exp − ˙ · 𝜏˙ = 𝜎˙ .
𝑑p = #Obj(zos , 𝑘) (2.35)
𝑘 𝑘
𝜏˙𝑘
dom(𝑣)
Последний член функции потерь (2.33) декомпозируется на унарные потенциалы, так что
вывод, дополненный функцией потерь, тривиален.
56
{︂ ∑︁ ∑︁ }︂
* | | u p
y = argmax w 𝜓(y; x) = argmax J𝑦𝑘 = 1K(x w𝑘 ) + J𝑦𝑘 = 1KJ𝑦𝑙 = 1Kw𝑘𝑙 , (2.36)
y y
𝑘∈𝒦 (𝑘,𝑙)∈𝒦2
Эта функция потерь моделирует ситуацию, при которой оператор, аннотирующий выборку,
забывает проставить метку категории, либо вносит лишнюю.
Доказательство.
∑︁ ∑︁ (︀ )︀
Eȳ∈𝐿(z) Δml (ȳ, y) = 𝑦𝑘 ̸= 𝑦𝑘 K +
J¯ 𝑦𝑘 = 1)J𝑦𝑘 = 0K + P(¯
P(¯ 𝑦𝑘 = 0)J𝑦𝑘 = 1K =
𝑘∈𝒦: 𝑘∈𝒦:
𝑧𝑘 ̸=? 𝑧𝑘 =?
∑︁ (︁ (︀ )︀)︁
J𝑧𝑘 ̸= ?KJ𝑧𝑘 ̸= 𝑦𝑘 K + J𝑧𝑘 = ?K 𝑝𝑘 J𝑦𝑘 = 0K + (1 − 𝑝𝑘 )J𝑦𝑘 = 1K =
𝑘∈𝒦
Вероятности 𝑝𝑘 могут оцениваться по сильной части выборки, либо для каждой категории
отдельно, либо одинаковые для всех категорий (это целесообразно, если данных недостаточно
57
для точной оценки). Вывод, согласованный с аннотацией, производится с помощью максими-
зации по неизвестным компонентам z при фиксированных известных. Слабая функция потерь
разделяется на унарные потенциалы, поэтому вывод, дополненный функцией потерь, тривиа-
лен.
58
Эксперименты показывают, что такое дообучение по данным с новыми типами аннотации
лишь немного улучшает качество модели. В данной работе же вводятся специализированные
функции потерь для различных типов аннотаций, причём они оптимизируются одновремен-
но. Разработанный метод не нуждается в «разгоночных» данных, в то время как регулярный
тип аннотации, как и полная разметка, трудоёмок в получении. В работе Кумара и др. вывод,
дополненный функцией потерь, проводится с помощью алгоритма итерационного пересчёта
мод условных распределений (англ. iterated conditional modes, ICM) с эвристической ини-
циализацией. Все функции потерь, используемые в данной работе, основаны на расстоянии
Хэмминга между разметками, поэтому вывод, дополненный аннотациями допускает эффек-
тивный точный вывод, либо достаточно точные аппроксимации с помощью алгоритма разре-
зов на графах. Кроме того, в данной работе используются другие типы слабых аннотаций.
Некоторые из используемых в данной работе функций потерь не разделяется по индивиду-
альным переменным, так что она связана с работами по структурному обучению сегментации
изображений по полной разметке с неразделяемыми функциями потерь [21,22]. Плетчер и Ко-
ли [22] используют функцию потерь с фактором высокого порядка, которая штрафует разницу
в площади сегментов целевой категории для двух сегментаций. Они используют алгоритм раз-
резов на графах для эффективного точного вывода, дополненного функцией потерь. Тарлоу
и Цемель [21] используют метод передачи сообщений для вывода, дополненного функцией
потерь, при обучении структурного SVM с тремя различными функциями потерь высокого
порядка: коэффициент Жаккара для пикселей целевой категории, заполненность рамки сег-
ментом целевой категории, и локальную выпуклость края сегмента.
2.5 Эксперименты
Структура модели и признаки. Для набора MSRC суперпиксели получены с помощью ав-
торской реализации детектора границ gPb [71]. Признаки унарных потенциалов следующие:
гистограмма визуальных слов на основе дескриптора SIFT [72], построенная с помощью сло-
варя из 512 слов, гистограмма цветов пикселей, построенная на словаре из 128 слов, гисто-
грамма локаций на равномерной сетке 6 × 6. Объединённые векторы признаков нормализуют-
ся и отображаются в пространство более высокой размерности, где скалярное произведение
приближает расстояние 𝜒2 из оригинального пространства (размерность векторов признаков
3
http://research.microsoft.com/en-us/projects/objectclassrecognition/
4
http://people.csail.mit.edu/celiu/LabelTransfer/code.html
59
при этом утраивается) [73]. Признаки парных потенциалов состоят из 4 чисел: exp(−𝑐𝑖𝑗 /10),
exp(−𝑐𝑖𝑗 /40), exp(−𝑐𝑖𝑗 /100), 1. Здесь 𝑐𝑖𝑗 — сила границы между суперпикселями, соответству-
ющими вершинам 𝑖 и 𝑗, определённая детектором gPb.
Для набора SIFT-flow мы повторяем условия эксперимента Вежневца и др. [61]. Супер-
пиксели и признаки получены с помощью кода Тая и Лазебник [70]. Он использует графовую
сегментацию Фельценсцвальба и Гуттенлохера [74] и затем вычисляет признаки для вычисле-
ния потенциальных функций. Унарные потенциалы зависят от формы, положения, текстуры и
пиксельной маски суперпикселей и их окрестностей: всего 3115 унарных признаков. Мы так-
же преобразуем их, приближая ядро 𝜒2 , утраивая их размер [73]. Парные признаки вычисля-
ются как расстояния над группами признаков суперпикселей (𝜒2 -расстояния для гистограмм,
евклидовы в противном случае), всего 26 парных признаков.
60
0.65 0.65
0.7
0.60 0.60
0.6 0.55 0.55
0.40 0.40
0.3
0.35 0.35
0.2 Полные, точность 40 полных, точность Рамки, точность
Полные, макро-полнота 0.30 40 полных, макро-полнота 0.30 Рамки, макро-полнота
0.1 Слабые, точность 80 полных, точность Семена, точность
0.25 0.25
Слабые, макро-полнота 80 полных, макро-полнота Семена, макро-полнота
0.0 0.20 0.20
0 5 10 20 40 80 160 276 0 0.03 0.1 0.3 1.0 3.0 0 0.1 0.3 1.0 3.0 10.0
Число полностью размеченных изображений Коэффициент при слабых ограничениях α Коэффициент баланса рамки-семена β
Рисунок 2.5: Точность (сплошные линии) и поклассовая полнота (штриховые линии) при раз-
личных параметрах на наборе данных MSRC. (a) Изменение числа полностью размеченных
изображений. Линии с круглыми маркерами показывают точность на тестовой выборке, если
используются только полностью размеченные изображения, с треугольными — когда осталь-
ная часть обучающей выборки аннотирована метками изображений. (b) Изменение коэффи-
циента слабой функции потерь 𝛼. Линии с круглыми маркерами показывают точность сегмен-
тации, когда 40 изображений полностью размечены, с треугольными — когда 80 изображений;
остальная часть обучающей выборки аннотирована метками изображений. (c) Изменение ко-
эффициента функции потерь 𝛽 для плотных рамок (круглые маркеры) или зёрен объектов
(треугольные маркеры). Все 276 изображений аннотированы метками изображений, а также
все объекты аннотированы рамками или зёрнами, соответственно.
чается в список меток изображения тогда и только тогда, когда изображение содержит только
одну метку или не менее 30 % его пикселей неразмечены.
В нашей базовой постановке эксперимента имеется (возможно пустая) полностью разме-
ченная часть обучающей выборки, при этом остальные изображения аннотированы метками
изображений. Эти подмножества выбраны с помощью эвристического алгоритма так, чтобы
пропорции меток в них отражали соответствующие пропорции во всей выборке. С помощью
модификации алгоритма Метрополиса–Гастингса с большой принимающей вероятностью на-
ходится подмножество изображений заданного размера, такое что распределение меток кате-
горий в нём близко к распределению в полной выборке по расстоянию 𝜒2 . Это даёт хорошую
аппроксимацию, но из-за неравномерной представленности категорий в выборке некоторые
редкие классы отсутствуют в небольших подмножествах (таким образом, невозможно настро-
ить модель для них, и они сильно уменьшают поклассовую полноту). Например, подмноже-
ство из 10 изображений не содержит представителей 4 категорий.
Рис. 2.5a показывает точность и поклассовую полноту для сегментации тестовой выборки
для различных размеров полностью размеченной части обучающей выборки, по сравнению
с обучением на только сильно размеченной части выборки. В наиболее интересном случае,
когда менее 20 % обучающей выборки полностью размечены, слабо аннотированная подвы-
борка обеспечивает увеличение на 10–15 процентных пунктов и по точности, и по полноте. В
случае отсутствия полных разметок, модель производит сегментацию с точностью 38 % и пол-
61
нотой 18 %, что можно считать хорошим результатом для сегментации на 22 метки (полнота
при случайной разметке составила бы 4.5 %).
Когда в обучающей выборке одновременно присутствуют изображения с полной разметкой
и со слабыми аннотациями, необходимо установить коэффициент 𝛼 из (2.2). Рис. 2.5b пока-
зывает, что его оптимальное значение лежит ниже 1. Возможным объяснением этого факта
является то, что слабо аннотированные изображения несут меньше информации, таким обра-
зом должны давать меньший вклад в целевую функцию. Для всех дальнейших экспериментов,
где это применимо, мы используем 𝛼 = 0.1.
Поскольку наша реализация требовательна к ресурсам времени и памяти при обучении на
наборе данных SIFT-flow (обучение длится до нескольких недель), нет возможности провести
настолько же подробный набор экспериментов. Вместо этого здесь сравнивается обучение
с полной разметкой со слабым обучением при фиксированной доле слабо аннотированных
изображений, а именно при 256 полностью размеченных изображениях и 2232 — с метками
изображений (Табл. 2.1). Эта слабообученная модель уступает обученной на полной разметке
всего 2 п. п. по точности и 4 п. п. по полноте. Похожие результаты показала на этом набо-
ре данных модель Вежневца и др. [61], которая также достигла полноты 21 % при тех же
признаках и том же разбиении на суперпиксели, совсем не используя полностью размечен-
ных изображений. Однако этот метод использует дополнительные эвристики, которые мож-
но включить и в предлагаемую схему: используется хэширующий ансамбль экстремально-
рандомизированных решающих деревьев для нелинейного преобразования признаков, допол-
нительно обучаются априорные распределения «объектности» пикселей и категорий изобра-
жения, а также суперпиксели различных изображений соединяются в общую графическую
вероятностную модель.
Поскольку задача оптимизации, возникающая в SSVM с латентными переменными, невы-
пукла, алгоритм может остановиться в локальном минимуме или на плато целевой функции,
так что желательна хорошая инициализация. В приведённых экспериментах начальная раз-
метка для слабоаннотированной части выборки выводится с помощью модели, обученной по
размеченной части выборки.
Таблица 2.1: Точность и средняя поклассовая полнота на наборе данных SIFT-flow. Первые
две строки описывают обучение на подмножестве из 256 полностью размеченных изображе-
ний для моделей с парными потенциалами и без них, соответственно. Третья строка описыва-
ет обучение на наборе, где остальные 2232 изображения обучающей выборки аннотированы
метками изображений. Последняя строка показывает результат обучения на полностью раз-
меченной выборке из 2488 изображений.
62
Таблица 2.2: Точность (первое число в каждой ячейке) и поклассовая полнота (второе число)
на наборе MSRC, при обучении 1) только с полной разметкой, 2) если метки изображений (il)
также доступны для оставшейся части выборки, 3) зёрна объектов (os) также доступны для
оставшейся части выборки, 4) плотные рамки (bb) объектов доступны, 5) и зёрна, и плотные
рамки доступны. Числа в последней колонке равны между собой, так как при полностью
размеченной выборке слабая аннотация не добавляет информации.
63
категории, и соответственно вносят низкий вклад в функцию потерь, основанную на Хэм-
минговом расстоянии. В целом, обучение лишь по слабой аннотации метками изображений
и плотными рамками лишь на 5 % уступает обучению с полной разметкой и по точности, и
по полноте. Зёрна объектов дают меньший прирост качества, однако их использование может
быть оправдано, так как они проще в получении.
В функциях потерь (2.31) и (2.33) присутствует коэффициент 𝛽, отвечающий за относи-
тельный вклад в функцию потерь штрафа за нарушение рамочной и зерновой аннотации,
соответственно. Теоретически, при 𝛽 = 1 функции потерь являются оценками расстояния
Хэмминга. Мы измерили качество модели, обученной при различных значениях коэффици-
ента (см. рис. 2.5c). При значение 𝛽 = 1 точность оказалась сравнительно высокой, что под-
тверждает гипотезу.
2𝑃 𝑅 TP TP
𝐹 = ; 𝑃 = ; 𝑅= . (2.40)
𝑃 +𝑅 TP + FP TP + FN
При обучении на 10 % обучающей выборки, f-мера равна 68.6 %. При добавлении осталь-
ных 90 % выборки с частичной разметкой, f-мера увеличивается до 71.9 %, что очень близ-
64
0.8
0.7
0.6
0.5
2.6 Выводы
Предложен алгоритм структурного обучения по разнообразным аннотациям для задач раз-
метки и общая схема определения функций потерь для различных типов аннотаций. В отличие
от существующих, предложенный метод позволяет одновременно оптимизировать соответ-
ствующие им функции потерь, не сводя аннотации к более «полным» по жадной схеме. Метод
применён для обучения семантической сегментации изображений по различным типам анно-
таций, предложены специализированные функции потерь для меток изображений, плотных
рамок и зёрен объектов, а также к задаче категоризации документов, для которой предложена
функция потерь для неполной разметки. Описаны алгоритмы оптимизации, необходимые для
обучения по слабой аннотации. Результаты показывают, что совместная аннотация, где фоно-
вые категории заданы метками изображений, а объектные — плотными рамками, показывают
лучшее качество сегментации тестовой выборки с учётом использованных при аннотировании
трудозатрат.
65
Глава 3
66
Рисунок 3.1: Типичное в геодезии облако точек, полученное лазерным сканированием. Цве-
том показана разметка, полученная вручную: красным — ‘земля’, чёрным — ‘автомобили’,
зелёным — ‘растительность’, белым — ‘столбы’.
Определение 3.1. Рассмотрим облако точек в трёхмерном пространстве {p𝑡 }𝑇𝑡=1 . Разбиением
на суперпиксели назовём функционал 𝑣 : {1, . . . , 𝑇 } → 𝒱. Это разбиение выполняется так,
чтобы прообразы 𝒱 образовывали связные сегменты поверхности, приближаемой облаком.
67
Будем моделировать сегментацию облака точек с помощью парно-сепарабельной марков-
ской сети над графом 𝐺 = (𝒱, ℰ), переменные которой y ∈ R𝑑v соответствуют суперпиксе-
лям (далее для упрощения нотации будем отождествлять переменные с соответствующими
им суперпикселями). На этапе вывода переменным назначаются метки категорий. Это озна-
чает, что все точки, относящиеся к данному суперпикселю, получают его метку. Парные по-
тенциалы определены для всех пар близких суперпикселей. Более конкретно, для каждого
суперпикселя определяется медоид (используется следующая аппроксимация: находится точ-
ка суперпикселя, ближайшая к центру масс), затем находятся 𝑘 ближайших соседей в смысле
медоидов. Объединение всех пар суперпикселей с каждым из его 𝑘 ближайших соседей об-
разуют множество ℰ (используется значение 𝑘 = 5). Обозначим xv𝑣 ∈ R𝑑v вектор признаков
суперпикселя 𝑣 ∈ v, xe𝑢𝑣 ∈ R𝑑e — вектор признаков, описывающий сходство соседних супер-
v e
⨁︀ ⨁︀
пикселей 𝑢 и 𝑣, а x = 𝑣∈𝒱 x𝑣 ⊕ (𝑣,𝑢)∈ℰ x𝑣𝑢 — их конкатенацию. Каждая переменная 𝑦𝑣 ,
соответствующая суперпикселю 𝑣, принимает значение одной из меток категорий из множе-
ства 𝒦 = {1, . . . , 𝐾}. Пространство 𝒳 содержит всевозможные признаки изображения x, а
пространство 𝒴 — всевозможные разметки y (на практике облака точек могут иметь разное
число суперпикселей и разное число их соседних пар, однако в нотации этот факт игнориру-
ется для простоты; обобщение на общий случай тривиально).
Снова рассмотрим логлинейную параметризацию (1.48) марковской сети. В ней сегмента-
ция ищется как MAP-оценка:
∑︁ ∑︁
yMAP = argmax w| 𝜓(y; x) = argmax 𝜓 𝑣 (𝑦𝑣 ; x)| wv + 𝜓 𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ; x)| we . (3.1)
y∈𝒴 y∈𝒴
𝑣∈𝒱 (𝑣,𝑢)∈ℰ
В ней каждой паре меток сопоставлен свой вектор параметров, который скалярно умножается
на вектор признаков ребра при данном назначении пары меток (это скалярное произведение
может быть переопределено через ядра, как показано в разделе 3.3). При такой парамет-
ризации парные потенциалы перестают удовлетворять свойствам метрики, поэтому нельзя
использовать максимизацию функционала (3.1) на основе разрезов на графах, в том числе
для вывода, дополненного функцией потерь при обучении структурного SVM (раздел 1.2.4).
Вместо этого используется алгоритм передачи сообщений на деревьях с перевзвешивани-
ем (англ. tree-reweighted message passing, TRW ) [43], один из вариантов двойственного раз-
ложения марковской сети на поддеревья. Он возвращает оценку снизу на значение функци-
онала (3.1), что может приводить к раннему останову оптимизации функционала структур-
68
ного SVM. Такая аппроксимация называется оптимизацией на расширенном множестве (ан-
гл. undergenerating) [76]. Эксперименты показывают, что такая аппроксимация позволяет обу-
чить качественный функционал (раздел 3.5).
Лемма 3.1. Пусть 𝑅¯ — средняя полнота (recall) по категориям на обучающей выборке, со-
стоящей из 𝐽 объектов. Тогда сумма функций потерь на объектах обучающей выборки про-
¯ при следующем значении параметров:
порциональна величине (1 − 𝑅)
∑︀𝐽 ∑︀ 𝑗
𝑗=1 𝑣∈𝒱 𝑗 𝑐𝑣
𝑟𝑘 = ∑︀𝐽 ∑︀ 𝑗 𝑗
, ∀𝑘 ∈ 𝒦. (3.4)
𝑗=1 𝑣∈𝒱 𝑗 𝑐𝑣 J𝑦𝑣 = 𝑘K
∑︁ ∑︁ ∑︁ ∑︁ ∑︁ ∑︁
𝑐𝑗𝑣 𝑟𝑘 J𝑦𝑣𝑗 = 𝑘KJ¯
𝑦𝑣𝑗 ̸= 𝑘K = 𝑐𝑗𝑣 𝑟𝑦𝑣𝑗 J¯
𝑦𝑣𝑗 ̸= 𝑦𝑣𝑗 K = Δ(ȳ𝑗 , y𝑗 ).
𝑗 𝑣 𝑘 𝑗 𝑣 𝑗
Согласно условиям леммы, штраф равен обратной частоте точек данной категории в обу-
чающей выборке. Эксперименты в разделе 3.5 показывают, что такая модификация позволяет
улучшить даже поточечную точность в случае несбалансированной выборки, если маленькие
категории представлены достаточно, чтобы построить их модель.
69
3.3 Нелинейные ядра
Как и классический SVM, структурный его вариант допускает ядровой переход. Покажем
это, сформулировав двойственную формулировку, и затем покажем, как её обобщить, заменив
скалярное произведение в Евклидовом пространстве, заменив его на произвольную ядровую
функцию.
значим 𝜓 Y ≡ 𝜓(Y; X), 𝜓 Ȳ ≡ 𝜓(Ȳ; X), 𝜓 Ỹ ≡ 𝜓(Ỹ; X), ΔȲ ≡ Δ(Ȳ; Y). Запишем оптимиза-
ционную задачу структурного SVM для объектов X, Y.
1
min w| w + 𝐶𝜉, (3.6)
w,𝜉 2
1 ∑︁
𝐿(w, 𝜉, 𝛼) = w| w + 𝐶𝜉 + 𝛼Ȳ [w| 𝜓 Ȳ − w| 𝜓 Y + ΔȲ − 𝜉] . (3.8)
2 𝐽 Ȳ∈𝒴
Для того чтобы найти его минимум по целевым переменным при 𝛼 ≥ 0, приравняем
градиент к нулю:
𝜕𝐿 ∑︁ ∑︁
=w+ 𝛼Ȳ (𝜓 Ȳ − 𝜓 Y ) = 0 ⇒ w= 𝛼Ȳ (𝜓 Ȳ − 𝜓 Y ) , (3.9)
𝜕w 𝐽 Ȳ∈𝒴 Ȳ∈𝒴 𝐽
𝜕𝐿 ∑︁ ∑︁
=𝐶− 𝛼Ȳ = 0 ⇒ 𝛼Ȳ = 𝐶. (3.10)
𝜕𝜉
Ȳ∈𝒴 𝐽 Ȳ∈𝒴 𝐽
70
Алгоритм 3.1 Обучение двойственной формулировки SSVM методом секущей плоскости
1: Вход: обучающая выборка (X, Y), гиперпараметры 𝐶, 𝜀.
2: Выход: параметры 𝛼.
3: 𝒲 ← ∅
4: repeat (︀ | |
{︀∑︀ )︀ }︀
5: Ȳ ← argmaxỸ∈𝒴 𝐽 Ȳ∈𝒲 Ȳ𝛼 𝜓 𝜓
Y Ỹ − 𝜓 𝜓
Ȳ Ỹ
+ Δ Ȳ
6: if Ȳ ̸∈ 𝒲 then
7: 𝒲 ← 𝒲 ∪ {Ȳ}
1 ∑︁ ∑︁ ∑︁
8: 𝛼 ← argmax − 𝛼Ȳ 𝛼Ỹ 𝐻(Ȳ, Ỹ) + 𝛼Ȳ Δ(Ȳ; Y)
𝛼≥0 2
Ȳ∈𝒴 𝐽 Ỹ∈𝒴 𝐽 Ȳ∈𝒴 𝐽
∑︁
9: при условиях 𝛼Ȳ = 𝐶; 𝛼Ȳ = 0, ∀Ȳ ∈ 𝒴 𝐽 ∖ 𝒲
Ȳ∈𝒴 𝐽
10: end if
11: until Ȳ ∈ 𝒲
1 ∑︁ ∑︁ ∑︁
max − 𝛼Ȳ 𝛼Ỹ 𝐻(Ȳ, Ỹ) + 𝛼Ȳ Δ(Ȳ; Y), (3.11)
𝛼≥0 2 𝐽 𝐽
Ȳ∈𝒴 Ỹ∈𝒴 𝐽 Ȳ∈𝒴
∑︁
при условии 𝛼Ȳ = 𝐶, (3.12)
Ȳ∈𝒴 𝐽
Получим теперь выражение для вывода разметки тестового объекта x̃, снова перейдя к
двойственным переменным с помощью (3.9):
∑︁
yMAP = argmax w| 𝜓(ỹ; x̃) = argmax 𝛼Ȳ 𝜓 |Y 𝜓(ỹ; x̃) − 𝜓 |Ȳ 𝜓(ỹ; x̃) .
(︀ )︀
(3.14)
ỹ∈𝒴 ỹ∈𝒴
Ȳ∈𝒴 𝐽
В этом выражении используется также обучающая выборка (X, Y). Из него следует, что
для вычисления потенциалов тестовой задачи максимизации необходимо суммировать |𝒴 𝐽 |
слагаемых, однако вектор 𝛼 оказывается разреженным, следовательно, большинство из сла-
гаемых — нулевые. Рассмотрим алгоритм секущей плоскости 1.1 для оптимизации SSVM.
Вместо целевых переменных прямой задачи в нём можно обновлять целевые переменные
двойственной. Алгоритм 3.1 демонстрирует такую модификацию. На каждой итерации ре-
шается двойственная задача к задаче SSVM на рабочем наборе ограничений (строки 8–9).
Поскольку целевая функция выпукла, а ограничения линейны, оптимумы в прямой и двой-
ственной задачах совпадают, а решения могут быть получены друг из друга с помощью (3.9).
Поэтому последовательности Ȳ, получаемые двумя вариантами алгоритма, совпадают.
71
На каждой итерации алгоритма 3.1 не более одной компоненты вектора 𝛼 может стать
ненулевой. Поэтому количество ненулевых компонент в финальном решении ограничено
сверху числом итераций, которое при фиксированной точности полиномиально зависит от
длины выборки [20]. Другими словами, согласно условиям дополняющей нежёсткости в тео-
реме Каруша–Куна–Таккера, ненулевыми переменными могут быть только те, которые соот-
ветствуют активным ограничениям в прямой задаче (неактивные ограничения выполняются
с нестрогими неравенствами). При достижении сходимости алгоритма 1.1 активные ограни-
чения входят в рабочий набор 𝒲. Их размер ограничен многочленом от числа компонент в
разметках, что существенно меньше экспоненциального числа |𝒴 𝐽 |. Таким образом, решение
получается существенно разреженным. Разметки, которым соответствуют ненулевые 𝛼ȳ* , на-
зываются опорными векторами. Они соответствуют наиболее неправдоподобным разметкам
обучающих объектов. Из решающего правила (3.14) видно, что MAP-оценка стремится быть
близкой по обобщённым признакам к верной разметке обучающей выборки y* , но далёкой от
опорных векторов.
𝐽
(︂ ∑︁ 𝐽
)︂| (︂ ∑︁ )︂
1
|
𝑄(X1 , Y1 , X2 , Y2 ) = 𝜓(Y1 ; X1 ) 𝜓(Y2 ; X2 ) = 2 𝜓(y1𝑗 ; x𝑗1 ) 𝜓(y2𝑖 ; x𝑖2 ) (3.15)
𝐽 𝑗=1 𝑖=1
𝐽 𝐽 𝐽 𝐽
1 ∑︁ ∑︁ 𝑗 𝑗 | 1 ∑︁ ∑︁
= 𝜓(y 1 ; x 1 ) 𝜓(y 𝑖
2 ; x 𝑖
2 ) = 𝑞(y1𝑗 , x𝑗1 , y2𝑖 , x𝑖2 ).
𝐽 2 𝑗=1 𝑖=1 𝐽 2 𝑗=1 𝑖=1
𝐻(Ȳ, Ỹ) = 𝑄(X, Y, X, Y) − 𝑄(X, Y, X, Ỹ) − 𝑄(X, Ȳ, X, Y) + 𝑄(X, Ȳ, X, Ỹ) (3.16)
и решающее правило
∑︁ [︁ ]︁
YMAP = argmax 𝛼Ȳ 𝑄(X̃, Ỹ, X, Y) − 𝑄(X̃, Ỹ, X, Ȳ) , (3.17)
Ỹ∈𝒴 Ȳ∈𝒴 𝐽
72
в виде суммы унарных и парных потенциалов относительно компонент вектора — второго
аргумента. Приведём пример такой функции, имеющей практическое значение.
Определение 3.2. Гауссовской ядровой функцией (англ. gaussian radial basis function, RBF)
будем называть ядровую функцию для объектов следующего вида:
∑︁ ∑︁
𝑞(y′ , x′ , y′′ , x′′ ) = exp(−𝛾‖x′𝑣′ − x′′𝑣′′ ‖2 )J𝑦𝑣′ ′ = 𝑦𝑣′′′′ K + (3.18)
𝑣 ′ ∈𝒱 ′ 𝑣 ′′ ∈𝒱 ′′
∑︁ ∑︁
exp(−𝛾‖x′𝑣′ 𝑢′ − x′′𝑣′′ 𝑢′′ ‖2 )J𝑦𝑣′ ′ = 𝑦𝑣′′′′ KJ𝑦𝑢′ ′ = 𝑦𝑢′′′′ K.
(𝑣 ′ ,𝑢′ ) (𝑣 ′′ ,𝑢′′ )
∈ℰ ′ ∈ℰ ′′
73
требования ассоциативности [6]. В этой модели используются потенциалы Поттса (и парные,
и высоких порядков): они могут быть положительными, только если все (или большинство)
переменных в факторе принимают одну и ту же метку, иначе потенциал равен нулю. Такой
вид потенциалов позволяет проводить эффективный вывод MAP-оценки (раздел 1.2.4).
Требование ассоциативности ограничивает гибкость модели. Ранее нами было показано,
что учёт неассоциативных зависимостей, таких как «деревья и здания склонны находиться вы-
ше земли», позволяет повысить точность сегментации [28]. Также как и в этой главе исполь-
зовался общий вид парных потенциалов, однако применялся более простой, эвристический
метод обучения на основе наивного Байесовского классификатора, в котором правдоподобие
оценивалось непараметрически, независимо для унарных и парных факторов, при этом на
этапе обучения не моделировались корреляции между факторами и переменными. Частный
случай этой модели используют Познер и др. [78]: их модель неассоциативная, но использу-
ется только константный парный признак, как и в ранних работах [5, 77], что соответствует
использованию только априорного распределения в наивном Байесовском классификаторе.
В целом, обучение неассоциативных моделей более требовательно к обучающей выборке:
в ней должны быть хорошо представлены межклассовые связи, а не только внутриклассовые.
Ещё одной трудностью при их использовании является нерегулярность энергии, не допуска-
ющая эффективный вывод с помощью разрезов на графах (раздел 1.2.4), поэтому используют
приближённые методы MAP-вывода (раздел 1.2.3). Хотя точность приближённых методов мо-
жет быть достаточна на этапе принятия решения, неточный вывод может негативно сказаться
при обучении. Финли и Йоахимс изучили проблему использования неточных методов вывода
при структурном обучении [76]. Франк и Савчинский [33] использовали на практике неточ-
ный вывод при структурном обучении в задачах компьютерного зрения. Их эксперименты
показали, что неассоциативная модель имеет немного более низкую точность, чем ассоци-
ативная, что объясняется неточностью процедуры вывода, дополненного функцией потерь.
Однако в этом эксперименте также использовался только константный парный признак, что
могло помешать неассоциативной модели проявить свою гибкость.
В разделе 3.3 представлен метод обучения потенциалов марковской сети, нелинейно за-
висящих от признаков с использованием ядровых функций. Похожую идею использовали
Трибель и др. [77], которые совместили ассоциативную марковскую сеть с метрическим клас-
сификатором на основе 𝑘 ближайших соседей. Отличие предложенного метода в том, что
опорные векторы выбираются не только из объектов обучающей выборки, а могут генериро-
ваться из множества всевозможных разметок (при этом неправильно размеченные опорные
векторы входят в решающие правило с отрицательными коэффициентами). Поскольку пред-
ложенный здесь метод разреженный, в нём может выбраться более компактное представление
из опорных векторов. Муноз и др. [6] предложили другой метод для восстановления нелиней-
ной зависимости — функциональный градиентный бустинг (англ. functional gradient boosting,
FGB), совместно настраивающий потенциальные функции как нелинейные функции их пара-
метров. Метод подробнее описан в разделе 1.3.3.
74
Марковские сети — не единственный способ учёта семантического пространственного кон-
текста, который используется при сегментации облаков точек. Некоторые работы используют
детектирование объектов с последующей сегментацией и классификацией форм [79,80]. Дру-
гие получают сегментацию как побочный продукт детектирования объектов определённого
класса методами голосования в обобщённом пространстве Хафа [81, 82]. Ряд методов исполь-
зуют последовательную классификацию. Один из них, пространственная машина вывода,
описан в главе 4 данной диссертации. Сьон и др. [34] предложили идею эшелонированного
трёхмерного парсинга (англ. stacked 3D parsing), который использует семантический кон-
текст для разметки облака точек на различных уровнях подробности (от грубого до тонкого)
и запускает последовательную классификацию для согласования разметок.
3.5 Эксперименты
В данном разделе проводится экспериментальная оценка предложенного метода и срав-
нение его с аналогами на двух наборах данных, полученных, соответственно, аэросъёмкой,
и сканированием с движущегося автомобиля. Основная цель экспериментов — показать пре-
имущество неассоциативных моделей в задаче семантической сегментации облаков точек. В
качестве слабого базового метода используется ансамбль рандомизированных деревьев, при-
меняемый к суперпикселям независимо. Также показано, что на этих наборах данных предло-
женный метод с нелинейными ядрами превосходит по качеству другие нелинейные методы, а
именно функциональный градиентный бустинг для обучения ассоциативных марковских се-
тей [6] и наивное Байесовское обучение потенциалов неассоциативной марковской сети [28].
На наборе данных Аэро проводятся две серии экспериментов. В первой унарные потен-
циалы не используются совсем — она демонстрирует способность предложенного метода мо-
делировать зависимости разметки от признаков парных потенциалов. Во второй серии экспе-
риментов моделируется прикладное использование метода: унарные потенциалы назначаются
как минус логарифмы вероятностного выхода ансамбля рандомизированных деревьев и фик-
сируются, а парные — настраиваются с помощью структурного SVM. Рассматриваются два
типа функций потерь: расстояние Хэмминга и сбалансированная по категориям функция по-
терь, описанная в разделе 3.2. Также приводится результат для линейной неассоциативной
модели. Предлагаемый метод также протестирован на сложном наборе данных Авто, прове-
дён анализ его применимости.1
75
Рисунок 3.2: Визуализация структуры Р-дерева с одним корнем и 8 листьями. Охватывающий
параллелепипед для корневой вершины показан красным, для листьев — синим. В общем
случае используются также промежуточные уровни иерархии.
2
Авторская реализация опубликована в GML LidarK library: http://graphics.cs.msu.ru/en/
science/research/3dpoint/lidark
76
∙ разница в высоте точек над землёй (т. е. в значениях проекций на ось 𝑧), нормированная
на расстояние между ними: (𝑝𝑧 − 𝑞𝑧 )/‖p − q‖.
3.5.3 Результаты
Результат экспериментов на наборе Аэро приведены в таблице 3.1. Поскольку этот набор
несбалансирован по категориям, приводятся точность и полнота (2.40) по всем категориям
в отдельности. Также приводится среднее геометрическое полноты по категориям, которое
трактует все категории одинаково важными, независимо от их размера [84]. Как и ожидалось,
использование унарных потенциалов улучшает качество, что особенно заметно при обуче-
нии ассоциативной марковской сети функциональным градиентным бустингом. Это можно
объяснить недостаточной ёмкостью ассоциативной модели. При этом, добавление унарных
потенциалов не приводит к идеальному результату — оба варианта обучения неассоциатив-
ной марковской сети улучшают результат ассоциативной. Визуальные результаты сегментации
представлены на рис. 3.3.
Предложенный метод приводит к разреженному решению: были определены всего
10 опорных векторов (хотя любая потенциальная разметка порождает возможный опорный
вектор). При этом гауссово ядро (3.18) содержит сумму по всем факторам, так что применение
3
http://www.cs.cmu.edu/~dmunoz/projects/m3n.html
77
Таблица 3.1: Точность и полнота для каждой из категорий и геометрическое среднее полноты
по категориям на наборе Аэро. Приведены результаты независимой классификации ансам-
блем рандомизированных деревьев (UNARY), ассоциативной модели, обученных функцио-
нальным градиентным бустингом (FUNC), а также неассоциативных моделей, использующей
наивный Байесовский классификатор (BAYES) и обученную предложенным методом (SVM).
Постфикс «-PW» добавляется к моделям, не использующим унарные потенциалы. В по-
следних двух строках приведены результаты упрощённых моделей: линейного структурно-
го SVM (SVM-LIN) и нелинейного структурного SVM с невзвешенной Хэмминговой функ-
цией потерь (SVM-HAM).
даже одного опорного вектора происходит значительно медленнее, чем в линейной модели,
где ядра суммируются к набору параметров потенциалов. К сожалению, в этом эксперименте
линейная модель лишь немного улучшает качество независимой классификации. Нижний ряд
таблицы 3.1 показывает, что критично использовать взвешенное расстояние Хэмминга в каче-
стве функции потерь (раздел 3.2) — обученная при отсутствии взвешивания модель склонна
игнорировать мелкие классы, в данном случае, ‘здание’.
Результаты наиболее успешных методов (нелинейного структурного SVM и FGB, а также
их линейных аналогов) на наборе Авто приведены в таблице 3.2. Приводится f-мера (сред-
нее гармоническое между точностью и полнотой (2.40)) для каждой из категорий. Струк-
турный SVM и FGB показывают аналогичные результаты на категориях ‘земля’ и ‘дерево’.
Первый лучше классифицирует ‘транспорт’, но совершенно не находит ‘столбы’, которых
было очень мало в обучающей выборке. Таким образом, предложенный метод плохо при-
меним к данным, содержащим много категорий, а также когда некоторые категории сильно
недопредставлены.
78
(a) GTRUTH (b) UNARY
Рисунок 3.3: Результаты на части тестового облака точек из набора Аэро, на котором предло-
женный метод показывает высокую точность. Красный цвет соответствует категории земля,
чёрный — здание, зелёный — растительность. (a) Верная (ручная) разметка. (b) Ансамбль
рандомизированных деревьев, или только унарные потенциалы. (c)–(d) Наивный Байес, без
унарных потенциалов и с ними. (e)–(f) Функциональный градиентный бустинг. (g)–(h) Метод
секущей плоскости
3.5.4 Обсуждение
Эксперимент на наборе Аэро показывает, что неассоциативные марковские сети сегмен-
тируют облако точек точнее, чем ассоциативные, особенно при отсутствии унарных потенци-
79
алов. Даже простое наивное Байесовское обучение парных потенциалов показывает лучший
результат, чем функциональный градиентный бустинг, стеснённый требованием ассоциатив-
ности. Ассоциативность может служить в качестве регуляризации, и таким образом лучше
обучаться на небольших выборках с недостающей статистикой парных потенциалов. В этом
эксперименте для обучения использовался один небольшой скан (он содержит около 100 ты-
сяч точек, или 2 тысячи суперпикселей), при этом удалось обучить модель парных потенциа-
лов с зависимостями между любыми парами из 3 категорий. Таким образом, неассоциативная
модель может эффективно настраиваться даже на небольшой выборке, если число категорий
небольшое, и среди них нет слишком недопредставленных.
В используемой модели парные потенциалы связывают достаточно удалённые точки из-за
использования суперпикселей. Из-за этого доля гетерогенных рёбер (таких, что инцидентные
им вершины помечены различно) больше, чем в модели, построенной над отдельными точ-
ками, так как суперпиксели обычно объединяют точки, которые должны относиться к одной
категории. Более того, при использовании суперпикселей признаки парных потенциалов более
информативны: для двух соседних точек облака, полученного достаточно плотным сканиро-
ванием, такие признаки, как ориентация и длина соединяющего их отрезка, бесполезны из-за
шума, возникающего при сканировании. Ангелов и др. [5] не используют сэмплирование ис-
ходного скана. Согласно их экспериментам, использование признаков помимо константного
не увеличивает точность сегментации (хотя это может быть вызвано использованием доста-
точно грубой ассоциативной модели).
Для вывода финальной разметки на этапе предсказания и для вывода, дополненного
функцией потерь, на этапе обучения используется алгоритм TRW-S. Несмотря на то, что
он находит лишь приближённый максимум MAP-оценки, на практике обучается доволь-
но точная модель. Использование приближённого вывода означает, что используемый вари-
ант метода секущей плоскости выполняет оптимизацию на расширенном множестве (ан-
гл. undergenerating) [76], то есть, на каждой итерации находится наиболее нарушаемое огра-
ничение среди подмножества множества линейных ограничений (1.64), таким образом, в ра-
бочий набор добавляется действительное ограничение задачи, но, возможно, не самое на-
рушаемое. Альтернативой является выполнение оптимизации на суженном множестве (ан-
гл. overgenerating), в которой наоборот — множество доступных ограничений расширяется,
но на таком расширенном множестве возможно искать точный оптимум достаточно эффек-
тивно. Этого можно добиться использованием LP-релаксации (раздел 1.2.1) или оптимизации
двойственной задачи (раздел 1.2.3) в задачах вывода, дополненного функцией потерь. Таким
образом, ограничения будут соответствовать не целочисленным разметкам, а также и дроб-
ным. При этом сохраняются теоретические свойства метода секущей плоскости [76].
Неточность недопорождающего подхода заключается в том, что на последней итерации
может быть получено не самое нарушаемое ограничение, и оно будет удовлетворяться, таким
образом, оптимизация остановится раньше реальной сходимости. Эта ошибка может быть
ограничена сверху интервалом двойственности в TRW-S, который на практике обычно близок
к нулю на последних итерациях метода секущей плоскости. Таким образом, в приведённых
80
экспериментах приближённый вывод не мог сильно повлиять на точность модели, однако его
использование замедляет оптимизацию из-за большего числа генерируемых ограничений.
3.6 Выводы
В настоящей главе описана структура неассоциативной марковской сети и соответству-
ющие алгоритмы для вывода разметки и обучения потенциалов. Приведена новая функция
потерь, а также формулировка гауссовского ядра для неявного нелинейного преобразования
признакового пространства. Эксперименты по семантической сегментации на двух наборах
данных, представляющих собой облака точек в трёхмерном пространстве, показали, что все
эти три модификации модели ведут к улучшению результата сегментации.
81
Глава 4
Использование пространственного
контекста при последовательной
классификации
82
предложили машину вывода — модификацию метода последовательной классификации, явля-
ющуюся обобщением алгоритма распространения доверия (раздел 1.2.2) для вывода в графи-
ческих моделях. Мы будем пользоваться этим обобщением. Более полный обзор связанных
методов приведён ниже в разделе 4.4.
В этой главе описано обобщение машины вывода [26], учитывающее пространственный
контекст. Конкретно, предлагаемый метод отличается в следующем:
83
пересчёта сообщения от переменной 𝑣 в фактор 𝑓 на итерации 𝑛, подставим (1.14) в (1.15):
⎡ ⎤
∏︁ ∑︁ ∏︁
𝜇𝑛𝑣→𝑓 (𝑦𝑣 ) = ⎣ Φ𝑓 ′ (y𝑓′ ′ ; x𝑓 ′ , w) 𝜇𝑣𝑛−1 ′ ⎦
′ →𝑓 ′ (𝑦𝑣 ′ ) . (4.1)
𝑓 ′: 𝑣∈𝒞𝑓 ′ ,𝑓 ′ ̸=𝑓 y𝑓′ ′ :𝑦𝑣′ =𝑦 𝑣 ′ ∈𝒞𝑓 ′ ∖{𝑣}
Как и вывод, обучение происходит итерационно (см. алгоритм 4.1). На итерации 𝑛 функ-
ция 𝑔𝑛 настраивается в виде некоторого вероятностного классификатора с помощью алго-
ритма машинного обучения, например, логистической регрессии или ансамбля рандомизи-
рованных решающих деревьев (строка 13). Для каждой из пар (𝑣, 𝑓 ) : 𝑣 ∈ 𝒞𝑓 обучающей
выборки в вектор расширенных признаков включаются признаки x𝑓 ′ и сообщения 𝜇𝑛−1 𝑣 ′ →𝑓 ′
′
(если 𝑛 ̸= 1), где 𝑓 — все факторы, включающие 𝑣, за исключением 𝑓 (кроме последней
итерации), а 𝑣 ′ — их переменные. В качестве целевых переменных 𝜇𝑛𝑣→𝑓 (b𝑁𝑣 на последней
итерации) берутся ответы обучающей выборки 𝑦𝑣 (точнее, их переопределённые представле-
ния ϒ𝑣 : ϒ𝑣,𝑘 = J𝑦𝑣 = 𝑘K, ∀𝑘 ∈ 𝒦). Поскольку на итерации 𝑛 используется выход классифи-
каторов с итерации 𝑛 − 1, модель может получиться смещённой. Чтобы этого избежать, на
84
Алгоритм 4.1 Обучение машины вывода
1: Вход: размеченная выборка (x, y), множество факторов обучающей выборки ℱ, разделён-
ное на части f , число итераций вывода 𝑁 .
2: Выход: набор функций-предикторов сообщений {𝑔n (·)}𝑛∈{1,...,𝑁 }
1
3: инициализировать 𝜇0𝑣→𝑓 = 𝐾 , ∀𝑣 ∈ 𝒱, ∀𝑓 : 𝑣 ∈ 𝒞𝑓
4: for 𝑛 = 1 to 𝑁 − 1 do
5: for all f ∈ ℱ do
˜ 𝑛−1
(︀ )︀
6: обучить вспомогательный предиктор gtmp (·) так чтобы ϒ𝑣 ≈ gtmp x̃𝑣,𝑓 , 𝜇 𝑣,𝑓
{︁ }︁
на выборке, соответствующей парам (𝑣, 𝑓 ) : 𝑓 ∈ f ′ ∈ℱ ∖{f } f ′ , 𝑣 ∈ 𝒞𝑓
⋃︀
7: for all 𝑓 ∈ f do
8: for all 𝑣 ∈ 𝒞𝑓 do
˜ 𝑛−1
𝜇𝑛𝑣→𝑓 ← gtmp x̃𝑣,𝑓 , 𝜇
(︀ )︀
9: 𝑣,𝑓 # несмещённые оценки ответов на итерации 𝑛
10: end for
11: end for
12: end for
𝑛−1
(︀ )︀
13: обучить окончательный предиктор g𝑛 (·) так чтобы ϒ𝑣 ≈ g𝑛 x̃𝑣,𝑓 , 𝜇 ˜ 𝑣,𝑓
на выборке, соответствующей парам (𝑣, 𝑓 ) : 𝑓 ∈ f ′ ∈ℱ f ′ , 𝑣 ∈ 𝒞𝑓
{︀ ⋃︀ }︀
85
𝑛
Определение 4.2. Функция-предиктор сообщения g𝑡(𝑓 ) (·) на 𝑛-й итерации для типа факто-
ров 𝑡(𝑓 ) (см. ниже) имеет следующий вид:
(︀ 𝑛−1 1 ∑︁ 𝑛−1 )︀
𝜇𝑛𝒮𝑓 →𝑑𝑓 = g𝑡(𝑓
𝑛
) b , x 𝑑 , x 𝑓 , x 𝒮 , b . (4.4)
𝑑𝑓 𝑓 𝑓
|𝒮𝑓 | 𝑣∈𝒮 𝑣
𝑓
𝑛
где 𝛼𝑡(𝑓 ) — параметр, соответствующий вкладу типа факторов 𝑡(𝑓 ) (см. ниже).
Определение 4.3. Типом фактора 𝑡(𝑓 ) ∈ 𝒯 называется признак, заданный для каждого из
𝑛
д-факторов и определяющий конкретную функцию-предиктор сообщений g𝑡(𝑓 ) (·) и коэффи-
𝑛
циент 𝛼𝑡(𝑓 ) , которые используются для предсказания убеждения на итерации 𝑛.
86
(a) Классическая машина вывода [26] (b) Предложенный метод
подбираются так, чтобы исключить вклад малоинформативных типов факторов, таким об-
разом накладывают регуляризацию на модель (подробнее о настройке параметров в разде-
ле 4.2.3).
Последний аргумент функции (4.4) — усреднённые убеждения о метках переменных в
передатчике с предыдущей итерации. Такое усреднение ведёт к потере информации о про-
странственном расположении объектов, соответствующих переменным в передатчике. Пред-
полагается, что передатчик состоит из «пространственно близких» переменных (например,
соответствующих пикселям из некоторого прямоугольника на изображении). Эти множества
должны быть достаточно большими, чтобы избежать переобучения (много маленьких пере-
датчиков позволят настроиться на шум, в то время как усреднение в передатчике повышает
робастность), при этом достаточно маленькими, чтобы не потерять важные зависимости.
В отличие от (4.2), функции-предикторы сообщений 𝜇𝑛𝒮𝑓 →𝑣 в предлагаемом методе зави-
сят от сообщений с предыдущей итерации 𝜇𝒮𝑛−1𝑓 ′ →𝑣
′ не напрямую. Вместо этого, аргументом
являются их взвешенные произведения — убеждения о метках b𝑣𝑛−1 ′ . Кроме этого, «охват» ар-
гументов обучаемой функции в предлагаемом методе меньше: они принимают информацию
о переменных (убеждения, признаки), вовлечённых в один фактор, в то время как в мето-
де Росса и др. [26] конкатенируются сообщения из всех переменных, которые имеют общий
фактор с переменной 𝑣, за исключением целевого фактора 𝑓 . Рис. 4.1 иллюстрирует разницу.
Предлагаемый метод комбинирует полученные «локализованные» сообщения в явном виде,
согласно (4.5), таким образом получая параметры предиктора сообщений следующей итера-
ции или финальные оценки маргинальных распределений меток.
87
4.2.2 Пространственные и структурные д-факторы
В данном разделе мы будем предполагать, что модель определяется для задач распо-
знавания в некоторой двумерной или трёхмерной визуальной сцене, состоящей из элемен-
тов — пикселей, вокселей, точек или суперпикселей, соответствующих переменным в задаче
разметки. Элемент 𝑣 характеризуется координатами p𝑣 = (𝑥, 𝑦) в двумерном пространстве
или p𝑣 = (𝑥, 𝑦, 𝑧) в трёхмерном. Мы определим два семейства типов факторов и опишем
область их применимости.
88
Рисунок 4.2: Иллюстрация определения структурных и пространственных д-факторов для
фрагмента изображения с рис. 1.2a. Переменные модели соответствуют пикселям изображе-
ния. Чёрные линии обозначают структурные взаимосвязи между переменными. Также пока-
заны четыре пространственных д-фактора трёх типов, приёмником которых является пере-
менная, показанная красным кругом. Пусть координатные оси направлены вправо и вверх.
Регион-передатчик д-фактора типа ‘Вверх’ (𝛿p = (0, +4), 𝑟 = 2) показан зелёным, регион-
передатчик д-фактора типа ‘Вниз’ (𝛿p = (0, −4), 𝑟 = 2) — синим, д-факторов типа ‘Впра-
во/влево’ (𝛿p = (±4, 0), 𝑟 = 2) — оранжевым.
89
он показывал немного меньшую точность. Объединение регионов требует дополнительных
вычислений, однако они могут проводиться на этапе предобработки, так как границы регио-
нов не зависят от конкретных меток, так что в некоторых приложениях этими дополнитель-
ными затратами можно пренебречь.
𝑛 𝛼𝑡(𝑓 )
(︃ ∏︀ )︃
∑︁ 𝑓 :𝑑𝑓 =𝑣 (𝜇 𝒮 →𝑣 (𝑦𝑣 )) ∑︁
𝛼𝑛 = argmax
𝑓
𝑛 𝛼𝑡(𝑓 ) + 𝐶 𝛼𝑡 . (4.6)
∑︀ ∏︀
𝛼≥0
𝑣∈𝒱 𝑘∈𝒦 𝑓 :𝑑𝑓 =𝑣 (𝜇𝒮𝑓 →𝑣 (𝑘)) 𝑡∈𝒯
90
Алгоритм 4.2 Обучение пространственной машины вывода
1: Вход: размеченная выборка (x, y), множество д-факторов обучающей выборки ℱ, разде-
лённое на части f , множество типов факторов 𝒯 , число итераций вывода 𝑁 .
2: Выход: набор пар функций-предикторов сообщений и весов {(𝑔n,𝑡 (·), 𝛼𝑡𝑛 )}𝑡∈𝒯 , 𝑛∈{1,...,𝑁 }
1
3: инициализировать b0𝑣 = 𝐾 , ∀𝑣 ∈ 𝒱
4: for 𝑛 = 1 to 𝑁 do
5: for all f ∈ ℱ do
6: for all 𝑡 ∈ 𝒯 do
7: обучить предиктор g𝑡tmp (·) так, {︁ чтобы ϒ𝑑𝑓 ≈ g⃒𝑡tmp (⟨расширенные
}︁ признаки 𝑓 ⟩)
′ ⃒
⋃︀
на выборке д-факторов 𝑓 ∈ f ′ ∈ℱ ∖{f } f ⃒ 𝑡(𝑓 ) = 𝑡
8: end for
9: for all 𝑓 ∈ f do (︀
𝜇tmp tmp 𝑛−1 1 𝑛−1
∑︀ )︀
10: 𝒮𝑓 →𝑑𝑓 ← g 𝑡(𝑓 ) b 𝑑𝑓 , x 𝑑 𝑓
, x 𝑓 , x 𝒮 ,
𝑓 |𝒮𝑓 | 𝑣∈𝒮𝑓 𝑣b
11: end for
12: end for
13: for all 𝑡 ∈ 𝒯 do
14: обучить предиктор g𝑡𝑛 (·) так, {︁ чтобы ϒ𝑑𝑓 ≈ g⃒ 𝑡𝑛 (⟨расширенные}︁ признаки 𝑓 ⟩)
′ ⃒
⋃︀
на выборке д-факторов 𝑓 ∈ f ′ ∈ℱ f ⃒ 𝑡(𝑓 ) = 𝑡
15: end for
16: задать веса типов факторов 𝛼𝑛 , например 𝛼𝑛 = 1 или максимизируя (4.6)
17: if 𝑛 < 𝑁 then
18: for all 𝑣 ∈ 𝒱 do
19: вычислить убеждения b𝑛𝑣 по сообщениям 𝜇tmp 𝒮𝑓 →𝑣 согласно (4.5)
20: end for
21: end if
22: end for
91
Таблица 4.1: Типы факторов, используемые в модели для сегментации трёхмерных облаков
точек. Строки содержат названия типов факторов их обозначения, а также относительные
координаты регионов передатчика.
92
(a) Система координат (b) Регион-передатчик для точки (c) Регион-передатчик для суперпикселя
93
Таблица 4.2: Унарные и парные признаки, используемые Коппулой и др. [86]. В описании
спектральных признаков 𝜆𝑣𝑖 означает 𝑖-е по величине собственное значение матрицы ковари-
аций точек суперпикселя 𝑣, 𝑖 ∈ {1, 2, 3}.
94
4.4 Обзор литературы
Одним из первых использований последовательной классификации был теггер Брил-
ла [12], служащий для разметки частей речи в предложении. После того как части речи
каждого из слов определены с помощью локальной классификации, теггер применяет к этой
первичной разметке последовательность нелокальных корректировок. Например, следующая
корректировка оказывается эффективной для разметки частей речи в английских предложени-
ях: «Если слово ‘to’ отмечено как частица инфинитива, и за ней следует слово, отмеченное
как артикль, изменить метку последнего слова на предлог». Если корректировка не применя-
ется к фразе (предпосылка не верна), разметка остаётся без изменений. Таким образом, метки
часто остаются такими же, как на предыдущих итерациях. Аналогично, предложенный метод
использует убеждения с предыдущей итерации в качестве одного из аргументов функции-
предиктора сообщений, что позволяет возвращать тождественную функцию, не изменяющую
разметку — это бывает полезно на поздних итерациях. На этапе обучения системы последо-
вательность корректировок может быть определена жадным образом: на каждой итерации из
пула выбирается та, которая сильнее всего уменьшает ошибку на обучающей выборке.
Эта идея также использовалась в компьютерном зрении. Алгоритм «автоконтекст» (ан-
гл. auto-context) [25] последовательно применяет настроенные классификаторы для уточнения
разметки. Среди аргументов классификтора используется разметка с предыдущей итерации.
Не все элементы разметки используются в качестве аргументов. Пользователь задаёт систе-
му соседства: набор смещений (окрестность) относительно данного пикселя. Они являются
аналогом предлагаемых пространственных типов факторов. В отличие от описанного выше
метода, «автоконтекст» конкатенирует метки из окрестности, и использует один линейный
классификатор. При его обучении на каждой итерации в качестве целевых переменных ис-
пользуется верная разметка обучающей выборки.
Позже авторы предложили использовать одну и ту же функцию на всех итерациях, таким
образом, сформулировали задачу обучения как поиск сжимающего отображения, сходящегося
к верной разметке обучающей выборки [35]. Они провели теоретический анализ и сформули-
ровали условия, при которых логистическая регрессия является сжимающим отображением,
а также предложили метод обучения произвольной модели, гарантирующий сходимость к
неподвижной точке.
«Semantic texton forest» (STF) [3] — ещё одна модель, позволяющая учитывать контексту-
альные зависимости между метками в явном виде с помощью двух стадий последовательной
классификации. STF используется для категоризации и сегментации изображений. На пер-
вой стадии по локальным признакам пикселей оцениваются так называемые семантические
текстоны и априорные убеждения о метках регионов. На второй стадии пиксели класси-
фицируются с учётом выхода первой стадии, агрегированного по прямоугольным регионам
изображения. Априорные убеждения аналогичны убеждениям, который предлагаемый метод
получает на первой итерации, а прямоугольные регионы изображения аналогичны передат-
чикам пространственных д-факторов. На самом деле, в STF можно предложить использовать
больше двух итераций.
95
Модель «entanglement forest» [88] обобщает и автоконтекст, и STF. Новой является идея
использования контекстуальных зависимостей непосредственно в структуре элементарного
классификатора. Модель состоит из набора решающих деревьев. В узлах этих деревьев вы-
числяются признаки на основе предсказаний, сделанных вершинами на более высоких уров-
нях в соседних локациях. Аналогичная идея используется в модели «geodesic forest» [89].
Дальнодействующие зависимости в ней учитываются с помощью признаков мягкой связно-
сти, которые могут быть эффективно вычислены с помощью обобщённого преобразования
расстояний.
Модели «вещей и материалов» (англ. things and stuff, TAS) [90], также как и предложен-
ный метод, моделирует дальнодействующие зависимости в сцене, изучая их по данным. В
терминах этой статьи, вещи — объекты определённой формы, такие как люди или автомоби-
ли; а материалы — это аморфные регионы, характеризующиеся цветом и текстурой, такие
как дорога или трава. Авторы демонстрируют, как находить объекты, используя контекст
материалов. Они предполагают, что в сценах существуют значимые пространственные зави-
симости, такие как «автомобили паркуются примерно в 10 метрах от зданий», которое может
транслироваться в термины изображений как «обнаружение 𝑖 находится в 100 пикселях от
региона 𝑗». Модель материалов обучается без учителя, так что подобный вид зависимостей
можно рассматривать как частично семантический контекст. На этапе обучения генерирует-
ся избыточное множество возможных типов зависимостей, затем применяется структурный
EM-алгоритм для отбора значимых. В предлагаемом методе подобную функцию выполняет
𝐿1 -регуляризация.
Ещё одна связанная модель была предложена Дезаи и др. [91]. Она также служит для
обнаружения объектов, но моделирует контекстуальные зависимости только между вещами.
Также как и в TAS, генерируется избыточный набор обнаружений объектов. Над ними задаёт-
ся марковская сеть, переменные которой определяют категорию каждого из обнаружений (или
её отсутствие). Унарные потенциалы определяются как отклик детектора. Каждая пара обна-
ружений порождает ребро в марковской сети. Парные потенциалы моделируют, насколько ве-
роятно пара объектов данных категорий будет находиться в определённой пространственной
конфигурации. Эти конфигурации кодируют следующие взаимные расположения объектов:
‘далеко’, ‘близко’, ‘над’, ‘под’, ‘рядом’, ‘поверх’. Например, конфигурация ‘под’ означает, что
центр второго объекта находится строго ниже огибающего прямоугольника первого объекта.
Это идеологически похоже на то, как определяются пространственные д-факторы в предлага-
емом методе (см. раздел 4.3). Параметры парных потенциалов, регулирующие участие каждой
из конфигураций, подбирается автоматически с помощью структурного SVM (раздел 1.3.2).
Муноз и др. [92] предложили метод послойной иерархической разметки (англ. stacked
hierarchical labeling), который затем Хьон и др. [34] применили к сегментации трёхмерных
облаков точек. Последовательная классификация выполняется на последовательных уровнях
иерархической сегментации изображений, от грубого к тонкому. На каждом уровне выводится
распределение меток в каждом из регионов, оно же добавляется к признакам при определении
меток на более низком уровне иерархии. Контекстуальные зависимости могут быть учтены
96
с помощью добавления меток верхнего уровня, собранных в регионе выше и ниже данного
суперпикселя — это более простой аналог используемых здесь пространственных д-факторов.
Также к признакам добавляются усреднённые по всем суперпикселям изображения распреде-
ления меток с верхнего уровня, что позволяет учитывать глобальный контекст. Росс и др. [26]
дали интерпретацию последовательной классификации как вывода в произвольной марков-
ской сети, возможно с факторами высоких порядков. Рис. 4.1 объясняет отличие этого метода
от используемого нами.
Марковские сети со стандартными алгоритмами вывода могут использоваться для учёта
локального контекста, но не дальнодействующих связей — в этом случае вывод стал бы невоз-
можным из-за высокой вычислительной сложности. Например, при сегментации облаков то-
чек каждая точка может соединяться парными связями с 𝑘 ближайшими соседями, однако
𝑘 не может быть большим. Один из таких методов предложен в главе 3, там же дан обзор
релевантной литературы.
97
Таблица 4.3: Результаты экспериментов на офисных и жилых сценах. Показана оценка сколь-
зящего контроля микро- и макро-точности и макро-полноты после 5 итераций обучения.
STR: модель, в которой используются только структурные факторы. STR+SPAT: исполь-
зуются структурный и пространственные типы факторов с единичными коэффициентами.
STR+SPAT_C: используются структурный и пространственные типы факторов с настраи-
ваемыми коэффициентами, полученными максимизацией регуляризованной целевой функ-
ции (4.6), 𝐶 = 0.03.
мя способами: с помощью микро- и макроусреднения. Обе меры интересны, так как микро-
точность 𝑝 (также известная как аккуратность, англ. accuracy) недооценивает неправильную
разметку недостаточно представленных категорий, а макро-точность 𝑃 и макро-полнота 𝑅
учитывают все категории одинаково, независимо от их размера:
∑︀𝐾 ∑︀𝐾
𝑘=1 TP𝑘 𝑘=1 TP𝑘
𝑝 = ∑︀𝐾 = ∑︀𝐾 = 𝑟, (4.7)
𝑘=1 TP𝑘 + FP𝑘 TP𝑘 + FN𝑘
𝑘=1
𝐾 𝐾
1 ∑︁ TP𝑘 1 ∑︁ TP𝑘
𝑃 = , 𝑅= , (4.8)
𝐾 𝑘=1
TP𝑘 + FP𝑘 𝐾 𝑘=1 TP𝑘 + FN𝑘
98
(a) Исходное облако цветных (b) Результат с использованием (c) Результат с использованием
точек только структурных факторов структурных и пространствен-
ных факторов
99
0.2 0.6
test error test error 0.25
test error
0.5 training error
training error training error
0.15 0.2
accuracy
accuracy
accuracy
0.4
0.15
0.1 0.3
0.2 0.1
1
1
0.05
0.1 0.05
0 0 0
1 2 3 4 5 6 7 8 1 4 10 30 100 2 3 4 5 6
iteration number of trees in RF mean tree depth
Рисунок 4.5: Слева: эволюция ошибки на тестовой и на обучающей выборках на наборе офис-
ных данных при использовании 100 деревьев в ансамбле. Ошибка на обучении уменьшается,
при этом ошибка на тесте стабилизируется и затем начинает расти после 5–6 итераций из-за
эффекта переобучения. В центре: ошибка после 5 итераций в зависимости от числа деревьев
в ансамбле. Справа: Ошибка после 5 итераций в зависимости от средней глубины решающих
деревьев в ансамбле.
100
1.4 1.4
avg factor type weight avg factor type weight
1.2 1.2
rate of non null weights rate of non null weights
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
S Lo Td Fu D Lr Rr F T U S Lo Td Fu D Lr Rr F T U
(a) Веса для офисных данных (b) Веса для жилых данных
Рисунок 4.6: Веса типов факторов, усреднённые по факторам и итерациям, а также доля
ненулевых д-факторов каждого типа для офисных и жилых данных. Веса структурных (S) д-
факторов не обращаются в ноль, в то время как пространственные типы факторов ‘лево’ (Lr)
и ‘право’ (Rr) практически бесполезны. Это означает, например, что на столах обычно нет
устоявшегося порядка предметов.
чения (рис. 4.5). В течение всего процесса обучения точность с пространственными типами
факторов всегда выше, чем без них.
4.6 Выводы
В этой главе описан новый метод для семантической сегментации трёхмерных облаков
точек, основанный на методе машины вывода [26]. Метод способен в явном виде учитывать
семантический контекст. Он превосходит марковскую сеть, обученную структурным SVM [86]
как по качеству, так и по скорости сегментации. Описанный метод может применяться и
101
для других задач разметки, где существуют дальнодействующие зависимости, например, в
сегментации изображений.
102
Заключение
В данной работе предложены различные методы машинного обучения для задач совмест-
ной разметки. Они имеют определённые преимущества перед другими методами и друг перед
другом:
103
Список рисунков
104
2.2 Примеры пересегментации изображения и аннотации рамками. (a) Разбиение
изображения на суперпиксели и структура парно-сепарабельной марковской
сети. (b) Пример плотной и неплотной рамок для 𝑟 = 0.1. Рамка слева яв-
ляется 𝑟-плотной для класса ‘овца’, так как образ объекта «касается» каж-
дой из 4 сторон рамки. Рамка справа не является 𝑟-плотной, так как в реги-
оне [left(¯
𝑧 ), right(¯
𝑧 )] × [top(¯
𝑧 ), top(¯
𝑧 ) + 𝑟(bottom(¯
𝑧 ) − top(¯
𝑧 ))] нет пикселей кате-
гории ‘овца’. (c) Разбиение множества суперпикселей на подмножества. Крас-
ным показано множество 𝒱𝑘 , где 𝑘 соответствует категории ‘овца’, жёлтым
— 𝒱0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3 Пример разметки внутри рамки. Клетки соответствуют пикселям. Серые клет-
ки помечены меткой, равной метке рамки, белые — остальными метками. Раз-
метка не является плотной, так как верхняя строка и четыре левых столбца
— пустые. Таким образом, в функции потерь 5 ненулевых слагаемых, соответ-
ствующих этой рамке. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4 (a) Объект категории ‘самолёт’ аннотирован зерном. (b) Штраф за аннотацию
пикселя категорией, отличной от ‘самолёт’, гауссово убывающий в зависимо-
сти от расстояния от положения пикселя до положения зерна. Чем ярче пиксель
отмечен красным, тем больше соответствующий штраф. . . . . . . . . . . . . . 55
2.5 Точность (сплошные линии) и поклассовая полнота (штриховые линии) при
различных параметрах на наборе данных MSRC. (a) Изменение числа пол-
ностью размеченных изображений. Линии с круглыми маркерами показывают
точность на тестовой выборке, если используются только полностью размечен-
ные изображения, с треугольными — когда остальная часть обучающей выбор-
ки аннотирована метками изображений. (b) Изменение коэффициента слабой
функции потерь 𝛼. Линии с круглыми маркерами показывают точность сегмен-
тации, когда 40 изображений полностью размечены, с треугольными — когда
80 изображений; остальная часть обучающей выборки аннотирована метками
изображений. (c) Изменение коэффициента функции потерь 𝛽 для плотных ра-
мок (круглые маркеры) или зёрен объектов (треугольные маркеры). Все 276
изображений аннотированы метками изображений, а также все объекты анно-
тированы рамками или зёрнами, соответственно. . . . . . . . . . . . . . . . . . 61
2.6 F-мера категоризации документов EUR-lex в зависимости от доли полностью
размеченных документов (круглые маркеры), а также без полностью размечен-
ных документов (треугольные маркеры). . . . . . . . . . . . . . . . . . . . . . . 65
105
3.3 Результаты на части тестового облака точек из набора Аэро, на котором предло-
женный метод показывает высокую точность. Красный цвет соответствует ка-
тегории земля, чёрный — здание, зелёный — растительность. (a) Верная (руч-
ная) разметка. (b) Ансамбль рандомизированных деревьев, или только унарные
потенциалы. (c)–(d) Наивный Байес, без унарных потенциалов и с ними. (e)–(f)
Функциональный градиентный бустинг. (g)–(h) Метод секущей плоскости . . . 79
106
4.4 Пример сцены, в которой использование пространственных факторов улучшает
качество сегментации. Модель, использующая только структурные факторы (b)
неправильно классифицирует книгу (слева) и пол (справа), при этом модель,
в которой также присутствуют пространственные факторы (c) корректно сег-
ментирует всю сцену. Цветовое кодирование: ‘стена’, ‘пол’, ‘столешница’,
‘стул’, ‘монитор’, ‘клавиатура’, ‘верх компьютера’, ‘перед компьютера’,
‘торец компьютера’, ‘книга’. . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5 Слева: эволюция ошибки на тестовой и на обучающей выборках на наборе
офисных данных при использовании 100 деревьев в ансамбле. Ошибка на обу-
чении уменьшается, при этом ошибка на тесте стабилизируется и затем начи-
нает расти после 5–6 итераций из-за эффекта переобучения. В центре: ошибка
после 5 итераций в зависимости от числа деревьев в ансамбле. Справа: Ошиб-
ка после 5 итераций в зависимости от средней глубины решающих деревьев в
ансамбле. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.6 Веса типов факторов, усреднённые по факторам и итерациям, а также доля
ненулевых д-факторов каждого типа для офисных и жилых данных. Веса струк-
турных (S) д-факторов не обращаются в ноль, в то время как пространственные
типы факторов ‘лево’ (Lr) и ‘право’ (Rr) практически бесполезны. Это означает,
например, что на столах обычно нет устоявшегося порядка предметов. . . . . 101
107
Список таблиц
108
4.2 Унарные и парные признаки, используемые Коппулой и др. [86]. В описании
спектральных признаков 𝜆𝑣𝑖 означает 𝑖-е по величине собственное значение
матрицы ковариаций точек суперпикселя 𝑣, 𝑖 ∈ {1, 2, 3}. . . . . . . . . . . . . . 94
4.3 Результаты экспериментов на офисных и жилых сценах. Показана оценка
скользящего контроля микро- и макро-точности и макро-полноты после 5 ите-
раций обучения. STR: модель, в которой используются только структурные
факторы. STR+SPAT: используются структурный и пространственные типы
факторов с единичными коэффициентами. STR+SPAT_C: используются струк-
турный и пространственные типы факторов с настраиваемыми коэффициен-
тами, полученными максимизацией регуляризованной целевой функции (4.6),
𝐶 = 0.03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
109
Список алгоритмов
110
Литература
1. Szeliski Richard. Computer vision: algorithms and applications. New York, NY: Springer-
Verlag, 2010. URL: http://szeliski.org/Book.
2. Textonboost: Joint appearance, shape and context modeling for multi-class object recognition
and segmentation / Jamie Shotton, John Winn, Carsten Rother [и др.] // European Conference on
Computer Vision. 2006. С. 1–14. URL: http://jamie.shotton.org/work/publications/eccv06.pdf.
3. Shotton Jamie, Johnson Matthew, Cipolla Roberto. Semantic texton forests for image
categorization and segmentation // IEEE Conference on Computer Vision and Pattern
Recognition. 2008. June. URL: http://research.microsoft.com/pubs/117887/cvpr08.pdf.
4. Kohli Pushmeet, Torr Philip H.S. Measuring uncertainty in graph cut solutions //
Computer Vision and Image Understanding. 2008. URL: http://eprints.pascal-
network.org/archive/00006552/01/kt_cviu08_final.pdf.
7. Hoiem Derek, Efros Alexei, Hebert Martial. Putting Objects in Perspective // IEEE
Conference on Computer Vision and Pattern Recognition. 2006. С. 2137–2144. URL:
http://repository.cmu.edu/cgi/viewcontent.cgi?article=1282&context=robotics.
9. Geman Stuart, Geman Donald. Stochastic relaxation, Gibbs distributions, and the Bayesian
restoration of images // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1984.
№ 6. С. 721–741. URL: http://www.csee.wvu.edu/ xinl/library/papers/infor/Geman_Geman.pdf.
111
10. Roth Stefan, Black Michael J. Fields of Experts // International Journal of Computer Vision.
2009. January. Т. 82, № 2. С. 205–229. URL: http://cs.brown.edu/ black/Papers/rothIJCV09.pdf.
11. Discriminative Non-blind Deblurring / Uwe Schmidt, Carsten Rother, Sebastian Nowozin
[и др.] // IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: 2013.
URL: http://jancsary.net/wp-uploads/2013/04/schmidt_et_al_cvpr2013.pdf.
12. Brill Eric. A simple rule-based part of speech tagger // Conference on Applied Computational
Linguistics. Trento, IT: 1992. С. 112–116. URL: http://ucrel.lancs.ac.uk/acl/H/H92/H92-
1022.pdf.
13. Lafferty John, McCallum Andrew, Pereira Fernando C.N. Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data // International
Conference on Machine Learning. Т. 2001. 2001. С. 282–289. URL:
http://repository.upenn.edu/cis_papers/159.
15. Rabiner Lawrence R. A tutorial on hidden Markov models and selected applications
in speech recognition // Proceedings of the IEEE. 1989. Т. 77, № 2. С. 257–286. URL:
http://books.google.com/books?hl=en&lr=&id=iDHgboYRzmgC&oi=fnd&pg=PA
17. Yanover Chen, Schueler-Furman Ora, Weiss Yair. Minimizing and learning energy functions
for side-chain prediction // Journal of Computational Biology. 2008. September. Т. 15, № 7.
С. 899–911. URL: http://w3.cs.huji.ac.il/ yweiss/recomb07-final.pdf.
18. Bishop Christopher M. Pattern Recognition and Machine Learning / под ред. M Jordan,
J Kleinberg, B Schölkopf. Springer, 2006. Т. 4 из Information science and statistics. с. 738.
URL: http://www.library.wisc.edu/selectedtocs/bg0137.pdf.
19. Taskar Ben, Guestrin Carlos, Koller Daphne. Max-margin Markov networks // NIPS. 2003.
URL: http://books.nips.cc/papers/files/nips16/NIPS2003_AA04.pdf.
112
21. Tarlow Daniel, Zemel Richard S. Structured Output Learning with High Order Loss
Functions // International Conference on Artificial Intelligence and Statistics. 2012. URL:
http://www.cs.toronto.edu/ dtarlow/tarlow_zemel_aistats12.pdf.
22. Pletscher Patrick, Kohli Pushmeet. Learning low-order models for enforcing high-order
statistics // International Conference on Artificial Intelligence and Statistics. 2012. URL:
http://research.microsoft.com/en-us/um/people/pkohli/papers/pk_aistats2012.pdf.
23. Max-Margin Parsing / Ben Taskar, Dan Klein, Michael Collins [и др.] // Conference
on Empirical Methods on Natural Language Processing. Barcelona, Spain: 2004. URL:
http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Taskar.pdf.
24. Weiss David, Sapp Benjamin, Taskar Ben. Structured Prediction Cascades: Tech. Rep.: : 2012.
25. Tu Zhuowen. Auto-context and its application to high-level vision tasks // IEEE Conference
on Computer Vision and Pattern Recognition. Anchorage, AL: 2008. June. URL:
http://www.loni.ucla.edu/ ztu/publication/cvpr08_autocontext.pdf.
26. Learning Message-Passing Inference Machines for Structured Prediction / Stephane Ross,
Daniel Munoz, Martial Hebert [и др.] // IEEE Conference on Computer Vision
and Pattern Recognition. Colorado Springs, CO: 2011. С. 2737–2744. URL:
http://www.cs.cmu.edu/ sross1/publications/Ross-CVPR11.pdf.
28. Shapovalov Roman, Velizhev Alexander, Barinova Olga. Non-associative Markov networks for
3D point cloud classification // Photogrammetric Computer Vision and Image Analysis. Paris,
France: 2010. URL: http://shapovalov.ro/papers/Shapovalov-et-al-PCV2010.pdf.
31. Shapovalov Roman, Vetrov Dmitry, Kohli Pushmeet. Spatial Inference Machines // IEEE
Conference on Computer Vision and Pattern Recognition. Portland, OR: 2013. URL:
http://shapovalov.ro/papers/SIM-Shapovalov-et-al-CVPR2013.pdf.
32. Munoz Daniel, Vandapel Nicolas, Hebert Martial. Directional associative markov
network for 3-d point cloud classification // International Symposium on 3D
113
Data Processing, Visualization and Transmission. Atlanta, GA: 2008. URL:
http://www.cc.gatech.edu/conferences/3DPVT08/Program/Papers/paper200.pdf.
34. 3-D Scene Analysis via Sequenced Predictions over Points and Regions /
Xuehan Xiong, Daniel Munoz, J. Andrew Bagnell [и др.] // IEEE International
Conference on Robotics and Automation. Shanghai, China: 2011. URL:
http://www.cs.princeton.edu/courses/archive/spring11/cos598A/pdfs/Xiong11.pdf.
35. Fixed-Point Model For Structured Labeling / Quannan Li, Jingdong Wang, David Wipf
[и др.] // International Conference on Machine Learning. Atlanta, GA: 2013. URL:
http://research.microsoft.com/pubs/179821/icml_2013_final_dpw.pdf.
36. Murphy Kevin P. Machine learning: a probabilistic perspective. Cambridge, MA; London, UK:
The MIT Press, 2012. с. 1067. URL: http://dl.acm.org/citation.cfm?id=2380985.
37. Kohli Pushmeet, Kumar M.P., Torr P.H.S. P3 and Beyond: Solving
Energies with Higher Order Cliques // IEEE Conference on Computer
Vision and Pattern Recognition. Minneapolis, MN: 2007. URL:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.2624&rep=rep1&type=pdf.
38. Koller Daphne, Friedman Nil. Probabilistic graphical models: principles and
techniques. Cambridge, Massachusets: MIT Press, 2009. с. 1231. URL:
http://books.google.com/books?hl=en&lr=&id=7dzpHCHzNQ4C&oi=fnd&pg=PR
39. Dagum Paul, Luby Michael. Approximating probabilistic inference in Bayesian belief
networks is NP-hard // Artificial Intelligence. 1993. Т. 60. С. 141–153. URL:
http://commonsenseatheism.com/wp-content/uploads/2011/12/Dagum-Luby-Approximating-
probabilistic-inference-in-Bayesian-belief-networks-is-NP-hard.pdf.
40. A Comparative Study of Modern Inference Techniques for Discrete Energy Minimization
Problems / Jörg H. Kappes, Bjoern Andres, Fred A. Hamprecht [и др.] // IEEE Conference
on Computer Vision and Pattern Recognition. Portland, OR: 2013. URL: http://ipa.iwr.uni-
heidelberg.de/ipabib/Papers/Kappes-etal-cvpr-2013-benchmark.pdf.
114
and Pattern Recognition. Miami, FL: 2009. June. С. 2985–2992. URL:
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=5206846.
43. Kolmogorov Vladimir. Convergent tree-reweighted message passing for energy minimization //
IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006. Т. 28, № 10. С. 1568–
1583. URL: http://www.cs.ucl.ac.uk/staff/V.Kolmogorov/papers/TRW-S-PAMI.pdf.
44. Globerson Amir, Jaakkola TS. Fixing max-product: Convergent message passing
algorithms for MAP LP-relaxations // NIPS. Vancouver, Canada: 2007. URL:
http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_940.pdf.
45. Vetrov Dmitry, Osokin Anton, Kolmogorov Vladimir. Submodular Decomposition Framework
for Inference in Associative Markov Networks with Global Constraints // IEEE Conference
on Computer Vision and Pattern Recognition. Colorado Springs, CO: 2011. URL:
http://www.cs.ucl.ac.uk/staff/V.Kolmogorov/papers/OVK_CVPR11_SMD.pdf.
46. Kolmogorov Vladimir, Zabih Ramin. What energy functions can be minimized via graph cuts? //
IEEE Transactions on Pattern Analysis and Machine Intelligence. 2004. February. Т. 26, № 2.
С. 147–159. URL: http://www.ncbi.nlm.nih.gov/pubmed/15376891.
47. Boykov Yuri, Veksler Olga, Zabih Ramin. Fast approximate energy minimization via graph
cuts // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2001. Т. 23, № 11.
С. 1222–1239. URL: http://www.csd.uwo.ca/ yuri/Papers/pami01.pdf.
48. Kohli Pushmeet, Kumar M. Pawan. Energy minimization for linear envelope MRFs // IEEE
Conference on Computer Vision and Pattern Recognition. San-Francisco, CA: 2010. С. 1863–
1870. URL: http://research.microsoft.com/en-us/um/people/pkohli/papers/kk_cvpr2010.pdf.
49. Gould Stephen. Max-margin Learning for Lower Linear Envelope Potentials in Binary
Markov Random Fields // International Conference on Machine Learning. Bellevue,
WA: 2011. URL: http://users.cecs.anu.edu.au/ sgould/papers/icml11-linEnvLearning.pdf
http://users.cecs.anu.edu.au/ sgould/papers/talk-ICML-2011.pdf.
50. Kohli Pushmeet, Ladicky Lubor, Torr Philip H.S. Robust higher order potentials for enforcing
label consistency // International Journal of Computer Vision. 2009. Т. 82, № 3. С. 302–324.
URL: http://research.microsoft.com/en-us/um/people/pkohli/papers/klt_IJCV09.pdf.
51. Associative hierarchical CRFs for object class image segmentation / L’ubor Ladický,
Chris Russell, Pushmeet Kohli [и др.] // IEEE International Conference on Computer Vision.
Kyoto, Japan: 2009. URL: http://www.robots.ox.ac.uk/ lubor/iccv09.pdf.
52. Fast Approximate Energy Minimization with Label Costs / Andrew Delong, Anton Osokin,
Hossam N. Isack [и др.] // International Journal of Computer Vision. 2012. July. Т. 96, № 1.
С. 1–27. URL: http://www.csd.uwo.ca/ adelong3/pub/ijcv2011-labelcosts-preprint.pdf.
115
53. Anstreicher Kurt M., Wolsey Laurence A. Two “well-known” properties of subgradient
optimization // Mathematical Programming. 2007. June. Т. 120, № 1. С. 213–220. URL:
http://link.springer.com/10.1007/s10107-007-0148-y.
55. Shalev-Shwartz Shai, Singer Yoram, Srebro Nathan. Pegasos: Primal estimated sub-gradient
solver for svm // International Conference on Machine Learning. Corvallis, OR: 2007.
С. 807–814. URL: http://machinelearning202.pbworks.com/f/stochasticSubGradient-shalev-
shwartz.pdf.
56. Efficient backprop / Yann LeCun, Leon Bottou, Genevieve B. Orr [и др.] // Neural Networks:
Tricks of the Trade. 1998. URL: http://link.springer.com/chapter/10.1007/3-540-49430-8_2.
58. Boosting Structured Prediction for Imitation Learning for Imitation Learning / Nathan Ratliff,
David Bradley, J. Andrew Bagnell [и др.] // NIPS. Vancouver, Canada: 2007. URL:
http://repository.cmu.edu/cgi/viewcontent.cgi?article=1053&context=robotics.
59. Decision Tree Fields / Sebastian Nowozin, Carsten Rother, Shai Bagon [и др.] //
IEEE International Conference on Computer Vision. Barcelona, ES: 2011. URL:
http://www.wisdom.weizmann.ac.il/ bagon/pub/DTF_iccv2011.pdf.
116
63. Learning specific-class segmentation from diverse data / M. Pawan Kumar, Haithem Turki,
Dan Preston [и др.] // IEEE International Conference on Computer Vision. 2011. November.
С. 1800–1807. URL: http://ai.stanford.edu/ pawan/publications/KTPK-ICCV2011.pdf.
64. Lou Xinghua, Hamprecht Fred A. Structured Learning from Partial Annotations // International
Conference on Machine Learning. 2012. URL: http://icml.cc/2012/papers/753.pdf.
65. Yu Chun-Nam John, Joachims Thorsten. Learning structural SVMs with latent variables //
International Conference on Machine Learning. Montreal, Canada: 2009. URL:
http://www.cs.cornell.edu/ cnyu/papers/icml09_latentssvm.pdf.
66. Yuille A.L., Rangarajan Anand. The concave-convex procedure (CCCP) // NIPS. 2002. URL:
http://books.nips.cc/papers/files/nips14/AA66.pdf.
68. Taskar Ben, Chatalbashev Vassil, Koller Daphne. Learning associative Markov networks //
International Conference on Machine Learning. Banff, Alberta, Canada: 2004. С. 102–109.
URL: http://www.seas.upenn.edu/ taskar/pubs/mmamn.pdf.
69. Rapid and accurate large-scale coestimation of sequence alignments and phylogenetic trees. /
Kevin Liu, Sindhu Raghavan, Serita Nelesen [и др.] // Science (New York, N.Y.). 2009. June.
Т. 324, № 5934. С. 1561–4. URL: http://www.ncbi.nlm.nih.gov/pubmed/19541996.
70. Tighe Joseph, Lazebnik Svetlana. SuperParsing: Scalable Nonparametric Image Parsing with
Superpixels // European Conference on Computer Vision. Heraklion, Grece: 2010. URL:
http://www.cs.unc.edu/ jtighe/Papers/ECCV10/eccv10-jtighe.pdf.
73. Vedaldi Andrea, Zisserman Andrew. Efficient Additive Kernels via Explicit Feature Maps //
IEEE Conference on Computer Vision and Pattern Recognition. San-Francisco, CA: 2010.
July. URL: http://www.robots.ox.ac.uk/ vgg/publications/papers/vedaldi10.pdf.
117
74. Felzenszwalb Pedro F., Huttenlocher Daniel P. Efficient Graph-Based Image Segmentation //
International Journal of Computer Vision. 2004. September. Т. 59, № 2. С. 167–181. URL:
http://cvcl.mit.edu/SUNSeminar/Felzenszwalb_IJCV04.pdf.
75. Mencia Eneldo Loza, Fuerkranz Johannes. Efficient Multilabel Classification Algorithms
for Large-Scale Problems in the Legal Domain // Semantic Processing of Legal
Texts. Berlin, Heidelberg, 2010. Т. 6036. С. 192–215. URL: http://www.ke.tu-
darmstadt.de/publications/papers/loza10eurlex.pdf.
76. Finley Thomas, Joachims Thorsten. Training Structural SVMs when Exact Inference is
Intractable // International Conference on Machine Learning. New York, NY: 2008. С. 304–311.
URL: http://www.joachims.org/publications/finley_joachims_08a.pdf.
77. Instance-based AMN Classification for Improved Object Recognition in 2D and 3D Laser
Range Data / R. Triebel, R. Shmidt, O.M. Mozos [и др.] // International Joint Conference on
Artificial Intelligence. Hyderabad, India: 2007. С. 2225–2230. URL: http://www.informatik.uni-
freiburg.de/ omartine/publications/triebel2007ijcai.pdf.
81. Knopp Jan, Prasad Mukta, Van Gool Luc. Scene cut: Class-specific object detection and
segmentation in 3D scenes // IEEE International Conference on 3D Digital Imaging, Modeling,
Processing, Visualisation and Transmittion. 2011. С. 180–187.
82. Velizhev Alexander, Shapovalov Roman, Schindler Konrad. Implicit shape models for object
detection in 3D point clouds // ISPRS Congress. Melbourne, Australia: 2012. URL:
http://shapovalov.ro/papers/ISM-Velizhev-et-al-ISPRS2012.pdf.
83. Guttman Antonin. R-trees: A dynamic index structure for spatial searching // ACM SIGMOD
International Conference on Management of Data. ACM New York, NY, USA, 1984. С. 47–57.
URL: http://www.postgis.org/support/rtree.pdf.
118
84. Sun Yanmin, Kamel Mohamed S., Wang Yang. Boosting for learning multiple classes with
imbalanced class distribution // IEEE International Conference on Data Mining. 2006. С. 592–
602. URL: http://people.ee.duke.edu/ lcarin/ImbalancedClassDistribution.pdf.
85. Krähenbühl Philipp, Koltun Vladlen. Efficient inference in fully connected crfs with gaussian
edge potentials // NIPS. Granada, ES: 2011. С. 1–9. URL: http://arxiv.org/abs/1210.5644.
86. Semantic Labeling of 3D Point Clouds for Indoor Scenes / Hema Swetha Koppula,
Abhishek Anand, Thorsten Joachims [и др.] // NIPS. Granada, ES: 2011. URL:
http://pr.cs.cornell.edu/sceneunderstanding/nips_2011.pdf.
87. Breiman Leo. Random forests // Machine Learning. 2001. Т. 45, № 1. С. 5–32. URL:
http://www.springerlink.com/index/U0P06167N6173512.pdf.
88. Entangled decision forests and their application for semantic segmentation of
CT images / Albert Montillo, Jamie Shotton, John Winn [и др.] // International
Conference on Information Processing in Medical Imaging. 2011. URL:
http://research.microsoft.com/pubs/146430/Criminisi_IPMI_2011c.pdf.
89. GeoF: Geodesic Forests for Learning Coupled Predictors / Peter Kontschieder, Pushmeet Kohli,
Jamie Shotton [и др.] // IEEE Conference on Computer Vision and Pattern Recognition.
Portland, OR: 2013. URL: http://research.microsoft.com/pubs/184825/geoForests_final.pdf.
90. Heitz Geremy, Koller Daphne. Learning spatial context: Using stuff to find things // European
Conference on Computer Vision. Marseille, France: Springer, 2008. С. 30–43. URL:
http://robotics.stanford.edu/ koller/Papers/Heitz%2BKoller:ECCV08.pdf.
92. Munoz Daniel, Bagnell J. Andrew, Hebert Martial. Stacked hierarchical labeling //
European Conference on Computer Vision. Heraklion, Grece: 2010. URL:
http://www.ri.cmu.edu/pub_files/2010/9/munoz_eccv_10.pdf.
119