Shapovalov Thesis

Московский государственный университет имени М. В.
Ломоносова
На правах рукописи
УДК 519.24
Шаповалов Роман Викторович
Методы структурного обучения в задачах совместной разметки
Специальность 01.01.09 —
«Дискретная математика и математическая кибернетика»
Диссертация на соискание учёной степени

кандидата физико-математических наук
Научный руководитель:
к. ф.-м. н.
Ветров Дмитрий Петрович
Москва – 2014
Содержание
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1 Ненаправленные графические модели и структурное обучение . . . . . . . . . . 12

1.1 Марковские сети и связанные задачи . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Алгоритмы вывода MAP-оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.1 Как задача математического программирования . . . . . . . . . . . . . . 16
1.2.2 Передача сообщений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.3 Двойственное разложение . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Разрезы на графах . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Обучение марковских сетей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.1 Максимизация правдоподобия и его приближений . . . . . . . . . . . . . 28
1.3.2 Максимизация отступа . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.3.3 Обучение нелинейных моделей . . . . . . . . . . . . . . . . . . . . . . . 36
2 Использование различных типов аннотации обучающей выборки . . . . . . . . 39

2.1 Обучение со слабыми аннотациями . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.1 Обобщённый SSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.2 Обобщённый SSVM и максимизация неполного правдоподобия . . . . . 43
2.2 Типы аннотаций для обучения сегментации изображений . . . . . . . . . . . . . 46
2.2.1 Обучение сегментации по полной разметке . . . . . . . . . . . . . . . . . 48
2.2.2 Учёт аннотации метками изображений . . . . . . . . . . . . . . . . . . . 50
2.2.3 Плотные рамки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2.4 Зёрна объектов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3 Обучение категоризации документов по слабой аннотации . . . . . . . . . . . . 56
2.4 Обзор литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.5.1 Наборы данных, детали реализации, критерии качества . . . . . . . . . 59
2.5.2 Метки изображений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.5.3 Добавление рамок и зёрен . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.4 Категоризация документов . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.6 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Структурное обучение неассоциативных марковских сетей . . . . . . . . . . . . . 66

3.1 Неассоциативная марковская сеть для сегментации облаков точек . . . . . . . . 67
2
3.2 Функция потерь для несбалансированных категорий . . . . . . . . . . . . . . . 69
3.3 Нелинейные ядра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3.1 Двойственная формулировка структурного SVM . . . . . . . . . . . . . . 70
3.3.2 Ядровой переход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.1 Детали реализации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.2 Наборы данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5.3 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.5.4 Обсуждение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.6 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4 Использование пространственного контекста при последовательной классифи-

кации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.1 Машина вывода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2 Пространственная машина вывода . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2.1 Описание модели и вывода в ней . . . . . . . . . . . . . . . . . . . . . . 85
4.2.2 Пространственные и структурные д-факторы . . . . . . . . . . . . . . . 88
4.2.3 Обучение модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3 Детали реализации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.1 Структура модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.2 Обучение предикторов сообщений и их признаки . . . . . . . . . . . . . 93
4.5 Результаты экспериментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.5.1 Данные и постановка эксперимента . . . . . . . . . . . . . . . . . . . . . 97
4.5.2 Качество сегментации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.5.3 Вычислительная сложность и число итераций . . . . . . . . . . . . . . . 100
4.5.4 Анализ пространственных типов факторов . . . . . . . . . . . . . . . . . 101
4.6 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Список таблиц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Список алгоритмов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3
Введение
Задачей машинного обучения с учителем является восстановление функциональной зави-

симости между случайными величинами 𝑋 и 𝑌 по обучающей выборке {(𝑥𝑗 , 𝑦 𝑗 )}𝐽𝑗=1 . В клас-
сической постановке задачи 𝑌 является скалярной случайной величиной, а пары (𝑥𝑗 , 𝑦 𝑗 ) полу-
чаются независимой выборкой из генеральной совокупности. Это позволяет прогнозировать
значение 𝑦 лишь по соответствующему значению 𝑥. Однако во многих практических зада-
чах это предположение о независимости не выполняется. Тогда моделирование зависимости
между реализациями 𝑌 позволяет повысить качество предсказания. Для этого необходимо
принимать решение о значениях 𝑦 𝑗 совместно. Приведём несколько примеров таких задач из
разных областей.
Компьютерное зрение. Одной из центральных задач компьютерного зрения является се-

мантическая сегментация — одновременное распознавание категорий объектов сцены и их
сегментация [1, §14.4.3]. В семантической сегментации изображений каждому пикселю изоб-
ражения назначается одна из семантических категорий [2–4]. В семантической сегментации
облаков точек, полученных лазерным сканированием или сшиванием карт глубины, каждой
точке поверхности ставится в соответствие метка категории [5, 6]. При этом категории пред-
ставляют собой сущности реального мира, такие как ‘земля’, ‘небо’, ‘велосипед’, ‘стол’, ‘кни-
га’, и т.д. Соседние пиксели или точки могут быть предварительно сгруппированы в суперпик-
сели. Получение качественной семантической сегментации — значительный шаг к решению
задачи понимания сцены. В данной работе эксперименты проводятся в основном с семанти-
ческой сегментацией.
Родственной является задача оценки геометрии сцены по одному изображению [6, 7].
Предполагается, что оно представляет собой фотографию городской сцены, где могут при-
сутствовать земля и небо, а между ними находятся в основном вертикальные поверхности,
такие как стены домов. Каждому пикселю изображения необходимо сопоставить метку одной
из категорий ‘земля’, ‘небо’, ‘вертикаль’. Подобная информация позволяет делать выводы о
трёхмерной геометрии сцены и помогает решать более высокоуровневые задачи, такие как
распознавание пешеходов или пострение трёхмерной модели сцены.
Другая задача — определение диспаритетов пикселей через поиск соответствий в стереопа-
ре — паре изображений, снятых с соседних ракурсов [8]. При определённых условиях найден-
ные диспаритеты можно использовать для однозначного определения глубины точек сцены.
4
В задачах низкоуровневой обработки изображений, в частности, в обратных задачах вос-
становления изображений, также необходимо учитывать зависимость между исходными яр-
костями пикселей, для чего часто моделируют априорное распределение над изображениями.
В задаче шумоподавления [9, 10] восстановленное значение цвета пикселя должно соответ-
ствовать цвету окружения. В задаче устранения размытости [11] также можно стремиться
получить характерные именно для реальных фотографий локальные участки изображения.
Вычислительная лингвистика. В задаче определения частей речи необходимо учитывать

семантический контекст, то есть предсказанные части речи для соседних слов [12,13]. Напри-
мер, английское слово ‘run’ может быть глаголом, существительным, или прилагательным, а
‘to’ — частицей, предлогом или наречием: без контекста часть речи нельзя определить точно.
На стыке вычислительной лингвистики и компьютерного зрения находится задача рас-
познавания символов (англ. optical character recognition, OCR) [14]. В случае, если качество
сканированного текста невысокое, или при распознавании рукописного текста, использование
контекста повышает надёжность распознавания. Точно так же учёт контекста необходим при
распознавании речи [15].
Биоинформатика. При поиске генов, кодирующих данный белок, также необходимо учи-
тывать контекст [16]. Участки экзонов и интронов в ДНК имеют некоторые инвариантные
характеристики, которые невозможно моделировать на локальном уровне.
В задаче определения структуры белка́ требуется определить конформации боковых це-
пей. Конформация одной цепи состоит из 4 или менее переменных, описывающих простран-
ственные углы, которые можно дискретизовать. Конформации соседних цепей зависят друг
от друга из-за образования нековалентных связей между ядрами участвующих в них атомов.
Поэтому конформации соседних цепей нужно определять совместно [17].
Приведённые выше задачи с математической точки зрения являются задачами совместной

разметки. По признаковому описанию объекта x ∈ 𝒳 необходимо получить разметку — век-
тор y ∈ 𝒴 из 𝑉 меток [𝑦𝑣 ]𝑉𝑣=1 , элементы которого 𝑦𝑣 ∈ 𝒦 = {1, . . . , 𝐾}. Вектор x может
состоять из объёдинения признаков 𝑥𝑣 , а также содержать признаки их взаимодействия. На-
пример, в задаче семантической сегментации изображений описание объекта x может вклю-
чать в себя признаки суперпикселей (такие как признаки цвета, текстуры, формы), а также
признаки подмножеств суперпикселей, описывающие специфичные для всей группы взаимо-
действия (например, расстояние между парой суперпикселей). Ответом являются значения
меток суперпикселей 𝑦𝑣 , которым назначается один из элементов множества меток категорий
𝒦. В более общем случае, когда y представляет собой произвольный комбинаторный объект,
применение функции 𝑓 : 𝒳 → 𝒴 называется структурным предсказанием (англ. structural
prediction), а задача восстановления такой функции по выборке {(x𝑗 , y𝑗 )}𝐽𝑗=1 — структурным
обучением (англ. structural learning, или structured-output learning).
Для решения задачи структурного обучения можно искать функцию совместного распреде-
ления в параметрическом виде, максимизируя правдоподобие 𝐽𝑗=1 P(x𝑗 , y𝑗 | w) по парамет-
∏︀
5
рам w. Такой подход называется порождающим (англ. generative) [18, §1.5.4]. Его недостат-
ком является необходимость моделировать распределение на признаки объектов x, которые
могут быть непрерывными и многомерными. Зная совместное распределение, можно порож-
дать новые пары (x, y), однако это само по себе не требуется для структурного предсказания.
Поэтому на практике чаще используется разделяющий (англ. discriminative) подход, в рамках
которого максимизируется условное правдоподобие 𝐽𝑗=1 P(y𝑗 | x𝑗 , w). Получив оценку мак-
∏︀
симального правдоподобия на параметры wML , структурное предсказание можно выполнять,

получая моду апостериорного распределения на y для нового объекта x:
𝑓 (x) ≡ argmax P(ȳ | x, wML ). (1)

ȳ∈𝒴
Если восстановление распределения необходимо только для поиска моды, можно ещё бо-
лее упростить модель. Значение функции распределения для неправильной метки ȳ может
быть любым, лишь бы оно было достаточно малым. Значит, для каждого объекта x можно
стремиться максимизировать отступ между значением плотности для верной метки y и второй
после неё:
log P(y | x, w) − max log P(ȳ | x, w) → max . (2)
ȳ̸=y w
На практике такая точечная оценка для вероятности «негативных» примеров может упростить
процесс обучения. Кроме этого, важным преимуществом такого подхода является возмож-
ность учитывать функции потерь, специфичные для задачи. В то время как максимизация
правдоподобия считает все неправильные метки одинаково плохими, небольшие отклонения
часто допустимы на практике. Например, в задаче семантической сегментации неправиль-
ная разметка небольшого числа пикселей является нежелательной, но не критичной. Поэтому
предлагается делать допустимый отступ зависимым от отклонения разметки. Если пользова-
тель задаёт функцию отклонения Δ(ȳ, y), то целевая функция для объекта обучающей выбор-
ки (x, y) выглядит следующим образом:
log P(y | x, w) − max {log P(ȳ | x, w) + Δ(ȳ, y)} → max . (3)

ȳ̸=y w
Такой метод называется структурным обучением на основе максимизации отступа (ан-

гл. max-margin learning) [19], или структурным методом опорных векторов (англ. structural
support vector machine, SSVM) [20]. Классическим способом задания функции Δ для задач
разметки является расстояние Хэмминга: Δ(ȳ, y) = 𝑉𝑣=1 J¯
∑︀
𝑦𝑣 ̸= 𝑦𝑣 K, однако в последнее время
появилось много исследований по заданию нетрадиционных функций потерь [21, 22]. Более
формальное обоснование метода, а также целевая функция для выборки, состоящей из более
чем одного объекта, приведены в разделе 1.3.2.
Следует заметить, что хотя задачи разметки и представляют собой широкий класс задач
структурного предсказания, они их не исчерпывают. Например, задача синтаксического раз-
бора предложений [23] имеет на выходе дерево разбора, которое естественным образом не
описывается дискретным вектором. В данной работе мы концентрируемся именно на задачах
6
разметки, потому что предсказание может моделироваться с помощью хорошо разработанно-
го математического аппарата ненаправленных графических моделей. Более подробный обзор
графических моделей и структурного обучения приведён в главе 1.
Недостатком описанного выше подхода является большая вычислительная сложность как
на этапе обучения, так и на этапе предсказания. Были предприняты попытки создать кас-
кадную систему структурного предсказания, в которой точностью можно жертвовать ради
скорости предсказания [24]. Альтернативный подход заключается в использовании последова-
тельной классификации. Алгоритм «автоконтекст» [25] применяет простые классификаторы,
чтобы оценивать метки на основе меток других переменных. На практике он имеет неболь-
шую временну́ю сложность и позволяет учитывать контекст, однако в отличие от предыдущих
методов он не обоснован теоретически (то есть, алгоритм обучения нельзя представить в виде
минимизации некоторой целевой функции). Росс и др. [26] интерпретировали последователь-
ную классификацию как обобщение алгоритма передачи сообщений в фактор-графе, однако
это не добавило теоретических гарантий. Тем не менее, сравнительно небольшая вычисли-
тельная сложность обучения и предсказания, а также высокая гибкость модели, позволяют
рассматривать алгоритмы на основе последовательной классификации как один из мощных
подходов к задаче совместной разметки. Более подробный обзор связанных методов дан в
разделе 4.4.
Целью данной работы является сокращение требований, предъявляемых к аннотации обуча-

ющей выборки, повышение точности и скорости работы методов структурного обучения для
решения задач совместной разметки. Описываемые методы могут быть применены к любым
задачам совместной разметки. В иллюстративных целях и при проведении экспериментов в
данной работе в основном исследуется применимость методов к задачам семантической сег-
ментации.
Для достижения поставленной цели были решены следующие задачи:
1. Исследована формулировка задачи структурного обучения, при которой часть обуча-
ющей выборки размечена не полностью, а известны лишь некоторые статистики раз-
метки (слабая аннотация), такие как множество присутствующих меток. Предложе-
на общая схема построения функций потерь структурного SVM для объектов, полная
разметка которых недоступна, описаны несколько специальных функций потерь для
конкретных видов слабой аннотации, а также методика их комбинирования в рамках
одной оптимизационной задачи. Для этих специализаций предложены алгоритмы оп-
тимизации, необходимые для структурного обучения. Экспериментально показано, что
использование слабой аннотации позволяет повысить точность распознавания в зада-
чах семантической сегментации изображений и определения тэгов (ключевых слов из
фиксированного списка) текстовых документов [27].
2. Исследованы модификации структурного метода опорных векторов, позволяющие обу-

чать более гибкую графическую модель. В частности, использован аппарат неассоциа-
тивных марковских сетей, позволяющий учитывать отрицательные корреляции между
7
переменными, который ранее редко использовался из-за трудностей при оптимизации
функционала. Принципиальная возможность их применимости была показана с помо-
щью эвристического способа обучения потенциалов [28, 29], затем для обучения был
применён структурный метод опорных векторов [30]. В этой работе также исследова-
на возможность ядерного перехода в структурном SVM и применение аналога гауссова
ядра, а также предложена модификация функции потерь, позволяющая обучаться на
данных с выраженным дисбалансом категорий. Результаты экспериментов на задаче се-
мантической сегментации трёхмерных облаков точек, полученных лазерным сканирова-
нием, показывают, что эти модификации позволяют настраивать более точную модель.
3. Исследованы методы последовательной классификации для задач разметки. Предложен

метод обучения последовательной классификации, позволяющий учитывать априорные
знания о структуре пространственных зависимостей между метками в задаче семанти-
ческой сегментации. Экспериментальная проверка показала, что этот приём позволяет
учитывать пространственный контекст, что ведёт к повышению качества сегментации
трёхмерных облаков точек, полученных регистрацией карт глубины [31].
Актуальность и новизна. Подходы на основе структурного метода опорных векторов и по-

следовательной классификации активно используются научным сообществом для решения
задач совместной разметки (см. например [5, 32–35]). При этом используемые модели явля-
ются довольно грубыми. С увеличением размера обучающей выборки растёт актуальность
использования более гибких моделей, многие из которых были до сих пор не исследованы. В
данной диссертации исследуются модификации существующих моделей, в частности, обоб-
щается формулировка структурного метода опорных векторов для учёта различных типов
слабоаннотированных и полностью размеченных объектов обучающей выборки, обобщается
традиционно используемый аппарат ассоциативных марковских сетей, предлагаются новые
эмпирические функции потерь и гауссова ядровая функция для структурного метода опорных
векторов. Предлагается новый аппарат д-факторов для учёта контекстуальных зависимостей
в моделях последовательной классификации. Экспериментальная валидация показывает, что
рассмотренные модификации позволяют достичь цели диссертационной работы — повыше-
ния точности и скорости работы соответствующих методов, а также снижения требований к
обучающей выборке.
Апробация результатов. Основные результаты работы докладывались и обсуждались на

конференции по фотограмметрическому компьютерному зрению и анализу изображений
«PCV 2010» (г. Париж, Франция), на конференции по трёхмерному моделированию и обработ-
ке, визуализации и передаче трёхмерных изображений «IEEE 3DIMPVT 2011» (г. Ханчжоу, Ки-
тай), на конференциях по интеллектуализации обработки информации «ИОИ 2012» (г. Будва,
Черногория) и математическим методам распознавания образов «ММРО 2013» (г. Казань),
на конференции по компьютерному зрению и распознаванию образов «IEEE CVPR 2013»
8
(г. Портлэнд, Орегон, США). Основные результаты по теме диссертации изложены в 7 на-
учных публикациях.
Основные положения, выносимые на защиту:
∙ методы, обобщающие структурный SVM для обучения нелинейной неассоциативной

марковской сети по слабоаннотированным данным, а также метод, позволяющий учи-
тывать дальнодействующие пространственные зависимости при последовательной клас-
сификации;
∙ методика назначения функций потерь структурного SVM, учитывающих особенности

обучающей выборки;
∙ экспериментальная апробация предложенных методов, сравнение точности и скорости

работы с существующими методами.
Объём и структура работы. Диссертация состоит из введения, четырёх глав и заключения.

Полный объём диссертации составляет 119 страниц с 19 рисунками, 8 таблицами и 5 листин-
гами алгоритмов. Список литературы содержит 92 наименования. В следующей главе изложе-
ны основные факты теории ненаправленных графических моделей и структурного обучения.
В последующих главах изложен новый материал: в главе 2 описана методика обучения струк-
турного классификатора по выборке с различными типами аннотации; в главе 3 описан метод
решения задач разметки на основе неассоциативных марковских сетей, обучаемых нелиней-
ным структурным SVM с функцией потерь, учитывающей дисбаланс категорий; в главе 4
описана адаптация последовательной классификации для учёта пространственного контекста
в задаче семантической сегментации.
Нотация. Переменные обозначаются буквами латинского или греческого алфавитов. Скаляр-

ные переменные набраны курсивом, векторы — прямым полужирным начертанием, множества
— каллиграфическим. Элементы вектора обозначаются с помощью нижнего или верхнего ин-
декса или круглых скобок, например, 𝑖-й элемент вектора a может быть обозначен 𝑎𝑖 , 𝑎𝑖
или 𝑎(𝑖). Для преобразования логических выражений используются скобки Айверсона:
{︃
1, если 𝑏 верно,
J𝑏K = (4)
0, иначе.
Знак «∝» означает равенство с точностью до постоянного мультипликативного коэффициен-

та (пропорциональность). Основные используемые в тексте диссертации обозначения собра-
ны в таблице 1.
Благодарности. Автор выражает благодарность своему научному руководителю Дмитрию

Петровичу Ветрову, коллегам по факультету ВМК МГУ, в частности, Ольге Бариновой, Алек-
сандру Велижеву, Антону Конушину, Антону Осокину, а также Пушмиту Коли.
9
Таблица 1: Символы, используемые в тексте диссертации
символ значение
𝛼𝑡𝑛 Коэффициент, соответствующий вкладу типа факторов 𝑡 на итерации 𝑛
𝛼Ȳ Целевая переменная в двойственной формулировке SSVM
𝛽 Параметр, контролирующий вклад за неплотность рамок
𝛾 Ширина гауссова ядра
𝛾𝑛 Размер шага (суб)градиентного метода на 𝑛-й итерации
Δ(ȳ, y) Функция потерь для разметки ȳ относительно корректной разметки y
K(ȳ; z) Функция потерь для разметки ȳ относительно корректной аннотации z
𝜆 Множители Лагранжа в формулировке двойственного разложения
𝜇𝑓 →𝑣 Сообщение из фактора в вершину
𝜇𝑣→𝑓 Сообщение из вершины в фактор
𝜈𝑝𝑧¯ Штраф за пустоту строки 𝑝 рамки 𝑧¯
𝜎𝑘 Оценка числа пикселей категории 𝑘 в функции потерь для плотных рамок
𝜏𝑘 Оценка числа пикселей категории 𝑘 в функции потерь для зёрен
𝜏 Релаксация переопределённого представления конфигурации y
ϒ Переопределённое представление конфигурации y
Φ𝑓 (y𝒞𝑓 ) Фактор распределения Гиббса над элементами 𝒞𝑓
𝜑𝑓 (y𝒞𝑓 ) Потенциал клики 𝒞𝑓 в марковской сети
𝜓 𝑡 (y𝒞𝑓 ; x𝑓 ) Вектор обобщённых признаков фактора типа 𝑡 над 𝒞𝑓
𝜓(y; x) Суммарный вектор обобщённых признаков объекта x
𝜔𝑞𝑧¯ Штраф за пустоту столбца 𝑞 рамки 𝑧¯
b𝑣 Вектор убеждений о значении 𝑦𝑣
𝐶 Гиперпараметр SSVM, контролирующий силу регуляризации
𝒞𝑓 Подмножество индексов вершин марковской сети (суперпикселей)
𝑐𝑣 Площадь 𝑣-го суперпикселя
𝑑𝑓 Приёмник д-фактора 𝑓
𝐸(y) Энергия марковской сети на конфигурации y
𝐸 𝑖 (𝜇) Энергия в 𝑖-й подзадаче при двойственном разложении
ℰ Множество индексов рёбер парно-сепарабельной марковской сети
𝐹 Количество факторов в распределении Гиббса
ℱ Набор частей множества д-факторов обучающей выборки f
f Часть множества д-факторов обучающей выборки
g𝑛 Функция-предиктор на 𝑛-й итерации последовательной классификации
g(w) Градиент целевой функции SSVM по её параметрам
𝐻(Ȳ, Ỹ) Скалярное произведение обобщённых признаков
𝐼 Количество слабоаннотированных объектов
𝐽 Число объектов в обучающей выборке
𝐾 Количество меток категорий — компонентов разметки, |𝒦|
𝒦 Множество индексов меток категорий — компонентов разметки
10
Таблица 1: Символы, используемые в тексте диссертации
символ значение
𝒦 b , 𝒦p , 𝒦a Разбиение множества категорий в определении рамочной функции потерь
𝑘˙ Метка категории при аннотации зёрнами
ℒ(ȳ, y) Штраф за неправильную разметку
𝐿(z) Подмножество разметок y, совместных со слабой аннотацией z
𝐿(𝜆, {𝜇 ¯ 𝑖 }) Функция Лагранжа в формулировке двойственного разложения
𝑁 Число итераций в машинах вывода и градиентных методах
p = (𝑝, 𝑞) Координаты пикселя изображения
p𝑡 Трёхмерные координаты 𝑡-й точки облака
ṗ Координаты зерна при аннотации зёрнами
𝑄 Ядровая функция в нелинейном SSVM
𝑟𝑘 Штраф за неправильную классификацию суперпикселя категории 𝑘
𝒮𝑓 Передатчик д-фактора 𝑓
𝑠𝑘 Оценка числа пикселей категории 𝑘 в слабой функции потерь
𝒯 Множество типов факторов
𝑇 Число точек в облаке
𝑡(𝑓 ) Тип фактора 𝑓
𝒱 Множество индексов вершин марковской сети
𝑉 Число вершин марковской сети (суперпикселей), |𝒱|
𝑣, 𝑢 Индексы вершин марковской сети
𝑣(p) Функция, возвращающая номер суперпикселя, включающего p
w Вектор параметров модели (весов)
𝒳 Множество возможных признаковых описаний
x𝑗 Признаковое описание 𝑗-го объекта выборки
X Конкатенация признаков всех объектов выборки
xv𝑣 Признаковое описание 𝑣-й вершины объекта x
xe𝑣𝑢 Признаковое описание ребра (𝑣, 𝑢) объекта x
𝒴 Множество возможных целевых переменных (разметок)
y𝑗 Значение целевой переменной (разметка) 𝑗-го объекта выборки
Y Конкатенация разметок всех объектов выборки
𝑦𝑣 Значение 𝑣-го компонента разметки (метка 𝑣-го суперпикселя)
𝑍 Нормировочная константа в распределении Гиббса
z Слабая аннотация объекта
z𝑖 Слабая аннотация 𝑖-го объекта выборки
𝑧¯ Элемент рамочной аннотации изображения zbb
𝑧˙ Элемент зерновой аннотации изображения zos
11
Глава 1
Ненаправленные графические модели и

структурное обучение
В этой главе приведены теоретические основы выполненной работы. В рассматриваемой

задаче разметку удобно моделировать с помощью вероятностного распределения над воз-
можными конфигурациями. Тогда процесс предсказания сводится к выводу конфигурации,
на которой это распределение достигает максимума, либо к выводу маргинальных распреде-
лений на отдельные переменные. В реальных задачах приходится рассматривать факториза-
ции совместного распределения, делая предположения о независимостях между случайными
величинами. С этими факторизациями удобно работать с помощью механизма графических
вероятностных моделей. Мы рассмотрим только ненаправленные графические модели (мар-
ковские сети) как наиболее полезные для решения задач разметки.
Для восстановления факторизованной плотности распределения по обучающей выборке
её часто представляют в параметрическом виде. Далее эти параметры находятся как опти-
мальные значения некоторой целевой функции. Мы рассмотрим различные варианты целевых
функций и методов оптимизации.
1.1 Марковские сети и связанные задачи

Пусть некоторый объект задан своим признаковым описанием x ∈ 𝒳 , а также заданы
некоторые параметры w. Тогда можно определить апостериорное распределение над размет-
ками y ∈ 𝒴: P(y | x, w). В этом разделе мы предполагаем параметры w уже известными,
а описание объекта x — фиксированным. Тогда можно не учитывать обуславливание рас-
пределения, и для краткости писать P(y), подразумевая апостериорное распределение. Мы
предполагаем, что разметка y — вектор из 𝑉 дискретных компонент, т.е. 𝒴 = {1, . . . , 𝐾}𝑉 .
Определение 1.1. Пусть 𝒞𝑓 ⊂ {1, . . . , 𝑉 } для 𝑓 ∈ {1, . . . , 𝐹 }. Распределение Гиббса над

вектором случайных переменных y, параметризованным факторами {Φ1 (y𝒞1 ), . . . , Φ𝐹 (y𝒞𝐹 )}
задаётся следующим образом:
𝐹
1 ∏︁
P(y) = Φ𝑓 (y𝒞𝑓 ), (1.1)
𝑍 𝑓 =1
12
Ф1 Ф2 Ф3 y1 y4
y5 y6
y1 y2 y3 y4 y5 y6 y2 y3
(a) Фактор-граф распределения (b) Марковская сеть
Рисунок 1.1: Различные графические представления распределения Ф1 P(𝑦1 , 𝑦2 , 𝑦Ф

3 , 2𝑦4 , 𝑦5 , 𝑦6 ) ∝ Ф3
Φ1 (𝑦1 , 𝑦2 , 𝑦3 , 𝑦4 )Φ2 (𝑦3 , 𝑦4 , 𝑦5 )Φ3 (𝑦5 , 𝑦6 ): (a) фактор-граф, на котором круги соответствуют пере-
менным, а квадраты — факторам; (b) марковская сеть, соответствующая распределению.
где y𝒞𝑓 — вектор из элементов y с индексами 𝒞𝑓 , 𝑍 — нормировочная

y1 y2 константа:
y3 y4 y5 y6
𝐹
∑︁ ∏︁
𝑍= Φ𝑓 (ȳ𝒞𝑓 ), (1.2)
ȳ∈𝒴 𝑓 =1
а фактор Φ𝑓 — произвольная неотрицательная функция |𝒞𝑓 | переменных; величина |𝒞𝑓 | назы-

вается порядком фактора Φ𝑓 .
∑︀
Благодаря нормировочной константе 𝑍 выполняется свойство ȳ P(ȳ) = 1.
Определение 1.2. Фактор-графом, соответствующим данному распределению, называ-

ется двудольный граф, у которого вершины одной доли соответствуют переменным-
компонентам y, а другой — факторам; вершины-факторы соединены с теми и только с те-
ми вершинами-переменными, которые входят в фактор. Пример фактор-графа показан на
рис. 1.1a.
Определение 1.3. Марковской сетью (англ. Markov network, или Markov random field, MRF),
соответствующей строго положительному распределению Гиббса (∀y : P(y) > 0), называется
граф, вершины которого соответствуют компонентам y, и на каждом из множеств вершин 𝒞𝑓
образован полный подграф. В таком случае говорят, что распределение Гиббса факторизуется
на данную марковскую сеть. Пример марковской сети показан на рис. 1.1b.
Замечание. В литературе марковская сеть обычно определяется через предположения об

условной независимости входящих в неё случайных величин, зависящие от структуры гра-
фа [36, раздел 19.2.1], а определение 1.3 выводится как их следствие (теорема Хаммерсли–
Клиффорда [36, теорема 19.3.1]). Поскольку в данном обзоре мы не касаемся вероятностного
моделирования, будем считать это определение марковской сети основным.
В литературе также используется энергетическая нотация. Можно записать эквивалент-
ное определение:
1
P(y) = exp(−𝐸(y)), (1.3)
𝑍
13
где
𝐹
∑︁
𝐸(y) = 𝜑𝑓 (y𝒞𝑓 ), 𝜑𝑖 (y𝒞𝑓 ) = − log Φ𝑓 (y𝒞𝑓 ). (1.4)
𝑓 =1
Функция 𝐸(y) называется энергией, а функции 𝜑𝑓 (y𝒞𝑓 ) — потенциалами марковской сети.

Распределение Гиббса — дискретное, определено на конечном домене, но его табличная
запись содержала бы 𝐾 𝑉 значений, поэтому с ним обычно работают в неявном виде. Двумя
важными задачами являются вывод моды распределения и вывод маргинальных распределе-
ний.
Определение 1.4. Модой распределения P(y), или MAP-оценкой (англ. maximum a posteriori),
называется его самый вероятный элемент: yMAP = argmaxy P(y). Поскольку максимизация не
зависит от нормировочной константы 𝑍, MAP-оценка также является минимумом энергии
марковской сети: yMAP = argminy 𝐸(y).
В задачах разметки часто берут MAP-оценку в качестве ответа. Например, в задаче семан-
тической сегментации каждому суперпикселю соответствует элемент вектора y; оптимальная
конфигурация находится минимизацией энергии марковской сети специального вида. В прак-
тических задачах множества 𝒞𝑓 переменных, входящих в различные факторы, пересекаются,
поэтому приходится осуществлять глобальную оптимизацию.
Байесовская теория принятия решений позволяет учитывать функцию потерь, задавае-
мую из экспертных соображений [36, §5.7]. Например, в задаче семантической сегментации
предпочтительнее предсказать разметку, отличающуюся в одном пикселе, а не в половине
изображения. Пусть ȳ — верная разметка, тогда необходимо определить функцию ℒ : 𝒴 → R,
определяющую штраф за несоответствие разметки y верной разметке. Тогда вектор y вы-
водится как минимум математического ожидания функции потерь по апостериорному рас-
∑︀
пределению: yB = argminy EP(ȳ) ℒ(y; ȳ) = argminy ȳ∈𝒴 ℒ(y; ȳ)P(ȳ). Заметим, что эта
схема является обобщением MAP-оценивания: при использовании бинарной функции по-
терь ℒ(y; ȳ) = Jy ̸= ȳK оптимальное Байесовское решение совпадает с MAP-оценкой. На
практике использование нетривиальных функций потерь сопряжено с вычислительными труд-
ностями, поэтому они используются редко, однако при настройке параметров использова-
ние некоторых функций потерь помогает улучшить обобщающую способность модели, при
этом существует выпуклая верхняя оценка на соответствующую целевую функцию, см. раз-
дел 1.3.2.
Также в некоторых задачах приходится оценивать маргинальные распределения на индиви-
∑︀ ∑︀
дуальные переменные P(𝑦𝑣 ) ∝ y∖𝑦𝑣 exp(−𝐸(y)) или их группы P(y𝒞 ) ∝ y∖y𝒞 exp(−𝐸(y)).
Существуют алгоритмы, позволяющие найти приближённые значения маргиналов эффектив-
нее явного суммирования. Помимо непосредственного интереса к распределению на перемен-
ные, ненормированные маргиналы могут быть использованы для эффективного вычисления
математического ожидания признаков факторов, что требуется в некоторых методах обучения
параметров (раздел 1.3.1).
Рассмотрим класс марковских сетей, наиболее часто используемый на практике.
14
φv(yv)
|yv − xv|
φvu(yv , yu)
Ttrunc |yv − yu|
(a) Структура марковской сети (b) Задание потенциалов
Рисунок 1.2: Пример использования 4-связной парно-сепарабельной марковской сети для по-
давления шума на изображении. (a) Зашумлённое изображение, в котором каждый пиксель
соответствует вершине марковской сети, и структура сети для части изображения. Исходные
интенсивности 𝑥𝑣 служат для задания унарных потенциалов. (b) Пример задания унарных и
парных потенциалов. Значение парного потенциала не зависит от исходных интенсивностей.
Оно поощряет близкие значения интенсивности восстановленного изображения в соседних
пикселях, при этом выше порога 𝑇trunc значение потенциала не наращивается: штраф для воз-
можных границ на изображении постоянен.
Определение 1.5. Парно-сепарабельные марковские сети — такие марковские сети, в кото-

рых используются только потенциалы порядка один и два. Рассмотрим граф 𝐺 = (𝒱, ℰ), где
вершины 𝒱 = {1, . . . , 𝑉 } соответствуют переменным, а рёбра ℰ ⊂ 𝒱 2 определяют факторы.
Тогда энергия парно-сепарабельной марковской сети определяется как:
∑︁ ∑︁
𝐸(y) = 𝜑𝑣 (𝑦𝑣 ) + 𝜑𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ). (1.5)
𝑣∈𝒱 (𝑣,𝑢)∈ℰ
В таком случае потенциалы 𝜑𝑣 называют унарными, а 𝜑𝑣𝑢 — парными.
Заметим, что если в графе 𝐺 нет изолированных вершин, то унарные потенциалы избыточ-
ны — модификацией парных потенциалов можно получить эквивалентную функцию энергии.
Однако их часто моделируют отдельно, поскольку они имеют интерпретируемое значение, а
также могут быть важнее парных, поэтому при настройке параметров их параметры регуля-
ризуются слабее.
Рассмотрим пример. Парно-сепарабельная марковская сеть может использоваться для по-
давления некоторых видов шумов на изображении. Вершины 𝒱 могут индексировать пиксели,
а рёбра ℰ — задавать 4-связную систему соседства над ними, переменные 𝑦𝑣 кодируют восста-
новленные значения цвета соответствующих пикселей (рис. 1.2). Тогда унарные потенциалы
задаются так, чтобы штрафовать отклонение от цвета пикселя зашумлённого изображения,
а парные — чтобы штрафовать разность цветов соседних пикселей (используется априорное
предположение, что границы областей постоянных цветов занимают малую часть площади
15
изображения). В этой задаче унарные потенциалы имеют естественный смысл, поэтому их
удобно моделировать отдельно.
Большинство эффективных алгоритмов минимизации работают с парно-сепарабельными
энергиями, однако в последнее время стали активно изучаться методы оптимизации вывода
в марковских сетях с факторами высоких порядков, а также их приложения. Например, в
задаче подавления шумов такие факторы могут поощрять участки восстановленного изобра-
жения, похожие на ранее встретившиеся в обучающей выборке [10]. В задаче семантической
сегментации факторы высоких порядков, построенные над кластерами пикселей, позволя-
ют повысить качество разметки [6, 37]. В данной работе алгоритмы минимизации энергии
с потенциалами высоких порядков используются в алгоритме настройки параметров парно-
сепарабельных марковских сетей по слабой аннотации, см. главу 2.
1.2 Алгоритмы вывода MAP-оценки

Задача вывода MAP-оценки (минимизации энергии) является одной из ключевых задач
теории графических вероятностных моделей. В этом разделе мы проводим обзор основных
групп методов, используемых в данной работе. Более подробный обзор можно найти в специ-
ализированных учебниках [36, 38]. Описание методов приводится для минимизации энергии
парно-сепарабельной марковской сети вида (1.5), в конце раздела затрагивается вопрос мини-
мизации энергии с потенциалами высоких порядков.
В общем случае задача минимизации энергии марковской сети является NP-трудной (к ней
сводится задача 3-выполнимости [39]), поэтому большинство описываемых подходов дают
приближённое решение. Нет общей теории, описывающей точность разных аппроксимаций
для специальных задач, поэтому проводятся экспериментальные сравнения алгоритмов [40].
Ниже также описаны два частных случая, для которых существуют полиномиальные алгорит-
мы минимизации.
1.2.1 Как задача математического программирования

Задачу безусловной оптимизации энергии (1.5) можно переписать в эквивалентном виде
как задачу целочисленного линейного программирования (ЦЛП):
16
Оптимизационная задача 1.1 (минимизация энергии как задача ЦЛП).
𝐾
∑︁ ∑︁ 𝐾 ∑︁
∑︁ ∑︁ 𝐾
min 𝜑𝑣 (𝑘)ϒ𝑣,𝑘 + 𝜑𝑣𝑢 (𝑘, 𝑙)ϒ𝑣𝑢,𝑘𝑙 , (1.6)
ϒ
𝑣∈𝒱 𝑘=1 (𝑣,𝑢)∈ℰ 𝑘=1 𝑙=1
𝐾
∑︁
при условиях ϒ𝑣,𝑘 = 1, ∀𝑣 ∈ 𝒱, (1.7)
𝑘=1
𝐾
∑︁ 𝐾
∑︁
ϒ𝑣𝑢,𝑘𝑙 = ϒ𝑢,𝑙 , ∀𝑙, ϒ𝑣𝑢,𝑘𝑙 = ϒ𝑣,𝑘 , ∀𝑘, ∀(𝑣, 𝑢) ∈ ℰ, (1.8)
𝑘=1 𝑙=1
2 |ℰ|
ϒ ∈ {0, 1}𝐾|𝒱|+𝐾 . (1.9)
Представление решения в виде вектора бинарных переменных ϒ называется переопреде-

лённым (англ. overcomplete representation). Ограничения (1.7) гарантируют, что ровно одна из
бинарных переменных ϒ𝑣,𝑘 , соответствующих фиксированной исходной переменной 𝑦𝑣 , рав-
на 1. Ограничения (1.8) задают согласованность между бинарными переменными для унарных
и парных потенциалов. Переход от решения задачи 1.1 к минимуму энергии (1.5) осуществ-
ляется следующим образом: ϒ𝑣,𝑘 = 1 ⇐⇒ 𝑦𝑣 = 𝑘.
В общем виде задача целочисленного линейного программирования является NP-
трудной (задача выполнимости логических выражений является её частным случаем). По-
этому на практике она применима только для небольших задач; в остальных случаях можно
ослабить ограничение целочисленности и решать задачу линейного программирования (LP-
релаксацию исходной задачи):
Оптимизационная задача 1.2 (LP-релаксация минимизации энергии).
𝐾
∑︁ ∑︁ 𝐾 ∑︁
∑︁ ∑︁ 𝐾
min 2 |ℰ|
𝜑𝑣 (𝑘)𝜏𝑣,𝑘 + 𝜑𝑣𝑢 (𝑘, 𝑙)𝜏𝑣𝑢,𝑘𝑙 , (1.10)
𝜏 ∈R𝐾|𝒱|+𝐾
𝑣∈𝒱 𝑘=1 (𝑣,𝑢)∈ℰ 𝑘=1 𝑙=1
𝐾
∑︁
при условиях 𝜏𝑣,𝑘 = 1, ∀𝑣 ∈ 𝒱, (1.11)
𝑘=1
𝐾
∑︁ 𝐾
∑︁
𝜏𝑣𝑢,𝑘𝑙 = 𝜏𝑢,𝑙 , ∀𝑙, 𝜏𝑣𝑢,𝑘𝑙 = 𝜏𝑣,𝑘 , ∀𝑘, ∀(𝑣, 𝑢) ∈ ℰ, (1.12)
𝑘=1 𝑙=1
𝜏 ≥ 0. (1.13)
Из ограничений (1.11) и (1.13) следует, что каждая из компонент допустимого решения 𝜏

лежит на отрезке [0, 1]. В общем случае оптимальное решение может содержать дробные
решения. Дробные компоненты обычно округляют, используя некоторый жадный алгоритм.
Таким образом получается приближённое значение минимума энергии.
1.2.2 Передача сообщений

Один из наиболее общих способов вывода MAP-оценки и маргинальных распределений
дают методы на основе передачи сообщений. Общей идеей этих методов является постро-
17
ение итеративного процесса, в рамках которого между переменными и факторами пересы-
лаются сообщения, обновляющие убеждения (англ. beliefs) о маргинальных распределениях
или элементах MAP-оценки для отдельных переменных на основе влияния их «соседей» по
графической модели.
Мы определим формулы передачи сообщений для определения маргинальных распреде-
лений и затем покажем, как их можно модифицировать для нахождения MAP-оценки.
Определение 1.6. Сообщением 𝜇𝑓 →𝑣 из фактора с индексом 𝑓 в вершину с индексом 𝑣 назы-

вается вектор из 𝐾 элементов, которые вычисляются следующим образом:
∑︁ ∏︁
𝜇𝑓 →𝑣 (𝑦) = Φ𝑓 (y𝑓′ ) 𝜇𝑣′ →𝑓 (𝑦𝑣′ ′ ), (1.14)
y𝑓′ :𝑦𝑣′ =𝑦 𝑣 ′ ∈𝒞𝑓 ∖{𝑣}
Здесь 𝜇𝑣′ →𝑓 — сообщение из вершины с индексом 𝑣 ′ в фактор с индексом 𝑓 называется вектор

из 𝐾 элементов, которые в свою очередь вычисляются по предыдущим значениям сообщений
из фактора в вершину:
∏︁
𝜇𝑣→𝑓 (𝑦) = 𝜇𝑓 ′ →𝑣 (𝑦). (1.15)
𝑓 ′ : 𝑣∈𝒞𝑓 ′ ,𝑓 ′ ̸=𝑓
При фиксированных значениях сообщений, убеждение о маргинальном распределении в вер-

шине с индексом 𝑣 вычисляется так:
∏︁ 𝑘
∑︁
𝑏𝑣 (𝑦) ∝ 𝜇 𝑓 ′ →𝑣 (𝑦), 𝑏𝑣 (𝑦) = 1. (1.16)
𝑓 ′ : 𝑣∈𝒞𝑓 ′ 𝑦=1
Для того чтобы определить конкретный алгоритм, осталось определить инициализацию

сообщений и порядок их пересчёта. В случае когда фактор-граф не содержит циклов, суще-
ствует алгоритм распространения убеждений (англ. belief propagation), позволяющий полу-
чить точные оценки маргиналов. У фактор–графа выбирается корневая вершина, а сообщения
из висячих вершин-переменных в соответствующие факторы инициализируются единичны-
ми векторами. Затем асинхронно пересчитываются все сообщения по направлению к корню.
После этого пересчитываются сообщения из корня к листьям. Показано, что после этих двух
проходов процесс пересчёта сообщений сходится, а полученные оценки убеждений (1.16)
являются точными оценками маргинальных распределений [36, §20.2.1]. Если же операцию
суммирования в (1.14) заменить на взятие максимума, то MAP-оценку можно будет получить
конкатенацией аргмаксимумов полученных убеждений (1.16).
Аналогичный процесс можно применить к циклическому графу, однако в этом случае
нельзя установить порядок пересчёта такой, чтобы алгоритм гарантировано сходился. Более
того, даже если алгоритм сходится, найденные убеждения могут не соответствовать марги-
нальным распределениям. Однако на практике метод оказывается полезным, даже если прихо-
дится останавливать передачу сообщений по числу итераций. Для возникающих на практике
моделей метод часто возвращает близкое к оптимальному решение, особенно если фактор-
граф не содержит коротких циклов.
18
1.2.3 Двойственное разложение
Группа методов на основе двойственного разложения (двойственной декомпозиции) рас-
сматривает двойственную оптимизационную задачу к задаче поиска минимума энергии мар-
ковской сети, которая является вогнутой, поэтому в ней возможно найти глобальный мак-
симум, являющийся нижней оценкой на значение энергии в прямой задаче [41]. Поскольку
рассматривается дискретная задача, в общем случае существует ненулевой зазор между мини-
мумом прямой и максимумом двойственной задачи, однако метод поиска максимума в двой-
ственной задаче позволяет выписать приближённое решение прямой задачи, а также оценить
сверху субоптимальность любого решения (разницу между энергией в точке и минимальной
энергией). Преимуществом данного метода является возможность использования потенциа-
лов высоких порядков [42].
Рассмотрим переопределённое представление ϒ вектора переменных y:
{︃
1, если 𝑦𝑣 = 𝑘,
ϒ𝑣,𝑘 = ∀𝑣 ∈ 𝒱, ∀𝑘 ∈ 𝒦. (1.17)
0, иначе,
Отождествим значение энергии на переопределённой разметке с соответствующей энерги-

ей: 𝐸(ϒ) ≡ 𝐸(y). Предполагается, что энергия представима в следующем виде:
∑︁
𝐸(ϒ) = 𝐸 𝑖 (ϒ), (1.18)
𝑖
где минимизация отдельных 𝐸 𝑖 (ϒ) может быть выполнена с низкими вычислительными за-
тратами (как правило, используются алгоритмы со сложностью не более линейной по числу
вершин в марковской сети). Самым простым примером такого представления является де-
композиция на отдельные факторы: 𝐸 𝑖 (ϒ) ≡ 𝜑𝑖 (y𝒞𝑖 ), ∀𝑖 ∈ 𝐹 , применимая, когда максималь-
ный порядок фактора ограничен сверху некоторой константой; тогда сложность минимиза-
ции 𝐸 𝑖 (ϒ) не зависит от общего числа переменных. С учётом (1.18) задача минимизации
энергии (1.4) эквивалентна следующей задаче:
Оптимизационная задача 1.3.

∑︁
min 𝐸 𝑖 (ϒ), (1.19)
ϒ
𝑖
при условии ϒ ∈ M, (1.20)
где M = [ϒ𝑣 ]𝑣∈𝒱 ∈ {0, 1}𝐾·𝑉 | 𝑘∈𝒦 ϒ𝑣,𝑘 = 1, ∀𝑣 ∈ 𝒱 — ограничение, накладываемое видом
{︀ ∑︀ }︀
переопределённого представления.
Наша цель — построить релаксацию задачи 1.3, чтобы затем найти двойственную к ней.
𝑖
Для этого введём дополнительные переменные ϒ̄ , соответствующие подзадачам 𝐸 𝑖 , и запи-
шем эквивалентную задачу минимизации:
19
Оптимизационная задача 1.4 (минимизация разложенной энергии).
∑︁
min𝑖 𝐸 𝑖 (ϒ𝑖 ), (1.21)
ϒ,{ϒ̄ } 𝑖
𝑖
при условиях ϒ ∈ M, ϒ̄ ∈ M, ∀𝑖, (1.22)
𝑖
ϒ̄ = ϒ, ∀𝑖. (1.23)
Запишем частичную функцию Лагранжа по ограничениям (1.23) для этой задачи:
𝑖
∑︁ 𝑖
∑︁ 𝑖 ∑︁ (︁ 𝑖 𝑖|
)︁ ∑︁
𝐿(𝜆, ϒ, {ϒ̄ }) = 𝐸 𝑖 (ϒ̄ ) + (ϒ̄ − ϒ)| 𝜆𝑖 = 𝐸 𝑖 (ϒ̄ ) + ϒ̄ 𝜆𝑖 − ϒ| 𝜆𝑖 . (1.24)
𝑖 𝑖 𝑖 𝑖
𝑖 𝑖
При любом фиксированном значении 𝜆 минимизация 𝐿(𝜆, ϒ, {ϒ̄ }) по ϒ, {ϒ̄ } при усло-
виях (1.22)–(1.23) эквивалентна задаче 1.4, а значит и исходной задаче минимизации энер-
гии 𝐸(ϒ). Если же опустить ограничения целостности (1.23), минимум функции Лагранжа
при любом значении 𝜆 будет служить нижней оценкой на минимум исходной энергии:
𝑖
min𝑖 𝐿(𝜆, ϒ, {ϒ̄ }) ≤ min 𝐸(ϒ), ∀𝜆. (1.25)
ϒ∈M,{ϒ̄ ∈M} ϒ∈M
Заметим, что при отсутствии ограничений целостности минимизация Лагранжиана

𝑖
по ϒ, {ϒ̄ } может быть выполнена независимо по отдельным группам переменных, что может
быть реализовано вычислительно эффективно по предположению, принятому при построении
разложения (1.18).
Заменим всеобщность в (1.25) на максимум, получим эквивалентное условие:
𝑖
max min𝑖 𝐿(𝜆, ϒ, {ϒ̄ }) ≤ min 𝐸(ϒ). (1.26)
𝜆 ϒ∈M,{ϒ̄ ∈M} ϒ∈M
Идея алгоритмов двойственного разложения заключается в максимизации этой нижней

оценки на минимум энергии. Её можно осуществлять с помощью блочно-координатного подъ-
ёма [43, 44] или субградиентного подъёма [41]. Получим выражение для компонент субгради-
ента:
[︃ ]︃
{︁ }︁
∇ 𝑖 min
𝑖 𝑖 𝑖|
𝐿(𝜆, ϒ, {ϒ̄ }) = ∇ 𝑖 min 𝐸 𝑖 (ϒ̄ ) + ϒ̄ 𝜆𝑖 −∇ 𝑖 max ϒ|
∑︀ 𝑗
𝜆 = ϒ̄˙ 𝑖| −ϒ̇| ,
𝜆 𝑖
𝜆 𝑖
𝜆 𝑗
ϒ∈M,{ϒ̄ ∈M} ϒ̄ ∈M ϒ∈M
(1.27)
где {︁ }︁
˙ 𝑖 = argmin 𝐸 𝑖 (ϒ̄𝑖 ) + ϒ̄𝑖| 𝜆𝑖 ,
ϒ̄ ϒ̇ = argmax ϒ|
∑︀
𝜆𝑗 , ∀𝑖. (1.28)
𝑗
𝑖 ϒ∈M
ϒ̄ ∈M
Таким образом, алгоритм субградиентного подъёма поочерёдно выполняет два шага:
1. Производится оптимизация в подзадачах (1.28). В первой группе подзадач при вычис-

˙ 𝑖 в задаче минимизации относительно энергии 𝐸 𝑖 (ϒ̄𝑖 ) изменяются только унар-
лении ϒ̄
ные потенциалы; как правило, для оптимизации может использоваться тот же алгоритм,
20
𝑖
что и для минимизации 𝐸 𝑖 (ϒ̄ ) без дополнительных вычислительных затрат. Во второй
группе при вычислении ϒ̇ максимизация может проводиться независимо по векторам,
отвечающим разным переменным марковской сети 𝑣.
2. Вычисляется субградиент минимума

[︁ Лагранжиана согласно (1.27),]︁ делается шаг по суб-
𝑖
градиенту: 𝜆𝑛+1 ← 𝜆𝑛 + 𝛾𝑛 ∇𝜆 minϒ∈M,{ϒ̄𝑖 ∈M} 𝐿(𝜆𝑛 , ϒ, {ϒ̄ }) , где {𝛾𝑛 } — убывающая
последовательность длин шагов.
Существуют различные способы представить энергию в виде суммы (1.18) помимо деком-
позиции на отдельные факторы. Например, граф парно-сепарабельной марковской сети можно
разбить на пересекающиеся поддеревья — энергию в ациклической марковской сети можно
эффективно минимизировать с помощью алгоритма передачи сообщений (раздел 1.2.2). Ал-
горитм передачи сообщений с перевзвешиванием по деревьям (англ. tree-reweighted message
passing, TRW ) [43] представляет собой блочно-координатную оптимизацию двойственного
функционала при декомпозиции графа на поддеревья. За счёт сравнительно небольшого чис-
ла подзадач метод требует меньше вычислительных ресурсов, чем при разбиении на отдель-
ные факторы. Другой способ декомпозиции получается при разложении энергии на сумму так
называемых субмодулярных функций [45], точная минимизация которых возможна с приме-
нением алгоритмов разрезов на графах (см. раздел 1.2.4).
1.2.4 Разрезы на графах

Эта группа методов сводит минимизацию энергии к классической комбинаторно-
оптимизационной задаче построения минимального разреза в ориентированном графе. Такие
методы, как правило, являются наиболее вычислительно эффективными методами минимиза-
ции энергии, однако область их применения ограничена. Рассмотрим сначала минимизацию
парно-сепарабельной энергии (1.5) с бинарными переменными (𝐾 = 2), для которой в неко-
торых случаях удаётся найти точный минимум [46].
Определение 1.7. Обобщённым потенциалом Поттса называется парный потенциал вида

{︃
0, если 𝑦𝑣 = 𝑦𝑢 ,
𝜑𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ) = (1.29)
𝛿𝑣𝑢 , иначе,
где 𝛿𝑣𝑢 ≥ 0. Такой вид потенциалов поощряет назначение смежным вершинам одной и той же
метки.
Покажем, как свести задачу минимизации энергии с обобщёнными потенциалами Потт-

са к задаче нахождения минимального разреза в ориентированном графе [36, §22.6.3.1]. Так
как прибавление константы к любому из потенциалов не влияет на точку минимума функции
энергии, вычтем из каждого унарного потенциала 𝜑𝑣 (𝑦𝑣 ) величину min𝑦 𝜑𝑣 (𝑦), таким обра-
зом, среди 𝜑𝑣 (1) и 𝜑𝑣 (2) один будет нулевым, другой — неотрицательным. Рассмотрим граф,
содержащий |𝒱| + 2 вершины — по одной вершине на переменные 𝑣 ∈ 𝒱, а также две допол-
нительные вершины 𝑠 и 𝑡, и |𝒱| + 2|ℰ| дуг. Если 𝜑𝑣 (1) = 0, в графе присутствует дуга 𝑠 → 𝑣
21
с пропускной способностью 𝜑𝑣 (2), иначе — дуга 𝑣 → 𝑡 с пропускной способностью 𝜑𝑣 (1).
Также каждому ребру марковской сети (𝑣, 𝑢) ∈ ℰ соодветствуют две дуги: 𝑢 → 𝑣 и 𝑣 → 𝑢
с одинаковой пропускной способностью 𝛿𝑣𝑢 . Легко показать, что любой конфигурации пере-
менных марковской сети соответствует разрез на графе между вершинами 𝑠 и 𝑡: вершины,
попавшие в разрез со стороны 𝑠, получают метку 1, остальные — метку 2, причём величина
разреза равняется энергии марковской сети. Таким образом, минимальный 𝑠–𝑡-разрез соот-
ветствует разметке, минимизирующей энергию марковской сети.
Определим более широкий класс парно-сепарабельных бинарных энергий, минимизация
которых сводится к разрезам на графах.
Определение 1.8. Вещественная функция двух бинарных аргументов 𝑓 : {1, 2}2 → R называ-
ется субмодулярной, если 𝑓 (1, 1) + 𝑓 (2, 2) ≤ 𝑓 (1, 2) + 𝑓 (2, 1). Парно-сепарабельная бинарная
энергия называется субмодулярной, если все её парные потенциалы — субмодулярные функ-
ции.
Покажем, как свести задачу минимизации произвольной субмодулярной энергии 𝐸(y) к

задаче нахождения минимального разреза в ориентированном графе. Преобразуем парные
потенциалы следующим образом:
𝜑′𝑣𝑢 (1, 1) = 𝜑′𝑣𝑢 (1, 2) = 𝜑′𝑣𝑢 (2, 2) = 0, (1.30)

𝜑′𝑣𝑢 (2, 1) = 𝜑𝑣𝑢 (2, 1) + 𝜑𝑣𝑢 (1, 2) − 𝜑𝑣𝑢 (1, 1) − 𝜑𝑣𝑢 (2, 2), ∀(𝑣, 𝑢) ∈ ℰ. (1.31)
Из субмодулярности потенциалов исходной энергии следует неотрицательность выраже-

ния (1.31). Далее преобразуем унарные потенциалы:
∑︁ (︀ ∑︁ (︀
𝜑′𝑣 (2) = 𝜑𝑣 (2) +
)︀ )︀
𝜑𝑣¯𝑢¯ (2, 1) − 𝜑𝑣¯𝑢¯ (1, 1) + 𝜑𝑢¯𝑣¯(2, 2) − 𝜑𝑢¯𝑣¯(2, 1) , (1.32)
(¯
𝑣 ,¯
𝑢)∈ℰ: (¯
𝑢,¯
𝑣 )∈ℰ:
𝑣=¯𝑣 𝑣=¯ 𝑣
𝜑′𝑣 (1) = 𝜑𝑣 (1), ∀𝑣 ∈ 𝒱. (1.33)
Процедура сведения к задаче построения минимального разреза аналогична предыдущему

случаю. Необходимо обнулить одно из значений унарных потенциалов:
𝜑′𝑣 (𝑦) ← 𝜑′𝑣 (𝑦) − min 𝜑′𝑣 (¯

𝑦 ), ∀𝑣 ∈ 𝒱, ∀𝑦 ∈ {1, 2}. (1.34)
𝑦¯∈𝒦
Таким образом, унарный потенциал соответствует либо дуге из 𝑠, либо дуге в 𝑡. В отли-
чие от предыдущего случая, ребру (𝑣, 𝑢) марковской сети соответствует одна дуга в графе,
имеющая пропускную способность 𝜑′𝑣𝑢 (2, 1). Минимальный разрез в полученном графе также
соответствует разметке, минимизирующей энергию марковской сети [46].
Минимизация небинарных энергий
Группа методов приближённой минимизации небинарных энергий марковских сетей опи-

рается на пошаговый вызов алгоритма минимизации бинарной энергии. На каждом шаге оп-
22
тимизация проводится только по подмножеству переменных марковской сети, причём каждая
переменная может либо оставить предыдущее значение, либо изменить его на некоторое дру-
гое, фиксированное на данном шаге. На каждом шаге значение энергии на текущей разметке
уменьшается, поэтому методы находят локальный минимум относительно соответствующего
вида шага.
Одним из таких алгоритмов является 𝛼-расширение [47]. На каждом шаге выбирается
одна из меток 𝛼 (случайно или поочерёдно), и над тем же графом 𝐺(𝒱, ℰ) строится допол-
нительная марковская сеть с бинарной энергией, в которой метке 1 соответствует сохранение
предыдущего значения, а метке 2 — изменение значения на 𝛼. Если текущая разметка равна y,
потенциалы назначаются следующим образом:
𝜑′𝑣 (1) = 𝜑𝑣 (𝑦𝑣 ), (1.35)

𝜑′𝑣 (2) = 𝜑𝑣 (𝛼), (1.36)
𝜑′𝑣𝑢 (1, 1) = 𝜑𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ), (1.37)
𝜑′𝑣𝑢 (1, 2) = 𝜑𝑣𝑢 (𝑦𝑣 , 𝛼), (1.38)
𝜑′𝑣𝑢 (2, 1) = 𝜑𝑣𝑢 (𝛼, 𝑦𝑢 ), (1.39)
𝜑′𝑣𝑢 (2, 2) = 𝜑𝑣𝑢 (𝛼, 𝛼), ∀𝑣 ∈ 𝒱, ∀(𝑣, 𝑢) ∈ ℰ. (1.40)
Чтобы энергию дополнительных марковских сетей можно было оптимизировать с помо-

щью алгоритмов разрезов на графах, необходимо потребовать её субмодулярность. Это ведёт
к следующему ограничению на парные потенциалы:
𝜑𝑣𝑢 (𝛽, 𝛾) + 𝜑𝑣𝑢 (𝛼, 𝛼) ≤ 𝜑𝑣𝑢 (𝛽, 𝛼) + 𝜑𝑣𝑢 (𝛼, 𝛾), ∀𝛼, 𝛽, 𝛾 ∈ 𝒦, ∀(𝑣, 𝑢) ∈ ℰ. (1.41)
Для выполнения этого условия достаточно, чтобы парные потенциалы удовлетворяли аксио-
мам метрики (а при 𝜑𝑣𝑢 (𝛼, 𝛼) = 0, 𝜑𝑣𝑢 (𝛼, 𝛽) ≥ 0 условие становится эквивалентным опреде-
лению метрики).
Другой метод из этой группы — 𝛼𝛽-замена [47]. Он отличается тем, что на каждом шаге
выбирается пара меток (𝛼 и 𝛽), и рассматриваются только те вершины, которые в текущей
разметке y уже имеют метку 𝛼 или 𝛽. Назначение переменной метки 1 в дополнительной
задаче соответствует сохранению метки, а метки 2 — изменению на противоположную (𝛼
на 𝛽, и наоборот). Метод 𝛼𝛽-замены применим к более широкому классу энергий — не тре-
буется выполнение парными потенциалами неравенства треугольника (1.41), однако в случае
применимости обоих вариантов, он как правило находит худший локальный минимум, чем
𝛼-расширение.
Потенциалы высоких порядков
В прикладных задачах бывает полезно моделировать факторы высоких порядков в мар-

ковских сетях. MAP-оценка в них может быть найдена приближённо с помощью алгорит-
мов передачи сообщений на фактор-графе (раздел 1.2.2) или двойственного разложения (раз-
23
дел 1.2.3), однако в некоторых случаях возможно свести задачу к построению минимального
разреза в графе с помощью введения дополнительных вершин, что является предпочтитель-
ным из-за более высокой эффективности таких методов. Ниже мы конструктивно охарактери-
зуем класс потенциалов высокого порядка, допускающих такое сведение, и приведём примеры
функций, полезных на практике.
Определение 1.9. Пусть 𝒞 ⊂ 𝒱 — подмножество индексов переменных марковской сети.

Функция 𝜑𝑞 : 𝒦|𝒞| → R называется линейной, если она представима в виде
∑︁ ∑︁ ∑︁
𝜑𝑞 (y𝒞 ) = 𝜔0𝑞 + 𝑞
𝜔𝑣,𝑘 J𝑦𝑣 = 𝑘K = 𝜔0𝑞 + 𝑞
𝜔𝑣,𝑦𝑣
, (1.42)
𝑣∈𝒞 𝑘∈𝒦 𝑣∈𝒞
где 𝜔 𝑞 ∈ R𝐾|𝒞|+1 — набор параметров функции [48].
Определение 1.10. Представлением потенциальной функции в виде нижней огибающей мно-

жества линейных функций называется следующая запись:
𝜑(y𝒞 ) = min 𝜑𝑞 (y𝒞 ), (1.43)

𝑞∈𝒬
где {𝜑𝑞 (·)}𝑞∈𝒬 — множество линейных функций.
Для минимизации энергии, содержащей подобный потенциал, необходимо ввести допол-

нительную переменную 𝑣¯, принимающую значения из 𝒬. Тогда потенциал может быть экви-
валентно переформулирован:
{︃ }︃
∑︁
𝜑(y𝒞 ) = min 𝜑𝑣¯(𝑞) + 𝜑𝑣¯,𝑣 (𝑞, 𝑦𝑣 ) , (1.44)
𝑞∈𝒬
𝑣∈𝒞
где 𝜑𝑣¯(𝑞) = 𝜔0𝑞 , а 𝜑𝑣¯,𝑣 (𝑞, 𝑦𝑣 ) = 𝜔𝑣,𝑦

𝑞
𝑣
, ∀𝑞 ∈ 𝒬, ∀𝑦𝑣 ∈ 𝒦. При подстановке этого выражения
в задачу минимизации энергии, минимизацию по всем дополнительным переменным мож-
но вынести, таким образом задача превращается в совместную минимизацию модифициро-
ванной энергии по целевым и дополнительным переменным. Если для парного потенциала
выполняется условие (1.41), можно применить 𝛼-расширение для минимизации энергии с
потенциалами высокого порядка.
Любая потенциальная функция может быть представлена как нижняя огибающая множе-
ства линейных функций, однако для этого в общем случае требуется |𝒬| = |𝒦||𝒞| функций,
и столько же значений дополнительной переменной. Каждой допустимой конфигурации пе-
ременных ставится в соответствие функция, которая конечна только в данной конфигурации,
а в остальных точках равна +∞. Минимум по таким функциям будет достигаться на функ-
ции, соответствующей данной конфигурации, для неё можно задать произвольное конечное
значение потенциала. Из-за громоздкости этого представления и сложности соответствующих
алгоритмов минимизации на практике используют другие, разреженные представления.
Для бинарных задач (при |𝒦| = 2) возможно представить потенциальную функцию ви-
да (1.43) в виде суммы |𝒬| − 1 минимумов из двух линейных функций [49]. Поскольку каж-
24
дый из таких минимумов может быть учтён при минимизации энергии с помощью добав-
ления одной бинарной переменной, а соответствующие ей парные потенциалы оказываются
субмодулярными [49, утв. 3.5], модифицированная функция энергии может быть эффективно
минимизирована с помощью алгоритма построения разреза в графе. Следствием этого явля-
∑︀
ется тот факт, что любая вогнутая функция от 𝑣∈𝒞 J𝑦𝑣 = 𝑘K может быть использована для
задания потенциала высокого порядка, и при этом будет возможно применение разрезов на
графе.
Для небинарных задач важным частным случаем (1.43) является модель Поттса в клас-
се 𝒫 𝑛 и её робастный вариант. Они используются в задаче сегментации изображений, чтобы
получить сегментацию более подробную, чем сегментацию на уровне суперпикселей. Для
этого марковская сеть строится над пикселями изображения (а не над суперпикселями), а для
задания потенциалов высокого порядка используются перекрывающиеся пересегментации,
каждому сегменту которых соответствует фактор высокого порядка, поощряющий назначение
всем пикселям соответствующего сегмента одной и той же метки [50, 51].
Определение 1.11. Потенциалом Поттса в классе 𝒫 𝑛 называется потенциальная функция,

представимая в виде
{︃
𝛿𝑘 , если ∃𝑘 ∈ 𝒦 : ∀𝑣 ∈ 𝒞, 𝑦𝑣 = 𝑘,
𝜑(y𝒞 ) = (1.45)
𝛿𝒞 , иначе,
где 𝛿 𝑘 — значение потенциала, когда все переменные имеют одно и то же значение 𝑘, 𝛿𝒞

— штраф, если не все переменные имеют одинаковое значение, причём 𝛿𝒞 ≥ 𝛿 𝑘 , ∀𝑘 ∈ 𝒦.
Заметим, что это определение является обобщением потенциала Поттса для парных потенци-
алов (1.29).
Определение 1.12. Робастным потенциалом Поттса в классе 𝒫 𝑛 называется потенциальная

функция, представимая в виде
)︀ 𝛿𝒞 − 𝛿 𝑘
{︂ {︁ (︀ }︁ }︂
𝑘
∑︀
𝜑(y𝒞 ) = min min |𝒞| − 𝑣∈𝒞 J𝑦𝑣 = 𝑘K + 𝛿 , 𝛿𝒞 , (1.46)
𝑘∈𝒦 𝑇
где 𝑇 — параметр отсечения, 𝛿𝒞 ≥ 𝛿 𝑘 , ∀𝑘 ∈ 𝒦. В отличие от (1.45), значение потенциала

будет меньше, чем 𝛿𝒞 , если небольшое число переменных (меньше 𝑇 ) будет принадлежать
доминирующей метке, при этом значение потенциала на участке от 0 до 𝑇 ошибок задаётся
линейной функцией. Это накладывает ограничение 2𝑇 < |𝒞|. При 𝑇 = 1 модель вырождается
в неробастный потенциал Поттса в классе 𝒫 𝑛 .
Потенциалы определённых выше классов могут быть приближённо минимизированы с

помощью разрезов на графах. При запуске на энергии с такими потенциалами алгоритма 𝛼-
расширения или 𝛼𝛽-замены возникающие на итерациях бинарные задачи могут быть решены
с помощью построения разреза в графе с двумя дополнительными переменными на каждый
потенциал высокого порядка [50].
25
Другим обобщением потенциала Поттса в классе 𝒫 𝑛 является потенциал, штрафующий
количество различных меток, использованных при разметке подмножества переменных. Он
часто используется в компьютерном зрении для регуляризации: например, в задаче восста-
новления геометрии сцены вероятнее конфигурация с меньшим числом плоскостей, а в задаче
сегментации изображений — с меньшим числом классов или кластеров.
Определение 1.13. Потенциалом, штрафующим наличие меток называется потенциальная
функция, представимая в виде
∑︁
𝜑(y𝒞 ) = 𝛿 𝑘 J∃𝑣 ∈ 𝒞 : 𝑦𝑣 = 𝑘K, (1.47)
𝑘∈𝒦
где 𝛿 𝑘 — штраф за присутствие метки 𝑘 среди значений переменных с индексами 𝒞.

Для минимизации энергии с потенциалами такого вида также может использоваться ал-
горитм 𝛼-расширения [52]. Пусть на некоторой итерации алгоритма необходимо сделать шаг
расширения по метке 𝛼. Тогда для группы переменных 𝒞 𝛽 ∈ 𝒞, объединяющей все перемен-
ные, имеющие значение 𝛽 в текущей разметке, необходимо добавить штраф 𝛿 𝛽 , если хотя бы
одна из этих переменных не изменит метку на 𝛼. При построении дополнительного графа
для всех меток 𝛽, отличных от 𝛼 и присутствующих в текущей разметке, в граф добавляется
дополнительная вершина 𝑣¯𝛽 . Также добавляются дуги 𝑣 → 𝑣¯𝛽 , ∀𝑣 ∈ 𝒞 𝛽 , и 𝑣¯𝛽 → 𝑡, где 𝑡 —
вершина-сток, имеющие пропускную способность 𝛿 𝛽 . Минимальный разрез в этом графе, так
же как и ранее, соответствует точке минимума энергии в дополнительной бинарной задаче,
которая трансформируется в изменение разметки на данном шаге.
В данной работе потенциалы такого вида используются при настройке параметров марков-
ской сети по слабоаннотированным данным, то есть таким, для которых известна не разметка,
а лишь некоторые её статистики (глава 2). Некоторые виды аннотации изображений приводят
к свойствам генерируемых в процессе оптимизации «негативных» разметок, которые необ-
ходимо поддерживать: отсутствие меток в разметке изображения, «пустые» (относительно
конкретной метки) строки или столбцы в разметке изображения. Хотя в обучаемой марков-
ской сети нет факторов высокого порядка, при настройке параметров используется описанный
алгоритм.
1.3 Обучение марковских сетей

Во многих приложениях марковских сетей потенциальные функции могут быть заданы
экспертом, например, в задаче поиска стереосоответствия или восстановления изображений.
Однако с усложнением структуры моделей [11], а также в задачах со сложными зависимостя-
ми между признаками и разметкой [2], приходится настраивать потенциалы по размеченной
выборке. Этот процесс называется обучением.
Пусть задана некоторая обучающая выборка {(x𝑗 , y𝑗 )}𝐽𝑗=1 ∈ (𝒳 × 𝒴)𝐽 . Поскольку при
обучении признаки x и параметры w уже не фиксированы, нельзя игнорировать обуслав-
ливающие переменные в модели P(y | x, w). Дискриминативное обучение восстанавливает
26
это распределение в параметрическом виде. Таким образом, моделирование состоит из двух
шагов: 1) формулировка условного распределения в параметрическом виде, 2) настройка па-
раметров w* так, что функции вероятностей P(y | x𝑗 , w* ) достигают бо́льших значений на
верных разметках y𝑗 , и меньших — на остальных, которая обычно осуществляется миними-
зацией некоторой целевой функции (эмпирического риска).
Определение 1.14. Логлинейной зависимостью условной вероятности от параметров называ-

ют следующую параметризацию:
(︃ 𝐹 )︃
1 ∑︁ 1
w| 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 ) = exp w| 𝜓(y; x) ,
(︀ )︀
P(y | x, w) = exp (1.48)
𝑍(x, w) 𝑓 =1
𝑍(x, w)
где, как и в (1.1), 𝑍 — нормировочная константа, y𝒞𝑓 — проекция y на индексы 𝒞𝑓 , x𝑓 —

часть вектора признаков, имеющая отношение к фактору 𝑓 , 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 ) — вектор обобщён-
ных признаков фактора 𝑓 , длина которого равна длине вектора параметров w, а 𝜓(y; x) =
∑︀𝐹 𝑡(𝑓 )
𝑓 =1 𝜓 (y𝒞𝑓 ; x𝑓 ). Тип фактора 𝑡(𝑓 ) определяет тип зависимости, моделируемой вектором
обобщённых признаков; например, он может разделять унарные и парные потенциалы. Лог-
линейная параметризация чаще всего используется на практике из-за простоты работы с ней.
Рассмотрим пример задания вектора обобщённых признаков и семантики параметров, ко-

торый может быть использован в задаче семантической сегментации изображений, разбитых
на суперпиксели. Разметка суперпикселей изображения моделируется парно-сепарабельной
марковской сетью (1.5), то есть все факторы имеют порядок не более двух. Тогда имеются
два типа факторов — унарные и парные: 𝑡(𝑓 ) ∈ {v, e}. Пусть также заданы признаки супер-
пикселей {xv𝑣 }𝑣∈𝒱 ∈ R𝑑v ×|𝒱| и их попарного взаимодействия {xe𝑣𝑤 }(𝑣,𝑤)∈ℰ ∈ R𝑑e ×|ℰ| , которые
все вместе при конкатенации дают вектор x. Здесь 𝑑v и 𝑑e — размерности соответствующих
векторов признаков. Вектор параметров разделяется на две части: параметры wv являют-
ся общими для всех унарных потенциалов, а we — общими для всех парных потенциалов.
wv ∈ R𝐾𝑑v содержит коэффициенты скалярного произведения для каждого из 𝐾 значений,
которые может принимать 𝑦𝑣 . Функция 𝜓 v (𝑦𝑣 ; x𝑣 ) возвращает элементы вектора xv𝑣 в нужных
позициях, чтобы они соответствовали признакам для назначения 𝑦𝑣 , остальные позиции за-
полняются нулями. Аналогичная операция может быть проделана для парных потенциалов, с
той разницей, что назначение (𝑦𝑣 , 𝑦𝑢 ) может принимать не 𝐾, а 𝐾 2 значений (рис. 1.3).
Возможны и другие варианты задания семантики параметров, даже для задачи семантиче-
ской сегментации. Например, некоторым назначениям в потенциалах могут не соответство-
вать параметры, тем самым неявно предполагается нулевое значение потенциала. В некоторых
задачах параметры могут не быть общими для разных факторов одного порядка, например,
это полезно в задаче категоризации документов (раздел 2.3).
27
𝜑v (2; x𝑣 , w) = w 𝜓 v (2; x𝑣 )
∑︀
= ·
𝜑e((2, 1); x𝑣,𝑢, w) = w 𝜓 e((2, 1); x𝑣,𝑢)
∑︀
= ·
Рисунок 1.3: Пример определения унарных (верхний ряд) и парных (нижний ряд) потенциа-
лов при логлинейной параметризации при количестве категорий 𝐾 = 3, количестве признаков
унарных потенциалов 𝑑v = 5 и количестве признаков парных потенциалов 𝑑e = 4 для кон-
фигураций 𝑦𝑣 = 2 и 𝑦𝑣 = 2, 𝑦𝑢 = 1. Векторы обобщённых признаков принимают ненулевые
значения только в соответствующих «колонках», куда записываются значения x𝑣 и x𝑣,𝑢 , соот-
ветственно. Значение потенциала вычисляется как скалярное произведение параметров w на
соответствующий вектор обобщённых признаков.
1.3.1 Максимизация правдоподобия и его приближений

Определение 1.15. Функцией правдоподобия параметров w семейства распределений P(y |
x, w) на выборке {(x𝑗 , y𝑗 )}𝐽𝑗=1 называется следующий функционал:
𝐽
∏︁
L(w) = P(y𝑗 | x𝑗 , w). (1.49)
𝑗=1
Метод максимального правдоподобия предлагает брать в качестве оценки параметров та-

кую, которая максимизирует правдоподобие на обучающей выборке: wML = argmaxw L(w).
На практике проще искать максимум логарифма правдоподобия: он достигается в той же
точки из-за того, что логарифм монотонно возрастает на всей области определения.
28
Найдём градиент логарифма функции правдоподобия:
𝐽 [︂
𝜕𝑍(x𝑗 , w)
]︂
𝜕 log L ∑︁ 𝑗 𝑗 1
= 𝜓(y ; x ) − = (1.50)
𝜕w 𝑗=1
𝑍(x𝑗 , w) 𝜕w
𝐽
[︃ )︀ ]︃
∑︁ 𝜕 exp w| 𝜓(ȳ; x𝑗 )
(︀
∑︁ 1
𝜓(y𝑗 ; x𝑗 ) − 𝑗 , w)
=
𝑗=1
𝑍(x ȳ
𝜕w
𝐽
[︃ ]︃
∑︁ ∑︁
𝑗 𝑗 𝑗 𝑗
𝜓(y ; x ) − 𝜓(ȳ; x )P(ȳ | x , w) =
𝑗=1 ȳ
𝐽
∑︁
𝐽Edata 𝜓(y; x) − Emodel 𝜓(y; x𝑗 ).
𝑗=1
В итоговой формуле Edata обозначает выборочное математическое ожидание по обучающей

выборке, а Emodel — математическое ожидание по оцениваемому распределению при условии
текущих параметров w и признаков данного объекта x𝑗 . Первое представляет собой век-
тор, элементы которого равны усреднённым по факторам обучающей выборки обобщённым
признакам. Элементы второго — суммы по 𝐾 𝑉 разметкам, которые состоят из обобщённых
признаков, вычисленных для данных разметок, с коэффициентами, равными вероятностям по-
лучить соответствующие разметки. Чтобы избежать суммирования экспоненциального числа
слагаемых, перепишем выражение:
∑︁ 𝐹
∑︁ ∑︁
Emodel 𝜓(y; x) = 𝑗 𝑗
𝜓(ȳ; x )P(ȳ | x , w) = 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 )P(ȳ | x𝑗 , w) = (1.51)
ȳ ȳ 𝑓 =1
𝐹 ∑︁ ∑︁
∑︁ 𝐹 ∑︁
∑︁
𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 )P(ȳ | x𝑗 , w) = 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 )P(ȳ𝒞𝑓 | x𝑗 , w).
𝑓 =1 ȳ𝒞𝑓 ȳ𝒱∖𝒞𝑓 𝑓 =1 ȳ𝒞𝑓
Маргинальные распределения P(ȳ𝒞𝑓 | x𝑗 , w) могут быть эффективно рассчитаны для неко-

торых видов марковских сетей (см. раздел 1.1). Таким образом, если порядок факторов огра-
ничен сверху небольшой константой, матожидание по модели может быть оценено доволь-
но быстро (за линейное по числу факторов время, независимо от количества переменных в
марковской сети), при условии что известны значения всех маргинальных распределений на
факторы.
Найдём теперь гессиан правдоподобия:
29
𝐽 𝜕 exp(w| 𝜓(ȳ;x𝑗 )) 𝑗 ,w)
𝑍(x𝑗 , w) − 𝜕𝑍(x exp w| 𝜓(ȳ; x𝑗 )
(︀ )︀
𝜕 2 log L ∑︁ ∑︁
𝜕w| 𝜕w|
= − 𝜓(ȳ; x𝑗 ) = (1.52)
𝜕w𝜕w| 𝑗=1 ȳ
𝑍 2 (x𝑗 , w)
𝐽 ∑︁
𝑍(x𝑗 , w) exp w| 𝜓(ȳ; x𝑗 ) [𝜓 | (ȳ; x𝑗 ) − Emodel 𝜓 | (y; x𝑗 )]
(︀ )︀
∑︁
𝑗
− 𝜓(ȳ; x ) =
𝑗=1 ȳ
𝑍 2 (x𝑗 , w)
𝐽
[︃ ]︃
∑︁ ∑︁ exp(w| 𝜓(ȳ; x𝑗 ))
− 𝜓(ȳ; x𝑗 )𝜓 | (ȳ; x𝑗 ) − Emodel 𝜓(y; x𝑗 ) · Emodel 𝜓 | (y; x𝑗 ) =
𝑗=1 ȳ
𝑍(x𝑗 , w)
𝐽
∑︁
Emodel 𝜓(y; x𝑗 )𝜓 | (y; x𝑗 ) − Emodel 𝜓(y; x𝑗 ) · Emodel 𝜓 | (y; x𝑗 ) =
[︀ ]︀
−
𝑗=1
𝐽
∑︁
− var [𝜓(y; x𝑗 )].
𝑗=1
Таким образом, гессиан логарифма функции правдоподобия с точностью до знака равен

сумме матриц ковариаций векторов обобщённых признаков по моделируемому распределе-
нию, следовательно, отрицательно определён. Логарифм правдоподобия вогнут, поэтому ло-
кальный максимум единственен, и может быть найден методами выпуклой оптимизации, та-
кими как градиентный подъём, ньютоновские или квази-ньютоновские методы [36, §8.3]. На
практике, однако же, при пересчёте градиента возникают вычислительные трудности при пе-
ресчёте Emodel 𝜓(y; x𝑗 ), которое предполагает суммирование |𝒴| = 𝐾 𝑉 слагаемых.
Один из выходов — оценивать это математическое ожидание на каждой итерации при-
ближённо, с помощью выборки по значимости (англ. importance sampling) [36, §23.4]. Это
метод сэмплирования, который концентрируется на слагаемых, вносящий наибольший вклад
в математическое ожидание. Для его выполнения нужно генерировать значения из ненорми-
рованного распределения Гиббса, для чего используется метод Монте Карло с Mарковскими
цепями (англ. Markov Chains Monte Carlo, MCMC).
Вместо того, чтобы приближённо максимизировать логарифм правдоподобия, можно опре-
делить другую целевую функцию. Одним из вариантов является псевдоправдоподобие (ан-
гл. pseudo likelihood):
𝐽 ∏︁
∏︁ 𝑗
LP (w) = P(𝑦𝑣𝑗 | y∖𝑣 , x𝑗 , w), (1.53)
𝑗=1 𝑣∈𝒱
𝑗
где y∖𝑣 — вектор, состоящий из всех компонент y𝑗 , кроме 𝑦𝑣𝑗 . Таким образом, полное прав-
доподобие заменяется на произведение условных вероятностей индивидуальных переменных
при известных верных значениях остальных. Вычислить такие условные распределения про-
ще, так как нормировочные константы теперь рассчитываются не для всех переменных, а для
групп смежных вершин марковской сети каждой из переменных, как правило, небольших по
размеру. Используя факторизацию марковской сети, имеем:
𝑗 𝑝𝑗 (𝑘)
P(𝑦𝑣𝑗 = 𝑘 | y∖𝑣 , x𝑗 , w) = ∑︀𝐾 𝑣 𝑗 , (1.54)
¯ 𝑝 𝑣 ( ¯
𝑘)
𝑘=1
30
где ненормированное условное распределение равно:
∏︁ (︁ )︀)︁
𝑝𝑗𝑣 (𝑘) = exp w| 𝜓 𝑡(𝑓 ) y𝒞𝑗 𝑓 |𝑦𝑣 =𝑘 ; x𝑗𝑓 ,
(︀
(1.55)
𝑓 :𝑣∈𝒞𝑓
где под y𝒞𝑗 𝑓 |𝑦𝑣 =𝑘 понимается вектор, в котором компонента, соответствующая индексу пере-
менной 𝑣, заменена на 𝑘.
Покажем, что вычисление такой функции и её градиента значительно проще на примере
парно-сепарабельной марковской сети над графом, заданным 4-связной решёткой (такие мар-
ковские сети часто используются в низкоуровневой обработке изображений, см. рис. 1.2a).
Каждая вершина графа входит не более чем в 4 фактора, поэтому в знаменателе (1.54) необ-
ходимо сложить не более 𝐾 4 слагаемых для каждой из переменных, то есть совершить поряд-
ка 𝑉 𝐾 4 операций для подсчёта градиента по одному объекту, что значительно меньше 𝐾 𝑉 .
Данный метод при обучении считает известными метки других переменных, что может
привести к получению смещённой оценки. Например, в обучающей выборке значение пере-
менной может точно определяться значением одной из «соседних» переменных, в результате
чего распределение будет моделировать детерминистическую связь между ними, при этом не
учитывая другие факторы, например локальные признаки. Однако на практике оценки макси-
мума псевдоправдоподобия часто близки к оценкам максимума правдоподобия [36, §19.5.4].
К логарифму правдоподобия или его аппроксимациям часто добавляют квадратичный ре-
гуляризатор на параметры w| w, что эквивалентно введению нормального априорного рас-
пределения с центром в нуле. Эта техника предотвращает чрезмерный рост параметров, со-
ответствующих наиболее сильным признакам, и таким образом предотвращает переобучение.
Тогда оптимум такой регуляризованной функции можно считать MAP-оценкой на парамет-
ры w. Градиент квадратичного регуляризатора линеен, поэтому не доставляет трудностей при
оптимизации.
1.3.2 Максимизация отступа

Градиент логарифма правдоподобия (1.50) равен разности математического ожидания
обобщённых признаков по данным и по модели. Таким образом, максимизация правдопо-
добия стремится увеличить значение функции распределения в точках, присутствующих в
обучающей выборке, и уменьшить во всех остальных. Если на этапе вывода интерес пред-
ставляет не распределение само по себе, а лишь его MAP-оценка, подбор параметров можно
проводить из других соображений: объекты обучающей выборки должны иметь вероятность
моды распределения, причём эта вероятность должна иметь как можно больший отступ от
второй по вероятности точки. При использовании такого критерия игнорируются значения
функции распределения во всех точках, кроме этих двух, что напоминает концепцию опор-
ных векторов в методе опорных векторов (англ. support vector machine, SVM).
Второй важной особенностью метода является использование нетривиальной функции по-
терь при обучении. В разделе 1.1 было определено Байесовское решающее правило, позво-
ляющее выводить разметку, минимизирующую математическое ожидание функции потерь по
31
апостериорному распределению. Хотя на этапе принятия решения это правило используется
редко из-за его трудоёмкости, оказывается выгодно использовать его в целевой функции при
обучении. Предположим, что задана функция потерь ℒ(ȳ; y), задающая отклонение некото-
рой разметки ȳ от верной разметки y. Тогда задача обучения ставится как минимизация по
параметрам w следующей целевой функции:
𝐽 ∑︁
∏︁
𝑅(w) = ℒ(ȳ; y𝑗 )P(ȳ | x𝑗 , w). (1.56)
𝑗=1 ȳ∈𝒴
Заметим, что при ℒ(ȳ; y𝑗 ) = Jȳ = y𝑗 K, 𝑅(w) эквивалентна правдоподобию (1.49). Обозна-
чим Δ(ȳ; y) = log ℒ(ȳ; y) и преобразуем логарифм 𝑅(w):
𝐽
[︃ )︀ ]︃
exp w| 𝜓(ȳ; x𝑗 )
(︀
∑︁ ∑︁
𝑗
log 𝑅(w) = log ℒ(ȳ; y ) = (1.57)
𝑗=1 ȳ∈𝒴
𝑍(x𝑗 , w)
𝐽
[︃ ]︃
∑︁ ∑︁ ∑︁
exp Δ(ȳ; y𝑗 ) + w| 𝜓(ȳ; x𝑗 ) − log exp w| 𝜓(ȳ; x𝑗 ) .
(︀ )︀ (︀ )︀
log
𝑗=1 ȳ∈𝒴 ȳ∈𝒴
Каждое слагаемое является суммой выпуклой и вогнутой по w функций, а также со-

держит сумму по 𝐾 𝑉 слагаемым. Построим выпуклую оценку сверху на log 𝑅(w), заменяя
суммы по ȳ точечной оценкой. Для этого воспользуемся следующими оценками конструк-
∑︀ (︀ )︀
ции log ȳ∈𝒴 exp 𝑓 (ȳ) для произвольных 𝑓 : 𝒴 → R и y ∈ 𝒴 [36, (19.85), (19.88)]:
∑︁ [︂ (︁ )︁]︂
𝑓 (y) ≤ log exp 𝑓 (ȳ) ≤ log |𝒴| exp max 𝑓 (ȳ) ≤ log |𝒴| + max 𝑓 (ȳ). (1.58)
ȳ∈𝒴 ȳ∈𝒴
ȳ∈𝒴
Получим:
𝐽 [︂
∑︁ ]︂
𝑗 | | 𝑗 𝑗 𝑗
{︀ }︀
log 𝑅(w) ≤ max Δ(ȳ; y ) + w 𝜓(ȳ; x ) − w 𝜓(y ; x ) + 𝐽 log |𝒴|. (1.59)
ȳ∈𝒴
𝑗=1
Максимум конечного числа линейных функций является выпуклой функцией, поэтому

полученная верхняя оценка является выпуклой. Последний член не зависит от w, поэтому не
влияет на точку, в которой достигается минимум. Добавление квадратичного регуляризатора
даёт следующую целевую функцию:
𝐽 [︂ ]︂
1 | ∑︁ {︀ 𝑗 | 𝑗
}︀ | 𝑗 𝑗
LMM (w) = w w + 𝐶 max Δ(ȳ; y ) + w 𝜓(ȳ; x ) − w 𝜓(y ; x ) , (1.60)
2 𝑗=1
ȳ∈𝒴
где структурный параметр 𝐶 определяет относительный вклад регуляризатора. Минимизацию

этой функции можно также представить как задачу условной оптимизации путём введения
фиктивных переменных 𝜉𝑗 . Полученная задача известна как структурный метод опорных
векторов (англ. structural support vector machine, SSVM) [20]:
32
Рисунок 1.4: Пример, поясняющий идею максимизации отступа в структурном обучении
для объекта обучающей выборки (x, y). Горизонтальная ось представляет пространство раз-
меток. Красная кривая(︀ задаёт функцию )︀потерь Δ(ȳ; y), чёрные стрелки задают величи-
ну w| Δ𝜓(ȳ; x) = w| 𝜓(ȳ; x) − 𝜓(y; x) , а зелёная кривая — их сумму (в подписях опу-
щены постоянные параметры функций). Минимизация отступа стремится минимизировать
по w значение этой суммы в смысле нормы 𝐿∞ . На рисунке показана точка максимума этой
кривой ȳmax , не совпадающая с точкой максимума функции, показанной чёрными стрелками.
Оптимизационная задача 1.5 (структурный SVM).
𝐽
1 ∑︁
min w| w + 𝐶 𝜉𝑗 , (1.61)
w,𝜉 2
𝑗=1
w| 𝜓(y𝑗 ; x𝑗 ) ≥ max w| 𝜓(ȳ; x𝑗 ) + Δ(ȳ; y𝑗 ) − 𝜉𝑗 ,

{︀ }︀
при условиях ∀𝑗 ∈ {1, . . . , 𝐽}. (1.62)
ȳ∈𝒴
Из смысла задачи Δ(y; y) = 0, и Δ(ȳ; y) ≥ 0, ∀ȳ. Одним из вариантов выбора функции

∑︀
потерь для задач разметки является расстояние Хэмминга: Δ(ȳ; y) = 𝑣 J¯𝑦𝑣 ̸= 𝑦𝑣 K. В случае
выполнения всех условий значение функционала w| 𝜓(y𝑗 ; x𝑗 ) на верной разметке y𝑗 долж-
но быть больше, чем на любой другой разметке ȳ (с допуском 𝜉𝑗 ), причём отступ должен
увеличиваться с удалением разметки ȳ от верной. Поэтому подбор параметров из таких сооб-
ражений называется максимизацией отступа между верной разметкой и второй после неё в
соответствии с обученной моделью. Рис. 1.4 иллюстрирует эту идею.
Оптимизация методом секущей плоскости
Задачу 1.5 можно представить в форме стандартной задачи квадратичного программиро-

вания с линейными ограничениями:
33
Алгоритм 1.1 Обучение SSVM методом секущей плоскости
1: Вход: обучающая выборка {(x𝑗 , y𝑗 )}𝐽𝑗=1 , гиперпараметры 𝐶, 𝜀.
2: Выход: параметры w.
3: 𝒲𝑗 ← ∅, 𝜉𝑗 ← 0, ∀𝑗 ∈ {1, . . . , 𝐽}
4: repeat
5: for all 𝑗 ∈ {1, . . . , 𝐽} do
6: ȳ ← argmaxy∈𝒴 {w| 𝜓(y; x𝑗 ) + Δ(y; y𝑗 )}
7: 𝑣𝑗 ← w| 𝜓(ȳ; x𝑗 ) − w| 𝜓(y𝑗 ; x𝑗 ) + Δ(ȳ; y𝑗 ) − 𝜉𝑗
8: if 𝑣𝑗 ≥ 𝜀 then
9: 𝒲𝑗 ← 𝒲𝑗 ∪ {ȳ}
(w, 𝜉) ← argminw,𝜉≥0 21 w| w + 𝐶 𝐽𝑗=1 𝜉𝑗
∑︀
10:
11: п. у. w| 𝜓(y𝑖 ; x𝑖 ) ≥ w| 𝜓(ȳ𝑖 ; x𝑖 ) + Δ(ȳ𝑖 ; y𝑖 ) − 𝜉𝑗 , ∀ȳ𝑖 ∈ 𝒲𝑖 , ∀𝑖 ∈ {1, . . . , 𝐽}
12: end if
13: end for
14: until 𝑣𝑗 < 𝜀, ∀𝑗 ∈ {1, . . . , 𝐽}
Оптимизационная задача 1.6 (SSVM как задача квадратичного программирования).
𝐽
1 ∑︁
min w| w + 𝐶 𝜉𝑗 , (1.63)
w,𝜉 2
𝑗=1
при условиях w| 𝜓(y𝑗 ; x𝑗 ) ≥ w| 𝜓(ȳ; x𝑗 ) + Δ(ȳ; y𝑗 ) − 𝜉𝑗 , ∀ȳ ∈ 𝒴, ∀𝑗 ∈ {1, . . . , 𝐽}. (1.64)
Для задач квадратичного программирования общего вида существует множество стандарт-

ных решателей, однако на практике с их помощью невозможно решить задачу 1.6, так как она
содержит 𝐽𝐾 𝑉 линейных ограничений. Поэтому разработаны специальные алгоритмы для
решения задач такого вида. Одним из подходов является применение метода секущей плос-
кости (англ. cutting-plane method). В подобных алгоритмах (см. алгоритм 1.1) многогранник,
определяющий допустимое множество, уточняется итеративно. На итерации 𝑡 находится точ-
ка w𝑡 , минимизирующая сокращённую задачу квадратичного программирования на рабочем
наборе ограничений, являющемся подмножеством полного набора. Это можно выполнить с
помощью стандартного решателя. Затем ограничивающий политоп уточняется путём добав-
ления набора наиболее нарушаемых ограничений полной задачи при текущих параметрах w𝑡 .
Алгоритм прекращает работу, когда все ограничения выполняются с точностью до 𝜀. Показа-
но, что при фиксированном 𝜀 > 0 алгоритм сходится за полиномиальное число итераций [20].
Наиболее нарушаемое ограничение в строке 6 алгоритма 1.1 находится посредством алго-
ритма оптимизации, называемого выводом, дополненным функцией потерь. Часто оптимиза-
ция может проводиться теми же средствами, которые применяются при выводе MAP-оценки.
Для этого функция потерь должна иметь вид, пригодный для такого вывода. Например, если
функция потерь разделяется на унарные потенциалы (как расстояние Хэмминга), вывод, до-
полненный функцией потерь не становится сложнее вывода MAP-оценки. Другим примером
могут являться функции потерь высоких порядков специального вида, допускающие эффек-
тивный вывод с помощью алгоритмов на основе разрезов графов (раздел 1.2.4). В главе 2
приведены примеры нетривиальных функций потерь, возникающих в практических задачах.
34
Субградиентные методы оптимизации
Целевую функцию (1.60) можно оптимизировать и напрямую. Она является выпуклой, но

недифференцируемой. Поэтому можно применить метод субградиентного спуска. Субгради-
ент может быть вычислен по формуле:
𝐽
𝜕LMM ∑︁
𝜓(ȳ𝑗 (w); x𝑗 ) − 𝜓(y𝑗 ; x𝑗 ) ,
[︀ ]︀
∋ g(w) = w + 𝐶 (1.65)
𝜕w 𝑗=1
где ȳ𝑗 (w) = argmaxȳ∈𝒴 {Δ(ȳ; y𝑗 ) + w| 𝜓(ȳ; x𝑗 )} при текущем значении w. Инициализировав
вектор параметров некоторым значением w0 , метод итеративно обновляет его значения по
формуле
w𝑛+1 = w𝑛 − 𝛾𝑛 g(w𝑛 ), (1.66)
где 𝛾𝑛 — убывающий размер шага. Поскольку целевая функция выпукла, существует такая
последовательность {𝛾𝑛 }, при которой оптимизация сходится к глобальному оптимуму. В
частности, достаточно, чтобы 𝛾𝑛 → 0, но ∞
∑︀
𝑛=0 𝛾𝑛 → +∞ [53]. Например, такому свойству
1
удовлетворяет последовательность 𝛾𝑛 = 𝑛+1 . В практических задачах важна скорость сходи-
мости, которая сильно зависит от выбора конкретной последовательности размеров шагов.
На практике бывает полезно ограничивать множество w. Например, при использовании
ассоциативных марковских сетей приходится полагать w ≥ 0 (см. раздел 2.2.1). Если на
каждой итерации брать проекцию w𝑛+1 на некоторое выпуклое множество, то метод сходится
к оптимуму целевой функции на этом выпуклом множестве [53].
Лакост-Жулие и др. [54] рассмотрели субградиентный метод для оптимизации двойствен-
ной функции к (1.60). Формулы пересчёта, выраженные через целевые переменные прямой
задачи, совпали с (1.66), однако удалось получить в аналитическом виде оптимальный раз-
мер шага 𝛾𝑛 на каждой итерации 𝑛. Кроме того, появилась возможность вычислять текущий
интервал двойственности, который является верхней оценкой отклонения значения целевой
функции в текущей точке от оптимума.
Исследования других применений субградиентного метода [55,56] показали, что неэффек-
тивно оценивать градиент точно на каждой итерации. Сумму по 𝐽 объектам в (1.65) можно
приблизить суммой по их случайному подмножеству:
|𝒥 | ∑︁ [︀
𝜓(ȳ𝑗 (w); x𝑗 ) − 𝜓(y𝑗 ; x𝑗 ) ,
]︀
g̃(w) = w + 𝐶 (1.67)
𝐽 𝑗∈𝒥
где 𝒥 ⊂ {1, . . . , 𝐽} — некоторое случайное подмножество. В вырожденном случае 𝒥 со-

стоит из одного элемента, тогда метод называют онлайн-обучением. При его использовании
скорость сходимости субградиентных методов может конкурировать со скоростью метода се-
кущей плоскости [54].
35
1.3.3 Обучение нелинейных моделей
До этого предполагалась логлинейная зависимость (1.48) правдоподобия от параметров
распределения. Далее рассмотрим графические вероятностные модели с более гибкой зависи-
мостью от параметров, однако явно представимые в виде распределения Гиббса (1.1). Суще-
ствуют также методы, модифицирующие алгоритмы вывода и настраивающие непосредствен-
но их параметры, не используя в явном виде параметризованное распределение [25, 26, 57], в
том числе попадающий в этот класс метод, предложенный в главе 4. Более подробный обзор
таких методов дан в разделе 4.4.
Функциональный градиентный бустинг
Метод функционального градиентного бустинга (англ. functional gradient boosting) [58]

использует идею субградиентного обучения, однако не рассматривает параметрическое пред-
ставление потенциалов, а выполняет градиентный спуск непосредственно в функциональном
пространстве. Рассмотрим нерегуляризованный аналог целевой функции (1.60) для обучения
потенциальных функций энергии (1.4):
𝐽
[︃ {︂ 𝐹 𝐹
}︂ ∑︁ ]︃
∑︁ ∑︁
LFGB = max Δ(ȳ; y𝑗 ) − 𝜑𝑓 (ȳ𝒞𝑓 ; x𝑗 ) + 𝜑𝑓 (y𝒞𝑗 𝑓 ; x𝑗 ) , (1.68)
ȳ∈𝒴
𝑗=1 𝑓 =1 𝑓 =1
причём потенциал 𝜑𝑓 (y𝒞𝑓 ; x) ищется в виде некоторой функции от 𝑑 обобщённых призна-

ков 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 ) (они могут задаваться так же, как и ранее, см. пример после определе-
ния 1.14). Пусть на итерации градиентного подъёма 𝑛 подобрана функция 𝑔𝑛 : R𝑑 → R, опре-
деляющая потенциалы: 𝜑𝑓 (y𝒞𝑓 ; x) = 𝑔𝑛 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 ) , ∀𝑓 . Чтобы получить функциональный
(︀ )︀
градиент в этой точке, покажем сначала, чему равен градиент функционала Fa [𝑔] ≡ 𝑔(a). Рас-
смотрим значение функционала при вариации аргумента:
∫︁
Fa [𝑔 + 𝜀𝜂] = 𝑔(a) + 𝜀𝜂(a) = 𝑔(a) + 𝜀 𝜂(x)𝜆a (x)𝑑x + O(𝜀2 ), (1.69)
где 𝜆a (𝜉) ≡ 𝛿(𝜉 − a) — дельта-функция Дирака в точке (𝜉 − a). Из определения функциональ-

ного градиента, 𝛿F𝛿𝑔
a
= 𝜆a .
Получим теперь отрицательный функциональный градиент функции (1.68) в точке 𝑔𝑛 [6]:
𝐽
[︃ 𝐹 𝐹
]︃
𝛿LFGB ∑︁ ∑︁ 𝛿 (︁ )︁ ∑︁ 𝛿 (︁ )︁
− = 𝑔𝑛 𝜓 𝑡(𝑓 ) (y𝒞*𝑗𝑓 ; x𝑗𝑓 ) − 𝑔𝑛 𝜓 𝑡(𝑓 ) (y𝒞𝑗 𝑓 ; x𝑗𝑓 ) (1.70)
𝛿𝑔𝑛 𝑗=1 𝑓 =1
𝛿𝑔 𝑛
𝑓 =1
𝛿𝑔 𝑛
𝐽 ∑︁
∑︁ 𝐹 [︂ ]︂
= 𝜆𝜓𝑡(𝑓 ) (y*𝑗 ;x𝑗 ) − 𝜆𝜓𝑡(𝑓 ) (y𝑗 ;x𝑗 ) , (1.71)
𝒞𝑓 𝑓 𝒞𝑓 𝑓
𝑗=1 𝑓 =1
{︁ ∑︀𝐹 (︁ )︁ }︁
*𝑗 𝑗 𝑡(𝑓 ) 𝑗
где y = argmaxȳ∈𝒴 Δ(ȳ; y ) − 𝑓 =1 𝑔𝑛 𝜓 (ȳ𝒞𝑓 ; x𝑓 ) .
В случае, когда градиентный подъём выполняется в Евклидовом пространстве, делается
шаг по направлению отрицательного градиента, а финальное решение может быть представ-
36
лено как взвешенная сумма градиентов, найденных в процессе оптимизации. При восстанов-
лении функциональной зависимости 𝑔 от обобщённых признаков эту стратегию использовать
нельзя, так как сумма дельта-функций будет обладать низкой обобщающей способностью: для
большинства признаков тестовой выборки она будет равняться нулю, так как такие признаки
потенциалов не встречались в обучающей выборке, зато при случайном совпадении призна-
ков одного из потенциалов энергия устремится в бесконечность. Поэтому для регуляризации
на каждой итерации функционального градиентного бустинга будем настраивать функцию-
предиктор из некоторого множества ℋ, наилучшим образом приближающую отрицательный
функциональный градиент (1.70) в смысле скалярного произведения.
Определение 1.16. Скалярным произведением в 𝐿2 называют следующий вещественнознач-

ный функционал: ∫︁
⟨𝑓, 𝑔⟩ = 𝑓 (𝜉)𝑔(𝜉)𝑑𝜉. (1.72)
Найдём функцию ℎ*𝑛 : R𝑑 → R в классе ℋ, наиболее близкую к отрицательному градиенту

в смысле скалярного произведения в 𝐿2 :
⟨ ⟩ 𝐽 ∑︁ 𝐹 [︂⟨ ⟩ ⟨ ⟩]︂
𝛿LFGB ∑︁
ℎ*𝑛 = argmax ℎ𝑛 , − = argmax ℎ𝑛 , 𝜆𝜓𝑡(𝑓 ) (y*𝑗 ;x𝑗 ) − ℎ𝑛 , 𝜆𝜓𝑡(𝑓 ) (y𝑗 ;x𝑗 )
ℎ𝑛 ∈ℋ 𝛿𝑔𝑛 ℎ𝑛 ∈ℋ 𝑗=1
𝑓 =1
𝒞𝑓 𝑓 𝒞𝑓 𝑓
𝐽 ∑︁
𝐹 [︁
∑︁ (︀ 𝑡(𝑓 ) *𝑗 𝑗 )︀ (︀ 𝑡(𝑓 ) 𝑗 𝑗
)︀]︁
= argmax ℎ𝑛 𝜓 (y𝒞𝑓 ; x𝑓 ) − ℎ𝑛 𝜓 (y𝒞𝑓 ; x𝑓 ) . (1.73)
ℎ𝑛 ∈ℋ 𝑗=1 𝑓 =1
Класс ℋ может представлять собой семейство бинарных классификаторов, т.е. множество

функций, возвращающих +1 или −1. Например, это может быть множество линейных клас-
сификаторов или решающих деревьев. Тогда максимизация в (1.73) эквивалентна обучению
соответствующего классификатора, где 𝜓 𝑡(𝑓 ) (y𝒞*𝑗𝑓 ; x𝑗𝑓 ) представляют собой объекты класса +1,
а 𝜓 𝑡(𝑓 ) (y𝒞𝑗 𝑓 ; x𝑗𝑓 ) — объекты класса −1, для всех объектов обучающей выборки 𝑗 и их фак-
торов 𝑓 . Функция ℎ*𝑛 может быть найдена, например, с помощью алгоритма логистической
регрессии или индукции решающих деревьев.
Осталось определить, как обновляется функция 𝑔𝑛 на каждом следующем шаге градиент-
ного спуска:
𝑁
∑︁
*
𝑔𝑁 +1 (𝜉) = 𝑔𝑁 (𝜉) + 𝛾𝑁 ℎ𝑁 (𝜉) = 𝛾𝑛 ℎ*𝑛 (𝜉). (1.74)
𝑛=1
Здесь 𝛾𝑛 — убывающая последовательность длин шагов, а начальное значение можно поло-

жить нулевым: 𝑔0 (𝜉) ≡ 0. Финальные значения потенциальных функций определяются значе-
нием функции 𝑔𝑛 после 𝑁 итераций:
(︁ 𝑁
)︁ ∑︁ (︁ )︁
𝑡(𝑓 )
𝜑𝑓 (y𝒞𝑓 ; x) = 𝑔𝑁 +1 𝜓 (y𝒞𝑓 ; x𝑓 ) = 𝛾𝑛 ℎ*𝑛 𝜓 𝑡(𝑓 ) (y𝒞𝑓 ; x𝑓 ) , ∀𝑓. (1.75)
𝑛=1
37
Поле решающих деревьев
В поле решающих деревьев (англ. decision tree field) [59] используется другой вид нели-
нейной зависимости потенциальных функций от признаков. Каждому типу факторов 𝑡 со-
ответствует решающее дерево T𝑡 , вершинам 𝑞 которого соответствуют векторы парамет-
ров w𝑞𝑡 , определяющие значение потенциала для каждой из конфигураций меток. Обозна-
чим path(x𝑓 ; T𝑡 ) функцию, возвращающую для признаков фактора x𝑓 множество вершин
решающего дерева T𝑡 , «посещённых» при классификации объекта с признаками x𝑓 . Тогда
значение потенциальной функции определяется следующим образом:
∑︁
𝜑𝑓 (y𝒞𝑓 ; x) = 𝑤𝑞𝑡(𝑓 ) (y𝒞𝑓 ), ∀𝑓. (1.76)
𝑞∈path(x𝑓 ;T𝑡(𝑓 ) )
Обучение модели состоит из двух стадий: сначала определяется структура решающих де-
ревьев, затем настраиваются параметры. Для определения структуры дерева T𝑡 используется
алгоритм индукции решающих деревьев, где в качестве признаков используются все призна-
ки x𝑓 факторов соответствующего типа 𝑡, а в качестве правильных ответов используются
векторы их правильных разметок y𝒞𝑓 , причём каждый из 𝐾 |𝒞𝑓 | векторов считается отдельным
классом (предполагается, что все факторы одного типа имеют равный порядок). Затем струк-
тура дерева фиксируется, а гистограммы категорий в вершинах обнуляются — вместо них на
следующей стадии настраиваются коэффициенты w𝑞𝑡 .
Ключевым наблюдением является линейная зависимость энергии марковской сети от па-
раметров, которая в свою очередь вытекает из линейности потенциалов (1.76) по w. Из этого
следует, что правдоподобие (1.49) выпукло и дифференцируемо по w, однако оно не мо-
жет быть оптимизировано с помощью градиентных методов из-за невозможности эффектив-
но вычислять нормировочную константу. Вместо этого предлагается максимизировать 𝐿2 -
регуляризованный логарифм псевдоправдоподобия (1.53). Регуляризация важна, так как она
ведёт к уменьшению модуля параметров листовых вершин решающих деревьев и близких к
ним. Для их настройки используется небольшое количество данных, поэтому предпочтитель-
но для определения потенциалов использовать более близкие к корню вершины, так как их
параметры настраиваются надёжнее.
Поскольку число классов, используемых при определении структуры решающих деревьев,
экспоненциально зависит от порядка факторов, метод не позволяет использовать потенциалы
высоких порядков. Однако использование различных типов факторов позволяет учитывать
дальнодействующие зависимости между метками, например с помощью задания регулярной
структуры отступов в каждом пикселе изображения, в которой каждому отступу соответствует
тип фактора. Подобная идея используется при задании д-факторов в главе 4 данной работы.
38
Глава 2
Использование различных типов

аннотации обучающей выборки
При обучении алгоритмов разметки зачастую представляет сложность аннотация обучаю-

щей выборки — она требует значительных человеческих усилий. В отличие от полной (силь-
ной) разметки, бывает проще получить слабую аннотацию, под которой мы понимаем некото-
рую статистику от полной разметки. Например, при решении задачи семантического разбора
предложений слабая аннотация обучающей выборки может быть представлена разметкой ча-
стей речи, а в задаче категоризации документов может использоваться неполная разметка, в
которой часть категорий (тэгов) для каждого из документов пропущены. В ряде задач анализа
видеопоследовательностей разметка может быть дана только для ключевых кадров.
В этой главе целевыми приложениями являются задачи семантической сегментации изоб-
ражений и категоризации документов. Примерами слабых аннотаций в первой служат метки
изображения, которые отражают присутствие или отсутствие категорий; метки площади, ко-
торые содержат число пикселей каждой категории на изображении; набор плотных рамок
для объектов, присутствующих в разметке; а также набор зёрен — подмножеств коорди-
нат пикселей, принадлежащих объектам (рис. 2.1). Использование слабых типов аннотаций
в этой задаче обуславливается практической целесообразностью. Например, в наборе дан-
ных PASCAL VOC 20121 только 2913 из 11540 (25%) изображений размечены полностью,
для остальных известны только плотные рамки некоторых категорий объектов. Кроме того,
часто оказывается выгодно использовать разнообразные типы слабых аннотаций, поскольку
они лучше характеризуют различные семантические категории. Например, категории-объекты
(такие как ‘знак’, ‘корова’, ‘автомобиль’) хорошо описываются рамками, а категории-фон
(‘небо’, ‘трава’, ‘вода’), которые обычно занимают значительную часть изображения, — мет-
ками изображения.
В литературе описаны методы, которые используют слабые аннотации для обучения се-
мантической сегментации, но большинство из них используют только метки изображения в
качестве слабых аннотаций. Например, Вежневец и др. [60, 61] используют вероятностную
графическую модель над набором изображений, чтобы распространять информацию о раз-
1
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
39
(a) Изображение (b) Полная разметка
(c) Аннотация с помощью рамки (d) Аннотация с помощью зёрен
(e) Аннотация метками изображения
Рисунок 2.1: Различные типы аннотаций для изображения из набора данных MSRC
метке между изображениями. В этой главе мы представляем метод для обучения семантиче-
ской сегментации по смеси сильно- и слабоаннотированных изображений. Метод позволяет
учитывать разные типы слабой аннотации, даже в рамках одного изображения.
В задаче категоризации документов разметка текстового документа представляет собой
подмножество тегов (категорий) некоторого допустимого множества. Например, юридический
документ может быть помечен 4 категориями из возможных 201: [‘сельское хозяйство’, ‘тор-
говля’, ‘международные отношения’, ‘Украина’]. При получении такой разметки легко про-
пустить некоторые категории. Таким образом, слабой аннотацией документа может являться
некоторое подмножество этих четырёх категорий. Предлагаемый метод обучает модель, пред-
сказывающую полное множество категорий, имея лишь слабоаннотированную обучающую
выборку.
Работа базируется на недавних исследованиях по использованию структурного метода
опорных векторов с латентными переменными (англ. latent-variable structural support vector
machine, LV-SSVM) для задач обучения со слабым наблюдением [62–64]. В отличие от них,
предлагаемый метод использует специализированные функции потерь, которые измеряют рас-
согласованность разметки, предсказанной алгоритмом, с верной (возможно, слабой) аннота-
цией данного изображения. Мы определяем эти функции потерь так, чтобы они оценивали
матожидание расстояния Хэмминга от разметки, предсказанной алгоритмом, до разметок, удо-
влетворяющих слабой аннотации изображения. Благодаря такому определению, функции, спе-
циализированные для разных типов аннотаций, определены в одном масштабе. Таким обра-
зом, модель содержит только один гиперпараметр, который регулирует относительный вклад
40
полностью размеченных и слабо аннотированных данных. Он необходим, поскольку послед-
ние обычно менее информативны. В разделе 3.2 эмпирически показано, как балансирование
этого параметра может улучшить качество сегментации.
Для того чтобы обучить LV-SSVM с использованием различных типов аннотаций, необ-
ходимо определить специализированные функции потерь. Для введённых функций потерь
необходимо описать алгоритмы вывода, дополненного функцией потерь и вывода, согласован-
ного с аннотацией. Первый алгоритм выводит разметку изображения, высоко ранжируемую
текущей моделью, но при этом сильно отличающуюся от верной аннотации, а второй вы-
водит разметку, высоко ранжируемую текущей моделью, при этом согласующуюся с верной
аннотацией (для слабых аннотаций существует множество разметок, согласующихся с ними).
В разделе 2.2 показано, как решать эти оптимизационные задачи для различных функций по-
терь, используя эффективные комбинаторные алгоритмы, основанные на разрезах в графах.
Новизна работы заключается в следующем:
∙ мы предлагаем метод структурного обучения со слабым наблюдением, основанный на

LV-SSVM, который минимизирует различные функции потерь, специализированные для
различных видов аннотаций;
∙ в задаче обучения семантической сегментации мы определяем функции потерь для трёх

популярных типов аннотаций (помимо полной разметки изображения) и их комбинаций:
меток изображения, плотных рамок и зёрен объектов;
∙ в задаче обучения категоризации документов мы определяем функции потерь для пол-

ной разметки документа и для частичной разметки, в которой могут быть пропущены
некоторые теги;
∙ мы предлагаем эффективные алгоритмы вывода, необходимые для обучения LV-SSVM

с введёнными функциями потерь.
2.1 Обучение со слабыми аннотациями

Пусть необходимо настроить параметры w логлинейной модели (1.48), в которой за реше-
ние принимается максимум апостериорного распределения:
yMAP = max w| 𝜓(y; x). (2.1)

y∈𝒴
При наличии обучающей выборки {(x𝑗 , y𝑗 )}𝐽𝑗=1 это можно сделать с помощью структурно-
го SVM (поиск оптимума в задаче 1.5), как показано в разделе 1.3.2.
Определение 2.1. Слабой аннотацией экземпляра обучающей выборки будем называть лю-
бой такой объект z, для которого однозначно определяется непустое множество разме-
ток 𝐿(z) ⊆ 𝒴, совместных со слабой аннотацией.
41
2.1.1 Обобщённый SSVM
Рассмотрим случай, когда помимо 𝐽 полностью размеченных объектов, обучающая выбор-
ка содержит 𝐼 слабо аннотированных: {(x𝑖 , z𝑖 )}𝐽+𝐼
𝑖=𝐽+1 . Обобщим стандартную формулировку
SSVM на случай присутствия в обучающей выборке полностью размеченных и слабо анно-
тированных данных.
Оптимизационная задача 2.1 (Обобщённый SSVM).

(︃ 𝐽 𝐽+𝐼
)︃
1 𝐶 ∑︁ ∑︁
min w| w + 𝜉𝑗 + 𝛼 𝜂𝑖 , (2.2)
w,𝜉,𝜂 2 𝐽 +𝐼 𝑗=1 𝑖=𝐽+1
w| 𝜓(y𝑗 ; x𝑗 ) ≥ max w| 𝜓(ȳ; x𝑗 ) + Δ(ȳ; y𝑗 ) − 𝜉𝑗 , ∀𝑗 ∈ {1, . . . , 𝐽}, (2.3)

{︀ }︀
при условиях
ȳ∈𝒴
max𝑖 w| 𝜓(y; x𝑖 ) ≥ max w| 𝜓(ȳ; x𝑖 ) + K(ȳ; z𝑖 ) − 𝜂𝑖 , ∀𝑖 ∈ {𝐽 + 1, . . . , 𝐽 + 𝐼}.

{︀ }︀
y∈𝐿(z ) ȳ∈𝒴
(2.4)
Здесь K(ȳ, z) — слабая функция потерь, задающая степень несогласованности некоторого

ответа ȳ ∈ 𝒴 со слабой аннотацией z, 𝜂𝑖 — минимизируемые нарушения ограничений.
Заметим, что при 𝐼 = 0 эта оптимизационная задача сводится к стандартной постановке
SSVM, а при 𝐽 = 0 это частный случай SSVM с латентными переменными (LV-SSVM) [65].
Заметим также, что полная разметка y𝑗 является вырожденным случаем слабой аннотации,
где 𝐿(z𝑗 ) = {y𝑗 }. Таким образом, оптимизационная задача 2.1 эквивалентна LV-SSVM, с тем
исключением что она содержит балансирующий коэффициент 𝛼.
Если в задаче 2.1 перенести ограничения в целевую функцию, избавившись от фиктивных
переменных, эквивалентной задачей безусловной оптимизации будет минимизация следую-
щей целевой функции:
(︃ 𝐽 [︂ ]︂
1 𝐶 ∑︁
𝑗 𝑗 𝑗 𝑗
LGMM (w) = w| w + | |
{︀ }︀
max w 𝜓(ȳ; x ) + Δ(ȳ; y ) − w 𝜓(y ; x ) + (2.5)
2 𝐽 +𝐼 𝑗=1
ȳ∈𝒴
𝐽+𝐼 [︂
∑︁ ]︂ )︃
max w| 𝜓(ȳ; x𝑖 ) + K(ȳ; z𝑖 ) − max𝑖 w| 𝜓(y; x𝑖 )
{︀ }︀
𝛼 =
ȳ∈𝒴 y∈𝐿(z )
𝑖=𝐽+1
(︃ 𝐽 [︂ ]︂
1 | 𝐶 ∑︁ {︀ | 𝑗
}︀ | 𝑗 𝑗 𝑗
w w+ max w 𝜓(ȳ; x ) + Δ(ȳ; y ) − w 𝜓(y ; x ) + (2.6)
2 𝐽 +𝐼 𝑗=1
ȳ∈𝒴
𝐽+𝐼
)︃ 𝐽+𝐼
∑︁ 𝐶𝛼 ∑︁
max w| 𝜓(ȳ; x𝑖 ) + K(ȳ; z𝑖 ) max w| 𝜓(y; x𝑖 ).
{︀ }︀
𝛼 −
𝑖=𝐽+1
ȳ∈𝒴 𝐽 + 𝐼 𝑖=𝐽+1 y∈𝐿(z𝑖 )
Первые два слагаемых в (2.6) выпуклы, а последнее, с учётом знака «минус», вогнуто
по w. Эти факты следуют из того, что максимум конечного числа линейных функций является
выпуклым, так же как и сумма произвольных выпуклых функций. Следуя Йу и Йоахимсу [65],
мы используем эту специфическую структуру задачи — сумму выпуклой и вогнутой функ-
ции. Это позволяет применить выпукло-вогнутую процедуру (англ. convex-concave procedure,
CCCP) [66] для приближённой минимизации. Идея этого алгоритма заключается в том, что-
42
бы итеративно минимизировать сумму выпуклой функции и линеаризации вогнутой в точке
минимума с предыдущей итерации. Таким образом, на 𝑛-й итерации значение параметров
пересчитывается по формуле
{︃ (︃ 𝐽 [︂ ]︂
1 | 𝐶 ∑︁ {︀ | 𝑗
}︀ | 𝑗 𝑗 𝑗
w𝑛 = argmin w w+ max w 𝜓(ȳ; x ) + Δ(ȳ; y ) − w 𝜓(y ; x ) + (2.7)
w 2 𝐽 +𝐼 𝑗=1
ȳ∈𝒴
𝐼
)︃ 𝐽+𝐼
}︃
∑︁ 𝐶𝛼 ∑︁ |
max w| 𝜓(ȳ; x𝑖 ) + K(ȳ; z𝑖 ) w 𝜓(y𝑛𝑖 ; x𝑖 ) ,
{︀ }︀
𝛼 −
𝑖=1
ȳ∈𝒴 𝐽 + 𝐼 𝑖=𝐽+1
|
где y𝑛𝑖 = argmaxy∈𝐿(z𝑖 ) w𝑛−1 𝜓(y; x𝑖 ). В (2.7) необходимо минимизировать выпуклую функ-
цию, которая фактически совпадает с целевой функцией структурного SVM, для чего могут
применяться методы, описанные в разделе 1.3.2. Заметим, что эта функция зависит от w𝑛−1
не напрямую, а через выведенную мнимую разметку y𝑛𝑖 , ∀𝑖. Таким образом, алгоритм по-
очерёдно пересчитывает значения y𝑛𝑖 и w𝑛 . Гарантируется, что метод сходится к локальному
минимуму или седловой точке.
Определение 2.2. Задача поиска argmaxy∈𝐿(z) w| 𝜓(y; x) на множестве, ограниченном анно-

тацией z, возникающая в выпукло-вогнутой процедуре, называется выводом, согласованным
с аннотацией (англ. annotation-consistent inference).
Таким образом, при оптимизации в обобщённом SSVM необходимо помимо вывода, до-
полненного функцией потерь Δ в (2.3), необходимо также эффективно выполнять вывод,
дополненный слабой функцией потерь K в (2.4), а также вывод, согласованный с аннотаци-
ей. Последние две задачи зависят от используемого типа аннотаций. В разделе 2.2 описаны
конкретные алгоритмы для трёх типов аннотаций.
2.1.2 Обобщённый SSVM и максимизация неполного правдоподобия

В разделе 1.3.1 описан алгоритм настройки параметров марковской сети с помощью мак-
симизации правдоподобия. В случае присутствия в модели латентных переменных говорят о
максимизации неполного правдоподобия, для чего обычно используют EM-алгоритм. Введём
вероятностную модель для задачи разметки и покажем, как EM-алгоритм, применённый к
этой модели, связан с выпукло-вогнутой процедурой оптимизации в обобщённом SSVM.
Поскольку полная разметка является частным случаем аннотации, будем без потери
общности рассматривать только объекты со слабыми аннотациями {(x𝑗 , z𝑗 )}𝐽𝑗=1 . Определим
неполное правдоподобие как
𝐽
∏︁ 𝐽 ∑︁
∏︁
L(w) = P(z𝑗 | x𝑗 , w) = P(ȳ, z𝑗 | x𝑗 , w). (2.8)
𝑗=1 𝑗=1 ȳ∈𝒴
43
Распишем полное правдоподобие модели (т. е. правдоподобие при известных латентных
переменных) по определению условной вероятности:
P(y, z | x, w) = P(y | x, w)P(z | y, x, w). (2.9)
Будем рассматривать традиционную параметризацию апостериорного распределе-

(︀ )︀
ния: P(y | x, w) ∝ exp w| 𝜓(y; x) . Также для простоты будем рассматривать случай, ко-
гда аннотация z однозначно определяется по разметке y, что верно, например, для аннота-
ции изображения множеством присутствующих на нём меток (см. определение 2.4). Тогда
распределение на аннотации будет иметь вид P(z | y, x, w) = P(z | y) = Jy ∈ 𝐿(z)K. Рас-
смотрим также нормальное априорное распределение на параметры, не зависящее от при-
знаков: P(w | x) = P(w) = 𝒩 (w; 0, 𝐶I), где I — единичная матрица. Тогда апостериорное
распределение на параметры пропорционально произведению их правдоподобия на априор-
ное распределение:
(︂ )︂
𝑗 𝑗 1 |
)}𝐽𝑗=1
(︀ )︀
P w | {(x , z ∝ P(w)L(w) ∝ exp − w w L(w). (2.10)
2𝐶
Для обоснования связи двух методов нам понадобится точечная оценка нормировочной
константы. Докажем вспомогательное утверждение.
Лемма 2.1. Пусть (x, z) — слабоаннотированный объект обучающей выборки. Если слабая
функция потерь неотрицательна: K(ỹ; z) ≥ 0, ∀ỹ, то для любого вектора w верна следую-
щая оценка:
∑︁
exp w| 𝜓(ỹ; x) ≥ − max w| 𝜓(ỹ; x) + K(ỹ; z) + const,
(︀ )︀ {︀ }︀
− log (2.11)
ỹ∈𝒴
ỹ∈𝒴
где константа не зависит от w.
Доказательство. Запишем цепочку неравенств:

∑︁
exp w| 𝜓(ỹ; x) ≥ − max w| 𝜓(ỹ; x) − log |𝒴| ≥
(︀ )︀ {︀ }︀
− log (2.12)
ỹ∈𝒴
ỹ∈𝒴
− max w| 𝜓(ỹ; x) + K(ỹ; z) − log |𝒴|.

{︀ }︀
(2.13)
ỹ∈𝒴
Здесь первое неравенство следует из (1.58), где 𝑓 (ỹ) ≡ w| 𝜓(ỹ; x), а второе — из неотри-
цательности функции K. Константа − log |𝒴| не зависит от w, что завершает доказательство
леммы.
Теорема 2.1. Пусть слабая функция потерь неотрицательна: K(y; z) ≥ 0. Тогда, при условии
равенства начальных приближений w0 , выпукло-вогнутая процедура минимизации целевой
функции обобщённого SSVM (2.5) сходится к тому же вектору w* , что и EM-алгоритм для
максимизации распределения (2.10) со следующими модификациями:
44
∙ на E-шаге оценка матожидания производится не по действительному распределению
на латентные переменные, а по его точечной MAP-оценке;
∙ на M-шаге максимизируется не полученная на E-шаге оценка матожидания, а её ниж-

няя оценка, где логарифмы нормировочных констант распределений на латентные раз-
метки слабоаннотированных объектов оцениваются согласно (2.11).
Доказательство. Построим последовательность значений [w𝑛 ]∞

𝑛=1 , получаемую на итерациях
описанной модификации EM-алгоритма и покажем, что она совпадает с аналогичной после-
довательностью обобщённого SSVM. Пусть w𝑛 — значение вектора параметров, полученное
на 𝑛-й итерации. Получим значение для E-шага следующей итерации:
𝐽
∑︁
Ey|z𝑗 ,x𝑗 ,w𝑛 log P(y | x𝑗 , w)P(z𝑗 | y)P(w) =
(︀ )︀
𝑄(w; w𝑛 ) = (2.14)
𝑗=1
𝐽 ∑︁
∑︁ [︂ ∑︁ ]︂
𝑗 | 𝑗 𝑗 𝑗 𝑗
(︀ | )︀
P(y | z , x , w𝑛 ) w 𝜓(y; x ) + logJy ∈ 𝐿(z )K − log exp w 𝜓(ỹ; x ) −
𝑗=1 y∈𝒴 ỹ∈𝒴
𝐽 |
w w + const.
2𝐶
Константа получается из логарифма нормировочной константы априорного распределения

на параметры. Заменим теперь P(y | z𝑗 , x𝑗 , w𝑛 ) на 𝛿[argmaxy P(y | z𝑗 , x𝑗 , w𝑛 )] и получим
точечную оценку матожидания:
𝐽 [︂ ]︂
˙
∑︁
| 𝑗 𝑗 𝑗
(︀ | 𝑗 𝑗
)︀ 𝐽 | ∑︁
𝑄(w; w𝑛 ) = w 𝜓(ȳ ; x ) − logJȳ ∈ 𝐿(z )K − log exp w 𝜓(ỹ; x ) − w w + const,
𝑗=1 ỹ∈𝒴
2𝐶
(2.15)
𝑗 𝑗 𝑗 𝑗 𝑗 𝑗
где ȳ = argmaxy∈𝒴 P(y | z , x , w𝑛 ) = argmaxy∈𝐿(z𝑗 ) P(y | x , w𝑛 ), ∀𝑗. Из ȳ ∈ 𝐿(z ) сле-
дует, что logJȳ𝑗 ∈ 𝐿(z𝑗 )K = 0. Зависимость от предыдущего значения w𝑛 в этой функции
выражается лишь через значения ȳ𝑗 .
На M-шаге итерации 𝑛 + 1 необходимо максимизировать эту функцию по w, однако она
содержит в себе экспоненциальное число слагаемых, с которым трудно работать. Получим
нижнюю оценку, используя результат леммы 2.1:
𝐽 [︂ ]︂
˙
∑︁
| 𝑗 𝑗
{︀ | 𝑗 𝑗
}︀ 𝐽 |
𝑄(w; w𝑛 ) ≥ w 𝜓(ȳ ; x ) − max w 𝜓(ỹ; x ) + K(ỹ; z ) − w w + const. (2.16)
𝑗=1
ỹ∈𝒴 2𝐶
Функция (2.16) с точностью до аффинного преобразования с отрицательным коэффициентом

совпадает с целевой функцией SSVM (1.60). На каждой итерации EM-алгоритма обновляется
значение параметров w𝑛 с помощью максимизации (2.16), причём ȳ𝑗 находятся с помощью
процедуры, эквивалентной выводу, согласованному с аннотацией. Этот шаг таким образом
совпадает с формулой поиска точки минимума в выпукло-вогнутой процедуре (2.7). Из ра-
венства начальных приближений следует, что последовательности [w𝑛 ]∞ 𝑛=1 в обоих методах
совпадают, а значит сходятся к одной и той же точке w* , что и требовалось доказать.
45
Доказательство теоремы 2.1 позволяет лучше понять свойства описанного метода. Проце-
дура оптимизации аналогична той, что происходит в EM-алгоритме с жёстким присваивани-
ем. В этом алгоритме на каждом шаге максимизируется нижняя оценка логарифма апостери-
орного распределения (2.10). Покажем, что аналогичное свойство выполняется и в рассмот-
ренной модификации. Рассмотрим некоторое распределение на латентные переменные 𝑞(ỹ)
для 𝑗-го объекта обучающей выборки. Благодаря неравенству Йенсена, при любом выбо-
ре 𝑞(ỹ) справедлива следующая верхняя оценка [36, (11.85)]:
∑︁ P(z𝑗 , ỹ | x𝑗 , w) ∑︁ P(z𝑗 , ỹ | x𝑗 , w)
log P(z𝑗 | x𝑗 , w) = log 𝑞(ỹ) ≥ 𝑞(ỹ) log . (2.17)
ỹ
𝑞(ỹ) ỹ
𝑞(ỹ)
В классе дельта-функций наиболее плотную верхнюю оценку обеспечивает мода распределе-

ния на латентные переменные при текущих параметрах w. Если подставить это значение в
˙
целевую функцию (2.10), то она будет равна функции 𝑄(w; w𝑛 ) (2.15) с точностью до констан-
ты — энтропии распределения 𝑞(ỹ). Функция (2.16) является её нижней оценкой с точностью
до константы, значит, она является и нижней оценкой целевой функции.
Переход к точечной оценке позволяет избежать суммирования по всевозможным размет-
кам, что делает метод применимым у более широкому кругу задач, в том числе для настройки
параметров Марковских сетей. Классический EM-алгоритм игнорирует эмпирическую функ-
цию потерь K, которую можно определить, исходя из знания предметной области, таким
образом, метод одинаково трактует все неправильные разметки. Как и в случае стандартно-
го SSVM, обобщённый позволяет настраивать параметры с целью максимизации отступа, де-
лая вероятность разметки тем выше, чем ближе она к аннотации (см. рис. 1.4). Это позволяет
повысить робастность настройки параметров.
2.2 Типы аннотаций для обучения сегментации изображе-

ний
В этом разделе формально определяются три типа слабой аннотации в задаче семантиче-
ской сегментации изображений, затем описывается стандартная схема обучения структурно-
го SVM, если доступна разметка всех изображений обучающей выборки. Вводятся сопутству-
ющие функции потерь обобщённого SSVM и необходимые алгоритмы вывода.
Пусть на изображении задано разбиение пикселей на суперпиксели 𝒱 — группы соседних
пикселей, сходных по цвету и текстуре (рис. 2.2a).
Определение 2.3. Рассмотрим дискретное изображение высоты 𝐻 и ширины 𝑊 . Разбиением

на суперпиксели назовём функционал 𝑣 : {1, . . . , 𝑊 } × {1, . . . , 𝐻} → 𝒱, относящий каждый
пиксель к одному из суперпикселей. Прообразы элементов 𝒱 образуют связные сегменты в
пространстве изображения.
46
(a) Разбиение на суперпиксели (b) Плотность рамок (c) Множества 𝒱𝑘 и 𝒱0
Рисунок 2.2: Примеры пересегментации изображения и аннотации рамками. (a) Разбиение

изображения на суперпиксели и структура парно-сепарабельной марковской сети. (b) Пример
плотной и неплотной рамок для 𝑟 = 0.1. Рамка слева является 𝑟-плотной для класса ‘овца’, так
как образ объекта «касается» каждой из 4 сторон рамки. Рамка справа не является 𝑟-плотной,
так как в регионе [left(¯
𝑧 ), right(¯
𝑧 )] × [top(¯
𝑧 ), top(¯
𝑧 ) + 𝑟(bottom(¯
𝑧 ) − top(¯
𝑧 ))] нет пикселей ка-
тегории ‘овца’. (c) Разбиение множества суперпикселей на подмножества. Красным показано
множество 𝒱𝑘 , где 𝑘 соответствует категории ‘овца’, жёлтым — 𝒱0 .
Определение 2.4. Аннотацией метками изображения называется множество z ⊂ 𝒦 катего-

рий, присутствующих на изображении. Пусть y — разметка изображения, тогда уникальные
метки изображения z = {𝑦𝑣 | 𝑣 ∈ 𝒱} (рис. 2.1e).
Дальнейшие типы аннотации оперируют понятием объектов реального мира, таких как
конкретный автомобиль или человек. На изображениях им соответствуют образы объектов —
множества пикселей, получившихся проектированием этого объекта в пространство изоб-
ражения. Не все категории в задаче семантической сегментации соответствуют объектам —
такие категории как ‘трава’, ‘небо’ являются фоновыми, поэтому для них не подходят соот-
ветствующие типы аннотации. С формальной точки зрения, будем считать образом объекта
связную область пикселей изображения одной категории.
Определение 2.5. Рамкой, аннотирующей объект категории 𝑘, называется структура 𝑧¯, за-
дающая прямоугольник на изображении, включающий в себя образ этого объекта. Для 𝑧¯
определены функции label(¯ 𝑧 ), а также left(¯𝑧 ), right(¯
𝑧 ), top(¯
𝑧 ), bottom(¯
𝑧 ), определяющие гра-
′
ницы прямоугольника. Пусть y — разметка изображения, а 𝒫𝑘 — некоторое подмножество
пикселей, получивших метку 𝑘: 𝒫𝑘′ ⊂ {p | 𝑦𝑣(p) = 𝑘}. Рамка 𝑧¯ описывает множество 𝒫𝑘′ ,
если 𝒫𝑘′ ⊂ [left(¯
𝑧 ), right(¯
𝑧 )] × [top(¯𝑧 ), bottom(¯
𝑧 )], а также label(¯ 𝑧 ) = 𝑘 (см. рис. 2.1c).
Определение 2.6. Пусть задано число 𝑟 ∈ [0, 0.5). Будем называть рамку 𝑧¯ 𝑟-плотной по
отношению к множеству пикселей 𝒫𝑘′ , если выполняются следующие предположения о пере-
сечении множеств:
𝒫𝑘′ ∩ [left(¯
(︀ )︀
𝑧 ), left(¯
𝑧 ) + 𝑟(right(¯ 𝑧 ) − left(¯ 𝑧 ))] × [top(¯ 𝑧 ), bottom(¯ 𝑧 )] ̸= ∅, (2.18)
𝒫𝑘′ ∩ [right(¯
(︀ )︀
𝑧 ) − 𝑟(right(¯ 𝑧 ) − left(¯ 𝑧 )), right(¯ 𝑧 )] × [top(¯ 𝑧 ), bottom(¯ 𝑧 )] ̸= ∅, (2.19)
(︀ )︀
𝑧 ), right(¯𝑧 )] × [top(¯𝑧 ), top(¯ 𝑧 ) + 𝑟(bottom(¯ 𝑧 ) − top(¯ 𝑧 ))] ̸= ∅, (2.20)
(︀ )︀
𝑧 ), right(¯𝑧 )] × [bottom(¯ 𝑧 ) − 𝑟(bottom(¯ 𝑧 ) − top(¯ 𝑧 )), bottom(¯ 𝑧 )] ̸= ∅. (2.21)
47
Будем обозначать это отношение следующим образом: 𝑧¯ ⊒𝑟 𝒫𝑘′ .
Согласно этому определению, расстояние от множества 𝒫𝑘′ до каждой из сторон рамки

не превосходит некоторого порога, зависящего от измерений рамки (рис. 2.2b). Согласно ис-
следованиям типичных аннотаций, производимых пользователями, большинство рамок ока-
зываются 𝑟-плотными с 𝑟 = 0.06 [67]. Поэтому в дальнейшем под плотной рамкой мы будем
понимать 0.06-плотную рамку.
Определение 2.7. Аннотацией плотными рамками категорий 𝒦′ ⊂ 𝒦 на некотором изобра-

жении называют множество рамок, плотных по отношению к образам каждого из объектов
категорий из 𝒦′ . Пусть y — разметка изображения, и для каждой категории 𝑘 ∈ 𝒦′ задано
покрытие {𝒫𝑘𝑖 }𝑖 множества пикселей, отнесённых к этой категории: 𝑖 𝒫𝑘𝑖 = {p | 𝑦𝑣(p) = 𝑘},
⋃︀
причём все 𝒫𝑘𝑖 представляют собой связные множества. Тогда аннотация плотными рамками —
это множество zbb = {¯ 𝑧𝑘𝑖 ) = 𝑘, ∀𝑖, ∀𝑘 ∈ 𝒦′ .
𝑧𝑘𝑖 }𝑖,𝑘 , таких что 𝑧¯𝑘𝑖 ⊒𝑟 𝒫𝑘𝑖 , label(¯
Заметим, что аннотация плотными рамками определяется по полной разметке неоднознач-

но из-за неединственности покрытия {𝒫𝑘𝑖 }𝑖 и определения 𝑟-плотной рамки при 𝑟 > 0.
Определение 2.8. Зерном, аннотирующим объект категории 𝑘, ˙ называется пара ˙

𝑧˙ = (ṗ, 𝑘),
задающая пиксель изображения, принадлежащий образу этого объекта. Пусть y — разметка
изображения, а 𝒫𝑘′ — некоторое подмножество пикселей, получивших метку 𝑘: 𝒫𝑘′ ⊂ {p |
˙ описывает множество 𝒫 ′ , если ṗ ∈ 𝒫 ′ , а также 𝑘˙ = 𝑘
𝑦𝑣(p) = 𝑘}. Зерно 𝑧˙ = (ṗ, 𝑘) (рис. 2.1d).
𝑘 𝑘
Определение 2.9. Аннотацией зёрнами категорий 𝒦′ ⊂ 𝒦 на некотором изображении называ-

ют множество зёрен, принадлежащих образам каждого из объектов категорий из 𝒦′ . Пусть y
— разметка изображения, и для каждой категории 𝑘 ∈ 𝒦′ задано покрытие {𝒫𝑘𝑖 }𝑖 множества
пикселей, отнесённых к этой категории: 𝑖 𝒫𝑘𝑖 = {p | 𝑦𝑣(p) = 𝑘}, причём все 𝒫𝑘𝑖 представляют
⋃︀
собой связные множества. Тогда аннотация зёрнами — это множество zos = {𝑧˙𝑘𝑖 = (ṗ𝑘,𝑖 , 𝑘)}𝑖,𝑘 ,
таких что ṗ𝑘,𝑖 ∈ 𝒫𝑘𝑖 , ∀𝑖, ∀𝑘 ∈ 𝒦′ .
Аннотация зёрнами также определяется по полной разметке неоднозначно, однако пред-

полагается, что зерно находится в центре образа объекта.
Чтобы использовать конкретный вид слабой аннотации при обучении, необходимо опреде-
лить функцию потерь K для данного типа аннотации, которая допускает эффективный вывод,
дополненный функций потерь и вывод, согласованный с аннотацией. Первый должен быть
очень эффективным, поскольку он вызывается на каждой итерации обучения, и, как прави-
ло, является основным источником вычислительной сложности. Также будет показано, что
некоторые типы аннотаций могут комбинироваться в рамках одного изображения.
2.2.1 Обучение сегментации по полной разметке

В случае, когда вся обучающая выборка {(x𝑗 , y𝑗 )}𝐽𝑗=1 размечена полностью, параметры
марковской сети можно искать, решая оптимизационную задачу 1.5 (стандартный структур-
ный SVM, без ограничений (2.4)). Ниже описано, как задача семантической сегментации изоб-
ражений формулируется в терминах структурного SVM.
48
Будем моделировать сегментацию изображения с помощью парно-сепарабельной марков-
ской сети над графом 𝐺 = (𝒱, ℰ), переменные которой y ∈ R|𝒱| соответствуют суперпикселям
изображения (далее для упрощения нотации будем отождествлять переменные с соответству-
ющими им суперпикселями). На этапе вывода переменным назначаются метки категорий. Это
означает, что все пиксели, относящиеся к данному суперпикселю, получают его метку. Пар-
ные потенциалы объединяют все пары суперпикселей, имеющих общую границу (рис. 2.2a).
Обозначим xv𝑣 ∈ R𝑑v вектор признаков суперпикселя 𝑣 ∈ 𝒱, xe𝑢𝑣 ∈ R𝑑e — вектор признаков,
v e
⨁︀ ⨁︀
описывающий сходство соседних суперпикселей 𝑢 и 𝑣, а x = 𝑣∈𝒱 x𝑣 ⊕ (𝑢,𝑣)∈ℰ x𝑢𝑣 — их
конкатенацию. Каждая переменная 𝑦𝑣 , соответствующая суперпикселю 𝑣, принимает значение
одной из меток категорий из множества 𝒦 = {1, . . . , 𝐾}. Пространство 𝒳 содержит всевоз-
можные признаки изображения x, а пространство 𝒴 — всевозможные разметки y (на практике
изображения могут иметь разное число суперпикселей и разное число их соседних пар, одна-
ко в нотации этит факт игнорируется для простоты; обобщение на общий случай тривиально).
Будем использовать логлинейную параметризацию (1.48) потенциалов марковской сети:
𝐾
∑︁ ∑︁ ∑︁
|
log P(y | x, w) − const = w Ψ(x, y) = J𝑦𝑣 = 𝑘K(x|𝑣 w𝑘v ) + J𝑦𝑣 = 𝑦𝑢 K(x|𝑣𝑢 we ). (2.22)
𝑣∈𝒱 𝑘=1 (𝑣,𝑢)∈ℰ
Здесь w = 𝐾 v e v 𝑑v e 𝑑e
⨁︀
𝑘=1 w𝑘 ⊕ w — вектор параметров модели, w𝑘 ∈ R , w ∈ R . Мы полагаем
парные веса we и парные признаки xe𝑢𝑣 неотрицательными числами, и таким образом полу-
чаем ассоциативную фуннкцию энергии [68]. В этом случае задача вычисления MAP-оценки,
хотя и является NP-трудной, может быть эффективно решена приближённо (раздел 1.2.4).
В задаче сегментации в качестве функции потерь часто используется расстояние Хэмминга
(число неправильно распознанных пикселей):
∑︁
Δ(ȳ, y𝑗 ) = 𝑐𝑗𝑣 J𝑦¯𝑣 ̸= 𝑦𝑣𝑗 K, (2.23)
𝑣∈𝒱
где 𝑐𝑗𝑣 — площадь 𝑣-го суперпикселя 𝑗-го изображения. На практике в разметке суперпикселя
может встретиться несколько меток (такие суперпиксели называют гетерогенными). В этом
случае функция потерь также равна числу неверно распознанных пикселей. Чтобы не загро-
мождать нотацию, мы рассматриваем только гомогенные суперпиксели. Вывод тривиально
обобщается на гетерогенный случай.
Эта функция потерь декомпозируется по переменным. Это значит, что вывод, дополнен-
ный функцией потерь, вычислительно не сложнее, чем нахождение MAP-оценки, и также
может быть выполнен с помощью 𝛼-расширения. Известны также некоторые частные случаи
функций потерь высоких порядков (т.е. не разделяющуюся на функции от переменных или
их пар), которые допускают эффективный приближённый вывод [21, 22, 52].
49
2.2.2 Учёт аннотации метками изображений
Определение 2.10. Назовём сильной функцией потерь по метке изображения следующую
функцию:
∑︁
Δil (ȳ, y) = 𝑐𝑣 J@𝑢 ∈ 𝒱 : 𝑦𝑢 = 𝑦¯𝑣 ∨ @𝑢 ∈ 𝒱 : 𝑦¯𝑢 = 𝑦𝑣 K. (2.24)
𝑣∈𝒱
Эта функция штрафует суперпиксели, помеченные метками, которых нет в y, а также

суперпиксели, верные метки которых не присутствуют в ȳ.
Определение 2.11. Пусть z — метка изображения. Назовём слабой функцией потерь по метке
изображения следующую функцию, параметризованную числами 𝑠𝑘 , для 𝑘 ∈ z:
∑︁ ∑︁ ∑︁ ∏︁
Kil (ȳ, z) = Kil (ȳ, z; 𝑠𝑘 ) = 𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + 𝑠𝑘 𝑦𝑣 ̸= 𝑘K.
J¯ (2.25)
𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱
Лемма 2.2. Пусть z — множество меток категорий, присутствующих в ȳ, а 𝑠𝑘 — число

пикселей в каждой из них. Тогда слабая функция потерь по меткам изображения является
верхней оценкой сильной с мультипликативным коэффициентом не более 2:
1
Kil (ȳ, z) ≤ Δil (ȳ, y) ≤ Kil (ȳ, z). (2.26)
2
Доказательство. Преобразуем Kil , учитывая определение z:
∑︁ ∑︁ ∑︁ ∏︁
Kil (ȳ, z) = 𝑐𝑣 J¯
𝑦𝑣 ̸∈ zK + 𝑐𝑣 J𝑦𝑣 = 𝑘K 𝑦𝑢 ̸= 𝑘K =
J¯
𝑣∈𝒱 𝑘∈z 𝑣∈𝒱 𝑢∈𝒱
∑︁ ∑︁
𝑐𝑣 J@𝑢 ∈ 𝒱 : 𝑦𝑢 = 𝑦¯𝑣 K + 𝑐𝑣 J@𝑢 ∈ 𝒱 : 𝑦¯𝑢 = 𝑦𝑣 K =
𝑣∈𝒱 𝑣∈𝒱
∑︁
𝑐𝑣 (J@𝑢 ∈ 𝒱 : 𝑦𝑢 = 𝑦¯𝑣 K + J@𝑢 ∈ 𝒱 : 𝑦¯𝑢 = 𝑦𝑣 K) . (2.27)
𝑣∈𝒱
Верность (2.26) следует из того факта, что для любых 𝑎 ∈ {0, 1}, 𝑏 ∈ {0, 1} верно 12 (𝑎 + 𝑏) ≤
max{𝑎, 𝑏} ≤ 𝑎 + 𝑏, что может быть проверено непосредственно.
На практике значение коэффициентов 𝑠𝑘 в определении слабой функции потерь неизвест-

∑︀
но. Обозначим число пикселей на изображении 𝑠 = 𝑣∈𝒱 𝑐𝑣 . Будем считать, что эта величина
распределена мультиномиально над допустимыми метками классов: {𝑠𝑘 }𝑘∈z ∼ ℳ(q, 𝑠), где q
— параметры мультиномиального распределения.
Теорема 2.2. Пусть 𝑠^𝑘 = 𝑞𝑘 𝑠, тогда Kil (ȳ, z; 𝑠^𝑘 ) = EKil (ȳ, z; 𝑠𝑘 ), где матожидание берётся
по распределению {𝑠𝑘 }𝑘∈z ∼ ℳ(q, 𝑠), то есть 𝑠^𝑘 обеспечивает несмещённую оценку слабой
функции потерь.
50
Доказательство.
∑︁ ∑︁ ∑︁ ∏︁
EKil (ȳ, z; 𝑠𝑘 ) = 𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + E 𝑠𝑘 𝑦𝑣 ̸= 𝑘K =
J¯
𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱
∑︁ ∑︁ ∑︁ ∏︁ ∑︁ ∑︁ ∑︁ ∏︁
𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + E𝑠𝑘 𝑦𝑣 ̸= 𝑘K =
J¯ 𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + 𝑠^𝑘 𝑦𝑣 ̸= 𝑘K. (2.28)
J¯
𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱 𝑘̸∈z 𝑣∈𝒱 𝑘∈z 𝑣∈𝒱
Параметры распределения q могут быть оценены по полностью размеченной части выбор-

ки. Однако на практике размеченных изображений мало, и оценка получается неустойчивой.
В этом случае разумно предположить равномерные q. Таким образом, в экспериментах ис-
пользуется следующая слабая функцию потерь по метке изображений:
∑︁ ∑︁ ∑︁ 𝑠 ∏︁
Kil (y, z) = 𝑐𝑣 J𝑦𝑣 = 𝑘K + J𝑦𝑣 ̸= 𝑘K. (2.29)
𝑘̸∈z 𝑣∈𝒱 𝑘∈z
|z| 𝑣∈𝒱
При заданной слабой функции потерь Kil необходимо продемонстрировать алгоритмы

для задач вывода в (2.4). Для вывода, согласованного с аннотацией maxy∈𝐿(z𝑖 ) w| 𝜓(y; x𝑖 )
используется 𝛼-расширение только над метками из z𝑖 . Это может привести к несогласо-
ванной разметке — некоторые метки из z𝑖 могут отсутствовать в y. Предлагается исполь-
зовать следующую эвристику для того, чтобы сделать найденную разметку удовлетворяю-
щей ограничению. Для каждой метки 𝑘, такой что 𝑘 ∈ z𝑖 и 𝑘 ̸∈ y, находится суперпик-
сель 𝑣^ = argmax𝑣∈𝒱 w| 𝜓(y|𝑦𝑣 =𝑘 ; x𝑖 ), где под y|𝑦𝑣 =𝑘 понимается вектор, в котором компо-
нента, соответствующая индексу переменной 𝑣, заменена на 𝑘. В качестве новой разметки
выбирается y|𝑦𝑣^ =𝑘 . На практике применение этой эвристики не даёт значимого улучшения по
сравнению с использованием несогласованных разметок.
Вывод, дополненный потерями, теперь не разделяется на унарные и парные потенциалы.
Покажем, что его можно осуществлять с помощью метода минимизации энергии с штрафами
за использование меток [52].
Лемма 2.3. Вывод, дополненный слабой функцией потерь Kil , может быть выполнен как
минимизация парно-сепарабельной энергии с дополнительными потенциалами вида (1.47).
Доказательство. Преобразуем выражение:
argmax {w| 𝜓(ȳ; x) + K(ȳ; z)} =

ȳ∈𝒴
{︂ ∑︁ ∑︁ ∑︁ 𝑠 }︂
|
argmin − w 𝜓(ȳ; x) − 𝑐𝑣 J¯
𝑦𝑣 = 𝑘K + J∃𝑣 ∈ 𝒱 : 𝑦¯𝑣 = 𝑘K + const . (2.30)
ȳ∈𝒴
𝑘̸∈z 𝑣∈𝒱 𝑘∈z
|z|
Первые два члена под минимумом разделяются на унарные и ассоциативные парные потенци-
алы, а третий — потенциал, штрафующий присутствие меток в глобальном факторе. Для ми-
нимизации может использоваться эффективный алгоритм на основе 𝛼-расширения [52].
51
2.2.3 Плотные рамки
Объекты на изображении удобно аннотировать плотными рамками. С другой стороны,
сегменты фоновых категорий не соответствуют объектам, аморфны и часто их плотная рам-
ка близка к границам изображения, поэтому рамки добавили бы мало информации к метке
изображения. В этом разделе рассматриваются аннотации, которые состоят одновременно из
рамок и меток изображения. Например, для изображения могут быть заданы рамки для авто-
мобилей и пешеходов, а также известно, что ещё присутствуют пиксели зданий, дороги, неба.
Будем предполагать, что в рамках конкретного изображения категория может быть задана ли-
бо рамками, либо меткой изображения, хотя тип аннотаций для категории может меняться от
изображения к изображению (см. в разделе 2.5.3 пример, демонстрирующий когда это может
быть полезно).
Определение 2.12 (слабая функция потерь при наличии рамок). Пусть слабая аннотация
изображения z задана парой (zil , zbb ) метки изображения и множества рамочных аннота-
ций zbb . Разобьём множество меток 𝒦 на три подмножества в соответствии со слабой
⋃︀
аннотацией z: метки, которые определены рамками (𝒦b = 𝑧∈zbb label(𝑧)), метки, кото-
рые присутствуют в других местах (𝒦p = zil ) и метки, которые отсутствуют на изоб-
ражении
{︁ (𝒦a = 𝒦 ∖ (𝒦b ∪ 𝒦p )). Множество }︁ суперпикселей 𝒱 также разбивается: 𝒱𝑘 =
⋃︀
𝑣 ∈ 𝒱 : ∃p ∈ 𝑧¯∈zbb :label(¯𝑧)=𝑘 box(¯
𝑧 ) : 𝑣 = 𝑣(p) — объединение суперпикселей, находящихся
⋃︀
хотя бы частично в рамках с меткой 𝑘 ∈ 𝒦b , и 𝒱0 = 𝒱 ∖ 𝑘∈𝒦b 𝒱𝑘 (рис. 2.2c). Тогда объединён-
ная слабая функция потерь выглядит так:
∑︁ ∑︁ ∑︁ ∏︁
Kil-bb (y, z) = 𝑐𝑣 J𝑦𝑣 = 𝑘K + 𝜎𝑘 J𝑦𝑣 ̸= 𝑘K+
𝑘∈𝒦a 𝑣∈𝒱 𝑘∈𝒦p 𝑣∈𝒱
∑︁𝑧) right(¯
∑︁ bottom(¯ ∏︁𝑧) ∑︁𝑧) bottom(¯
right(¯
∏︁ 𝑧)
(︃ )︃
𝛽 𝜈𝑝𝑧¯ J𝑦𝑣(𝑝,𝑞) ̸= label(¯
𝑧 )K + 𝜔𝑞𝑧¯ J𝑦𝑣(𝑝,𝑞) ̸= label(¯
𝑧 )K
𝑧¯∈zbb 𝑝=top(¯
𝑧 ) 𝑞=left(¯
𝑧) 𝑞=left(¯
𝑧 ) 𝑝=top(¯
𝑧)
∑︁ ∑︁
+ 𝑐𝑣 J𝑦𝑣 = 𝑘K. (2.31)
𝑘∈𝒦b 𝑣∈𝒱0
Первые два слагаемых несут такой же смысл, как в (2.29). Третье слагаемое штрафует
пустые строки и столбцы внутри рамок, т.е. те, которые не содержат ни одного пикселя,
выведенного как метка рамки (см. рис. 2.3). Последнее слагаемое штрафует метки рамок вне
соответствующих рамок. Оценим параметры этой функции 𝜎𝑘 , 𝛽, 𝜈𝑝𝑧¯, 𝜔𝑝𝑧¯, предполагая, что
половина каждой из рамок занята объектом соответствующей категории.
Теорема 2.3. Предположим, что в неизвестной разметке изображения каждый пиксель

внутри рамки 𝑧𝑖 независимо принимает метку label(¯ 𝑧 ) с вероятностью 0.5, иначе при-
нимает одну из меток в 𝒦𝑝 . Предположим снова, что количество пикселей для меток
из 𝒦𝑝 распределено мультиномиально с равномерными параметрами. Тогда, если рамки не
пересекаются, при следующих параметрах оценка функции Kil-bb является несмещённой:
𝜈𝑝𝑧¯ = (right(¯ 𝑧 ))/2, 𝜔𝑞𝑧¯ = (bottom(¯ 𝑧 ))/2, 𝜎𝑘 = (𝑠 + 𝑣∈v0 𝑐𝑣 )/2|zil |, 𝛽 = 1.
∑︀
𝑧 ) − left(¯ 𝑧 ) − top(¯
52
Рисунок 2.3: Пример разметки внутри рамки. Клетки соответствуют пикселям. Серые клетки
помечены меткой, равной метке рамки, белые — остальными метками. Разметка не является
плотной, так как верхняя строка и четыре левых столбца — пустые. Таким образом, в функции
потерь 5 ненулевых слагаемых, соответствующих этой рамке.
Доказательство. Пусть 𝑠𝑧¯ — количество пикселей внутри рамки 𝑧¯, принадлежащих кате-
гории label(¯ 𝑧 ). По предположению теоремы оно распределено по биномиальному закону:
𝑠𝑧¯ ∼ ℬ(0.5, |box(¯ 𝑧 )|). Математическое ожидание этой величины равно |box(¯ 𝑧 )|/2. Пусть 𝑠il —
число пикселей изображения, относящихся к категориям из 𝒦p . Зная 𝑠𝑧¯, можно оценить
𝑠il = 𝑠 − 𝑧¯∈zbb 𝑠𝑧¯. Рассуждая аналогично доказательству теоремы 2.3, получим оценку
∑︀
^𝑘 = E𝑠il /|zil |, которая позволяет несмещённо оценить Kil-bb . Поскольку 𝑠il линейно зависит
𝜎
от 𝑠𝑧¯, можно заменить последнее на его оценку. Отсюда
1
∑︀ ∑︀ ∑︀
𝑠− 𝑐𝑣 𝑠+ 𝑐𝑣
∑︀
𝑠− 𝑧¯∈zbb |𝑏𝑜𝑥(¯
𝑧 )|/2 2 𝑘∈𝒦b 𝑣∈𝒱𝑘 𝑣∈𝒱0
𝜎
^𝑘 = = = . (2.32)
|z |
il |zil | 2|zil |
Покажем несмещённость оценки, задаваемой третьим слагаемым на примере штрафа за

пустые строки; для столбцов доказательство аналогично. Пусть 𝜈^𝑝𝑧¯ — математическое ожида-
ние числа пикселей категории label(¯𝑧 ) в строке 𝑝. Согласно модели, 𝜈^𝑝𝑧¯ = (right(¯
𝑧 ) − left(¯
𝑧 ))/2.
Рассмотрим строки, в которых не найдено ни одного пикселя категории label(¯ 𝑧 ). Математи-
ческое ожидание ошибки на них равно 𝜈^𝑝𝑧¯. Строки, в которых выведен хотя бы один пиксель
𝑧 ), не штрафуются. Таким образом, при 𝜈𝑝𝑧¯ = 𝜈^𝑝𝑧¯, третье слагаемое даёт несме-
категории label(¯
щённую оценку на число неправильно классифицированных пикселей категории label(¯ 𝑧) в
пустых строках рамки box(¯ 𝑧 ).
Ещё более точную оценку можно получив, явно учтя в модели неравномерность распре-
𝑧 ). Коэффициенты 𝜈𝑝𝑧¯ и 𝜔𝑞𝑧¯
деления пикселей внутри рамки, для которых метка равна label(¯
позволяют варьировать штраф за пустые строки и столбцы соответственно, в зависимости от
их расположения в рамке. При достаточном количестве полностью размеченных изображений
можно обучить специфичные для категорий профили 𝜈 𝑧¯ и 𝜔 𝑧¯.
В предыдущем подразделе мы показали, как обрабатывать первые два слагаемых в вы-
воде, дополненном функцией потерь — первое разделяется на унарные потенциалы, а вто-
рое представляет собой штраф за наличие метки. Последнее слагаемое также разделяется на
унарные потенциалы. Третье слагаемое — сумма потенциалов высокого порядка. Для каждой
рамки 𝑧¯ каждая её строка и каждый столбец порождает потенциал над вершинами, соответ-
ствующими суперпикселям, которые пересекает эта строка/столбец. Так же как и в преды-
53
Алгоритм 2.1 Модификация алгоритма акцентирования для случая многоклассовой сегмен-
тации с ограничениями, задаваемыми рамочными аннотациями
1: Вход: Вектор признаков изображения x, вектор параметров w, множество рамочных ан-
нотаций zbb , параметр плотности 𝑟.
2: Выход: разметка y, согласованная с рамочными аннотациями zbb .
3: инициализировать унарные потенциалы 𝜑𝑣 (𝑦𝑣 ) ← −x|𝑣 w𝑦v𝑣 , ∀𝑣 ∈ 𝒱, ∀𝑦𝑣 ∈ 𝒦

4: инициализировать парные потенциалы 𝜑𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ) ← −x|𝑣𝑢 w𝑦e𝑣 𝑦𝑢 , ∀(𝑣, 𝑢) ∈ ℰ, ∀(𝑦𝑣 , 𝑦𝑢 ) ∈ 𝒦2
{︂ ∑︁ ∑︁ }︂
5: найти оптимальную разметку y ← argmin 𝜑𝑣 (𝑦𝑣 ) + 𝜑𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 )
y
bb
viol
{︀ }︀
6: z ← 𝑧¯ ∈ z | 𝑧¯ не 𝑟-плотна относительно y
7: while zviol{︀ ̸= ∅ do (︀ )︀}︀
8: 𝒱 viol ← (𝑣, 𝑘) ∈ {︀𝒱 × 𝒦 | ∃¯
𝑧 ∈ z}︀viol , ∃p ∈ box(¯
𝑧 ) : 𝑣 = 𝑣(p) & 𝑘 = label(¯
𝑧 ) & 𝑘 ̸= 𝑦𝑣
9: (¯ ¯ ← argmin 𝜑𝑣 (𝑘) − 𝜑𝑣 (𝑦𝑣 )
𝑣 , 𝑘)
(𝑣,𝑘)∈𝒱 viol
¯ ← −∞ 2
10: 𝜑𝑣 (𝑘) {︂ ∑︁ }︂
¯
∑︁
11: y ← argmin 𝜑𝑣 (𝑦𝑣 ) + 𝜑𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ) # выполняется один шаг 𝑘-расширения
y
viol
viol
{︀ }︀
12: z ← 𝑧¯ ∈ z | 𝑧¯ не 𝑟-плотна относительно y
13: end while
дущем разделе, штраф за присутствие метки label(¯ 𝑧 ) на соответствующих вершинах, но не

на всём графе, представим в виде (1.47), и минимизируется модифицированной процедурой
𝛼-расширения [52].
При выводе, согласованном с рамочной аннотацией, необходимо вывести разметку, в ко-
торой только суперпиксели внутри рамок могут получать метки соответствующих объектных
категорий, причём, в соответствии с определением 𝑟-плотной рамки, сегменты объектов долж-
ны быть связными и примыкать к рамке плотно, с допуском не более 𝑟 от соответствующего
измерения (напомним, что мы используем постоянное значение 𝑟 = 6%). Ограничение на
метки вне рамок легко удовлетворяется при выводе: можно подавить нежелательные метки
вне рамок, установив бесконечные унарные потенциалы.
Чтобы обеспечить плотность рамок, мы используем вариацию алгоритма акцентирова-
ния (англ. pinpointing) [67], модифицированного для работы с многоклассовой сегментацией,
формально определённую в алгоритме 2.1. Это эвристический алгоритм, гарантирующий,
что разметка будет обеспечивать плотность рамок, однако не гарантируется оптимальность в
классе таких разметок. Сначала вывод выполняется без ограничений на плотность (строка 5).
Затем, пока все ограничения не выполнены, одна из вершин меняет унарный потенциал (стро-
ка 10), и выполняется шаг расширения (строка 11). В нашей реализации выбирается вершина,
соответствующую суперпикселю с наименьшим относительным потенциалом за label(¯ 𝑧 ) из
тех, что ещё не получили эту метку (строка 9). Этой вершине назначается бесконечный2 по-
тенциал за метку label(¯ 𝑧 ), чтобы гарантировать, что метка вершины поменяется. Процедура
2
Здесь под −∞ понимается достаточно маленькое конечное число, чтобы при любых фиксированных значе-
𝑣 ∈ 𝒱 ∖ {𝑣} минимум энергии будет достигался при 𝑦𝑣 = 𝑘¯
ниях переменных 𝑦𝑣¯ , ∀¯
54
(a) Аннотация самолёта зерном (b) Штраф за другую метку
Рисунок 2.4: (a) Объект категории ‘самолёт’ аннотирован зерном. (b) Штраф за аннотацию
пикселя категорией, отличной от ‘самолёт’, гауссово убывающий в зависимости от расстояния
от положения пикселя до положения зерна. Чем ярче пиксель отмечен красным, тем больше
соответствующий штраф.
конечна, если ни один суперпиксель не пересекает рамки разных меток, поскольку на каждой
итерации хотя бы один суперпиксель внутри некоторой box(¯ 𝑧 ) меняет метку на label(¯
𝑧 ).
Эксперименты показали, что при использовании такого типа аннотаций важна инициа-
лизация латентных переменных при обучении LV-SSVM. Наилучший результат имел место,
𝑧 ) получили метку label(¯
когда изначально все суперпиксели внутри box(¯ 𝑧 ).
Заметим, что Кумар и др. [63] используют другой критерий для вывода, согласованного
с аннотацией — они предлагают штрафовать пустые строки и столбцы внутри рамки (точ-
ная противоположность того, что предлагаемый алгоритм делает при выводе, дополненном
рамочной функцией потерь). Эта эвристика не гарантирует плотность полученных сегментов
внутри рамок.
2.2.4 Зёрна объектов

Рассмотрим аннотацию зёрнами, при которой известно, что один пиксель, предположи-
тельно располагающийся близко к центру сегмента, принадлежит данной категории. При вы-
воде, согласованном с аннотацией, требуется, чтобы зёрна принадлежали указанному классу.
Ассоциативные парные потенциалы обычно распространяют эту метку на соседние супер-
пиксели.
Определение 2.13 (слабая функция потерь при наличии зёрен). Пусть слабая аннотация изоб-
˙
ражения z задана парой (zil , zos ), где zos — это множество аннотаций зёрнами: 𝑧˙ = (ṗ, 𝑘).
Определим объединённую слабую функцию потерь так:
𝜋‖p − ṗ‖2
(︂ )︂
˙
∑︁ ∑︁ ∑︁ ∏︁ ∑︁ ∑︁
Kil-os (y, z) = 𝑐𝑣 J𝑦𝑣 = 𝑘K+ 𝜎𝑘 J𝑦𝑣 ̸= 𝑘K+𝛽 J𝑦𝑣(p) ̸= 𝑘K exp − .
𝑘∈𝒦a 𝑣∈𝒱 𝑘∈𝒦p 𝑣∈𝒱 ˙ p
𝜏𝑘˙
(ṗ,𝑘)
∈zos
(2.33)
Первые два слагаемых здесь несут тот же смысл, как в функции потерь для меток изоб-
ражения. Третье слагаемое поощряет назначение метки зерна в его окрестности (рис. 2.4b).
55
В нём внутренняя сумма берётся по всем пикселям изображения, 𝜏𝑘˙ — параметр, оцениваю-
˙ а 𝜋 — отношение длины окружности к её диаметру.
щий количество пикселей категории 𝑘,
Покажем, как назначать параметры в этом случае.
Теорема 2.4. Предположим, что в неизвестной разметке изображения число пикселей, от-
несённых к меткам из zil и zos распределено мультиномиально с равномерными параметрами,
и что для каждого зерна 𝑧˙ = (ṗ, 𝑘)˙ вероятность пикселя p принять метку 𝑘˙ определяет-
ся гауссовым парзеновским окном: exp (−𝜋‖p − ṗ‖2 /𝜏𝑘˙ ). Тогда при следующих параметрах
оценка функции Kil-os является несмещённой:
𝑠 𝑠
𝜏𝑘˙ = , 𝜎𝑘 = , 𝛽 = 1, (2.34)
(|zil | + #Lab(zos )) · ˙
#Obj(zos , 𝑘) |zil | + #Lab(zos )
если при этом зёрна находятся достаточно далеко друг от друга, а именно,
2 os os
∑︀
˙
(ṗ,𝑘)∈z os exp (−𝜋‖p − ṗ‖ /𝜏𝑘
˙ ) ≤ 1, ∀p. Здесь #Lab(z ) — число различных меток в z , а
#Obj(zos , 𝑘) ˙ — число зёрен метки 𝑘˙ в zos .
Доказательство. Аналогично доказательству теоремы 2.3 можно получить оценку числа

пикселей, отнесённых к каждой из категорий при мультиномиальном распределении: 𝜎𝑘 =
˙ классифи-
(︀ )︀
𝑠/ |zil | + #Lab(zos ) . Согласно условию теоремы, в окрестности зерна 𝑧˙ = (ṗ, 𝑘)
кация пикселя p меткой, отличной от 𝑘, ˙ влечёт в сильной функции потерь от неизвестной
разметки слагаемое с математическим ожиданием exp (−𝜋‖p − ṗ‖2 /𝜏𝑘˙ ). Исходя из линейно-
сти вхождения всех слагаемых, значение функции Kil-os равно математическому ожиданию
функции потерь по неизвестным сильным разметкам. Остаётся определить масштаб парзе-
˙ ожидаемое число меток в категориях из zos равно
новского окна. При 𝜏𝑘˙ = 𝜎𝑘˙ /#Obj(zos , 𝑘),
оценке на 𝜎𝑘˙ (при условии достаточной удалённости зёрен):
𝜋‖p − ṗ‖2
∫︁ (︂ )︂
˙ ·
#Obj(z , 𝑘) os
exp − ˙ · 𝜏˙ = 𝜎˙ .
𝑑p = #Obj(zos , 𝑘) (2.35)
𝑘 𝑘
𝜏˙𝑘
dom(𝑣)
Из равенства (2.35) получим искомую оценку 𝜏𝑘˙ .
Последний член функции потерь (2.33) декомпозируется на унарные потенциалы, так что
вывод, дополненный функцией потерь, тривиален.
2.3 Обучение категоризации документов по слабой аннота-

ции
В задаче категоризации документов каждый документ должен быть размечен подмноже-
ством категорий (тегов). Эту задачу также можно рассматривать как задачу разметки: струк-
турная метка документа представляет собой бинарный вектор y ∈ {0, 1}𝐾 , где 𝐾 — общее
число категорий. Пусть x — признаки документа, тогда структурная метка y определяется
следующей максимизацией:
56
{︂ ∑︁ ∑︁ }︂
* | | u p
y = argmax w 𝜓(y; x) = argmax J𝑦𝑘 = 1K(x w𝑘 ) + J𝑦𝑘 = 1KJ𝑦𝑙 = 1Kw𝑘𝑙 , (2.36)
y y
𝑘∈𝒦 (𝑘,𝑙)∈𝒦2
Первая сумма соответствует независимой линейной классификации для определения присут-

ствия каждой из категорий, а вторая позволяет моделировать корреляции между ними. В от-
p
личие от (2.22), здесь не накладывается ограничение на неотрицательность парных весов w𝑘𝑙 ,
что позволяет моделировать отрицательные корреляции. Вывод осуществляется с помощью
простого алгоритма итерационного усреднения мод условных распределений (ICM), который
эффективно применяется в подобных задачах с небольшими полносвязными графами. В ка-
честве функции потерь для полной разметки будем снова использовать расстояние Хэмминга:
∑︁
Δml (ȳ, y𝑗 ) = 𝑦𝑘 ̸= 𝑦𝑘𝑗 K.
J¯ (2.37)
𝑘∈𝒦
Определение 2.14. Частичной разметкой документа будем называть троичный вектор z ∈

{0, 1, ?}𝐾 , где 𝑧𝑘 = ? означает, что информация о присутствии данной категории отсутствует.
Пусть y — структурная метка документа. Частичная разметка z является корректной слабой
аннотацией (𝐿(z) ∋ y), если ∀𝑘 ∈ 𝒦 : 𝑧𝑘 = 𝑦𝑘 ∨ 𝑧𝑘 = ?.
Определение 2.15. Пусть 𝑝𝑘 — некоторые параметры ∀𝑘 ∈ 𝒦, тогда слабая функция потерь

по частичной разметке определяется как
∑︁ (︁ (︀ )︀)︁
𝐾ml (y, z) = J𝑧𝑘 ̸= ?KJ𝑦𝑘 ̸= 𝑧𝑘 K + J𝑧𝑘 = ?K 𝑝𝑘 J𝑦𝑘 = 0K + (1 − 𝑝𝑘 )J𝑦𝑘 = 1K , (2.38)
𝑘∈𝒦
Эта функция потерь моделирует ситуацию, при которой оператор, аннотирующий выборку,
забывает проставить метку категории, либо вносит лишнюю.
Теорема 2.5. Пусть 𝑝𝑘 — априорные вероятности отнесения документа к каждой из катего-

рий ∀𝑘 ∈ 𝒦. Тогда частичная функция потерь (2.38) является несмещённой оценкой функции
потерь (2.37).
Доказательство.
∑︁ ∑︁ (︀ )︀
Eȳ∈𝐿(z) Δml (ȳ, y) = 𝑦𝑘 ̸= 𝑦𝑘 K +
J¯ 𝑦𝑘 = 1)J𝑦𝑘 = 0K + P(¯
P(¯ 𝑦𝑘 = 0)J𝑦𝑘 = 1K =
𝑘∈𝒦: 𝑘∈𝒦:
𝑧𝑘 ̸=? 𝑧𝑘 =?
∑︁ (︁ (︀ )︀)︁
J𝑧𝑘 ̸= ?KJ𝑧𝑘 ̸= 𝑦𝑘 K + J𝑧𝑘 = ?K 𝑝𝑘 J𝑦𝑘 = 0K + (1 − 𝑝𝑘 )J𝑦𝑘 = 1K =
𝑘∈𝒦
𝐾ml (y, z). (2.39)
Вероятности 𝑝𝑘 могут оцениваться по сильной части выборки, либо для каждой категории
отдельно, либо одинаковые для всех категорий (это целесообразно, если данных недостаточно
57
для точной оценки). Вывод, согласованный с аннотацией, производится с помощью максими-
зации по неизвестным компонентам z при фиксированных известных. Слабая функция потерь
разделяется на унарные потенциалы, поэтому вывод, дополненный функцией потерь, тривиа-
лен.
2.4 Обзор литературы

Вежневец и др. [60] решают задачу обучения сегментации по слабоаннотированным дан-
ным с помощью парадигмы обучения по нескольким прецедентам (англ. multiple-instance
learning), в которой объекты обучающей выборки объединены в группы, про которые извест-
но, что как минимум один из элементов принадлежит некоторой категории. Авторы предлага-
ют новую модель нескольких изображений (англ. multi-image model, MIM) для регуляризации
обучения. Она представляет собой марковскую сеть, в которой похожие суперпиксели различ-
ных изображений соединены парными связями. При обучении настраиваются её параметры,
а при выводе в сеть включаются новые изображения, суперпиксели которых связываются с
похожими суперпикселями обучающих и тестовых изображений. В оригинальной модели па-
раметры унарных потенциалов настраиваются независимо, а парные потенциалы задаются
вручную. Позже авторы предложили использовать Гауссовские процессы для настройки пар-
ных потенциалов [61]. Предложенная модель показывает качество сегментации, сравнимое
с обучением по полной разметке. Модель нескольких изображений может быть настроена
также с помощью предлагаемого метода.
Лу и др. [64] исследовали несколько вариаций формулировки структурного SVM с латент-
ными переменными и предложили использовать ограничения с предыдущей внешней ите-
рации для ускорения оптимизации. Метод тестировался на задаче отслеживания делящихся
клеток, которая сводится к минимизации бинарной энергии марковской сети.
Кумар и др. [63] предложили метод обучения сегментатора по разнородным слабым ан-
нотациям (в их терминологии, по разнородным источникам меток). Метод сначала обучает
структурный SVM с латентными переменными по общей аннотации фона или переднего пла-
на, то есть, для некоторых изображений обучающей выборки размечены только суперпиксели
фона, для остальных — только суперпиксели переднего плана (т.е. объектных категорий). На-
зовём такой тип аннотации регулярным. Для обучения модели определяется слабая функция
потерь, не разделяемая по факторам. После того, как модель обучена на данных с регулярной
аннотацией, могут быть использованы данные с другими типами аннотаций: метками уров-
ня изображения и рамками объектов. Для этого при текущих параметрах модели выводится
предполагаемая регулярная аннотация, совместная с соответствующими слабыми аннотаци-
ями. Данные с полученной регулярной аннотацией добавляются к предыдущим, и процесс
обучения запускается снова, при этом за начальное приближение берутся выходные парамет-
ры предыдущей стадии. Таким образом, метод не нуждается в специализированных функциях
потерь для разных типов аннотаций и соответствующих им алгоритмах вывода, так как все
типы аннотации явно приводятся к регулярной аннотации.
58
Эксперименты показывают, что такое дообучение по данным с новыми типами аннотации
лишь немного улучшает качество модели. В данной работе же вводятся специализированные
функции потерь для различных типов аннотаций, причём они оптимизируются одновремен-
но. Разработанный метод не нуждается в «разгоночных» данных, в то время как регулярный
тип аннотации, как и полная разметка, трудоёмок в получении. В работе Кумара и др. вывод,
дополненный функцией потерь, проводится с помощью алгоритма итерационного пересчёта
мод условных распределений (англ. iterated conditional modes, ICM) с эвристической ини-
циализацией. Все функции потерь, используемые в данной работе, основаны на расстоянии
Хэмминга между разметками, поэтому вывод, дополненный аннотациями допускает эффек-
тивный точный вывод, либо достаточно точные аппроксимации с помощью алгоритма разре-
зов на графах. Кроме того, в данной работе используются другие типы слабых аннотаций.
Некоторые из используемых в данной работе функций потерь не разделяется по индивиду-
альным переменным, так что она связана с работами по структурному обучению сегментации
изображений по полной разметке с неразделяемыми функциями потерь [21,22]. Плетчер и Ко-
ли [22] используют функцию потерь с фактором высокого порядка, которая штрафует разницу
в площади сегментов целевой категории для двух сегментаций. Они используют алгоритм раз-
резов на графах для эффективного точного вывода, дополненного функцией потерь. Тарлоу
и Цемель [21] используют метод передачи сообщений для вывода, дополненного функцией
потерь, при обучении структурного SVM с тремя различными функциями потерь высокого
порядка: коэффициент Жаккара для пикселей целевой категории, заполненность рамки сег-
ментом целевой категории, и локальную выпуклость края сегмента.
2.5 Эксперименты
2.5.1 Наборы данных, детали реализации, критерии качества

Наборы данных. Мы протестировали предложенный метод на двух наборах данных:
MSRCv23 [2, 60] и SIFT-flow4 [61, 69, 70]. Набор MSRC содержит 276 изображений в обучаю-
щей и 256 в тестовой выборке. Пиксели вручную отнесены каждый к одной из 23 категорий,
хотя значительная их часть осталась неразмеченной. SIFT-flow содержит 2488 изображений в
обучающей и 200 в тестовой выборке, они размечены с использованием 33 меток категорий.
Структура модели и признаки. Для набора MSRC суперпиксели получены с помощью ав-
торской реализации детектора границ gPb [71]. Признаки унарных потенциалов следующие:
гистограмма визуальных слов на основе дескриптора SIFT [72], построенная с помощью сло-
варя из 512 слов, гистограмма цветов пикселей, построенная на словаре из 128 слов, гисто-
грамма локаций на равномерной сетке 6 × 6. Объединённые векторы признаков нормализуют-
ся и отображаются в пространство более высокой размерности, где скалярное произведение
приближает расстояние 𝜒2 из оригинального пространства (размерность векторов признаков
3
http://research.microsoft.com/en-us/projects/objectclassrecognition/
4
http://people.csail.mit.edu/celiu/LabelTransfer/code.html
59
при этом утраивается) [73]. Признаки парных потенциалов состоят из 4 чисел: exp(−𝑐𝑖𝑗 /10),
exp(−𝑐𝑖𝑗 /40), exp(−𝑐𝑖𝑗 /100), 1. Здесь 𝑐𝑖𝑗 — сила границы между суперпикселями, соответству-
ющими вершинам 𝑖 и 𝑗, определённая детектором gPb.
Для набора SIFT-flow мы повторяем условия эксперимента Вежневца и др. [61]. Супер-
пиксели и признаки получены с помощью кода Тая и Лазебник [70]. Он использует графовую
сегментацию Фельценсцвальба и Гуттенлохера [74] и затем вычисляет признаки для вычисле-
ния потенциальных функций. Унарные потенциалы зависят от формы, положения, текстуры и
пиксельной маски суперпикселей и их окрестностей: всего 3115 унарных признаков. Мы так-
же преобразуем их, приближая ядро 𝜒2 , утраивая их размер [73]. Парные признаки вычисля-
ются как расстояния над группами признаков суперпикселей (𝜒2 -расстояния для гистограмм,
евклидовы в противном случае), всего 26 парных признаков.
Критерии качества. Мы используем два объективных критерия качества сегментации, ко-

торые вычисляются по размеченной тестовой выборке: точность (англ. accuracy) и сред-
няя поклассовая полнота (англ. per-class recall). Пусть TP𝑘 , FP𝑘 , TN𝑘 , FN𝑘 — число истинно-
положительных, ложноположительных, истинно-отрицательных и ложноотрицательных об-
наружений для категории 𝑘, соответственно.
∑︀𝐾
Точность — это доля корректно распознанных
TP 𝑘
пикселей тестовой выборки: ∑︀𝐾 𝑘=1 . Поклассовая полнота — это число корректно раз-
𝑘=1 TP𝑘 +FP𝑘
меченных пикселей каждой категории, делённое на суммарную площадь категории в верной
разметке, усреднённое по категориям: 𝐾1 𝐾 TP𝑘
∑︀
𝑘=1 TP𝑘 +FN𝑘 . Следуя принятой практике [3, 60], мы
исключили пиксели редких категорий (‘лошадь’ и ‘гора’) из подсчёта полноты для набора
MSRC, однако учитываем метку ‘другое’, см. раздел 2.5.2. Аналогично мы не рассматрива-
ем редкие категории (‘корова’, ‘пустыня’, ‘луна’, ‘солнце’) при подсчёте полноты на наборе
SIFT-flow.
2.5.2 Метки изображений

Для создания тестовой выборки аннотация метками изображений получается автомати-
чески из полной разметки: для каждого изображения берутся уникальные метки пикселей.
Изображение из набора MSRC обычно содержит один или несколько объектов конкретной
целевой категории (например, ‘знак’, ‘корова’, ‘автомобиль’) на некотором фоне. Не любую
фоновую категорию можно отнести к используемым 23 меткам, так что часть изображения
может остаться неразмеченной. На практике некоторые изображения содержат только одну
метку категории. В этом случае метка изображения однозначно определяет полную размет-
ку. Чтобы избежать этого знания (нереалистичного при практическом использовании), мы
моделируем дополнительную метку ‘другое’, к которой относятся все категории кроме обо-
значенных 23-х. Обычно разметки имеют нечёткие границы, так что границы между сегмен-
тами различных меток также неразмечены (рис. 2.1b). Если мы будем относить их к категории
‘другое’, это может внести лишний шум в обучающую выборку. Поэтому необходимо исполь-
зовать метку ‘другое’ только для неразмеченных регионов, но не для границ. Мы используем
следующий эвристический критерий для получения меток изображения: метка ‘другое’ вклю-
60
0.65 0.65
0.7
0.60 0.60
0.6 0.55 0.55
0.5 0.50 0.50
0.4 0.45 0.45
0.40 0.40
0.3
0.35 0.35
0.2 Полные, точность 40 полных, точность Рамки, точность
Полные, макро-полнота 0.30 40 полных, макро-полнота 0.30 Рамки, макро-полнота
0.1 Слабые, точность 80 полных, точность Семена, точность
0.25 0.25
Слабые, макро-полнота 80 полных, макро-полнота Семена, макро-полнота
0.0 0.20 0.20
0 5 10 20 40 80 160 276 0 0.03 0.1 0.3 1.0 3.0 0 0.1 0.3 1.0 3.0 10.0
Число полностью размеченных изображений Коэффициент при слабых ограничениях α Коэффициент баланса рамки-семена β
(a) (b) (c)
Рисунок 2.5: Точность (сплошные линии) и поклассовая полнота (штриховые линии) при раз-
личных параметрах на наборе данных MSRC. (a) Изменение числа полностью размеченных
изображений. Линии с круглыми маркерами показывают точность на тестовой выборке, если
используются только полностью размеченные изображения, с треугольными — когда осталь-
ная часть обучающей выборки аннотирована метками изображений. (b) Изменение коэффи-
циента слабой функции потерь 𝛼. Линии с круглыми маркерами показывают точность сегмен-
тации, когда 40 изображений полностью размечены, с треугольными — когда 80 изображений;
остальная часть обучающей выборки аннотирована метками изображений. (c) Изменение ко-
эффициента функции потерь 𝛽 для плотных рамок (круглые маркеры) или зёрен объектов
(треугольные маркеры). Все 276 изображений аннотированы метками изображений, а также
все объекты аннотированы рамками или зёрнами, соответственно.
чается в список меток изображения тогда и только тогда, когда изображение содержит только
одну метку или не менее 30 % его пикселей неразмечены.
В нашей базовой постановке эксперимента имеется (возможно пустая) полностью разме-
ченная часть обучающей выборки, при этом остальные изображения аннотированы метками
изображений. Эти подмножества выбраны с помощью эвристического алгоритма так, чтобы
пропорции меток в них отражали соответствующие пропорции во всей выборке. С помощью
модификации алгоритма Метрополиса–Гастингса с большой принимающей вероятностью на-
ходится подмножество изображений заданного размера, такое что распределение меток кате-
горий в нём близко к распределению в полной выборке по расстоянию 𝜒2 . Это даёт хорошую
аппроксимацию, но из-за неравномерной представленности категорий в выборке некоторые
редкие классы отсутствуют в небольших подмножествах (таким образом, невозможно настро-
ить модель для них, и они сильно уменьшают поклассовую полноту). Например, подмноже-
ство из 10 изображений не содержит представителей 4 категорий.
Рис. 2.5a показывает точность и поклассовую полноту для сегментации тестовой выборки
для различных размеров полностью размеченной части обучающей выборки, по сравнению
с обучением на только сильно размеченной части выборки. В наиболее интересном случае,
когда менее 20 % обучающей выборки полностью размечены, слабо аннотированная подвы-
борка обеспечивает увеличение на 10–15 процентных пунктов и по точности, и по полноте. В
случае отсутствия полных разметок, модель производит сегментацию с точностью 38 % и пол-
61
нотой 18 %, что можно считать хорошим результатом для сегментации на 22 метки (полнота
при случайной разметке составила бы 4.5 %).
Когда в обучающей выборке одновременно присутствуют изображения с полной разметкой
и со слабыми аннотациями, необходимо установить коэффициент 𝛼 из (2.2). Рис. 2.5b пока-
зывает, что его оптимальное значение лежит ниже 1. Возможным объяснением этого факта
является то, что слабо аннотированные изображения несут меньше информации, таким обра-
зом должны давать меньший вклад в целевую функцию. Для всех дальнейших экспериментов,
где это применимо, мы используем 𝛼 = 0.1.
Поскольку наша реализация требовательна к ресурсам времени и памяти при обучении на
наборе данных SIFT-flow (обучение длится до нескольких недель), нет возможности провести
настолько же подробный набор экспериментов. Вместо этого здесь сравнивается обучение
с полной разметкой со слабым обучением при фиксированной доле слабо аннотированных
изображений, а именно при 256 полностью размеченных изображениях и 2232 — с метками
изображений (Табл. 2.1). Эта слабообученная модель уступает обученной на полной разметке
всего 2 п. п. по точности и 4 п. п. по полноте. Похожие результаты показала на этом набо-
ре данных модель Вежневца и др. [61], которая также достигла полноты 21 % при тех же
признаках и том же разбиении на суперпиксели, совсем не используя полностью размечен-
ных изображений. Однако этот метод использует дополнительные эвристики, которые мож-
но включить и в предлагаемую схему: используется хэширующий ансамбль экстремально-
рандомизированных решающих деревьев для нелинейного преобразования признаков, допол-
нительно обучаются априорные распределения «объектности» пикселей и категорий изобра-
жения, а также суперпиксели различных изображений соединяются в общую графическую
вероятностную модель.
Поскольку задача оптимизации, возникающая в SSVM с латентными переменными, невы-
пукла, алгоритм может остановиться в локальном минимуме или на плато целевой функции,
так что желательна хорошая инициализация. В приведённых экспериментах начальная раз-
метка для слабоаннотированной части выборки выводится с помощью модели, обученной по
размеченной части выборки.
Таблица 2.1: Точность и средняя поклассовая полнота на наборе данных SIFT-flow. Первые
две строки описывают обучение на подмножестве из 256 полностью размеченных изображе-
ний для моделей с парными потенциалами и без них, соответственно. Третья строка описыва-
ет обучение на наборе, где остальные 2232 изображения обучающей выборки аннотированы
метками изображений. Последняя строка показывает результат обучения на полностью раз-
меченной выборке из 2488 изображений.
эксперимент точн полн

256/256 полных, без парных связей (локальная) 0.574 0.167
256/256 полных, инициализация результатом локальной 0.620 0.176
256/2488 полных, инициализация 256/256 0.674 0.208
2488/2488 полных 0.696 0.246
62
Таблица 2.2: Точность (первое число в каждой ячейке) и поклассовая полнота (второе число)
на наборе MSRC, при обучении 1) только с полной разметкой, 2) если метки изображений (il)
также доступны для оставшейся части выборки, 3) зёрна объектов (os) также доступны для
оставшейся части выборки, 4) плотные рамки (bb) объектов доступны, 5) и зёрна, и плотные
рамки доступны. Числа в последней колонке равны между собой, так как при полностью
размеченной выборке слабая аннотация не добавляет информации.
il bb os 0/276 полных 5/276 полных 276 полных

− − − n/a 0.300/0.170 0.648/0.599
+ − − 0.385/0.178 0.478/0.273 0.648/0.599
+ − + 0.559/0.346 0.574/0.370 0.648/0.599
+ + − 0.597/0.543 0.606/0.546 0.648/0.599
+ + + 0.531/0.567 0.542/0.564 0.648/0.599
2.5.3 Добавление рамок и зёрен

По полной разметке были сгенерированы ещё два типа аннотаций для обучающих изоб-
ражений набора MSRC. Плотные рамки и зёрна объектов хорошо описывают объектные ка-
тегории, но прибавляют мало информации для фоновых. Например, небо может занимать
значительную часть изображения, так что его рамка не намного меньше всего изображения.
Мы поделили список категорий на две части: фоновые, в т. ч. ‘трава’, ‘небо’, ‘гора’, ‘вода’,
‘дорога’ и ‘другое’, и объектные, в которые вошли все остальные категории. Две категории,
‘здание’ и ‘дерево’, проявляют двойственную природу — они могут отражать как основной
объект на фотографии, так и задний фон (например, лес). Используется следующую эвристи-
ка: для конкретного изображения здание или дерево считается фоном тогда и только тогда,
когда помимо него на изображении есть другие представители объектных категорий. Мы до-
бавляем к меткам изображений обучающей выборки либо плотные рамки объектов, либо их
зёрна. Для не-объектных категорий по-прежнему доступны только метки изображений.
Плотные рамки и зёрна определяются по полной разметке неоднозначно. Будем называть
сегментами компоненты связности в маске пикселей данной категории, полученной по раз-
метке изображения. Каждому сегменту соответствует одна рамка или зерно, соответственно.
В качестве плотной рамки, соответствующей сегменту, берётся максимальная 0.06-плотная
рамка сегмента. В качестве зерна, соответствующего сегменту, мы используем его «полюс
недоступности»: выполняется преобразование расстояния (англ. distance transform), для каж-
дого пикселя внутри сегмента возвращающее расстояние до его границы. Пиксель, максими-
зирующий это расстояние, и считается зерном.
В таблице 2.2 собраны результаты обучения по разным комбинациям аннотаций. В ко-
лонках приведены результаты для разного количества полностью размеченных изображений
в обучающей выборке (0, 5, или вся выборка). Строки соответствуют различным комбинаци-
ям аннотаций остальной части выборки. Если полная разметка недоступна, и зёрна, и рамки
значительно улучшают результат по сравнению с использованием только меток изображений.
Рамки особенно сильно повышают поклассовую полноту — они помогают лучше обучать
объектные категории, которые обычно занимают меньшую часть изображения, чем фоновые
63
категории, и соответственно вносят низкий вклад в функцию потерь, основанную на Хэм-
минговом расстоянии. В целом, обучение лишь по слабой аннотации метками изображений
и плотными рамками лишь на 5 % уступает обучению с полной разметкой и по точности, и
по полноте. Зёрна объектов дают меньший прирост качества, однако их использование может
быть оправдано, так как они проще в получении.
В функциях потерь (2.31) и (2.33) присутствует коэффициент 𝛽, отвечающий за относи-
тельный вклад в функцию потерь штрафа за нарушение рамочной и зерновой аннотации,
соответственно. Теоретически, при 𝛽 = 1 функции потерь являются оценками расстояния
Хэмминга. Мы измерили качество модели, обученной при различных значениях коэффици-
ента (см. рис. 2.5c). При значение 𝛽 = 1 точность оказалась сравнительно высокой, что под-
тверждает гипотезу.
2.5.4 Категоризация документов

В этом разделе описывается эксперимент на задаче из вычислительной лингвистики. Ис-
пользуется база данных юридических документов EUR-lex с метками вида subject matter [75],
в частности, для разделения на обучающую и тестовую выборки используется первое раз-
деление кросс-валидации из базы. Всего имеются 17413 документов в обучающей и 1935 в
тестовой выборках, каждый описан 5000 признаками TF-IDF. Каждому документу присвоены
несколько из возможных 201 категории.
В данном эксперименте мы моделируем ситуацию, когда оператор пропускает некоторые
категории: для каждого документа известно подмножество единиц, а наличие остальных ка-
тегорий неизвестно. По аналогии с предыдущими экспериментами мы разделяем обучающую
выборку на часть с полной разметкой и часть со слабой аннотацией. Применяется класси-
фикатор на основе ансамбля рандомизированных решающих деревьев, чтобы сократить ко-
личество признаков документа с 5000 до 2: вероятностный выход данного классификатора
и постоянный признак для моделирования смещения. Этот классификатор настраивается на
полностью размеченной части обучающей выборки, затем применяется к обучающей и те-
стовой выборкам для преобразования признаков. Для полностью размеченной части обуча-
ющей выборки берутся несмещённые оценки, полученные при обучении (для каждого объ-
екта усредняются результаты решающих деревьев, не использовавших данный объект при
обучении). В функции потерь по частичной разметке (2.38) мы устанавливаем постоянное
значение 𝑝𝑘 = 𝑝, оценивая 𝑝 по полностью размеченной части обучающей выборки.
Мы измеряем среднюю по категориям f-меру на тестовой выборке, чтобы оценить ка-
чество категоризации [75]. В бинарной классификации f-мера — это среднее гармоническое
между точностью и полнотой:
2𝑃 𝑅 TP TP
𝐹 = ; 𝑃 = ; 𝑅= . (2.40)
𝑃 +𝑅 TP + FP TP + FN
При обучении на 10 % обучающей выборки, f-мера равна 68.6 %. При добавлении осталь-
ных 90 % выборки с частичной разметкой, f-мера увеличивается до 71.9 %, что очень близ-
64
0.8
0.7
0.6
0.5
0.4 Только полные

Полные + слабые
0.3
0.01 0.02 0.05 0.1 0.2
Доля полностью размеченных
Рисунок 2.6: F-мера категоризации документов EUR-lex в зависимости от доли полностью

размеченных документов (круглые маркеры), а также без полностью размеченных докумен-
тов (треугольные маркеры).
ко к f-мере, полученной с помощью полностью размеченной целой выборки, т. е. 72.8 %.

На рис. 2.6 приведены результаты для других соотношений.
2.6 Выводы
Предложен алгоритм структурного обучения по разнообразным аннотациям для задач раз-
метки и общая схема определения функций потерь для различных типов аннотаций. В отличие
от существующих, предложенный метод позволяет одновременно оптимизировать соответ-
ствующие им функции потерь, не сводя аннотации к более «полным» по жадной схеме. Метод
применён для обучения семантической сегментации изображений по различным типам анно-
таций, предложены специализированные функции потерь для меток изображений, плотных
рамок и зёрен объектов, а также к задаче категоризации документов, для которой предложена
функция потерь для неполной разметки. Описаны алгоритмы оптимизации, необходимые для
обучения по слабой аннотации. Результаты показывают, что совместная аннотация, где фоно-
вые категории заданы метками изображений, а объектные — плотными рамками, показывают
лучшее качество сегментации тестовой выборки с учётом использованных при аннотировании
трудозатрат.
65
Глава 3
Структурное обучение неассоциативных

марковских сетей
Большинство прикладных задач разметки используют ассоциативные марковские сети.

В этом случае поощряется назначение одной и той же метки переменным, соединённым реб-
ром. В наиболее общем определении ассоциативной парно-сепарабельной марковской сети,
каждый парный потенциал 𝜑𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ) энергии (1.5) обладает свойствами метрики. Однако на
практике не очень удобно параметризовывать пространство таких потенциалов, поэтому при
необходимости обучения функционала энергии часто его сужают. Например, в главе 2 данной
работы, как и в классической статье Таскара и др. [68], используется следующее обобщение
модели Поттса: 𝜑𝑣𝑢 (𝑘, 𝑙) = 0 при 𝑘 ̸= 𝑙; и 𝜑𝑣𝑢 (𝑘, 𝑘) = −𝜆𝑣𝑢 , 𝜆𝑣𝑢 ≥ 0.
Популярность ассоциативных марковских сетей объясняется тем, что такой вид энергии
допускает эффективные алгоритмы минимизации на основе разрезов на графах (раздел 1.2.4).
Они позволяют выводить оптимальную разметку (с небольшой погрешностью), в том числе
и в задаче вывода, дополненного функцией потерь, который выполняется на итерациях обу-
чения структурного SVM, и, как правило, является самым ресурсоёмким местом в алгоритме.
При этом ограничение естественного пространства потенциалов усложняет метод обучения.
Например, при субградиентной оптимизации на каждой итерации необходимо брать проек-
цию на область допустимых значений параметров.
Ассоциативность может также служить формой регуляризации. Если известно, что свя-
занные парными связями переменные не могут быть отрицательно коррелированы, то модель
не будет настроена на такие шумовые зависимости в данных. Однако это предположение не
всегда выполняется. Например, в задачах понимания сцены (т. е. семантической сегментации
естественных сцен) марковская сеть может включать связи между удалёнными регионами,
про которые известно, что они с большой вероятностью принадлежат разным категориям.
Если связь соответствует суперпикселям, находящимся друг над другом вверху и внизу изоб-
ражения, то они вероятнее принадлежат категориям ‘небо’ (верхний) и ‘трава’ (нижний), чем
оба одновременно к любой из этих категорий.
Целевым приложением в этой главе является семантическая сегментация облаков точек,
полученных лазерным сканированием естественных сцен (рис. 3.1). Масштаб сцен большой,
66
Рисунок 3.1: Типичное в геодезии облако точек, полученное лазерным сканированием. Цве-
том показана разметка, полученная вручную: красным — ‘земля’, чёрным — ‘автомобили’,
зелёным — ‘растительность’, белым — ‘столбы’.
так как сканирование проводилось с движущегося самолёта или автомобиля. В отличие от

данных, используемых в главах 4 и 2, данные не содержат цветовой информации — они пред-
ставляют собой набор точек трёхмерного пространства, приближающих поверхности сцены.
Поверхности представлены в данных неточно из-за шумов, загороженных поверхностей и
бликов, возникающих при лазерной съёмке. Таким образом, локальные признаки гораздо ху-
же дискриминируют категории, чем локальные признаки в изображениях или облаках точек с
цветовой информацией. Поэтому в данной задаче важнее анализировать геометрию сцены на
глобальном уровне (уровне сцены) и на промежуточном уровне (уровне соседних объектов
сцены). В настоящей главе предлагается модель для учёта неассоциативных взаимодействий
на среднем уровне, таких как «дерево вероятно находится выше земли».
В данной главе предложена параметризация неассоциативной парно-сепарабельной мар-
ковской сети, а также предложен алгоритм обучения параметров на основе структурно-
го SVM. Кроме того, предложена модификация функции потерь на основе Хэммингова рас-
стояния, позволяющая настраивать параметры в случае, когда разные категории представлены
в данных несбалансированно. Также показано, как обучать нелинейный структурный SVM с
гауссовскими ядрами (англ. gaussian radial basis function, RBF). Эксперименты показывают,
что эти нововведения позволяют улучшить качество сегментации.
3.1 Неассоциативная марковская сеть для сегментации об-

лаков точек
Как и при работе с изображениями, будем считать элементарной единицей сегментации
суперпиксель.
Определение 3.1. Рассмотрим облако точек в трёхмерном пространстве {p𝑡 }𝑇𝑡=1 . Разбиением
на суперпиксели назовём функционал 𝑣 : {1, . . . , 𝑇 } → 𝒱. Это разбиение выполняется так,
чтобы прообразы 𝒱 образовывали связные сегменты поверхности, приближаемой облаком.
67
Будем моделировать сегментацию облака точек с помощью парно-сепарабельной марков-
ской сети над графом 𝐺 = (𝒱, ℰ), переменные которой y ∈ R𝑑v соответствуют суперпиксе-
лям (далее для упрощения нотации будем отождествлять переменные с соответствующими
им суперпикселями). На этапе вывода переменным назначаются метки категорий. Это озна-
чает, что все точки, относящиеся к данному суперпикселю, получают его метку. Парные по-
тенциалы определены для всех пар близких суперпикселей. Более конкретно, для каждого
суперпикселя определяется медоид (используется следующая аппроксимация: находится точ-
ка суперпикселя, ближайшая к центру масс), затем находятся 𝑘 ближайших соседей в смысле
медоидов. Объединение всех пар суперпикселей с каждым из его 𝑘 ближайших соседей об-
разуют множество ℰ (используется значение 𝑘 = 5). Обозначим xv𝑣 ∈ R𝑑v вектор признаков
суперпикселя 𝑣 ∈ v, xe𝑢𝑣 ∈ R𝑑e — вектор признаков, описывающий сходство соседних супер-
v e
⨁︀ ⨁︀
пикселей 𝑢 и 𝑣, а x = 𝑣∈𝒱 x𝑣 ⊕ (𝑣,𝑢)∈ℰ x𝑣𝑢 — их конкатенацию. Каждая переменная 𝑦𝑣 ,
соответствующая суперпикселю 𝑣, принимает значение одной из меток категорий из множе-
ства 𝒦 = {1, . . . , 𝐾}. Пространство 𝒳 содержит всевозможные признаки изображения x, а
пространство 𝒴 — всевозможные разметки y (на практике облака точек могут иметь разное
число суперпикселей и разное число их соседних пар, однако в нотации этот факт игнориру-
ется для простоты; обобщение на общий случай тривиально).
Снова рассмотрим логлинейную параметризацию (1.48) марковской сети. В ней сегмента-
ция ищется как MAP-оценка:
∑︁ ∑︁
yMAP = argmax w| 𝜓(y; x) = argmax 𝜓 𝑣 (𝑦𝑣 ; x)| wv + 𝜓 𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ; x)| we . (3.1)
y∈𝒴 y∈𝒴
В предыдущей главе использовалась ассоциативная марковская сеть, то есть значение пар-

ного потенциала в формуле (2.22) было всегда неотрицательным. Для этого парные потенци-
алы для пары одинаковых меток приравнивались к нулю и вводились искусственные ограни-
чения на признаки и параметры: we ≥ 0, xe ≥ 0. В настоящей главе мы используем другую
параметризацию парных потенциалов:
∑︁ ∑︁
𝜓 𝑣𝑢 (𝑦𝑣 , 𝑦𝑢 ; x)| we = e
J𝑦𝑣 = 𝑘KJ𝑦𝑢 = 𝑙K(x|𝑣𝑢 w𝑘𝑙 ) = x|𝑣𝑢 w𝑦e𝑣 𝑦𝑢 . (3.2)
𝑘∈𝒦 𝑙∈𝒦
В ней каждой паре меток сопоставлен свой вектор параметров, который скалярно умножается
на вектор признаков ребра при данном назначении пары меток (это скалярное произведение
может быть переопределено через ядра, как показано в разделе 3.3). При такой парамет-
ризации парные потенциалы перестают удовлетворять свойствам метрики, поэтому нельзя
использовать максимизацию функционала (3.1) на основе разрезов на графах, в том числе
для вывода, дополненного функцией потерь при обучении структурного SVM (раздел 1.2.4).
Вместо этого используется алгоритм передачи сообщений на деревьях с перевзвешивани-
ем (англ. tree-reweighted message passing, TRW ) [43], один из вариантов двойственного раз-
ложения марковской сети на поддеревья. Он возвращает оценку снизу на значение функци-
онала (3.1), что может приводить к раннему останову оптимизации функционала структур-
68
ного SVM. Такая аппроксимация называется оптимизацией на расширенном множестве (ан-
гл. undergenerating) [76]. Эксперименты показывают, что такая аппроксимация позволяет обу-
чить качественный функционал (раздел 3.5).
3.2 Функция потерь для несбалансированных категорий

На практике различные категории могут быть представлены в обучающей выборке в раз-
ном объёме. В частности, фоновые категории, такие как ‘земля’ обычно содержат гораздо
больше суперпикселей, чем объектные категории, такие как ‘автомобиль’ или ‘столб’. Цель
обучения зависит от конечного приложения. В некоторых приложениях бывает нужно пра-
вильно распознать максимальное число точек, независимо от их категорий. В других основ-
ным объектом интереса являются объектные категории. Например, в задаче паспортизации
придорожной инфраструктуры важно качественно выделять столбы. Поэтому эмпирическая
функция потерь может явно учитывать штрафы за ошибки на отдельных категориях:
∑︁
Δ(ȳ, y) = 𝑐𝑣 𝑟𝑦𝑣 J¯
𝑦𝑣 ̸= 𝑦𝑣 K, (3.3)
𝑣∈𝒱
где y — верная разметка, ȳ — произвольная разметка, 𝑐𝑣 — количество точек в суперпикселе,

а 𝑟𝑘 — штраф за неправильную классификацию точки категории 𝑘.
Лемма 3.1. Пусть 𝑅¯ — средняя полнота (recall) по категориям на обучающей выборке, со-
стоящей из 𝐽 объектов. Тогда сумма функций потерь на объектах обучающей выборки про-
¯ при следующем значении параметров:
порциональна величине (1 − 𝑅)
∑︀𝐽 ∑︀ 𝑗
𝑗=1 𝑣∈𝒱 𝑗 𝑐𝑣
𝑟𝑘 = ∑︀𝐽 ∑︀ 𝑗 𝑗
, ∀𝑘 ∈ 𝒦. (3.4)
𝑗=1 𝑣∈𝒱 𝑗 𝑐𝑣 J𝑦𝑣 = 𝑘K
Доказательство. Преобразуем выражение:
∑︁ 𝑗 𝑣 𝑐𝑗𝑣 J𝑦𝑣𝑗 = 𝑘KJ¯ 𝑦𝑣𝑗 ̸= 𝑘K

∑︀ ∑︀
¯= 1 ∑︁ FN 𝑘 1
1−𝑅 = ∑︀ ∑︀ 𝑗 𝑗 = (3.5)
𝐾 𝑘∈𝒦 TP𝑘 + FN𝑘 𝐾 𝑘 𝑗 𝑣 𝑐 𝑣 J𝑦 𝑣 = 𝑘K
1 ∑︁ ∑︁ ∑︁ 𝑗 1
𝑐 ∑︀ ∑︀ J𝑦 𝑗 = 𝑘KJ¯ 𝑦𝑣𝑗 ̸= 𝑘K ∝
𝐾 𝑗 𝑣 𝑘 𝑣 𝑗 ′ 𝑣′ 𝑐𝑗𝑣′ J𝑦𝑣𝑗 ′ = 𝑘K 𝑣
′ ′
∑︁ ∑︁ ∑︁ ∑︁ ∑︁ ∑︁
𝑐𝑗𝑣 𝑟𝑘 J𝑦𝑣𝑗 = 𝑘KJ¯
𝑦𝑣𝑗 ̸= 𝑘K = 𝑐𝑗𝑣 𝑟𝑦𝑣𝑗 J¯
𝑦𝑣𝑗 ̸= 𝑦𝑣𝑗 K = Δ(ȳ𝑗 , y𝑗 ).
𝑗 𝑣 𝑘 𝑗 𝑣 𝑗
Согласно условиям леммы, штраф равен обратной частоте точек данной категории в обу-
чающей выборке. Эксперименты в разделе 3.5 показывают, что такая модификация позволяет
улучшить даже поточечную точность в случае несбалансированной выборки, если маленькие
категории представлены достаточно, чтобы построить их модель.
69
3.3 Нелинейные ядра
Как и классический SVM, структурный его вариант допускает ядровой переход. Покажем
это, сформулировав двойственную формулировку, и затем покажем, как её обобщить, заменив
скалярное произведение в Евклидовом пространстве, заменив его на произвольную ядровую
функцию.
3.3.1 Двойственная формулировка структурного SVM

Построим двойственную задачу к формулировке структурного SVM с линейными огра-
ничениями (оптимизационная задача 1.6). Обозначим Y = y1 ⊕ y2 ⊕ · · · ⊕ y𝐽 конкатенацию
разметок всех объектов выборки, X = x1 ⊕ x2 ⊕ · · · ⊕ x𝐽 — конкатенацию их признаков,
Δ(Ȳ; Y) = 𝐽1 𝐽𝑗=1 Δ(ȳ𝑗 ; y𝑗 ), и 𝜓(Ȳ; X) = 𝐽1 𝐽𝑗=1 𝜓(ȳ𝑗 ; x𝑗 ). Для упрощения нотации обо-
∑︀ ∑︀
значим 𝜓 Y ≡ 𝜓(Y; X), 𝜓 Ȳ ≡ 𝜓(Ȳ; X), 𝜓 Ỹ ≡ 𝜓(Ỹ; X), ΔȲ ≡ Δ(Ȳ; Y). Запишем оптимиза-
ционную задачу структурного SVM для объектов X, Y.
Оптимизационная задача 3.1 (формулировка SSVM с одной фиктивной переменной).
1
min w| w + 𝐶𝜉, (3.6)
w,𝜉 2
при условиях w| 𝜓 Y ≥ w| 𝜓 Ȳ + ΔȲ − 𝜉, ∀Ȳ ∈ 𝒴 𝐽 . (3.7)
Эта задача называется формулировкой SSVM с одной фиктивной переменной (англ. 1-

slack formulation). Минимум по w в ней достигается в той же точке, что и в задаче 1.6 [20].
Следуя Йоахимсу и др. [20], запишем функцию Лагранжа, используя множители 𝛼Ȳ , соответ-
ствующие ограничениям (3.7):
1 ∑︁
𝐿(w, 𝜉, 𝛼) = w| w + 𝐶𝜉 + 𝛼Ȳ [w| 𝜓 Ȳ − w| 𝜓 Y + ΔȲ − 𝜉] . (3.8)
2 𝐽 Ȳ∈𝒴
Для того чтобы найти его минимум по целевым переменным при 𝛼 ≥ 0, приравняем
градиент к нулю:
𝜕𝐿 ∑︁ ∑︁
=w+ 𝛼Ȳ (𝜓 Ȳ − 𝜓 Y ) = 0 ⇒ w= 𝛼Ȳ (𝜓 Ȳ − 𝜓 Y ) , (3.9)
𝜕w 𝐽 Ȳ∈𝒴 Ȳ∈𝒴 𝐽
𝜕𝐿 ∑︁ ∑︁
=𝐶− 𝛼Ȳ = 0 ⇒ 𝛼Ȳ = 𝐶. (3.10)
𝜕𝜉
Ȳ∈𝒴 𝐽 Ȳ∈𝒴 𝐽
Максимизируя функцию Лагранжа при этих ограничениях, получим двойственную задачу.

Подставим в неё значение w, полученное в (3.9).
70
Алгоритм 3.1 Обучение двойственной формулировки SSVM методом секущей плоскости
1: Вход: обучающая выборка (X, Y), гиперпараметры 𝐶, 𝜀.
2: Выход: параметры 𝛼.
3: 𝒲 ← ∅
4: repeat (︀ | |
{︀∑︀ )︀ }︀
5: Ȳ ← argmaxỸ∈𝒴 𝐽 Ȳ∈𝒲 Ȳ𝛼 𝜓 𝜓
Y Ỹ − 𝜓 𝜓
Ȳ Ỹ
+ Δ Ȳ
6: if Ȳ ̸∈ 𝒲 then
7: 𝒲 ← 𝒲 ∪ {Ȳ}
1 ∑︁ ∑︁ ∑︁
8: 𝛼 ← argmax − 𝛼Ȳ 𝛼Ỹ 𝐻(Ȳ, Ỹ) + 𝛼Ȳ Δ(Ȳ; Y)
𝛼≥0 2
Ȳ∈𝒴 𝐽 Ỹ∈𝒴 𝐽 Ȳ∈𝒴 𝐽
∑︁
9: при условиях 𝛼Ȳ = 𝐶; 𝛼Ȳ = 0, ∀Ȳ ∈ 𝒴 𝐽 ∖ 𝒲
Ȳ∈𝒴 𝐽
10: end if
11: until Ȳ ∈ 𝒲
Оптимизационная задача 3.2 (двойственная формулировка SSVM).
1 ∑︁ ∑︁ ∑︁
max − 𝛼Ȳ 𝛼Ỹ 𝐻(Ȳ, Ỹ) + 𝛼Ȳ Δ(Ȳ; Y), (3.11)
𝛼≥0 2 𝐽 𝐽
Ȳ∈𝒴 Ỹ∈𝒴 𝐽 Ȳ∈𝒴
∑︁
при условии 𝛼Ȳ = 𝐶, (3.12)
Ȳ∈𝒴 𝐽
где скалярное произведение разностей обобщённых признаков определено как

)︀| (︀
𝐻(Ȳ, Ỹ) = 𝜓 Y − 𝜓 Ȳ 𝜓 Y − 𝜓 Ỹ = 𝜓 |Y 𝜓 Y − 𝜓 |Y 𝜓 Ỹ − 𝜓 |Ȳ 𝜓 Y + 𝜓 |Ȳ 𝜓 Ỹ
(︀ )︀
(3.13)
= 𝜓(Y; X)| 𝜓(Y; X) − 𝜓(Y; X)| 𝜓(Ỹ; X) − 𝜓(Ȳ; X)| 𝜓(Y; X) + 𝜓(Ȳ; X)| 𝜓(Ỹ; X).
Получим теперь выражение для вывода разметки тестового объекта x̃, снова перейдя к
двойственным переменным с помощью (3.9):
∑︁
yMAP = argmax w| 𝜓(ỹ; x̃) = argmax 𝛼Ȳ 𝜓 |Y 𝜓(ỹ; x̃) − 𝜓 |Ȳ 𝜓(ỹ; x̃) .
(︀ )︀
(3.14)
ỹ∈𝒴 ỹ∈𝒴
Ȳ∈𝒴 𝐽
В этом выражении используется также обучающая выборка (X, Y). Из него следует, что
для вычисления потенциалов тестовой задачи максимизации необходимо суммировать |𝒴 𝐽 |
слагаемых, однако вектор 𝛼 оказывается разреженным, следовательно, большинство из сла-
гаемых — нулевые. Рассмотрим алгоритм секущей плоскости 1.1 для оптимизации SSVM.
Вместо целевых переменных прямой задачи в нём можно обновлять целевые переменные
двойственной. Алгоритм 3.1 демонстрирует такую модификацию. На каждой итерации ре-
шается двойственная задача к задаче SSVM на рабочем наборе ограничений (строки 8–9).
Поскольку целевая функция выпукла, а ограничения линейны, оптимумы в прямой и двой-
ственной задачах совпадают, а решения могут быть получены друг из друга с помощью (3.9).
Поэтому последовательности Ȳ, получаемые двумя вариантами алгоритма, совпадают.
71
На каждой итерации алгоритма 3.1 не более одной компоненты вектора 𝛼 может стать
ненулевой. Поэтому количество ненулевых компонент в финальном решении ограничено
сверху числом итераций, которое при фиксированной точности полиномиально зависит от
длины выборки [20]. Другими словами, согласно условиям дополняющей нежёсткости в тео-
реме Каруша–Куна–Таккера, ненулевыми переменными могут быть только те, которые соот-
ветствуют активным ограничениям в прямой задаче (неактивные ограничения выполняются
с нестрогими неравенствами). При достижении сходимости алгоритма 1.1 активные ограни-
чения входят в рабочий набор 𝒲. Их размер ограничен многочленом от числа компонент в
разметках, что существенно меньше экспоненциального числа |𝒴 𝐽 |. Таким образом, решение
получается существенно разреженным. Разметки, которым соответствуют ненулевые 𝛼ȳ* , на-
зываются опорными векторами. Они соответствуют наиболее неправдоподобным разметкам
обучающих объектов. Из решающего правила (3.14) видно, что MAP-оценка стремится быть
близкой по обобщённым признакам к верной разметке обучающей выборки y* , но далёкой от
опорных векторов.
3.3.2 Ядровой переход

Можно заметить, что ни в формулировке целевой функции (3.11), ни в решающем прави-
ле (3.14) не фигурирует вектор параметров w. Все зависимости между признаками выражают-
ся через скалярные произведения обобщённых признаков. Будем называть такое произведение
ядровой функцией для выборок:
𝐽
(︂ ∑︁ 𝐽
)︂| (︂ ∑︁ )︂
1
|
𝑄(X1 , Y1 , X2 , Y2 ) = 𝜓(Y1 ; X1 ) 𝜓(Y2 ; X2 ) = 2 𝜓(y1𝑗 ; x𝑗1 ) 𝜓(y2𝑖 ; x𝑖2 ) (3.15)
𝐽 𝑗=1 𝑖=1
𝐽 𝐽 𝐽 𝐽
1 ∑︁ ∑︁ 𝑗 𝑗 | 1 ∑︁ ∑︁
= 𝜓(y 1 ; x 1 ) 𝜓(y 𝑖
2 ; x 𝑖
2 ) = 𝑞(y1𝑗 , x𝑗1 , y2𝑖 , x𝑖2 ).
𝐽 2 𝑗=1 𝑖=1 𝐽 2 𝑗=1 𝑖=1
Функцию 𝑞(y1 , x1 , y2 , x2 ) назовём ядровой функцией для объектов. Переопределив функцию
𝐻(Ȳ, Ỹ) = 𝑄(X, Y, X, Y) − 𝑄(X, Y, X, Ỹ) − 𝑄(X, Ȳ, X, Y) + 𝑄(X, Ȳ, X, Ỹ) (3.16)
и решающее правило
∑︁ [︁ ]︁
YMAP = argmax 𝛼Ȳ 𝑄(X̃, Ỹ, X, Y) − 𝑄(X̃, Ỹ, X, Ȳ) , (3.17)
Ỹ∈𝒴 Ȳ∈𝒴 𝐽
получим формулировку задач обучения и вывода, содержащую только ядровые функции, но

не обобщённые признаки в явном виде. Скалярное произведение в ядровой функции (3.15)
можно заменить на другую функцию. При этом, как и в линейном случае, должен существо-
вать эффективный алгоритм для вывода (3.17), дополненного функцией потерь. Это гаранти-
руется в том случае, если ядро разделяется на факторы соответствующей марковской сети.
В случае парно-сепарабельной марковской сети ядровая функция должна быть представима
72
в виде суммы унарных и парных потенциалов относительно компонент вектора — второго
аргумента. Приведём пример такой функции, имеющей практическое значение.
Определение 3.2. Гауссовской ядровой функцией (англ. gaussian radial basis function, RBF)
будем называть ядровую функцию для объектов следующего вида:
∑︁ ∑︁
𝑞(y′ , x′ , y′′ , x′′ ) = exp(−𝛾‖x′𝑣′ − x′′𝑣′′ ‖2 )J𝑦𝑣′ ′ = 𝑦𝑣′′′′ K + (3.18)
𝑣 ′ ∈𝒱 ′ 𝑣 ′′ ∈𝒱 ′′
∑︁ ∑︁
exp(−𝛾‖x′𝑣′ 𝑢′ − x′′𝑣′′ 𝑢′′ ‖2 )J𝑦𝑣′ ′ = 𝑦𝑣′′′′ KJ𝑦𝑢′ ′ = 𝑦𝑢′′′′ K.
(𝑣 ′ ,𝑢′ ) (𝑣 ′′ ,𝑢′′ )
∈ℰ ′ ∈ℰ ′′
Здесь под 𝒱 ′ и 𝒱 ′′ понимаются множества вершин марковских сетей, образующих x′ и x′′ ,

соответственно, а под ℰ ′ и ℰ ′′ — множества их рёбер. Параметр 𝛾 отражает ширину ядра, мы
полагаем его равным 1.
Гауссовская ядровая функция измеряет расстояние между разметками с учётом близости

признаков. Рассматриваются все пары унарных и все пары парных потенциалов, и чем ближе
соответствующие признаки, тем больший вклад в расстояние дают неодинаковые значения
переменных в соответствующих компонентах разметок.
Согласно результатам экспериментов в разделе 3.5, использование гауссовского ядра поз-
воляет повысить точность сегментации за счёт ослабления требования на линейность зависи-
мости от признаков в решающем правиле.

Ангелов и др. [5] впервые предложили использовать марковские сети для сегментации
облаков точек. Они использовали ассоциативные марковские сети, поощряющие одинаковые
метки категорий для соседних точек. Хотя метод просто добавляет пространственную регуля-
ризацию к индивидуальным классификаторам, его результат оказался значительно лучше за
счёт повышения робастности. Достаточно простая формулировка функционала энергии до-
пускает эффективную минимизацию с помощью разрезов на графах (раздел 1.2.4). При обу-
чении настройка параметров выполняется с помощью стандартных методов квадратичного
программирования, что ограничивает размер задачи.
При использовании ассоциативной модели на практике нет нужды использовать подроб-
ные признаки парных потенциалов. Модель недостаточно ёмкая, чтобы извлечь пользу из
признаков парных потенциалов, которые только поощряют равенство меток инцидентных им
точек. Как следствие, ранние работы [5, 77] используют один константный признак парных
потенциалов. Другими словами, парные потенциалы задают априорные знания о совместной
встречаемости конкретных меток в соседних точках. Позже Муноз и др. [32] использовали
анизотропную ассоциативную модель, в которой парные потенциалы зависят от парных при-
знаков, таких как модуль и направление вектора, соединяющего соответствующие точки. Поз-
же они предложили моделировать факторы высоких порядков, но при этом не отказались от
73
требования ассоциативности [6]. В этой модели используются потенциалы Поттса (и парные,
и высоких порядков): они могут быть положительными, только если все (или большинство)
переменных в факторе принимают одну и ту же метку, иначе потенциал равен нулю. Такой
вид потенциалов позволяет проводить эффективный вывод MAP-оценки (раздел 1.2.4).
Требование ассоциативности ограничивает гибкость модели. Ранее нами было показано,
что учёт неассоциативных зависимостей, таких как «деревья и здания склонны находиться вы-
ше земли», позволяет повысить точность сегментации [28]. Также как и в этой главе исполь-
зовался общий вид парных потенциалов, однако применялся более простой, эвристический
метод обучения на основе наивного Байесовского классификатора, в котором правдоподобие
оценивалось непараметрически, независимо для унарных и парных факторов, при этом на
этапе обучения не моделировались корреляции между факторами и переменными. Частный
случай этой модели используют Познер и др. [78]: их модель неассоциативная, но использу-
ется только константный парный признак, как и в ранних работах [5, 77], что соответствует
использованию только априорного распределения в наивном Байесовском классификаторе.
В целом, обучение неассоциативных моделей более требовательно к обучающей выборке:
в ней должны быть хорошо представлены межклассовые связи, а не только внутриклассовые.
Ещё одной трудностью при их использовании является нерегулярность энергии, не допуска-
ющая эффективный вывод с помощью разрезов на графах (раздел 1.2.4), поэтому используют
приближённые методы MAP-вывода (раздел 1.2.3). Хотя точность приближённых методов мо-
жет быть достаточна на этапе принятия решения, неточный вывод может негативно сказаться
при обучении. Финли и Йоахимс изучили проблему использования неточных методов вывода
при структурном обучении [76]. Франк и Савчинский [33] использовали на практике неточ-
ный вывод при структурном обучении в задачах компьютерного зрения. Их эксперименты
показали, что неассоциативная модель имеет немного более низкую точность, чем ассоци-
ативная, что объясняется неточностью процедуры вывода, дополненного функцией потерь.
Однако в этом эксперименте также использовался только константный парный признак, что
могло помешать неассоциативной модели проявить свою гибкость.
В разделе 3.3 представлен метод обучения потенциалов марковской сети, нелинейно за-
висящих от признаков с использованием ядровых функций. Похожую идею использовали
Трибель и др. [77], которые совместили ассоциативную марковскую сеть с метрическим клас-
сификатором на основе 𝑘 ближайших соседей. Отличие предложенного метода в том, что
опорные векторы выбираются не только из объектов обучающей выборки, а могут генериро-
ваться из множества всевозможных разметок (при этом неправильно размеченные опорные
векторы входят в решающие правило с отрицательными коэффициентами). Поскольку пред-
ложенный здесь метод разреженный, в нём может выбраться более компактное представление
из опорных векторов. Муноз и др. [6] предложили другой метод для восстановления нелиней-
ной зависимости — функциональный градиентный бустинг (англ. functional gradient boosting,
FGB), совместно настраивающий потенциальные функции как нелинейные функции их пара-
метров. Метод подробнее описан в разделе 1.3.3.
74
Марковские сети — не единственный способ учёта семантического пространственного кон-
текста, который используется при сегментации облаков точек. Некоторые работы используют
детектирование объектов с последующей сегментацией и классификацией форм [79,80]. Дру-
гие получают сегментацию как побочный продукт детектирования объектов определённого
класса методами голосования в обобщённом пространстве Хафа [81, 82]. Ряд методов исполь-
зуют последовательную классификацию. Один из них, пространственная машина вывода,
описан в главе 4 данной диссертации. Сьон и др. [34] предложили идею эшелонированного
трёхмерного парсинга (англ. stacked 3D parsing), который использует семантический кон-
текст для разметки облака точек на различных уровнях подробности (от грубого до тонкого)
и запускает последовательную классификацию для согласования разметок.
3.5 Эксперименты
В данном разделе проводится экспериментальная оценка предложенного метода и срав-
нение его с аналогами на двух наборах данных, полученных, соответственно, аэросъёмкой,
и сканированием с движущегося автомобиля. Основная цель экспериментов — показать пре-
имущество неассоциативных моделей в задаче семантической сегментации облаков точек. В
качестве слабого базового метода используется ансамбль рандомизированных деревьев, при-
меняемый к суперпикселям независимо. Также показано, что на этих наборах данных предло-
женный метод с нелинейными ядрами превосходит по качеству другие нелинейные методы, а
именно функциональный градиентный бустинг для обучения ассоциативных марковских се-
тей [6] и наивное Байесовское обучение потенциалов неассоциативной марковской сети [28].
На наборе данных Аэро проводятся две серии экспериментов. В первой унарные потен-
циалы не используются совсем — она демонстрирует способность предложенного метода мо-
делировать зависимости разметки от признаков парных потенциалов. Во второй серии экспе-
риментов моделируется прикладное использование метода: унарные потенциалы назначаются
как минус логарифмы вероятностного выхода ансамбля рандомизированных деревьев и фик-
сируются, а парные — настраиваются с помощью структурного SVM. Рассматриваются два
типа функций потерь: расстояние Хэмминга и сбалансированная по категориям функция по-
терь, описанная в разделе 3.2. Также приводится результат для линейной неассоциативной
модели. Предлагаемый метод также протестирован на сложном наборе данных Авто, прове-
дён анализ его применимости.1
3.5.1 Детали реализации

Марковская сеть строится над суперпикселями облака точек. Это ускоряет выполнение
алгоритма, кроме того, пространственная удалённость делает признаки парных потенциалов
более информативными (если же строить марковскую сеть над индивидуальными точками,
парные связи между ближайшими соседями будут иметь неинформативное направление из-
за погрешности измерений, а разница характеристик, таких как восстановленные нормали к
1
http://graphics.cs.msu.ru/en/science/research/3dpoint/classification
75
Рисунок 3.2: Визуализация структуры Р-дерева с одним корнем и 8 листьями. Охватывающий
параллелепипед для корневой вершины показан красным, для листьев — синим. В общем
случае используются также промежуточные уровни иерархии.
поверхности, будет нулевой, за исключением шума). Мы используем вариант Р-дерева [83]

для построения пространственного индекса (структуры данных, позволяющей эффективно
находить точки в заданной области), а также используем его листья для определения супер-
пикселей.2 Р-дерево представляет собой иерархию вложенных параллелепипедов, каждый из
которых вмещает всех своих потомков, на нижнем уровне — точки облака. При построении Р-
дерева стремятся найти наиболее компактные параллелепипеды (рис. 3.2), поэтому его струк-
туру можно использовать в качестве пересегментации. Согласно используемым настройкам,
листья Р-дерева содержат не более 64 точек каждый, также из процедуры построения следу-
ет пространственная близость точек, попавших в общий лист; в результате суперпиксель в
среднем содержит около 50 точек. Для каждого суперпикселя находится приближённый ме-
доид (точка множества, сумма расстояний до которой от остальных точек минимальна) как
наиболее близкая точка суперпикселя к его центру масс. Для дальнейшего анализа медоид
представляет весь суперпиксель: граф соседства строится с учётом расстояний между медо-
идами (каждый медоид соединяется с 5 ближайшими соседями), признаки вычисляются от-
носительно медоидов и их пар (при этом для вычисления признаков используются все точки
облака). Такое разбиение на суперпиксели оказывается критичным для сегментации облаков
точек, как обсуждается в разделе 3.5.4.
Для обучения ансамбля рандомизированных деревьев, с помощью которого назначаются
унарные потенциалы, вычисляются следующие признаки суперпикселей в фиксированной
окрестности их медоидов:
∙ спектральные признаки и признаки направления [32];
∙ один из вариантов вариант спин-изображения;
∙ распределение точек по высоте [28].
Для двух суперпикселей, имеющих соседние медоиды p и q и нормали n𝑝 и n𝑞 , соответ-

ственно, используются следующие признаки парных потенциалов:
∙ косинус угла между нормалями: nT

𝑝 n𝑞 /(‖n𝑝 ‖‖n𝑞 ‖);
2
Авторская реализация опубликована в GML LidarK library: http://graphics.cs.msu.ru/en/
science/research/3dpoint/lidark
76
∙ разница в высоте точек над землёй (т. е. в значениях проекций на ось 𝑧), нормированная
на расстояние между ними: (𝑝𝑧 − 𝑞𝑧 )/‖p − q‖.
Мы используем авторскую реализацию субградиентного обучения [32] и функционально-

го градиентного бустинга [6]3 . В этих методах мы также используем функцию потерь для
несбалансированных категорий из раздела 3.2, поскольку в противном случае результат этих
моделей получается смещённым. Запускается неэкспоненцированный вариант FGB в тече-
√
ние 𝑇 = 100 итераций с убывающим размером шага 𝛼𝑡 = 1/ 𝑡. Также как и авторы, мы
подбираем параметр регуляризации на валидационной выборке. Для реализации наивного
Байесовского обучения потенциалов также используются авторские параметры [28]: каждое
из распределений приближается гистограммой из 10 ячеек. В предлагаемом методе параметр
регуляризации подобран на валидационной выборке.
3.5.2 Наборы данных

Аэро. Этот набор получен лазерной аэросъёмкой (рис. 3.3a). Используются отдельные
сканы для обучения и для тестирования, каждый содержит около 100 000 точек. Облака точек
вручную размечены на три метки категории: ‘земля’, ‘здание’, ‘дерево’. Здания недопредстав-
лены в наборе (около 1/12 всех точек), остальные точки принадлежат земле и растительности
в равной пропорции.
Авто. Данные, снятые автомобилем, содержат около 0.4 миллиона точек в обучающей вы-
борке и 1 миллион в тестовой (рис. 3.1). Используются четыре категории: ‘земля’, ‘транспорт’,
‘дерево’, ‘столб’ (последняя категория включает в себя и ламповые столбы, и столбы для до-
рожных знаков). В наборе только 0.2 % точек относятся к столбам, 5 % — к транспортным
средствам, 12 % — к автомобилям, остальные точки принадлежат категории ‘земля’.
3.5.3 Результаты
Результат экспериментов на наборе Аэро приведены в таблице 3.1. Поскольку этот набор
несбалансирован по категориям, приводятся точность и полнота (2.40) по всем категориям
в отдельности. Также приводится среднее геометрическое полноты по категориям, которое
трактует все категории одинаково важными, независимо от их размера [84]. Как и ожидалось,
использование унарных потенциалов улучшает качество, что особенно заметно при обуче-
нии ассоциативной марковской сети функциональным градиентным бустингом. Это можно
объяснить недостаточной ёмкостью ассоциативной модели. При этом, добавление унарных
потенциалов не приводит к идеальному результату — оба варианта обучения неассоциатив-
ной марковской сети улучшают результат ассоциативной. Визуальные результаты сегментации
представлены на рис. 3.3.
Предложенный метод приводит к разреженному решению: были определены всего
10 опорных векторов (хотя любая потенциальная разметка порождает возможный опорный
вектор). При этом гауссово ядро (3.18) содержит сумму по всем факторам, так что применение
3
http://www.cs.cmu.edu/~dmunoz/projects/m3n.html
77
Таблица 3.1: Точность и полнота для каждой из категорий и геометрическое среднее полноты
по категориям на наборе Аэро. Приведены результаты независимой классификации ансам-
блем рандомизированных деревьев (UNARY), ассоциативной модели, обученных функцио-
нальным градиентным бустингом (FUNC), а также неассоциативных моделей, использующей
наивный Байесовский классификатор (BAYES) и обученную предложенным методом (SVM).
Постфикс «-PW» добавляется к моделям, не использующим унарные потенциалы. В по-
следних двух строках приведены результаты упрощённых моделей: линейного структурно-
го SVM (SVM-LIN) и нелинейного структурного SVM с невзвешенной Хэмминговой функ-
цией потерь (SVM-HAM).
земля здание дерево ср. геом.

Метод
точность полнота точность полнота точность полнота полнота
UNARY 0.992 0.952 0.576 0.688 0.890 0.892 0.836
BAYES-PW 0.985 0.979 0.493 0.698 0.898 0.809 0.821
FUNC-PW 0.911 0.975 0.578 0.545 0.923 0.850 0.767
SVM-PW 0.981 0.977 0.602 0.803 0.924 0.849 0.874
BAYES 0.983 0.978 0.496 0.779 0.917 0.789 0.844
FUNC 0.975 0.981 0.758 0.645 0.913 0.940 0.841
SVM 0.975 0.979 0.574 0.923 0.960 0.805 0.900
SVM-LIN 0.994 0.987 0.641 0.693 0.907 0.896 0.850
SVM-HAM 0.952 0.985 0.612 0.181 0.813 0.922 0.548
Таблица 3.2: F-мера для результатов субградиентной оптимизации структурного SVM

(SUB, [32]), функционального градиентного бустинга (FUNC), и предложенного метода
(SVM-LIN, SVM) на наборе данных Авто
Метод земля транспорт дерево столб

SUB 0.974 0.302 0.497 0.138
FUNC 0.979 0.821 0.934 0.397
SVM-LIN 0.934 0.792 0.789 0.203
SVM 0.980 0.868 0.928 0.000
даже одного опорного вектора происходит значительно медленнее, чем в линейной модели,
где ядра суммируются к набору параметров потенциалов. К сожалению, в этом эксперименте
линейная модель лишь немного улучшает качество независимой классификации. Нижний ряд
таблицы 3.1 показывает, что критично использовать взвешенное расстояние Хэмминга в каче-
стве функции потерь (раздел 3.2) — обученная при отсутствии взвешивания модель склонна
игнорировать мелкие классы, в данном случае, ‘здание’.
Результаты наиболее успешных методов (нелинейного структурного SVM и FGB, а также
их линейных аналогов) на наборе Авто приведены в таблице 3.2. Приводится f-мера (сред-
нее гармоническое между точностью и полнотой (2.40)) для каждой из категорий. Струк-
турный SVM и FGB показывают аналогичные результаты на категориях ‘земля’ и ‘дерево’.
Первый лучше классифицирует ‘транспорт’, но совершенно не находит ‘столбы’, которых
было очень мало в обучающей выборке. Таким образом, предложенный метод плохо при-
меним к данным, содержащим много категорий, а также когда некоторые категории сильно
недопредставлены.
78
(a) GTRUTH (b) UNARY
(c) BAYES-PW (d) BAYES
(e) FUNC-PW (f) FUNC
(g) SVM-PW (h) SVM
Рисунок 3.3: Результаты на части тестового облака точек из набора Аэро, на котором предло-
женный метод показывает высокую точность. Красный цвет соответствует категории земля,
чёрный — здание, зелёный — растительность. (a) Верная (ручная) разметка. (b) Ансамбль
рандомизированных деревьев, или только унарные потенциалы. (c)–(d) Наивный Байес, без
унарных потенциалов и с ними. (e)–(f) Функциональный градиентный бустинг. (g)–(h) Метод
секущей плоскости
3.5.4 Обсуждение
Эксперимент на наборе Аэро показывает, что неассоциативные марковские сети сегмен-
тируют облако точек точнее, чем ассоциативные, особенно при отсутствии унарных потенци-
79
алов. Даже простое наивное Байесовское обучение парных потенциалов показывает лучший
результат, чем функциональный градиентный бустинг, стеснённый требованием ассоциатив-
ности. Ассоциативность может служить в качестве регуляризации, и таким образом лучше
обучаться на небольших выборках с недостающей статистикой парных потенциалов. В этом
эксперименте для обучения использовался один небольшой скан (он содержит около 100 ты-
сяч точек, или 2 тысячи суперпикселей), при этом удалось обучить модель парных потенциа-
лов с зависимостями между любыми парами из 3 категорий. Таким образом, неассоциативная
модель может эффективно настраиваться даже на небольшой выборке, если число категорий
небольшое, и среди них нет слишком недопредставленных.
В используемой модели парные потенциалы связывают достаточно удалённые точки из-за
использования суперпикселей. Из-за этого доля гетерогенных рёбер (таких, что инцидентные
им вершины помечены различно) больше, чем в модели, построенной над отдельными точ-
ками, так как суперпиксели обычно объединяют точки, которые должны относиться к одной
категории. Более того, при использовании суперпикселей признаки парных потенциалов более
информативны: для двух соседних точек облака, полученного достаточно плотным сканиро-
ванием, такие признаки, как ориентация и длина соединяющего их отрезка, бесполезны из-за
шума, возникающего при сканировании. Ангелов и др. [5] не используют сэмплирование ис-
ходного скана. Согласно их экспериментам, использование признаков помимо константного
не увеличивает точность сегментации (хотя это может быть вызвано использованием доста-
точно грубой ассоциативной модели).
Для вывода финальной разметки на этапе предсказания и для вывода, дополненного
функцией потерь, на этапе обучения используется алгоритм TRW-S. Несмотря на то, что
он находит лишь приближённый максимум MAP-оценки, на практике обучается доволь-
но точная модель. Использование приближённого вывода означает, что используемый вари-
ант метода секущей плоскости выполняет оптимизацию на расширенном множестве (ан-
гл. undergenerating) [76], то есть, на каждой итерации находится наиболее нарушаемое огра-
ничение среди подмножества множества линейных ограничений (1.64), таким образом, в ра-
бочий набор добавляется действительное ограничение задачи, но, возможно, не самое на-
рушаемое. Альтернативой является выполнение оптимизации на суженном множестве (ан-
гл. overgenerating), в которой наоборот — множество доступных ограничений расширяется,
но на таком расширенном множестве возможно искать точный оптимум достаточно эффек-
тивно. Этого можно добиться использованием LP-релаксации (раздел 1.2.1) или оптимизации
двойственной задачи (раздел 1.2.3) в задачах вывода, дополненного функцией потерь. Таким
образом, ограничения будут соответствовать не целочисленным разметкам, а также и дроб-
ным. При этом сохраняются теоретические свойства метода секущей плоскости [76].
Неточность недопорождающего подхода заключается в том, что на последней итерации
может быть получено не самое нарушаемое ограничение, и оно будет удовлетворяться, таким
образом, оптимизация остановится раньше реальной сходимости. Эта ошибка может быть
ограничена сверху интервалом двойственности в TRW-S, который на практике обычно близок
к нулю на последних итерациях метода секущей плоскости. Таким образом, в приведённых
80
экспериментах приближённый вывод не мог сильно повлиять на точность модели, однако его
использование замедляет оптимизацию из-за большего числа генерируемых ограничений.
3.6 Выводы
В настоящей главе описана структура неассоциативной марковской сети и соответству-
ющие алгоритмы для вывода разметки и обучения потенциалов. Приведена новая функция
потерь, а также формулировка гауссовского ядра для неявного нелинейного преобразования
признакового пространства. Эксперименты по семантической сегментации на двух наборах
данных, представляющих собой облака точек в трёхмерном пространстве, показали, что все
эти три модификации модели ведут к улучшению результата сегментации.
81
Глава 4
Использование пространственного
контекста при последовательной
классификации
В главе 1 описана методология решения задач разметки с помощью графических веро-

ятностных моделей. Для решения задачи производится вывод наиболее вероятной разметки
в соответствии с некоторым вероятностным распределением. Само же распределение, как
правило, моделируется с помощью методов статистического машинного обучения, т. е. ми-
нимизируется некоторая функция эмпирического риска. Недостатком этого подхода является
большая вычислительная сложность оптимизационных задач как вывода, так и минимиза-
ции риска: на практике их приходится решать приближённо, в связи с чем теоретические
гарантии теряются. Кроме того, графические модели, используемые на практике, моделиру-
ют только локальные зависимости в данных: добавление дальнодействующих зависимостей
сильно усложняет модель, так что реализовать достаточно эффективный вывод удаётся только
для потенциалов специального вида [85].
В этой главе рассматривается альтернативный подход к решению задач разметки на основе
последовательной классификации. В отличие от графических моделей, решающее правило
сводится к последовательному применению классификаторов, которые обучаются жадным
образом. Классификаторы каждого следующего слоя зависят от выходов классификаторов
предыдущего слоя, таким образом, разметка постепенно уточняется с учётом обновлённой
предварительной разметки. Достоинством данного метода является концептуальная простота,
как следствие, более высокая скорость вывода, чем в графических моделях. Гибкость метода
позволяет моделировать произвольные зависимости между метками, не только локальные, как
в графических моделях.
Идея использования последовательной классификации для семантической сегментации не
является новой. В алгоритме «автоконтекст» [25] решение о разметке принимается последо-
вательным применением нескольких линейных классификаторов, обучаемых логистической
регрессией. Авторы показали, что при добавлении нового слоя ошибка на обучающей выбор-
ке уменьшается, следовательно, алгоритм сходится по ошибке на обучении. Росс и др. [26]
82
предложили машину вывода — модификацию метода последовательной классификации, явля-
ющуюся обобщением алгоритма распространения доверия (раздел 1.2.2) для вывода в графи-
ческих моделях. Мы будем пользоваться этим обобщением. Более полный обзор связанных
методов приведён ниже в разделе 4.4.
В этой главе описано обобщение машины вывода [26], учитывающее пространственный
контекст. Конкретно, предлагаемый метод отличается в следующем:
∙ функции пересчёта меток вычисляются в два этапа: сначала применяется класси-

фикатор, допускающий вероятностный выход, который классифицирует локальные
признаки, дополненные гипотезой о разметке с предыдущей итерации; затем применя-
ется линейное преобразование для агрегирования выходов классификаторов в гипотезы
о метках этой итерации;
∙ переопределено понятие фактора, генерирующего сообщение в вершину: в этой главе

фактор — это упорядоченная пара множеств вершин, называемых передатчиком и
приёмником. Передатчик (группа переменных) влияет на текущее назначение метки
приёмника (одна переменная) — этот процесс назовём передачей сообщения;
∙ в предлагаемой модели используются априорные знания о видах контекстуальных зави-

симостей с помощью типов факторов. Для каждого типа факторов используется своя
функция передачи сообщений, что приводит к упрощению зависимостей, моделируемых
этими отдельными функциями. Типы факторов могут задаваться таким образом, чтобы
моделировать дальнодействующие зависимости (учитывающие контекст в сцене), кото-
рые могут быть анизотропными по своей природе, в отличие от короткодействующих
зависимостей. Далее показано, как задавать типы факторов для учёта пространственно-
го контекста при семантической сегментации трёхмерных облаков точек.
Метод экспериментально проверен на базе трёхмерных облаков точек, полученных Коп-

пулой и др. [86] путём склеивания карт глубины, выдаваемых датчиком Kinect. Результаты
показывают, что предлагаемый метод работает быстрее и качественнее, чем метод, основан-
ный на использовании графических моделей [86].
4.1 Машина вывода

В данном разделе описывается машина вывода — метод структурного обучения, предло-
женный Россом и др. [26]. В отличие от стандартных методов структурного обучения, он не
подбирает параметры графической модели, которая потом используется для вывода, а обуча-
ет непосредственно параметры алгоритма вывода. Метод мотивирован алгоритмом передачи
сообщений на графе с циклами (раздел 1.2.2), который итеративно обновляет сообщения в за-
висимости от их предыдущих значений. Чтобы получить явную рекуррентную формулу для
83
пересчёта сообщения от переменной 𝑣 в фактор 𝑓 на итерации 𝑛, подставим (1.14) в (1.15):
⎡ ⎤
∏︁ ∑︁ ∏︁
𝜇𝑛𝑣→𝑓 (𝑦𝑣 ) = ⎣ Φ𝑓 ′ (y𝑓′ ′ ; x𝑓 ′ , w) 𝜇𝑣𝑛−1 ′ ⎦
′ →𝑓 ′ (𝑦𝑣 ′ ) . (4.1)
𝑓 ′: 𝑣∈𝒞𝑓 ′ ,𝑓 ′ ̸=𝑓 y𝑓′ ′ :𝑦𝑣′ =𝑦 𝑣 ′ ∈𝒞𝑓 ′ ∖{𝑣}
Первое произведение берётся по всем факторам 𝑓 ′ , в множество переменных которых вхо-

дит 𝑣, за исключением фактора-адресата сообщения 𝑓 . Каждый из множителей представляет
собой сумму по всем разметкам переменных фактора 𝑓 ′ , согласованным с меткой 𝑦𝑣 , а эле-
менты суммы являются произведениями потенциала фактора 𝑓 ′ на произведение сообщений,
входящих в 𝑓 ′ , от переменных, принадлежащих этому фактору, за исключением переменной 𝑣.
Зависимость результата передачи сообщений от настраиваемых параметров w выражается
через потенциальные функции Φ𝑓 ′ . Метод машины вывода предлагает отказаться от потенци-
альных функций, вместо этого настраивать зависимость значений сообщений от их предыду-
щих значений в более общем виде:
(︂ ⨁︁ ⨁︁ )︂
𝜇𝑛𝑣→𝑓 = g𝑛 x𝑓 ′ , 𝜇𝑛−1
𝑣 ′ →𝑓 ′ . (4.2)
𝑓 ′ : 𝑣∈𝒞𝑓 ′ , 𝑣 ′ ,𝑓 ′ : 𝑣 ′ ∈𝒞𝑓 ′ ,
𝑓 ′ ̸=𝑓 𝑣∈𝒞𝑓 ′ ,𝑓 ′ ̸=𝑓
⨁︀
Здесь — операция, зависящая от предметной области, например, усреднение или кон-
катенация векторов признаков, а g𝑛 — некоторая функция-предиктор сообщения, подбираемая
на этапе обучения (см. ниже). Обозначим её первый аргумент x̃𝑣,𝑓 , а второй аргумент — 𝜇 ˜ 𝑛−1
𝑣,𝑓 ,
тогда (4.2) можно переписать как 𝜇𝑛𝑣→𝑓 = g𝑛 x̃𝑣,𝑓 , 𝜇˜ 𝑛−1
(︀ )︀
𝑣,𝑓 , а оба этих аргумента вместе будем
называть расширенными признаками предиктора. При этом первая часть вектора расширен-
ных признаков x̃𝑣,𝑓 постоянна, а вторая часть 𝜇˜ 𝑛−1
𝑣,𝑓 — пересчитывается на каждой итерации.
Как и в методе распространения убеждений, маргинальные распределения на последней
итерации 𝑁 оцениваются аналогично сообщениям из вершины, только используются призна-
ки и сообщения во все соседние факторы:
(︂ ⨁︁ ⨁︁ )︂
b𝑁
𝑣 = g𝑁 x𝑓 ′ , 𝜇𝑁 −1
𝑣 ′ →𝑓 ′ . (4.3)
𝑓 ′: 𝑣′ , 𝑓 ′:
𝑣∈𝒞𝑓 ′ 𝑣 ′ ∈𝒞𝑓 ′ , 𝑣∈𝒞𝑓 ′
Как и вывод, обучение происходит итерационно (см. алгоритм 4.1). На итерации 𝑛 функ-
ция 𝑔𝑛 настраивается в виде некоторого вероятностного классификатора с помощью алго-
ритма машинного обучения, например, логистической регрессии или ансамбля рандомизи-
рованных решающих деревьев (строка 13). Для каждой из пар (𝑣, 𝑓 ) : 𝑣 ∈ 𝒞𝑓 обучающей
выборки в вектор расширенных признаков включаются признаки x𝑓 ′ и сообщения 𝜇𝑛−1 𝑣 ′ →𝑓 ′
′
(если 𝑛 ̸= 1), где 𝑓 — все факторы, включающие 𝑣, за исключением 𝑓 (кроме последней
итерации), а 𝑣 ′ — их переменные. В качестве целевых переменных 𝜇𝑛𝑣→𝑓 (b𝑁𝑣 на последней
итерации) берутся ответы обучающей выборки 𝑦𝑣 (точнее, их переопределённые представле-
ния ϒ𝑣 : ϒ𝑣,𝑘 = J𝑦𝑣 = 𝑘K, ∀𝑘 ∈ 𝒦). Поскольку на итерации 𝑛 используется выход классифи-
каторов с итерации 𝑛 − 1, модель может получиться смещённой. Чтобы этого избежать, на
84
Алгоритм 4.1 Обучение машины вывода
1: Вход: размеченная выборка (x, y), множество факторов обучающей выборки ℱ, разделён-
ное на части f , число итераций вывода 𝑁 .
2: Выход: набор функций-предикторов сообщений {𝑔n (·)}𝑛∈{1,...,𝑁 }
1
3: инициализировать 𝜇0𝑣→𝑓 = 𝐾 , ∀𝑣 ∈ 𝒱, ∀𝑓 : 𝑣 ∈ 𝒞𝑓
4: for 𝑛 = 1 to 𝑁 − 1 do
5: for all f ∈ ℱ do
˜ 𝑛−1
(︀ )︀
6: обучить вспомогательный предиктор gtmp (·) так чтобы ϒ𝑣 ≈ gtmp x̃𝑣,𝑓 , 𝜇 𝑣,𝑓
{︁ }︁
на выборке, соответствующей парам (𝑣, 𝑓 ) : 𝑓 ∈ f ′ ∈ℱ ∖{f } f ′ , 𝑣 ∈ 𝒞𝑓
⋃︀
7: for all 𝑓 ∈ f do
8: for all 𝑣 ∈ 𝒞𝑓 do
˜ 𝑛−1
𝜇𝑛𝑣→𝑓 ← gtmp x̃𝑣,𝑓 , 𝜇
(︀ )︀
9: 𝑣,𝑓 # несмещённые оценки ответов на итерации 𝑛
10: end for
11: end for
12: end for
𝑛−1
(︀ )︀
13: обучить окончательный предиктор g𝑛 (·) так чтобы ϒ𝑣 ≈ g𝑛 x̃𝑣,𝑓 , 𝜇 ˜ 𝑣,𝑓
на выборке, соответствующей парам (𝑣, 𝑓 ) : 𝑓 ∈ f ′ ∈ℱ f ′ , 𝑣 ∈ 𝒞𝑓
{︀ ⋃︀ }︀
14: end for (︂ )︂

𝑁 −1
⨁︀ ⨁︀
15: обучить предиктор маргиналов g𝑁 (·), так чтобы ϒ𝑣 ≈ g𝑁 𝑓 ′ : x𝑓 ′ , 𝑣 ′ , 𝑓 ′ : 𝜇𝑣 ′ →𝑓 ′
𝑣∈𝒞𝑓 ′ 𝑣 ′ ∈𝒞𝑓 ′ , 𝑣∈𝒞𝑓 ′
на выборке, соответствующей парам (𝑣, 𝑓 ) : 𝑓 ∈ f ′ ∈ℱ f ′ , 𝑣 ∈ 𝒞𝑓
{︀ ⋃︀ }︀
каждой итерации вычисляются несмещённые оценки сообщений по отложенной части вы-

борки (строки 5–12). Для этого множество всех факторов делится на части f , и несмещённые
оценки значений сообщений для конкретной из частей получаются с помощью вспомогатель-
ного классификатора, обученного по объединению факторов всех остальных частей обучаю-
щей выборки (строка 6).
4.2 Пространственная машина вывода

В этом разделе описана пространственная модификация машины вывода, которая поз-
воляет учитывать априорные знания о структуре задачи. Основным инструментом для этого
является д-фактор, который может относиться к одному из типов факторов.
4.2.1 Описание модели и вывода в ней

Определение 4.1. Д-фактором называется пара 𝑝 = (𝑑𝑓 , 𝒮𝑓 ), состоящая из приёмника —
переменной 𝑑𝑓 ∈ 𝒱 и передатчика — множества переменных 𝒮𝑓 ⊂ 𝒱.
Д-факторы в явном виде определяют, какие переменные и признаки используются

при прогнозировании значения каждой из переменных 𝑑𝑓 , вместо неявного определения
множества-передатчика на основе структуры графической модели, как делается в машине
вывода.
85
𝑛
Определение 4.2. Функция-предиктор сообщения g𝑡(𝑓 ) (·) на 𝑛-й итерации для типа факто-
ров 𝑡(𝑓 ) (см. ниже) имеет следующий вид:
(︀ 𝑛−1 1 ∑︁ 𝑛−1 )︀
𝜇𝑛𝒮𝑓 →𝑑𝑓 = g𝑡(𝑓
𝑛
) b , x 𝑑 , x 𝑓 , x 𝒮 , b . (4.4)
𝑑𝑓 𝑓 𝑓
|𝒮𝑓 | 𝑣∈𝒮 𝑣
𝑓
Она подбирается в семействе ансамблей решающих деревьев с помощью алгоритма random

forest [87], однако может использоваться любой другой классификатор, допускающий веро-
ятностный выход. В качестве аргументов предиктора используются признаки д-фактора x𝑓 и
усреднённые убеждения о метках в множестве-передатчике b𝑣𝑛−1 , 𝑣 ∈ 𝒮𝑓 , а также, в отличие
от классической машины вывода, используются признаки приёмника x𝑑𝑓 и убеждения о его
метке с предыдущей итерации b𝑑𝑛−1𝑓
. Первые позволяют получить качественную классифи-
кацию по локальным признакам уже на первой итерации, а последние позволяют получить
тождественную функцию (по отношению к убеждениям приёмника) на последних итераци-
ях, когда остальные параметры малоинформативны. Кроме того, аргумент может включать
некоторые признаки передатчика x𝒮𝑓 (например, если передатчик характеризуется регионом
пространства, это могут быть признаки облака точек в данном регионе), но, как показывают
эксперименты, они малоинформативны. Конкатенацию всех аргументов функции-предиктора
будем снова называть расширенными признаками.
Переменной 𝑣 могут соответствовать несколько д-факторов, имеющих эту переменную

приёмником, в этом случае вероятностные выходы предикторов необходимо агрегировать.
На 𝑛-й итерации нормированный вектор убеждений относительно метки 𝑦𝑣 определяется как
взвешенное произведение сообщений д-факторов из 𝒮𝑓 в 𝑣:
∏︁ (︁ )︁𝛼𝑛𝑡(𝑓 )
𝑏𝑛𝑣 (𝑦) ∝ 𝜇𝑛𝒮𝑓 →𝑣 (𝑦) , ∀𝑦 ∈ {1, . . . , 𝐾}, (4.5)
𝑓 :𝑑𝑓 =𝑣
𝑛
где 𝛼𝑡(𝑓 ) — параметр, соответствующий вкладу типа факторов 𝑡(𝑓 ) (см. ниже).
Определение 4.3. Типом фактора 𝑡(𝑓 ) ∈ 𝒯 называется признак, заданный для каждого из
𝑛
д-факторов и определяющий конкретную функцию-предиктор сообщений g𝑡(𝑓 ) (·) и коэффи-
𝑛
циент 𝛼𝑡(𝑓 ) , которые используются для предсказания убеждения на итерации 𝑛.
Например, некоторые д-факторы моделируют ближние зависимости, которые, как прави-

ло, служат для сглаживания разметки, а другие моделируют пространственные зависимости
разнообразного характера, анизотропные по своей природе. При использовании типов факто-
ров моделирование зависимостей не возлагается на один предиктор; вместо этого для каждого
типа факторов настраивается своя функция-предиктор, что делает их проще и уменьшает эф-
фект переобучения.
Если предположить, что отдельные сообщения в (4.5) независимы, то по закону произ-
ведения вероятностей убеждения о метках переменной можно получить, просто перемножив
𝑛
соответствующие сообщения, однако используется более гибкая модель. Коэффициенты 𝛼𝑡(𝑓 )
86
(a) Классическая машина вывода [26] (b) Предложенный метод
Рисунок 4.1: Различные способы применить последовательную классификацию. Переменные

показаны кругами, факторы — квадратами. Чтобы вычислить сообщение, которое переменная
(красный круг) пересылает в фактор, классическая машина вывода [26] (a) использует все
сообщения с предыдущей итерации, которые были посланы из всех переменных, имеющих
общий фактор с данной, кроме неё самой. Сообщения из этой вершины в два других фактора,
инцидентных ей, вычисляются аналогично. В пространственной машине вывода (b), все три
инцидентных д-фактора (передатчиками которых являются множества переменных в рамках
соответствующего цвета) «посылают сообщения» в приёмник (красный круг), которые аг-
регируются, чтобы получить убеждение о метке данной переменной. В каждом из случаев,
рамка соответствует обучаемой функции вычисления сообщения. Видно, что в (b) множества
аргументов функций меньше по размеру.
подбираются так, чтобы исключить вклад малоинформативных типов факторов, таким об-
разом накладывают регуляризацию на модель (подробнее о настройке параметров в разде-
ле 4.2.3).
Последний аргумент функции (4.4) — усреднённые убеждения о метках переменных в
передатчике с предыдущей итерации. Такое усреднение ведёт к потере информации о про-
странственном расположении объектов, соответствующих переменным в передатчике. Пред-
полагается, что передатчик состоит из «пространственно близких» переменных (например,
соответствующих пикселям из некоторого прямоугольника на изображении). Эти множества
должны быть достаточно большими, чтобы избежать переобучения (много маленьких пере-
датчиков позволят настроиться на шум, в то время как усреднение в передатчике повышает
робастность), при этом достаточно маленькими, чтобы не потерять важные зависимости.
В отличие от (4.2), функции-предикторы сообщений 𝜇𝑛𝒮𝑓 →𝑣 в предлагаемом методе зави-
сят от сообщений с предыдущей итерации 𝜇𝒮𝑛−1𝑓 ′ →𝑣
′ не напрямую. Вместо этого, аргументом
являются их взвешенные произведения — убеждения о метках b𝑣𝑛−1 ′ . Кроме этого, «охват» ар-
гументов обучаемой функции в предлагаемом методе меньше: они принимают информацию
о переменных (убеждения, признаки), вовлечённых в один фактор, в то время как в мето-
де Росса и др. [26] конкатенируются сообщения из всех переменных, которые имеют общий
фактор с переменной 𝑣, за исключением целевого фактора 𝑓 . Рис. 4.1 иллюстрирует разницу.
Предлагаемый метод комбинирует полученные «локализованные» сообщения в явном виде,
согласно (4.5), таким образом получая параметры предиктора сообщений следующей итера-
ции или финальные оценки маргинальных распределений меток.
87
4.2.2 Пространственные и структурные д-факторы
В данном разделе мы будем предполагать, что модель определяется для задач распо-
знавания в некоторой двумерной или трёхмерной визуальной сцене, состоящей из элемен-
тов — пикселей, вокселей, точек или суперпикселей, соответствующих переменным в задаче
разметки. Элемент 𝑣 характеризуется координатами p𝑣 = (𝑥, 𝑦) в двумерном пространстве
или p𝑣 = (𝑥, 𝑦, 𝑧) в трёхмерном. Мы определим два семейства типов факторов и опишем
область их применимости.
Определение 4.4. Пространственные д-факторы — семейство типов факторов, моделирую-

щих пространственное взаиморасположение элементов сцены. Тип факторов 𝑡 однозначно
задаётся регионом координатного пространства 𝒫𝑡 . Для элемента пространства, соответству-
ющего переменной 𝑣 с координатами p𝑣 , порождается д-фактор (𝑣, 𝒮), где в 𝒮 входят пере-
менные, соответствующие всем элементам из региона 𝒫𝑡 + p𝑣 = {p𝑡 + p𝑣 | p𝑡 ∈ 𝒫𝑡 }.
Пространственный тип факторов может быть параметризован парой отступа и радиу-

са (𝛿p, 𝑟): регион будет задаваться так, что в него попадут все элементы на расстоянии не
более 𝑟 по некоторой метрике (например, порождённой 𝐿1 или 𝐿2 мерой) от точки, получен-
ной смещением элемента на 𝛿p, а именно 𝒫𝑡 = {p | ‖p − 𝛿p‖ ≤ 𝑟}. Такая формулировка
позволяет с помощью пространственных типов факторов моделировать произвольные даль-
нодействующие контекстуальные зависимости между переменными.
Определение 4.5. Структурные д-факторы — тип факторов, моделирующих локальные зави-

симости. Для элемента сцены, соответствующего переменной 𝑣 с координатами p𝑣 , порожда-
ются д-факторы (𝑣, {𝑢}) для каждой из переменных 𝑢, таких что p𝑢 принадлежит некоторой
окрестности p𝑣 (либо 𝑟-окрестности по какой-либо мере, либо входит в 𝑘 ближайших сосе-
дей).
Структурные д-факторы мотивированы типичными парными связями в графических мо-

делях: при их использовании можно сохранить структуру локальных взаимодействий, тем
самым в некотором смысле они позволяют обобщить графическую модель в рамках после-
довательной классификации. В отличие от пространственных типов факторов, структурный
тип факторов не соответствует конкретному геометрическому смещению. Всем структурным
д-факторам соответствуют одинаковые предикторы g𝑡𝑛 и весовые коэффициенты 𝛼𝑡𝑛 .
Пространственный тип факторов может характеризоваться несколькими парами (𝛿p, 𝑟),
если предполагается, что природа зависимостей для этих смещений одинакова, следователь-
но, они могут моделироваться одинаковыми функциями-предикторами. Например, д-факторы,
отвечающие смещениям влево и вправо на рис. 4.2, отнесены к одному типу факторов, так
как зависимости в реальных сценах обычно инвариантны к отражению относительно верти-
кальной оси. Для порождения системы пространственных факторов использована следующая
схема: определяется шаблон, состоящий из нескольких параметризаций д-факторов и соот-
[︀(︀ )︀]︀𝐼
ветствующих им типов: (𝛿p𝑖 , 𝑟𝑖 ), 𝑡𝑖 𝑖=1 , где 𝑡𝑖 ∈ 𝒯 — один из возможных типов факторов.
Далее, этот шаблон применяется ко всем элементам сцены (пикселям, точкам или супер-
88
Рисунок 4.2: Иллюстрация определения структурных и пространственных д-факторов для
фрагмента изображения с рис. 1.2a. Переменные модели соответствуют пикселям изображе-
ния. Чёрные линии обозначают структурные взаимосвязи между переменными. Также пока-
заны четыре пространственных д-фактора трёх типов, приёмником которых является пере-
менная, показанная красным кругом. Пусть координатные оси направлены вправо и вверх.
Регион-передатчик д-фактора типа ‘Вверх’ (𝛿p = (0, +4), 𝑟 = 2) показан зелёным, регион-
передатчик д-фактора типа ‘Вниз’ (𝛿p = (0, −4), 𝑟 = 2) — синим, д-факторов типа ‘Впра-
во/влево’ (𝛿p = (±4, 0), 𝑟 = 2) — оранжевым.
пикселям), чтобы породить конкретные д-факторы. Таким образом, в сцене с 𝑉 элементами

будет 𝑉 · 𝐼 д-факторов (с поправкой на граничные эффекты).
Теоретически, подобные дальнодействующие зависимости можно включить и в структуру
марковской сети, однако при этом возникают технические проблемы: вывод в модели стано-
вится вычислительно трудным, что особенно проблематично при настройке параметров, где
его нужно вызывать итеративно (подробнее об обучении марковских сетей см. раздел 1.3).
Что более важно, в парно-сепарабельной модели учитывается зависимость лишь от одного
элемента, без пространственного усреднения, что делает метод чувствительным к высокоча-
стотному шуму. Если же моделировать это усреднение с помощью графической модели, в ней
возникают факторы высоких порядков, при этом на каждый пространственный д-фактор 𝑓 ,
передатчик которого содержит |𝑆𝑓 | вершин, необходимо создать (|𝑆𝑓 |+1) фактор графической
модели порядка (|𝑆𝑓 | + 1). Учитывая характерные размеры передатчиков факторов (десятки
переменных), можно сделать вывод о невозможности использования такой модели в реальных
задачах.
Описанная схема предполагает, что переменной-приёмнику соответствует одна точка про-
странства. Однако на практике элементами модели часто являются суперпиксели. В таком
случае можно считать каждый суперпиксель «материальной точкой», приближая его положе-
ние центром масс, либо объединять регионы-передатчики для всех точек, соответствующих
приёмнику (на рис. 4.3c показан пример региона-передатчика для суперпикселя в трёхмерном
пространстве). Первый способ вычислительно эффективнее, однако в наших экспериментах
89
он показывал немного меньшую точность. Объединение регионов требует дополнительных
вычислений, однако они могут проводиться на этапе предобработки, так как границы регио-
нов не зависят от конкретных меток, так что в некоторых приложениях этими дополнитель-
ными затратами можно пренебречь.
4.2.3 Обучение модели

Обучение в предложенной модели состоит из восстановления функций (4.4) и, при необ-
ходимости, настройки коэффициентов 𝛼 в (4.5). При этом необходимо избежать систематиче-
ского смещения результатов полученной модели, а также переобучения.
Среди аргументов функций-предикторов сообщений присутствуют убеждения с предыду-
щей итерации, поэтому для их обучения необходимо получить несмещённую оценку убежде-
ний, предсказываемых на этапе вывода. Это означает, что нельзя использовать один и тот же
набор данных для оценки убеждений на предыдущей итерации и для настройки параметров
предиктора. В этом случае прогноз получился бы смещённым, так как точность предиктора на
обучающей выборке в общем случае выше, чем на контрольной. Поскольку получаемые убеж-
дения были бы ближе к верным меткам, обученные по ним предикторы были бы смещёнными
в сторону сохранения поданного им на вход убеждения. Вместо этого на каждой итерации для
получения несмещённой оценки убеждений используется кросс-валидация по 𝑘 частям обу-
чающей выборки. Для каждой из частей, вспомогательные предикторы (4.4) для каждого из
типов факторов обучаются на всех остальных частях выборки, затем применяются к дан-
ной части для оценки убеждений. Для обучения основных предикторов на данной итерации,
используется вся доступная выборка (в том числе полученные оценки убеждений для неё).
Алгоритм 4.2 более строго описывает процесс обучения: строки 5–12 служат для обучения
вспомогательных предикторов данной итерации и получения с их помощью несмещённых
оценок сообщений, а строки 13–15 служат для обучения основных предикторов, являющихся
выходными данными алгоритма. Несмещённые оценки сообщений могут быть использованы
для настройки весов 𝛼𝑛 (строка 16), а также необходимы для оценки убеждений, являющихся
входными данными следующей итерации (строки 17–21).
Использование большого числа типов факторов может привести к переобучению предик-
торов, и, как следствие, к ухудшению качества предсказания модели на генеральной сово-
купности. Для предотвращения этого используются веса 𝛼𝑡𝑛 (4.5), которые регулируют вклад
различных факторов в убеждения в зависимости от их типов. Параметры 𝛼𝑛 настраиваются
на каждой итерации 𝑛 с помощью максимизации регуляризованной суммы убеждений, взятых
на корректных ответах из обучающей выборки 𝑦𝑣 :
𝑛 𝛼𝑡(𝑓 )
(︃ ∏︀ )︃
∑︁ 𝑓 :𝑑𝑓 =𝑣 (𝜇 𝒮 →𝑣 (𝑦𝑣 )) ∑︁
𝛼𝑛 = argmax
𝑓
𝑛 𝛼𝑡(𝑓 ) + 𝐶 𝛼𝑡 . (4.6)
∑︀ ∏︀
𝛼≥0
𝑣∈𝒱 𝑘∈𝒦 𝑓 :𝑑𝑓 =𝑣 (𝜇𝒮𝑓 →𝑣 (𝑘)) 𝑡∈𝒯
Использование 𝐿1 -регуляризации на веса позволяет подавить влияние неинформативных ти-

пов факторов, в результате чего получается разреженный вектор весов. В частности, если в
90
Алгоритм 4.2 Обучение пространственной машины вывода
1: Вход: размеченная выборка (x, y), множество д-факторов обучающей выборки ℱ, разде-
лённое на части f , множество типов факторов 𝒯 , число итераций вывода 𝑁 .
2: Выход: набор пар функций-предикторов сообщений и весов {(𝑔n,𝑡 (·), 𝛼𝑡𝑛 )}𝑡∈𝒯 , 𝑛∈{1,...,𝑁 }
1
3: инициализировать b0𝑣 = 𝐾 , ∀𝑣 ∈ 𝒱
4: for 𝑛 = 1 to 𝑁 do
5: for all f ∈ ℱ do
6: for all 𝑡 ∈ 𝒯 do
7: обучить предиктор g𝑡tmp (·) так, {︁ чтобы ϒ𝑑𝑓 ≈ g⃒𝑡tmp (⟨расширенные
}︁ признаки 𝑓 ⟩)
′ ⃒
⋃︀
на выборке д-факторов 𝑓 ∈ f ′ ∈ℱ ∖{f } f ⃒ 𝑡(𝑓 ) = 𝑡
8: end for
9: for all 𝑓 ∈ f do (︀
𝜇tmp tmp 𝑛−1 1 𝑛−1
∑︀ )︀
10: 𝒮𝑓 →𝑑𝑓 ← g 𝑡(𝑓 ) b 𝑑𝑓 , x 𝑑 𝑓
, x 𝑓 , x 𝒮 ,
𝑓 |𝒮𝑓 | 𝑣∈𝒮𝑓 𝑣b
11: end for
12: end for
13: for all 𝑡 ∈ 𝒯 do
14: обучить предиктор g𝑡𝑛 (·) так, {︁ чтобы ϒ𝑑𝑓 ≈ g⃒ 𝑡𝑛 (⟨расширенные}︁ признаки 𝑓 ⟩)
′ ⃒
⋃︀
на выборке д-факторов 𝑓 ∈ f ′ ∈ℱ f ⃒ 𝑡(𝑓 ) = 𝑡
15: end for
16: задать веса типов факторов 𝛼𝑛 , например 𝛼𝑛 = 1 или максимизируя (4.6)
17: if 𝑛 < 𝑁 then
18: for all 𝑣 ∈ 𝒱 do
19: вычислить убеждения b𝑛𝑣 по сообщениям 𝜇tmp 𝒮𝑓 →𝑣 согласно (4.5)
20: end for
21: end if
22: end for
данных отсутствуют дальнодействующие зависимости, веса соответствующих типов факто-

ров будут нулевыми благодаря такой регуляризации (см. раздел 4.5). 𝐶 — параметр, задающий
силу регуляризации. Максимизация может выполняться, например, с помощью квазиньюто-
новского метода.
4.3 Детали реализации

Этот раздел демонстрирует, как описанная модель может использоваться в задаче сегмен-
тации трёхмерных облаков точек (рис. 4.4a). Для экспериментов использовались данные, по-
лученные сшивкой сканов комнатных сцен, полученных датчиком Kinect Коппулой и др. [86].
Предполагается, что описанная в этой главе реализация будет применяться к данным похожей
природы, с аналогичным процессом предобработки.
4.3.1 Структура модели

Коппула и др. [86] используют пересегментацию облака точек, основанную на выделении
плоских сегментов. Это позволяет добиться того, что суперпиксели будут гомогенными, то
есть будут точки внутри каждого суперпикселя будут относиться к одной категории. Также,
91
Таблица 4.1: Типы факторов, используемые в модели для сегментации трёхмерных облаков
точек. Строки содержат названия типов факторов их обозначения, а также относительные
координаты регионов передатчика.
# название обозн. регион ((𝑥0 , 𝑦0 , 𝑧0 ), (𝑥1 , 𝑦1 , 𝑧1 )), м

0 Структурный S не применимо
1 Локальный Lo ((−0.1, −0.1, −0.1), (0.1, 0.1, 0.1))
2 К-вниз Td ((0.1, −0.3, −∞), (∞, 0.3, −0.1))
3 От-вверх Fu ((−∞, −0.3, 0.1), (−0.1, 0.3, ∞))
4 Вниз D ((−0.3, −0.3, −∞), (0.3, 0.3, −0.1))
5 Лево Lr ((−0.3, −1.0, −0.3), (0.3, −0.1, 0.3))
6 Право Rr ((−0.3, 0.1, −0.3), (0.3, 1.0, 0.3))
7 От F ((−∞, −0.3, −0.3), (−0.1, 0.3, 0.3))
8 К T ((0.1, −0.3, −0.3), (∞, 0.3, 0.3))
9 Вверх U ((−0.3, −0.3, 0.1), (0.3, 0.3, ∞))
учитывая соображения эффективности, было принято решение использовать суперпиксели

в качестве элементарных объектов модели. Предложенная модель также сохраняет структу-
ру взаимодействий, использованную Коппулой и др. [86]: любая пара суперпикселей 𝑣 и 𝑢,
кратчайшее расстояние между точками которых менее 0.6 м, порождает два структурных д-
фактора: (𝑣, {𝑢}) и (𝑢, {𝑣}). Все структурные д-факторы в предлагаемой модели относятся к
одному типу.
Чтобы определить параметризацию пространственных д-факторов, необходимо ввести
набор координатных систем, ассоциированных с каждым из приёмников д-факторов. Сначала
мы опишем, как такая координатная система определяется для отдельной точки, а потом обоб-
щим определение на случай суперпикселей. Поскольку облака точек изображают комнатные
сцены, можно определить такую систему координат так, чтобы не осталось степеней свободы.
Вертикальное направление определено однозначно. Для каждой точки также известна пози-
ция камеры, зафиксировавшей эту точку. Большинство объектов сцены находятся достаточно
близко к стенам, так что появляется ещё одно направление: в сторону камере, горизонтально
перпендикулярно ближайшей стене (рис. 4.3a). Третье направление определяется перпенди-
кулярно первым двум (используется правая тройка координат).
Описанный алгоритм требует знания положения стен в сцене. Мы используем эвристи-
ческий алгоритм поиска стен (робастное вписывание вертикальных плоскостей), который на
практике способен найти почти все стены. Однако это не означает, что найденные точки в
итоге будут отнесены к категории стен; результат детектирования используется только для
определения ортогонального направления для установления систем координат. Если данные
имеют другую природу, и нельзя установить неинвариантную систему координат, необходимо
использовать другую параметризацию типов факторов: например, передатчик должен вклю-
чать в себя не все точки внутри сферы, а все точки внутри тора — геометрическое место всех
шаров при вариации азимута.
Таблица 4.1 содержит информацию о параметризации типов факторов, используемых в
предлагаемой модели. В целях эффективности при определении передатчиков использует-
92
(a) Система координат (b) Регион-передатчик для точки (c) Регион-передатчик для суперпикселя
Рисунок 4.3: Определение пространственных типов факторов в трёхмерном пространстве.

(a) Для каждой точки вводится система координат, ко-ориентированная с ближайшей сте-
ной. (b)–(c) Регионы, которые используются для определения переменных передатчика, когда
переменная-приёмник соответствует (b) индивидуальной точке или (c) суперпикселю для ти-
па факторов ‘Вниз’. Красная сфера обозначает точку, а красный сегмент плоскости обозначает
суперпиксель, соответствующие переменной-приёмнику. Статистики, формирующие векторы
признаков передатчика (x𝒮𝑓 и ⟨b𝑛−1
𝑣 ⟩), определяются по точкам, попавшим в голубой регион.
ся расстояние по манхэттенской метрике, то есть регионы ограничены параллелепипедами,

возможно открытыми (кроме того, задаётся индивидуальное расстояние для каждого из на-
правлений). Параллелепипед в трёхмерном пространстве задаётся шестью числами, которые
можно сгруппировать в координаты противолежащих вершин, где координатная система свя-
зана с точкой, как описано выше. Эти координаты указаны в строках таблицы 4.1 в метрах
вместе с информацией о названиях типов факторов. Например, тип ‘Вниз’ (строка 4 табли-
цы) предполагает, что относящиеся к нему пространственные д-факторы включают в пере-
датчик все точки ниже приёмника с отступом в 10 см в коридоре 60 см × 60 см, другими
словами, координаты 𝑥 и 𝑦 варьируются в диапазоне [−0.3, 0.3], а координата 𝑧 — в диапа-
зоне (−∞, −0.1] (рис. 4.3b).
Поскольку элементарным объектом в модели является суперпиксель, нужно определить
параметризацию пространственных д-факторов, приёмником в которых является переменная,
соответствующая суперпикселю. В этом случае регион-передатчик определяется как объеди-
нение всех регионов, которые были бы передатчиками при порождении д-фактора данного
типа на каждой из точек суперпикселя в качестве приёмника. Например, для суперпикселя,
отвечающего столешнице, д-фактор типа ‘Вниз’ включит в свой передатчик все точки ниже
неё с зазором в 10 см по высоте, расширенную на 30 см по ширине и глубине (рис. 4.3c).
4.3.2 Обучение предикторов сообщений и их признаки

В качестве функций-предикторов сообщений (4.4) для всех итераций и всех типов фак-
торов используются ансамбли из 100 решающих деревьев. Для их обучения используется
алгоритм random forest [87]. Для определения функции разбиения в узле дерева тестируются
𝑑 разбиений по случайно выбранному признаку, из них выбирается лучшее в соответствии
93
Таблица 4.2: Унарные и парные признаки, используемые Коппулой и др. [86]. В описании
спектральных признаков 𝜆𝑣𝑖 означает 𝑖-е по величине собственное значение матрицы ковари-
аций точек суперпикселя 𝑣, 𝑖 ∈ {1, 2, 3}.
Унарные признаки суперпикселя 𝑣 разм-ть

Цветовые признаки, в т. ч.: 48
Гистограмма значений каналов по цветовому пространству HSV 14
Среднее значение каналов HSV 3
Среднее значение ячеек гистограммы ориентированных градиентов посчитанных 31
по изображению суперпикселя
Признаки локальной формы и геометрии, в т. ч.: 8
Линейность (𝜆𝑣1 − 𝜆𝑣2 ), планарность (𝜆𝑖2 − 𝜆𝑖3 ), Разброс 𝜆𝑖1 3
Вертикальная компонента нормали 𝑛𝑣𝑧 1
Вертикальная позиция центра масс 𝑐𝑣𝑧 1
Вертикальный и горизонтальный размах огибающего параллелепипеда 2
Расстояние до границы сцены 1
Парные признаки для (𝑢, {𝑣}) разм-ть
Цветовые признаки, в т. ч.: 3
Разница средних значений по каналам HSV 3
Признаки локальной формы и геометрии, в т. ч.: 2
Копланарность и выпуклость 2
Признаки геометрического контекста, в т. ч.: 6
Горизонтальная проекция расстояния между центрами масс 1
Вертикальная проекция расстояния между центрами масс (𝑐𝑢𝑧 − 𝑐𝑣𝑧 ) 1
Скалярное произведение нормалей n𝑢 · n𝑣 1
Разница в отклонениях нормалей от вертикали (cos−1 𝑛𝑢𝑧 − cos−1 𝑛𝑣𝑧 ) 1
Кратчайшее расстояние между суперпикселями 1
Относительное расположение по отношению к позиции камеры (перед/позади) 1
с коэффициентом Джини. Значение 𝑑 выбирается как квадратный корень из общего числа

признаков.
Для проведения экспериментов используются те же признаки, что и у Коппулы и др. [86].
Унарные признаки описывают локальный вид суперпикселя, например, его планарность, ори-
ентацию и гистограмму градиентов цветов. Парные признаки описывают взаимодействие
между соседними суперпикселями, например, это может быть угол между нормалями или
проекция расстояния между центрами масс на вертикальную ось. Таблица 4.2 содержит спи-
сок используемых признаков суперпикселей и структурных факторов. Функции-предикторы
сообщений (4.4) используют в качестве аргументов локальные признаки и убеждения с преды-
дущей итерации. Для пространственных типов факторов к ним добавляются средние убеж-
дения передатчика (таким образом, зависимость от признаков фактора x𝑓 и признаков пе-
редатчика x𝒮𝑓 фиктивная), всего размерность входа — 56 + 2𝐾, где 𝐾 — число категорий в
задаче. Для структурного типа факторов зависимость от признаков фактора x𝑓 существенная,
в качестве них используются парные признаки, так что размерность входа — 56 + 11 + 2𝐾.
94
Одним из первых использований последовательной классификации был теггер Брил-
ла [12], служащий для разметки частей речи в предложении. После того как части речи
каждого из слов определены с помощью локальной классификации, теггер применяет к этой
первичной разметке последовательность нелокальных корректировок. Например, следующая
корректировка оказывается эффективной для разметки частей речи в английских предложени-
ях: «Если слово ‘to’ отмечено как частица инфинитива, и за ней следует слово, отмеченное
как артикль, изменить метку последнего слова на предлог». Если корректировка не применя-
ется к фразе (предпосылка не верна), разметка остаётся без изменений. Таким образом, метки
часто остаются такими же, как на предыдущих итерациях. Аналогично, предложенный метод
использует убеждения с предыдущей итерации в качестве одного из аргументов функции-
предиктора сообщений, что позволяет возвращать тождественную функцию, не изменяющую
разметку — это бывает полезно на поздних итерациях. На этапе обучения системы последо-
вательность корректировок может быть определена жадным образом: на каждой итерации из
пула выбирается та, которая сильнее всего уменьшает ошибку на обучающей выборке.
Эта идея также использовалась в компьютерном зрении. Алгоритм «автоконтекст» (ан-
гл. auto-context) [25] последовательно применяет настроенные классификаторы для уточнения
разметки. Среди аргументов классификтора используется разметка с предыдущей итерации.
Не все элементы разметки используются в качестве аргументов. Пользователь задаёт систе-
му соседства: набор смещений (окрестность) относительно данного пикселя. Они являются
аналогом предлагаемых пространственных типов факторов. В отличие от описанного выше
метода, «автоконтекст» конкатенирует метки из окрестности, и использует один линейный
классификатор. При его обучении на каждой итерации в качестве целевых переменных ис-
пользуется верная разметка обучающей выборки.
Позже авторы предложили использовать одну и ту же функцию на всех итерациях, таким
образом, сформулировали задачу обучения как поиск сжимающего отображения, сходящегося
к верной разметке обучающей выборки [35]. Они провели теоретический анализ и сформули-
ровали условия, при которых логистическая регрессия является сжимающим отображением,
а также предложили метод обучения произвольной модели, гарантирующий сходимость к
неподвижной точке.
«Semantic texton forest» (STF) [3] — ещё одна модель, позволяющая учитывать контексту-
альные зависимости между метками в явном виде с помощью двух стадий последовательной
классификации. STF используется для категоризации и сегментации изображений. На пер-
вой стадии по локальным признакам пикселей оцениваются так называемые семантические
текстоны и априорные убеждения о метках регионов. На второй стадии пиксели класси-
фицируются с учётом выхода первой стадии, агрегированного по прямоугольным регионам
изображения. Априорные убеждения аналогичны убеждениям, который предлагаемый метод
получает на первой итерации, а прямоугольные регионы изображения аналогичны передат-
чикам пространственных д-факторов. На самом деле, в STF можно предложить использовать
больше двух итераций.
95
Модель «entanglement forest» [88] обобщает и автоконтекст, и STF. Новой является идея
использования контекстуальных зависимостей непосредственно в структуре элементарного
классификатора. Модель состоит из набора решающих деревьев. В узлах этих деревьев вы-
числяются признаки на основе предсказаний, сделанных вершинами на более высоких уров-
нях в соседних локациях. Аналогичная идея используется в модели «geodesic forest» [89].
Дальнодействующие зависимости в ней учитываются с помощью признаков мягкой связно-
сти, которые могут быть эффективно вычислены с помощью обобщённого преобразования
расстояний.
Модели «вещей и материалов» (англ. things and stuff, TAS) [90], также как и предложен-
ный метод, моделирует дальнодействующие зависимости в сцене, изучая их по данным. В
терминах этой статьи, вещи — объекты определённой формы, такие как люди или автомоби-
ли; а материалы — это аморфные регионы, характеризующиеся цветом и текстурой, такие
как дорога или трава. Авторы демонстрируют, как находить объекты, используя контекст
материалов. Они предполагают, что в сценах существуют значимые пространственные зави-
симости, такие как «автомобили паркуются примерно в 10 метрах от зданий», которое может
транслироваться в термины изображений как «обнаружение 𝑖 находится в 100 пикселях от
региона 𝑗». Модель материалов обучается без учителя, так что подобный вид зависимостей
можно рассматривать как частично семантический контекст. На этапе обучения генерирует-
ся избыточное множество возможных типов зависимостей, затем применяется структурный
EM-алгоритм для отбора значимых. В предлагаемом методе подобную функцию выполняет
𝐿1 -регуляризация.
Ещё одна связанная модель была предложена Дезаи и др. [91]. Она также служит для
обнаружения объектов, но моделирует контекстуальные зависимости только между вещами.
Также как и в TAS, генерируется избыточный набор обнаружений объектов. Над ними задаёт-
ся марковская сеть, переменные которой определяют категорию каждого из обнаружений (или
её отсутствие). Унарные потенциалы определяются как отклик детектора. Каждая пара обна-
ружений порождает ребро в марковской сети. Парные потенциалы моделируют, насколько ве-
роятно пара объектов данных категорий будет находиться в определённой пространственной
конфигурации. Эти конфигурации кодируют следующие взаимные расположения объектов:
‘далеко’, ‘близко’, ‘над’, ‘под’, ‘рядом’, ‘поверх’. Например, конфигурация ‘под’ означает, что
центр второго объекта находится строго ниже огибающего прямоугольника первого объекта.
Это идеологически похоже на то, как определяются пространственные д-факторы в предлага-
емом методе (см. раздел 4.3). Параметры парных потенциалов, регулирующие участие каждой
из конфигураций, подбирается автоматически с помощью структурного SVM (раздел 1.3.2).
Муноз и др. [92] предложили метод послойной иерархической разметки (англ. stacked
hierarchical labeling), который затем Хьон и др. [34] применили к сегментации трёхмерных
облаков точек. Последовательная классификация выполняется на последовательных уровнях
иерархической сегментации изображений, от грубого к тонкому. На каждом уровне выводится
распределение меток в каждом из регионов, оно же добавляется к признакам при определении
меток на более низком уровне иерархии. Контекстуальные зависимости могут быть учтены
96
с помощью добавления меток верхнего уровня, собранных в регионе выше и ниже данного
суперпикселя — это более простой аналог используемых здесь пространственных д-факторов.
Также к признакам добавляются усреднённые по всем суперпикселям изображения распреде-
ления меток с верхнего уровня, что позволяет учитывать глобальный контекст. Росс и др. [26]
дали интерпретацию последовательной классификации как вывода в произвольной марков-
ской сети, возможно с факторами высоких порядков. Рис. 4.1 объясняет отличие этого метода
от используемого нами.
Марковские сети со стандартными алгоритмами вывода могут использоваться для учёта
локального контекста, но не дальнодействующих связей — в этом случае вывод стал бы невоз-
можным из-за высокой вычислительной сложности. Например, при сегментации облаков то-
чек каждая точка может соединяться парными связями с 𝑘 ближайшими соседями, однако
𝑘 не может быть большим. Один из таких методов предложен в главе 3, там же дан обзор
релевантной литературы.
4.5 Результаты экспериментов
4.5.1 Данные и постановка эксперимента

Экспериментальная верификация проведена с использованием набора данных, собранно-
го Коппулой и др. [86]. Он представляет собой зарегистрированные карты глубины и RGB-
изображения, полученные датчиком Kinect. Для съёмки использовались комнаты жилых и
офисных помещений, 24 и 28 комнат, соответственно. Для получения облака точек, соответ-
ствующего одной сцене, использовались 8–9 сканов. Облака точек были вручную сегменти-
рованы на 17 категорий с помощью ручной разметки суперпикселйей. Для разметки офисных
сцен использовались следующие категории: ‘стена’, ‘пол’, ‘столешница’, ‘ящик стола’, ‘ножка
стола’, ‘спинка стула’, ‘сиденье стула’, ‘зад стула’, ‘перед принтера’, ‘клавиатура’, ‘верх ком-
пьютера’, ‘перед компьютера’, ‘торец компьютера’, ‘книга’, ‘бумага’. Для разметки жилых
сцен используются: ‘стена’, ‘пол’, ‘верх компьютера’, ‘ящик стола’, ‘ножка стола’, ‘спинка
стула’, ‘сиденье стула’, ‘сиденье дивана’, ‘подлокотник дивана’, ‘спинка дивана’, ‘кровать’,
‘торец кровати’, ‘одеяло’, ‘подушка’, ‘полка’, ‘ноутбук’, ‘книга’.
Выполняется скользящий контроль по 4 частям выборки для жилых и офисных сцен по
отдельности. Каждая из сцен может принадлежать только одной части. В облаках точек оста-
ются только суперпиксели тех 17 категорий, которые использовались для разметки данных
соответствующего типа, фоновые суперпиксели не учитываются. Таким образом, остаётся
690 суперпикселей в офисных сценах и 800 — в жилых. В обоих наборах большинство супер-
пикселей принадлежат к категории ‘стена’. Структурные связи в нашей модели соответствуют
парным факторам, используемым Коппулой и др. [86].
В задачах бинарной классификации традиционными мерами качества являются точ-
ность (англ. precision) и полнота (англ. recall), показывающие, соответственно, долю верно
обнаруженных объектов среди объектов целевого класса, и долю верно обнаруженных среди
объектов, отнесённых к целевому классу. Их можно обобщить на многоклассовый случай дву-
97
Таблица 4.3: Результаты экспериментов на офисных и жилых сценах. Показана оценка сколь-
зящего контроля микро- и макро-точности и макро-полноты после 5 итераций обучения.
STR: модель, в которой используются только структурные факторы. STR+SPAT: исполь-
зуются структурный и пространственные типы факторов с единичными коэффициентами.
STR+SPAT_C: используются структурный и пространственные типы факторов с настраи-
ваемыми коэффициентами, полученными максимизацией регуляризованной целевой функ-
ции (4.6), 𝐶 = 0.03.
Офисные сцены Жилые сцены

Метод микро- макро- микро- макро-
т/п точность полнота т/п точность полнота
шанс 0.262 0.058 0.058 0.293 0.058 0.058
SVM_CRF [86] 0.840 0.805 0.726 0.722 0.568 0.548
STR 0.889 0.872 0.825 0.777 0.690 0.609
STR+SPAT 0.866 0.811 0.794 0.711 0.578 0.527
STR+SPAT_C 0.902 0.882 0.844 0.783 0.716 0.620
мя способами: с помощью микро- и макроусреднения. Обе меры интересны, так как микро-
точность 𝑝 (также известная как аккуратность, англ. accuracy) недооценивает неправильную
разметку недостаточно представленных категорий, а макро-точность 𝑃 и макро-полнота 𝑅
учитывают все категории одинаково, независимо от их размера:
∑︀𝐾 ∑︀𝐾
𝑘=1 TP𝑘 𝑘=1 TP𝑘
𝑝 = ∑︀𝐾 = ∑︀𝐾 = 𝑟, (4.7)
𝑘=1 TP𝑘 + FP𝑘 TP𝑘 + FN𝑘
𝑘=1
𝐾 𝐾
1 ∑︁ TP𝑘 1 ∑︁ TP𝑘
𝑃 = , 𝑅= , (4.8)
𝐾 𝑘=1
TP𝑘 + FP𝑘 𝐾 𝑘=1 TP𝑘 + FN𝑘
где TP𝑘 , FP𝑘 , TN𝑘 , FN𝑘 — число истинно-положительных, ложноположительных, истинно-

отрицательных и ложноотрицательных обнаружений для категории 𝑘, соответственно. Ре-
зультаты собраны в таблице 4.3.
4.5.2 Качество сегментации

Модель, использующая только структурные зависимости (STR) показывает лучший ре-
зультат, чем марковская сеть [86], хотя она использует ту же самую структуру зависимостей
и признаки.
Добавление пространственных д-факторов с единичными весами (STR+SPAT), хотя и име-
ет теоретико-вероятностное обоснование, ухудшает результат по сравнению с моделью без
пространственных д-факторов. Модель с оптимизацией по весам (STR+SPAT_C) теоретиче-
ски должна работать лучше (по крайней мере, на обучающей выборке), так как является
обобщением предыдущих: если все веса равны 1, она вырождается в наивную комбинацию
структурных и пространственных д-факторов. Последние могут быть отключены установкой
соответствующих весов равными нулю. Чтобы предотвратить переобучение, при настройке
98
(a) Исходное облако цветных (b) Результат с использованием (c) Результат с использованием
точек только структурных факторов структурных и пространствен-
ных факторов
Рисунок 4.4: Пример сцены, в которой использование пространственных факторов улучшает

качество сегментации. Модель, использующая только структурные факторы (b) неправильно
классифицирует книгу (слева) и пол (справа), при этом модель, в которой также присутствуют
пространственные факторы (c) корректно сегментирует всю сцену. Цветовое кодирование:
‘стена’, ‘пол’, ‘столешница’, ‘стул’, ‘монитор’, ‘клавиатура’, ‘верх компьютера’, ‘перед
компьютера’, ‘торец компьютера’, ‘книга’.
весов используется регуляризация. На практике при большом коэффициенте регуляризации

веса пространственных факторов стремятся к нулю.
На наборе офисных данных добавление пространственных типов факторов влечёт улуч-
шение качества на 1–1.5 процентных пункта. Худшую разницу в производительности на ска-
нах жилых помещений можно объяснить особенностями данных. В офисных данных обычно
присутствует одна длинная стена, в то время как в жилых данных много углов. Около угла,
направление к стене определяется неустойчиво, так как рядом расходятся две стены, так что
«горизонтальные» типы факторов ненадёжны. Несмотря на то что при этом «вертикальные»
типы факторов всё ещё значимы, они во многом дублируют структурные д-факторы, соеди-
няющие пары суперпикселей, расстояние между которыми не превосходит 0.6 м. Поскольку
высота сцены небольшая, большинство пар суперпикселей, близких по горизонтальной пози-
ции, соединены структурными д-факторами.
При проведении экспериментов использовалось фиксированное значение гиперпарамет-
ра 𝐶 = 0.03. При достаточном объёме данных его настройка может улучшить результат.
Пространственные типы факторов (таблица 4.1) были заданы вручную, следовательно, суб-
оптимально. Поскольку пространственные типы факторов параметризованы непрерывными
переменными, подбор идеальных типов факторов можно осуществить с помощью градиент-
ной оптимизации или направленной случайной выборки. Для этого также желательно иметь
много данных, чтобы избежать переобучения.
Рассмотрим пример сегментации скана, изображённого на рис. 4.4b. Модель с только
структурными типами факторов классифицирует книгу в левой части сцены как верх ком-
пьютера из-за соседства с суперпикселями категорий ‘перед компьютера’ и ‘торец компьюте-
99
0.2 0.6
test error test error 0.25
test error
0.5 training error
training error training error
0.15 0.2
accuracy
accuracy
accuracy
0.4
0.15
0.1 0.3
0.2 0.1
1
1
0.05
0.1 0.05
0 0 0
1 2 3 4 5 6 7 8 1 4 10 30 100 2 3 4 5 6
iteration number of trees in RF mean tree depth
Рисунок 4.5: Слева: эволюция ошибки на тестовой и на обучающей выборках на наборе офис-
ных данных при использовании 100 деревьев в ансамбле. Ошибка на обучении уменьшается,
при этом ошибка на тесте стабилизируется и затем начинает расти после 5–6 итераций из-за
эффекта переобучения. В центре: ошибка после 5 итераций в зависимости от числа деревьев
в ансамбле. Справа: Ошибка после 5 итераций в зависимости от средней глубины решающих
деревьев в ансамбле.
ра’. Пространственные признаки структурных факторов недостаточно экспрессивны, чтобы

запретить обнаружение категории ‘верх компьютера’ везде, кроме как наверху суперпикселей,
отнесённых к ‘переду компьютера’ и ‘торцу компьютера’. Пространственные д-факторы учи-
тывают это в явном виде, и книга корректно классифицируется (рис. 4.4c). Поскольку струк-
турные факторы ограничены по длине, они не моделируют зависимость между столешницей
и полом на рисунке справа. Увеличение минимальной длины структурной связи более 0.6 м
приведёт к запоминанию зависимостей, являющихся выбросами, так как структура зависи-
мостей усложняется с расстоянием, а размер обучающей выборки ограничен [86]. Модель с
пространственными типами факторов корректно распознаёт пол.
4.5.3 Вычислительная сложность и число итераций

Важным преимуществом последовательной классификации перед графическими моделя-
ми является быстрый вывод. Для модели со структурными д-факторами и д-факторами девяти
пространственных типов среднее время вывода равно 0.7 секунды на сцену. При этом вывод
останавливался после 5 итераций, использовался компьютер с 8-ядерным процессором и до-
статочным количеством памяти. В это время не включено выполнение предобработки, при
которой вычисляются индексы всех переменных, составляющих структурные и простран-
ственные д-факторы. Этот процесс может занять несколько минут для одной сцены, если
передатчики пространственных д-факторов вычисляются для суперпикселей (как показано на
рис. 4.3c), а не для их центров масс. Для сравнения, MAP-вывод в марковских сетях для этой
задачи, реализованный с помощью смешанного целочисленного программирования, занима-
ет 18 минут для одной сцены; решение LP-релаксации с помощью квадратичной псевдобу-
левой оптимизации быстрее (10 секунд), но точность ниже на 2–3 п. п. [86]. Таким образом,
предложенный метод либо в тысячу раз быстрее и на 6 п. п. точнее, либо в десять раз быстрее
и на 8 п. п. точнее.
Эксперименты показали, что обычно достаточно 5 итераций последовательной классифи-
кации. После этого точность стабилизируется и затем начинает падать из-за эффекта переобу-
100
1.4 1.4
avg factor type weight avg factor type weight
1.2 1.2
rate of non null weights rate of non null weights
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
S Lo Td Fu D Lr Rr F T U S Lo Td Fu D Lr Rr F T U
(a) Веса для офисных данных (b) Веса для жилых данных
Рисунок 4.6: Веса типов факторов, усреднённые по факторам и итерациям, а также доля
ненулевых д-факторов каждого типа для офисных и жилых данных. Веса структурных (S) д-
факторов не обращаются в ноль, в то время как пространственные типы факторов ‘лево’ (Lr)
и ‘право’ (Rr) практически бесполезны. Это означает, например, что на столах обычно нет
устоявшегося порядка предметов.
чения (рис. 4.5). В течение всего процесса обучения точность с пространственными типами
факторов всегда выше, чем без них.
4.5.4 Анализ пространственных типов факторов

Из-за 𝐿1 -регуляризации в целевой функции (4.6) вектор оптимальных весов 𝛼 получает-
ся разреженным. Если некоторый вес обращается в нуль, это означает, что соответствующий
тип факторов неинформативен, так что веса могут дать понять, какое подмножество типов
факторов достаточно для моделирования пространственных зависимостей (рис. 4.6). Степень
разреженности зависит от номера итерации и коэффициента регуляризации 𝐶. Эксперимен-
ты показали, что на первой итерации только вес, соответствующий структурным д-факторам,
оказался ненулевым — для обоих наборов данных. Можно сделать вывод, что структурные д-
факторы задают сильные зависимости, которые могут потом уточняться с помощью простран-
ственных д-факторов. Таким образом, локальные зависимости оказываются сильнее дально-
действующий.
4.6 Выводы
В этой главе описан новый метод для семантической сегментации трёхмерных облаков
точек, основанный на методе машины вывода [26]. Метод способен в явном виде учитывать
семантический контекст. Он превосходит марковскую сеть, обученную структурным SVM [86]
как по качеству, так и по скорости сегментации. Описанный метод может применяться и
101
для других задач разметки, где существуют дальнодействующие зависимости, например, в
сегментации изображений.
102
Заключение
В данной работе предложены различные методы машинного обучения для задач совмест-
ной разметки. Они имеют определённые преимущества перед другими методами и друг перед
другом:
1. Метод обучения задач разметки по данным с различными типами аннотации, описан-

ный в главе 2, позволяет сократить человеческие усилия, необходимые при подготов-
ке обучающей выборки. В настоящее время становятся доступными большие объёмы
неаннотированных данных, таких как фотографии в сети Интернет, при этом ручная
разметка пикселей по категориям достаточно трудоёмка и не может быть получена для
большого количества фотографий. Для задачи семантической сегментации изображе-
ний проведено исследование других возможностей аннотирования выборки, которые, с
одной стороны, будут простыми для ручной генерации, с другой — достаточно информа-
тивными для обучения сегментатора. Сформулирован общий принцип для определения
целевой функции в задачах структурного обучения разметки по слабоаннотированным
данным.
2. Метод обучения неассоциативных марковских сетей, описанный в главе 3, позволяет на-

строить подробную модель парных потенциалов при наличии достаточного количества
размеченных обучающих данных или при небольшом числе категорий. Также описаны
модификации метода, позволяющие расширить его применимость.
3. Пространственная машина вывода, описанная в главе 4, позволяет учитывать дальнодей-

ствующий семантический контекст. Это особенно полезно в задаче сегментации облаков
точек, где локальная информация обычно невыразительна, и поэтому критично произ-
водить разметку совместно. Кроме этого, модель обеспечивает относительно быстрый
вывод разметки, что может быть полезно в интерактивных приложениях.
Для демонстрации практической применимости разработанных методов были произведе-

ны эксперименты на реальных данных, где все они показали превосходство над базовыми
методами в своих нишах применимости.
103
Список рисунков
1.1 Различные графические представления распределения P(𝑦1 , 𝑦2 , 𝑦3 , 𝑦4 , 𝑦5 , 𝑦6 ) ∝

Φ1 (𝑦1 , 𝑦2 , 𝑦3 , 𝑦4 )Φ2 (𝑦3 , 𝑦4 , 𝑦5 )Φ3 (𝑦5 , 𝑦6 ): (a) фактор-граф, на котором круги соот-
ветствуют переменным, а квадраты — факторам; (b) марковская сеть, соответ-
ствующая распределению. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Пример использования 4-связной парно-сепарабельной марковской сети для
подавления шума на изображении. (a) Зашумлённое изображение, в котором
каждый пиксель соответствует вершине марковской сети, и структура сети для
части изображения. Исходные интенсивности 𝑥𝑣 служат для задания унарных
потенциалов. (b) Пример задания унарных и парных потенциалов. Значение
парного потенциала не зависит от исходных интенсивностей. Оно поощряет
близкие значения интенсивности восстановленного изображения в соседних
пикселях, при этом выше порога 𝑇trunc значение потенциала не наращивается:
штраф для возможных границ на изображении постоянен. . . . . . . . . . . . . 15
1.3 Пример определения унарных (верхний ряд) и парных (нижний ряд) потенци-
алов при логлинейной параметризации при количестве категорий 𝐾 = 3, коли-
честве признаков унарных потенциалов 𝑑v = 5 и количестве признаков парных
потенциалов 𝑑e = 4 для конфигураций 𝑦𝑣 = 2 и 𝑦𝑣 = 2, 𝑦𝑢 = 1. Векторы обоб-
щённых признаков принимают ненулевые значения только в соответствующих
«колонках», куда записываются значения x𝑣 и x𝑣,𝑢 , соответственно. Значение
потенциала вычисляется как скалярное произведение параметров w на соот-
ветствующий вектор обобщённых признаков. . . . . . . . . . . . . . . . . . . . 28
1.4 Пример, поясняющий идею максимизации отступа в структурном обучении
для объекта обучающей выборки (x, y). Горизонтальная ось представляет про-
странство разметок. Красная кривая задаёт функцию потерь Δ(ȳ; y), чёрные
(︀ )︀
стрелки задают величину w| Δ𝜓(ȳ; x) = w| 𝜓(ȳ; x) − 𝜓(y; x) , а зелёная кри-
вая — их сумму (в подписях опущены постоянные параметры функций). Ми-
нимизация отступа стремится минимизировать по w значение этой суммы в
смысле нормы 𝐿∞ . На рисунке показана точка максимума этой кривой ȳmax , не
совпадающая с точкой максимума функции, показанной чёрными стрелками. . 33
2.1 Различные типы аннотаций для изображения из набора данных MSRC . . . . 40
104
2.2 Примеры пересегментации изображения и аннотации рамками. (a) Разбиение
изображения на суперпиксели и структура парно-сепарабельной марковской
сети. (b) Пример плотной и неплотной рамок для 𝑟 = 0.1. Рамка слева яв-
ляется 𝑟-плотной для класса ‘овца’, так как образ объекта «касается» каж-
дой из 4 сторон рамки. Рамка справа не является 𝑟-плотной, так как в реги-
оне [left(¯
𝑧 ), right(¯
𝑧 )] × [top(¯
𝑧 ), top(¯
𝑧 ) + 𝑟(bottom(¯
𝑧 ) − top(¯
𝑧 ))] нет пикселей кате-
гории ‘овца’. (c) Разбиение множества суперпикселей на подмножества. Крас-
ным показано множество 𝒱𝑘 , где 𝑘 соответствует категории ‘овца’, жёлтым
— 𝒱0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3 Пример разметки внутри рамки. Клетки соответствуют пикселям. Серые клет-
ки помечены меткой, равной метке рамки, белые — остальными метками. Раз-
метка не является плотной, так как верхняя строка и четыре левых столбца
— пустые. Таким образом, в функции потерь 5 ненулевых слагаемых, соответ-
ствующих этой рамке. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4 (a) Объект категории ‘самолёт’ аннотирован зерном. (b) Штраф за аннотацию
пикселя категорией, отличной от ‘самолёт’, гауссово убывающий в зависимо-
сти от расстояния от положения пикселя до положения зерна. Чем ярче пиксель
отмечен красным, тем больше соответствующий штраф. . . . . . . . . . . . . . 55
2.5 Точность (сплошные линии) и поклассовая полнота (штриховые линии) при
различных параметрах на наборе данных MSRC. (a) Изменение числа пол-
ностью размеченных изображений. Линии с круглыми маркерами показывают
точность на тестовой выборке, если используются только полностью размечен-
ные изображения, с треугольными — когда остальная часть обучающей выбор-
ки аннотирована метками изображений. (b) Изменение коэффициента слабой
функции потерь 𝛼. Линии с круглыми маркерами показывают точность сегмен-
тации, когда 40 изображений полностью размечены, с треугольными — когда
80 изображений; остальная часть обучающей выборки аннотирована метками
изображений. (c) Изменение коэффициента функции потерь 𝛽 для плотных ра-
мок (круглые маркеры) или зёрен объектов (треугольные маркеры). Все 276
изображений аннотированы метками изображений, а также все объекты анно-
тированы рамками или зёрнами, соответственно. . . . . . . . . . . . . . . . . . 61
2.6 F-мера категоризации документов EUR-lex в зависимости от доли полностью
размеченных документов (круглые маркеры), а также без полностью размечен-
ных документов (треугольные маркеры). . . . . . . . . . . . . . . . . . . . . . . 65
3.1 Типичное в геодезии облако точек, полученное лазерным сканированием. Цве-

том показана разметка, полученная вручную: красным — ‘земля’, чёрным —
‘автомобили’, зелёным — ‘растительность’, белым — ‘столбы’. . . . . . . . . . . 67
3.2 Визуализация структуры Р-дерева с одним корнем и 8 листьями. Охватываю-
щий параллелепипед для корневой вершины показан красным, для листьев —
синим. В общем случае используются также промежуточные уровни иерархии. 76
105
3.3 Результаты на части тестового облака точек из набора Аэро, на котором предло-
женный метод показывает высокую точность. Красный цвет соответствует ка-
тегории земля, чёрный — здание, зелёный — растительность. (a) Верная (руч-
ная) разметка. (b) Ансамбль рандомизированных деревьев, или только унарные
потенциалы. (c)–(d) Наивный Байес, без унарных потенциалов и с ними. (e)–(f)
Функциональный градиентный бустинг. (g)–(h) Метод секущей плоскости . . . 79
4.1 Различные способы применить последовательную классификацию. Перемен-

ные показаны кругами, факторы — квадратами. Чтобы вычислить сообщение,
которое переменная (красный круг) пересылает в фактор, классическая машина
вывода [26] (a) использует все сообщения с предыдущей итерации, которые бы-
ли посланы из всех переменных, имеющих общий фактор с данной, кроме неё
самой. Сообщения из этой вершины в два других фактора, инцидентных ей, вы-
числяются аналогично. В пространственной машине вывода (b), все три инци-
дентных д-фактора (передатчиками которых являются множества переменных
в рамках соответствующего цвета) «посылают сообщения» в приёмник (крас-
ный круг), которые агрегируются, чтобы получить убеждение о метке данной
переменной. В каждом из случаев, рамка соответствует обучаемой функции вы-
числения сообщения. Видно, что в (b) множества аргументов функций меньше
по размеру. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2 Иллюстрация определения структурных и пространственных д-факторов для
фрагмента изображения с рис. 1.2a. Переменные модели соответствуют пиксе-
лям изображения. Чёрные линии обозначают структурные взаимосвязи между
переменными. Также показаны четыре пространственных д-фактора трёх ти-
пов, приёмником которых является переменная, показанная красным кругом.
Пусть координатные оси направлены вправо и вверх. Регион-передатчик д-
фактора типа ‘Вверх’ (𝛿p = (0, +4), 𝑟 = 2) показан зелёным, регион-передатчик
д-фактора типа ‘Вниз’ (𝛿p = (0, −4), 𝑟 = 2) — синим, д-факторов типа ‘Впра-
во/влево’ (𝛿p = (±4, 0), 𝑟 = 2) — оранжевым. . . . . . . . . . . . . . . . . . . . 89
4.3 Определение пространственных типов факторов в трёхмерном пространстве.
(a) Для каждой точки вводится система координат, ко-ориентированная с бли-
жайшей стеной. (b)–(c) Регионы, которые используются для определения пе-
ременных передатчика, когда переменная-приёмник соответствует (b) индиви-
дуальной точке или (c) суперпикселю для типа факторов ‘Вниз’. Красная сфе-
ра обозначает точку, а красный сегмент плоскости обозначает суперпиксель,
соответствующие переменной-приёмнику. Статистики, формирующие векторы
признаков передатчика (x𝒮𝑓 и ⟨b𝑣𝑛−1 ⟩), определяются по точкам, попавшим в
голубой регион. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
106
4.4 Пример сцены, в которой использование пространственных факторов улучшает
качество сегментации. Модель, использующая только структурные факторы (b)
неправильно классифицирует книгу (слева) и пол (справа), при этом модель,
в которой также присутствуют пространственные факторы (c) корректно сег-
ментирует всю сцену. Цветовое кодирование: ‘стена’, ‘пол’, ‘столешница’,
‘стул’, ‘монитор’, ‘клавиатура’, ‘верх компьютера’, ‘перед компьютера’,
‘торец компьютера’, ‘книга’. . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5 Слева: эволюция ошибки на тестовой и на обучающей выборках на наборе
офисных данных при использовании 100 деревьев в ансамбле. Ошибка на обу-
чении уменьшается, при этом ошибка на тесте стабилизируется и затем начи-
нает расти после 5–6 итераций из-за эффекта переобучения. В центре: ошибка
после 5 итераций в зависимости от числа деревьев в ансамбле. Справа: Ошиб-
ка после 5 итераций в зависимости от средней глубины решающих деревьев в
ансамбле. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.6 Веса типов факторов, усреднённые по факторам и итерациям, а также доля
ненулевых д-факторов каждого типа для офисных и жилых данных. Веса струк-
турных (S) д-факторов не обращаются в ноль, в то время как пространственные
типы факторов ‘лево’ (Lr) и ‘право’ (Rr) практически бесполезны. Это означает,
например, что на столах обычно нет устоявшегося порядка предметов. . . . . 101
107
Список таблиц
1 Символы, используемые в тексте диссертации . . . . . . . . . . . . . . . . . . . 10

1 Символы, используемые в тексте диссертации . . . . . . . . . . . . . . . . . . . 11
2.1 Точность и средняя поклассовая полнота на наборе данных SIFT-flow. Первые

две строки описывают обучение на подмножестве из 256 полностью разме-
ченных изображений для моделей с парными потенциалами и без них, соот-
ветственно. Третья строка описывает обучение на наборе, где остальные 2232
изображения обучающей выборки аннотированы метками изображений. По-
следняя строка показывает результат обучения на полностью размеченной вы-
борке из 2488 изображений. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Точность (первое число в каждой ячейке) и поклассовая полнота (второе чис-
ло) на наборе MSRC, при обучении 1) только с полной разметкой, 2) если
метки изображений (il) также доступны для оставшейся части выборки, 3) зёр-
на объектов (os) также доступны для оставшейся части выборки, 4) плотные
рамки (bb) объектов доступны, 5) и зёрна, и плотные рамки доступны. Числа
в последней колонке равны между собой, так как при полностью размеченной
выборке слабая аннотация не добавляет информации. . . . . . . . . . . . . . . 63
3.1 Точность и полнота для каждой из категорий и геометрическое среднее пол-

ноты по категориям на наборе Аэро. Приведены результаты независимой клас-
сификации ансамблем рандомизированных деревьев (UNARY), ассоциативной
модели, обученных функциональным градиентным бустингом (FUNC), а также
неассоциативных моделей, использующей наивный Байесовский классифика-
тор (BAYES) и обученную предложенным методом (SVM). Постфикс «-PW»
добавляется к моделям, не использующим унарные потенциалы. В последних
двух строках приведены результаты упрощённых моделей: линейного струк-
турного SVM (SVM-LIN) и нелинейного структурного SVM с невзвешенной
Хэмминговой функцией потерь (SVM-HAM). . . . . . . . . . . . . . . . . . . . 78
3.2 F-мера для результатов субградиентной оптимизации структурного SVM
(SUB, [32]), функционального градиентного бустинга (FUNC), и предложен-
ного метода (SVM-LIN, SVM) на наборе данных Авто . . . . . . . . . . . . . . 78
4.1 Типы факторов, используемые в модели для сегментации трёхмерных обла-

ков точек. Строки содержат названия типов факторов их обозначения, а также
относительные координаты регионов передатчика. . . . . . . . . . . . . . . . . 92
108
4.2 Унарные и парные признаки, используемые Коппулой и др. [86]. В описании
спектральных признаков 𝜆𝑣𝑖 означает 𝑖-е по величине собственное значение
матрицы ковариаций точек суперпикселя 𝑣, 𝑖 ∈ {1, 2, 3}. . . . . . . . . . . . . . 94
4.3 Результаты экспериментов на офисных и жилых сценах. Показана оценка
скользящего контроля микро- и макро-точности и макро-полноты после 5 ите-
раций обучения. STR: модель, в которой используются только структурные
факторы. STR+SPAT: используются структурный и пространственные типы
факторов с единичными коэффициентами. STR+SPAT_C: используются струк-
турный и пространственные типы факторов с настраиваемыми коэффициен-
тами, полученными максимизацией регуляризованной целевой функции (4.6),
𝐶 = 0.03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
109
Список алгоритмов
1.1 Обучение SSVM методом секущей плоскости . . . . . . . . . . . . . . . . . . . 34

2.1 Модификация алгоритма акцентирования для случая многоклассовой сегмен-
тации с ограничениями, задаваемыми рамочными аннотациями . . . . . . . . . 54
3.1 Обучение двойственной формулировки SSVM методом секущей плоскости . . 71
4.1 Обучение машины вывода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2 Обучение пространственной машины вывода . . . . . . . . . . . . . . . . . . . 91
110
Литература
1. Szeliski Richard. Computer vision: algorithms and applications. New York, NY: Springer-
Verlag, 2010. URL: http://szeliski.org/Book.
2. Textonboost: Joint appearance, shape and context modeling for multi-class object recognition
and segmentation / Jamie Shotton, John Winn, Carsten Rother [и др.] // European Conference on
Computer Vision. 2006. С. 1–14. URL: http://jamie.shotton.org/work/publications/eccv06.pdf.
3. Shotton Jamie, Johnson Matthew, Cipolla Roberto. Semantic texton forests for image
categorization and segmentation // IEEE Conference on Computer Vision and Pattern
Recognition. 2008. June. URL: http://research.microsoft.com/pubs/117887/cvpr08.pdf.
4. Kohli Pushmeet, Torr Philip H.S. Measuring uncertainty in graph cut solutions //
Computer Vision and Image Understanding. 2008. URL: http://eprints.pascal-
network.org/archive/00006552/01/kt_cviu08_final.pdf.
5. Discriminative Learning of Markov Random Fields for Segmentation of 3D Scan Data /

Dragomir Anguelov, Ben Taskar, Vassil Chatalbashev [и др.] // IEEE Conference on
Computer Vision and Pattern Recognition. San Diego, CA: 2005. С. 169–176. URL:
http://ai.stanford.edu/ vasco/pubs/cvpr05.pdf.
6. Contextual classification with functional Max-Margin Markov Networks / Daniel Munoz,

J. Andrew Bagnell, Nicolas Vandapel [и др.] // IEEE Conference on Computer
Vision and Pattern Recognition. Miami, FL: 2009. June. С. 975–982. URL:
http://repository.cmu.edu/cgi/viewcontent.cgi?article=1039&context=robotics.
7. Hoiem Derek, Efros Alexei, Hebert Martial. Putting Objects in Perspective // IEEE
Conference on Computer Vision and Pattern Recognition. 2006. С. 2137–2144. URL:
8. Scharstein D, Szeliski R. A taxonomy and evaluation of dense two-frame stereo correspondence

algorithms // International Journal of Computer Vision. 2002. Т. 47, № 1. С. 7–42. URL:
http://vision.middlebury.edu/stereo/taxonomy-IJCV.pdf.
9. Geman Stuart, Geman Donald. Stochastic relaxation, Gibbs distributions, and the Bayesian
restoration of images // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1984.
№ 6. С. 721–741. URL: http://www.csee.wvu.edu/ xinl/library/papers/infor/Geman_Geman.pdf.
111
10. Roth Stefan, Black Michael J. Fields of Experts // International Journal of Computer Vision.
2009. January. Т. 82, № 2. С. 205–229. URL: http://cs.brown.edu/ black/Papers/rothIJCV09.pdf.
11. Discriminative Non-blind Deblurring / Uwe Schmidt, Carsten Rother, Sebastian Nowozin
[и др.] // IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: 2013.
URL: http://jancsary.net/wp-uploads/2013/04/schmidt_et_al_cvpr2013.pdf.
12. Brill Eric. A simple rule-based part of speech tagger // Conference on Applied Computational
Linguistics. Trento, IT: 1992. С. 112–116. URL: http://ucrel.lancs.ac.uk/acl/H/H92/H92-
1022.pdf.
13. Lafferty John, McCallum Andrew, Pereira Fernando C.N. Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data // International
Conference on Machine Learning. Т. 2001. 2001. С. 282–289. URL:
http://repository.upenn.edu/cis_papers/159.
14. Kassel Robert H. A comparison of approaches to on-line handwritten character

recognition. Ph.D. thesis: Massachusetts Institute of Technology. 1995. URL:
http://dspace.mit.edu/handle/1721.1/11407.
15. Rabiner Lawrence R. A tutorial on hidden Markov models and selected applications
in speech recognition // Proceedings of the IEEE. 1989. Т. 77, № 2. С. 257–286. URL:
http://books.google.com/books?hl=en&lr=&id=iDHgboYRzmgC&oi=fnd&pg=PA
16. Global discriminative learning for higher-accuracy computational gene

prediction. / Axel Bernal, Koby Crammer, Artemis Hatzigeorgiou [и др.] //
PLoS Computational Biology. 2007. March. Т. 3, № 3. с. e54. URL:
http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1828702&tool=pmcentrez&rendertype=ab
17. Yanover Chen, Schueler-Furman Ora, Weiss Yair. Minimizing and learning energy functions
for side-chain prediction // Journal of Computational Biology. 2008. September. Т. 15, № 7.
С. 899–911. URL: http://w3.cs.huji.ac.il/ yweiss/recomb07-final.pdf.
18. Bishop Christopher M. Pattern Recognition and Machine Learning / под ред. M Jordan,
J Kleinberg, B Schölkopf. Springer, 2006. Т. 4 из Information science and statistics. с. 738.
URL: http://www.library.wisc.edu/selectedtocs/bg0137.pdf.
19. Taskar Ben, Guestrin Carlos, Koller Daphne. Max-margin Markov networks // NIPS. 2003.
URL: http://books.nips.cc/papers/files/nips16/NIPS2003_AA04.pdf.
20. Joachims Thorsten, Finley Thomas, Yu C.N.J. Cutting-plane training of structural

SVMs // Machine Learning. 2009. Т. 77, № 1. С. 27–59. URL:
http://tfinley.net/research/joachims_etal_09a.pdf.
112
21. Tarlow Daniel, Zemel Richard S. Structured Output Learning with High Order Loss
Functions // International Conference on Artificial Intelligence and Statistics. 2012. URL:
http://www.cs.toronto.edu/ dtarlow/tarlow_zemel_aistats12.pdf.
22. Pletscher Patrick, Kohli Pushmeet. Learning low-order models for enforcing high-order
statistics // International Conference on Artificial Intelligence and Statistics. 2012. URL:
http://research.microsoft.com/en-us/um/people/pkohli/papers/pk_aistats2012.pdf.
23. Max-Margin Parsing / Ben Taskar, Dan Klein, Michael Collins [и др.] // Conference
on Empirical Methods on Natural Language Processing. Barcelona, Spain: 2004. URL:
http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Taskar.pdf.
24. Weiss David, Sapp Benjamin, Taskar Ben. Structured Prediction Cascades: Tech. Rep.: : 2012.
25. Tu Zhuowen. Auto-context and its application to high-level vision tasks // IEEE Conference
on Computer Vision and Pattern Recognition. Anchorage, AL: 2008. June. URL:
http://www.loni.ucla.edu/ ztu/publication/cvpr08_autocontext.pdf.
26. Learning Message-Passing Inference Machines for Structured Prediction / Stephane Ross,
Daniel Munoz, Martial Hebert [и др.] // IEEE Conference on Computer Vision
and Pattern Recognition. Colorado Springs, CO: 2011. С. 2737–2744. URL:
http://www.cs.cmu.edu/ sross1/publications/Ross-CVPR11.pdf.
27. Обучение алгоритма семантической сегментации изображений на выборке с разнообраз-

ными типами аннотаций / Роман Шаповалов, Дмитрий Ветров, Антон Осокин [и др.] //
Интеллектуальные системы. 2014. Т. 18, № 3. С. 81–107.
28. Shapovalov Roman, Velizhev Alexander, Barinova Olga. Non-associative Markov networks for
3D point cloud classification // Photogrammetric Computer Vision and Image Analysis. Paris,
France: 2010. URL: http://shapovalov.ro/papers/Shapovalov-et-al-PCV2010.pdf.
29. Семантическая сегментация данных лазерного сканирования / Роман Шаповалов, Алек-

сандр Велижев, Ольга Баринова [и др.] // Программные продукты и системы. 2012. № 1.
С. 47–52.
30. Shapovalov Roman, Velizhev Alexander. Cutting-Plane Training of Non-associative Markov

Network for 3D Point Cloud Segmentation // IEEE International Conference on 3D Imaging,
Modeling, Processing, Visualisation and Transmittion. Hangzhou, China: 2011. С. 1–8. URL:
http://shapovalov.ro/papers/Shapovalov-Velizhev-3dimpvt2011.pdf.
31. Shapovalov Roman, Vetrov Dmitry, Kohli Pushmeet. Spatial Inference Machines // IEEE
Conference on Computer Vision and Pattern Recognition. Portland, OR: 2013. URL:
http://shapovalov.ro/papers/SIM-Shapovalov-et-al-CVPR2013.pdf.
32. Munoz Daniel, Vandapel Nicolas, Hebert Martial. Directional associative markov
network for 3-d point cloud classification // International Symposium on 3D
113
Data Processing, Visualization and Transmission. Atlanta, GA: 2008. URL:
http://www.cc.gatech.edu/conferences/3DPVT08/Program/Papers/paper200.pdf.
33. Franc V., Savchynskyy B. Discriminative learning of max-sum classifiers //

Journal of Machine Learning Research. 2008. Т. 9. С. 67–104. URL:
http://jmlr.csail.mit.edu/papers/volume9/franc08a/franc08a.pdf.
34. 3-D Scene Analysis via Sequenced Predictions over Points and Regions /
Xuehan Xiong, Daniel Munoz, J. Andrew Bagnell [и др.] // IEEE International
Conference on Robotics and Automation. Shanghai, China: 2011. URL:
http://www.cs.princeton.edu/courses/archive/spring11/cos598A/pdfs/Xiong11.pdf.
35. Fixed-Point Model For Structured Labeling / Quannan Li, Jingdong Wang, David Wipf
[и др.] // International Conference on Machine Learning. Atlanta, GA: 2013. URL:
http://research.microsoft.com/pubs/179821/icml_2013_final_dpw.pdf.
36. Murphy Kevin P. Machine learning: a probabilistic perspective. Cambridge, MA; London, UK:
The MIT Press, 2012. с. 1067. URL: http://dl.acm.org/citation.cfm?id=2380985.
37. Kohli Pushmeet, Kumar M.P., Torr P.H.S. P3 and Beyond: Solving
Energies with Higher Order Cliques // IEEE Conference on Computer
Vision and Pattern Recognition. Minneapolis, MN: 2007. URL:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.2624&rep=rep1&type=pdf.
38. Koller Daphne, Friedman Nil. Probabilistic graphical models: principles and
techniques. Cambridge, Massachusets: MIT Press, 2009. с. 1231. URL:
http://books.google.com/books?hl=en&lr=&id=7dzpHCHzNQ4C&oi=fnd&pg=PR
39. Dagum Paul, Luby Michael. Approximating probabilistic inference in Bayesian belief
networks is NP-hard // Artificial Intelligence. 1993. Т. 60. С. 141–153. URL:
http://commonsenseatheism.com/wp-content/uploads/2011/12/Dagum-Luby-Approximating-
probabilistic-inference-in-Bayesian-belief-networks-is-NP-hard.pdf.
40. A Comparative Study of Modern Inference Techniques for Discrete Energy Minimization
Problems / Jörg H. Kappes, Bjoern Andres, Fred A. Hamprecht [и др.] // IEEE Conference
on Computer Vision and Pattern Recognition. Portland, OR: 2013. URL: http://ipa.iwr.uni-
heidelberg.de/ipabib/Papers/Kappes-etal-cvpr-2013-benchmark.pdf.
41. Komodakis Nikos, Paragios Nikos, Tziritas Georgios. MRF Optimization

via Dual Decomposition: Message-Passing Revisited // IEEE
International Conference on Computer Vision. № 2. 2007. URL:
http://www.cs.ualberta.ca/ jag/papersVis2/07ICCV/data/papers/ICCV/053.pdf.
42. Komodakis Nikos, Paragios Nikos. Beyond pairwise energies: Efficient

optimization for higher-order MRFs // IEEE Conference on Computer Vision
114
and Pattern Recognition. Miami, FL: 2009. June. С. 2985–2992. URL:
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=5206846.
43. Kolmogorov Vladimir. Convergent tree-reweighted message passing for energy minimization //
IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006. Т. 28, № 10. С. 1568–
1583. URL: http://www.cs.ucl.ac.uk/staff/V.Kolmogorov/papers/TRW-S-PAMI.pdf.
44. Globerson Amir, Jaakkola TS. Fixing max-product: Convergent message passing
algorithms for MAP LP-relaxations // NIPS. Vancouver, Canada: 2007. URL:
http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_940.pdf.
45. Vetrov Dmitry, Osokin Anton, Kolmogorov Vladimir. Submodular Decomposition Framework
for Inference in Associative Markov Networks with Global Constraints // IEEE Conference
on Computer Vision and Pattern Recognition. Colorado Springs, CO: 2011. URL:
http://www.cs.ucl.ac.uk/staff/V.Kolmogorov/papers/OVK_CVPR11_SMD.pdf.
46. Kolmogorov Vladimir, Zabih Ramin. What energy functions can be minimized via graph cuts? //
IEEE Transactions on Pattern Analysis and Machine Intelligence. 2004. February. Т. 26, № 2.
С. 147–159. URL: http://www.ncbi.nlm.nih.gov/pubmed/15376891.
47. Boykov Yuri, Veksler Olga, Zabih Ramin. Fast approximate energy minimization via graph
cuts // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2001. Т. 23, № 11.
С. 1222–1239. URL: http://www.csd.uwo.ca/ yuri/Papers/pami01.pdf.
48. Kohli Pushmeet, Kumar M. Pawan. Energy minimization for linear envelope MRFs // IEEE
Conference on Computer Vision and Pattern Recognition. San-Francisco, CA: 2010. С. 1863–
1870. URL: http://research.microsoft.com/en-us/um/people/pkohli/papers/kk_cvpr2010.pdf.
49. Gould Stephen. Max-margin Learning for Lower Linear Envelope Potentials in Binary
Markov Random Fields // International Conference on Machine Learning. Bellevue,
WA: 2011. URL: http://users.cecs.anu.edu.au/ sgould/papers/icml11-linEnvLearning.pdf
http://users.cecs.anu.edu.au/ sgould/papers/talk-ICML-2011.pdf.
50. Kohli Pushmeet, Ladicky Lubor, Torr Philip H.S. Robust higher order potentials for enforcing
label consistency // International Journal of Computer Vision. 2009. Т. 82, № 3. С. 302–324.
URL: http://research.microsoft.com/en-us/um/people/pkohli/papers/klt_IJCV09.pdf.
51. Associative hierarchical CRFs for object class image segmentation / L’ubor Ladický,
Chris Russell, Pushmeet Kohli [и др.] // IEEE International Conference on Computer Vision.
Kyoto, Japan: 2009. URL: http://www.robots.ox.ac.uk/ lubor/iccv09.pdf.
52. Fast Approximate Energy Minimization with Label Costs / Andrew Delong, Anton Osokin,
Hossam N. Isack [и др.] // International Journal of Computer Vision. 2012. July. Т. 96, № 1.
С. 1–27. URL: http://www.csd.uwo.ca/ adelong3/pub/ijcv2011-labelcosts-preprint.pdf.
115
53. Anstreicher Kurt M., Wolsey Laurence A. Two “well-known” properties of subgradient
optimization // Mathematical Programming. 2007. June. Т. 120, № 1. С. 213–220. URL:
http://link.springer.com/10.1007/s10107-007-0148-y.
54. Block-Coordinate Frank-Wolfe Optimization for Structural SVMs /

Simon Lacoste-Julien, Martin Jaggi, Mark Schmidt [и др.] // International
Conference on Machine Learning. 2013. URL: http://arxiv.org/abs/1207.4747
http://www.pletscher.org/papers/lacostejulien2013fwstruct.pdf.
55. Shalev-Shwartz Shai, Singer Yoram, Srebro Nathan. Pegasos: Primal estimated sub-gradient
solver for svm // International Conference on Machine Learning. Corvallis, OR: 2007.
С. 807–814. URL: http://machinelearning202.pbworks.com/f/stochasticSubGradient-shalev-
shwartz.pdf.
56. Efficient backprop / Yann LeCun, Leon Bottou, Genevieve B. Orr [и др.] // Neural Networks:
Tricks of the Trade. 1998. URL: http://link.springer.com/chapter/10.1007/3-540-49430-8_2.
57. Payet Nadia, Todorovic Sinisa. (RF)ˆ2 — Random Forest Random

Field // NIPS. Т. 1. Vancouver, Canada: 2010. URL:
http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2010_0234.pdf.
58. Boosting Structured Prediction for Imitation Learning for Imitation Learning / Nathan Ratliff,
David Bradley, J. Andrew Bagnell [и др.] // NIPS. Vancouver, Canada: 2007. URL:
59. Decision Tree Fields / Sebastian Nowozin, Carsten Rother, Shai Bagon [и др.] //
IEEE International Conference on Computer Vision. Barcelona, ES: 2011. URL:
http://www.wisdom.weizmann.ac.il/ bagon/pub/DTF_iccv2011.pdf.
60. Vezhnevets Alexander, Ferrari Vittorio, Buhmann Joachim M. Weakly

Supervised Semantic Segmentation with a Multi-Image Model // IEEE
International Conference on Computer Vision. Barcelona, ES: 2011. URL:
http://www.inf.ethz.ch/personal/vezhneva/Pubs/WeaklySupSemSeg.pdf.
61. Vezhnevets Alexander, Ferrari Vittorio, Buhmann Joachim M. Weakly Supervised

Structured Output Learning for Semantic Segmentation // IEEE Conference
on Computer Vision and Pattern Recognition. Providence, RI: 2012. URL:
http://www.inf.ethz.ch/personal/vezhneva/Pubs/VezhnevetsCVPR2012b.pdf.
62. Structured output learning with indirect supervision / Ming-Wei Chang,

Vivek Srikumar, Dan Goldwasser [и др.] // International Conference on Machine
Learning. 2010. URL: http://flake.cs.uiuc.edu/ mchang21/publication/CSGR10-slide.pdf
http://www.icml2010.org/papers/522.pdf.
116
63. Learning specific-class segmentation from diverse data / M. Pawan Kumar, Haithem Turki,
Dan Preston [и др.] // IEEE International Conference on Computer Vision. 2011. November.
С. 1800–1807. URL: http://ai.stanford.edu/ pawan/publications/KTPK-ICCV2011.pdf.
64. Lou Xinghua, Hamprecht Fred A. Structured Learning from Partial Annotations // International
Conference on Machine Learning. 2012. URL: http://icml.cc/2012/papers/753.pdf.
65. Yu Chun-Nam John, Joachims Thorsten. Learning structural SVMs with latent variables //
International Conference on Machine Learning. Montreal, Canada: 2009. URL:
http://www.cs.cornell.edu/ cnyu/papers/icml09_latentssvm.pdf.
66. Yuille A.L., Rangarajan Anand. The concave-convex procedure (CCCP) // NIPS. 2002. URL:
http://books.nips.cc/papers/files/nips14/AA66.pdf.
67. Image segmentation with a bounding box prior / Victor Lempitsky,

Pushmeet Kohli, Carsten Rother [и др.] // International Conference on Computer
Vision. 2009. September. С. 277–284. URL: http://research.microsoft.com/en-
us/um/people/pkohli/papers/lkrs_iccv09.pdf.
68. Taskar Ben, Chatalbashev Vassil, Koller Daphne. Learning associative Markov networks //
International Conference on Machine Learning. Banff, Alberta, Canada: 2004. С. 102–109.
URL: http://www.seas.upenn.edu/ taskar/pubs/mmamn.pdf.
69. Rapid and accurate large-scale coestimation of sequence alignments and phylogenetic trees. /
Kevin Liu, Sindhu Raghavan, Serita Nelesen [и др.] // Science (New York, N.Y.). 2009. June.
Т. 324, № 5934. С. 1561–4. URL: http://www.ncbi.nlm.nih.gov/pubmed/19541996.
70. Tighe Joseph, Lazebnik Svetlana. SuperParsing: Scalable Nonparametric Image Parsing with
Superpixels // European Conference on Computer Vision. Heraklion, Grece: 2010. URL:
http://www.cs.unc.edu/ jtighe/Papers/ECCV10/eccv10-jtighe.pdf.
71. Contour detection and hierarchical image segmentation / Pablo Arbeláez,

Michael Maire, Charless Fowlkes [и др.] // IEEE Transactions on Pattern Analysis
and Machine Intelligence. 2011. May. Т. 33, № 5. С. 898–916. URL:
http://www.cs.berkeley.edu/ malik/papers/arbelaezMFM-pami2010.pdf.
72. Lowe David G. Distinctive Image Features from Scale-Invariant Keypoints //

International Journal of Computer Vision. 2004. November. Т. 60, № 2.
С. 91–110. URL: http://zenithlib.googlecode.com/svn/trunk/papers/cv/ijcv/2004-
Distinctive_Image_Features_from_Scale-Invariant_Keypoints.pdf.
73. Vedaldi Andrea, Zisserman Andrew. Efficient Additive Kernels via Explicit Feature Maps //
IEEE Conference on Computer Vision and Pattern Recognition. San-Francisco, CA: 2010.
July. URL: http://www.robots.ox.ac.uk/ vgg/publications/papers/vedaldi10.pdf.
117
74. Felzenszwalb Pedro F., Huttenlocher Daniel P. Efficient Graph-Based Image Segmentation //
International Journal of Computer Vision. 2004. September. Т. 59, № 2. С. 167–181. URL:
http://cvcl.mit.edu/SUNSeminar/Felzenszwalb_IJCV04.pdf.
75. Mencia Eneldo Loza, Fuerkranz Johannes. Efficient Multilabel Classification Algorithms
for Large-Scale Problems in the Legal Domain // Semantic Processing of Legal
Texts. Berlin, Heidelberg, 2010. Т. 6036. С. 192–215. URL: http://www.ke.tu-
darmstadt.de/publications/papers/loza10eurlex.pdf.
76. Finley Thomas, Joachims Thorsten. Training Structural SVMs when Exact Inference is
Intractable // International Conference on Machine Learning. New York, NY: 2008. С. 304–311.
URL: http://www.joachims.org/publications/finley_joachims_08a.pdf.
77. Instance-based AMN Classification for Improved Object Recognition in 2D and 3D Laser
Range Data / R. Triebel, R. Shmidt, O.M. Mozos [и др.] // International Joint Conference on
Artificial Intelligence. Hyderabad, India: 2007. С. 2225–2230. URL: http://www.informatik.uni-
freiburg.de/ omartine/publications/triebel2007ijcai.pdf.
78. Posner Ingmar, Cummins Mark, Newman Paul. A generative framework

for fast urban labeling using spatial and temporal context // Autonomous
Robots. 2009. March. Т. 26, № 2-3. С. 153–170. URL:
http://www.robots.ox.ac.uk:5000/ mjc/Papers/AutonomousRobots_HIP_MJC_PNM_2009.pdf.
79. Golovinskiy Aleksey, Kim Vladimir G., Funkhouser Thomas. Shape-

based Recognition of 3D Point Clouds in Urban Environments // IEEE
International Conference on Computer Vision. Kyoto, Japan: 2009. URL:
http://www.cs.princeton.edu/gfx/pubs/Golovinskiy_2009_SRO/paper.pdf.
80. Scene Understanding in a Large Dynamic Environment through a Laser-

based Sensing / Huijing Zhao, Yiming Liu, Xiaolong Zhu [и др.] // IEEE
International Conference on Robotics and Automation. 2010. С. 127–133. URL:
http://www.poss.pku.edu.cn/Data/publications/icra10.pdf.
81. Knopp Jan, Prasad Mukta, Van Gool Luc. Scene cut: Class-specific object detection and
segmentation in 3D scenes // IEEE International Conference on 3D Digital Imaging, Modeling,
Processing, Visualisation and Transmittion. 2011. С. 180–187.
82. Velizhev Alexander, Shapovalov Roman, Schindler Konrad. Implicit shape models for object
detection in 3D point clouds // ISPRS Congress. Melbourne, Australia: 2012. URL:
http://shapovalov.ro/papers/ISM-Velizhev-et-al-ISPRS2012.pdf.
83. Guttman Antonin. R-trees: A dynamic index structure for spatial searching // ACM SIGMOD
International Conference on Management of Data. ACM New York, NY, USA, 1984. С. 47–57.
URL: http://www.postgis.org/support/rtree.pdf.
118
84. Sun Yanmin, Kamel Mohamed S., Wang Yang. Boosting for learning multiple classes with
imbalanced class distribution // IEEE International Conference on Data Mining. 2006. С. 592–
602. URL: http://people.ee.duke.edu/ lcarin/ImbalancedClassDistribution.pdf.
85. Krähenbühl Philipp, Koltun Vladlen. Efficient inference in fully connected crfs with gaussian
edge potentials // NIPS. Granada, ES: 2011. С. 1–9. URL: http://arxiv.org/abs/1210.5644.
86. Semantic Labeling of 3D Point Clouds for Indoor Scenes / Hema Swetha Koppula,
Abhishek Anand, Thorsten Joachims [и др.] // NIPS. Granada, ES: 2011. URL:
http://pr.cs.cornell.edu/sceneunderstanding/nips_2011.pdf.
87. Breiman Leo. Random forests // Machine Learning. 2001. Т. 45, № 1. С. 5–32. URL:
http://www.springerlink.com/index/U0P06167N6173512.pdf.
88. Entangled decision forests and their application for semantic segmentation of
CT images / Albert Montillo, Jamie Shotton, John Winn [и др.] // International
Conference on Information Processing in Medical Imaging. 2011. URL:
http://research.microsoft.com/pubs/146430/Criminisi_IPMI_2011c.pdf.
89. GeoF: Geodesic Forests for Learning Coupled Predictors / Peter Kontschieder, Pushmeet Kohli,
Jamie Shotton [и др.] // IEEE Conference on Computer Vision and Pattern Recognition.
Portland, OR: 2013. URL: http://research.microsoft.com/pubs/184825/geoForests_final.pdf.
90. Heitz Geremy, Koller Daphne. Learning spatial context: Using stuff to find things // European
Conference on Computer Vision. Marseille, France: Springer, 2008. С. 30–43. URL:
http://robotics.stanford.edu/ koller/Papers/Heitz%2BKoller:ECCV08.pdf.
91. Desai Chaitanya, Ramanan Deva, Fowlkes Charless. Discriminative models

for multi-class object layout // IEEE International Conference on Computer
Vision. Tokyo, Japan: Ieee, 2009. September. С. 229–236. URL:
http://www.cse.wustl.edu/ mgeorg/readPapers/byVenue/iccv2009/desai2009_iccv_discriminativeMode
92. Munoz Daniel, Bagnell J. Andrew, Hebert Martial. Stacked hierarchical labeling //
European Conference on Computer Vision. Heraklion, Grece: 2010. URL:
http://www.ri.cmu.edu/pub_files/2010/9/munoz_eccv_10.pdf.
119

Shapovalov Thesis

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Shapovalov Thesis

Uploaded by

Copyright:

Available Formats

Московский государственный университет имени М. В.

Шаповалов Роман Викторович

Методы структурного обучения в задачах совместной разметки

Диссертация на соискание учёной степени

1 Ненаправленные графические модели и структурное обучение . . . . . . . . . . 12

2 Использование различных типов аннотации обучающей выборки . . . . . . . . 39

3 Структурное обучение неассоциативных марковских сетей . . . . . . . . . . . . . 66

4 Использование пространственного контекста при последовательной классифи-

Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Список таблиц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Список алгоритмов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Задачей машинного обучения с учителем является восстановление функциональной зави-

Компьютерное зрение. Одной из центральных задач компьютерного зрения является се-

Вычислительная лингвистика. В задаче определения частей речи необходимо учитывать

Приведённые выше задачи с математической точки зрения являются задачами совместной

симального правдоподобия на параметры wML , структурное предсказание можно выполнять,

𝑓 (x) ≡ argmax P(ȳ | x, wML ). (1)

log P(y | x, w) − max {log P(ȳ | x, w) + Δ(ȳ, y)} → max . (3)

Такой метод называется структурным обучением на основе максимизации отступа (ан-

Целью данной работы является сокращение требований, предъявляемых к аннотации обуча-

2. Исследованы модификации структурного метода опорных векторов, позволяющие обу-

3. Исследованы методы последовательной классификации для задач разметки. Предложен

Актуальность и новизна. Подходы на основе структурного метода опорных векторов и по-

Апробация результатов. Основные результаты работы докладывались и обсуждались на

Основные положения, выносимые на защиту:

∙ методы, обобщающие структурный SVM для обучения нелинейной неассоциативной

∙ методика назначения функций потерь структурного SVM, учитывающих особенности

∙ экспериментальная апробация предложенных методов, сравнение точности и скорости

Объём и структура работы. Диссертация состоит из введения, четырёх глав и заключения.

Нотация. Переменные обозначаются буквами латинского или греческого алфавитов. Скаляр-

Знак «∝» означает равенство с точностью до постоянного мультипликативного коэффициен-

Благодарности. Автор выражает благодарность своему научному руководителю Дмитрию

Ненаправленные графические модели и

В этой главе приведены теоретические основы выполненной работы. В рассматриваемой

1.1 Марковские сети и связанные задачи

Определение 1.1. Пусть 𝒞𝑓 ⊂ {1, . . . , 𝑉 } для 𝑓 ∈ {1, . . . , 𝐹 }. Распределение Гиббса над

(a) Фактор-граф распределения (b) Марковская сеть

Рисунок 1.1: Различные графические представления распределения Ф1 P(𝑦1 , 𝑦2 , 𝑦Ф

где y𝒞𝑓 — вектор из элементов y с индексами 𝒞𝑓 , 𝑍 — нормировочная

а фактор Φ𝑓 — произвольная неотрицательная функция |𝒞𝑓 | переменных; величина |𝒞𝑓 | назы-

Определение 1.2. Фактор-графом, соответствующим данному распределению, называ-

Замечание. В литературе марковская сеть обычно определяется через предположения об

Функция 𝐸(y) называется энергией, а функции 𝜑𝑓 (y𝒞𝑓 ) — потенциалами марковской сети.

Ttrunc |yv − yu|

(a) Структура марковской сети (b) Задание потенциалов

Определение 1.5. Парно-сепарабельные марковские сети — такие марковские сети, в кото-

В таком случае потенциалы 𝜑𝑣 называют унарными, а 𝜑𝑣𝑢 — парными.

1.2 Алгоритмы вывода MAP-оценки

1.2.1 Как задача математического программирования

Представление решения в виде вектора бинарных переменных ϒ называется переопреде-

Из ограничений (1.11) и (1.13) следует, что каждая из компонент допустимого решения 𝜏

1.2.2 Передача сообщений

Определение 1.6. Сообщением 𝜇𝑓 →𝑣 из фактора с индексом 𝑓 в вершину с индексом 𝑣 назы-

Здесь 𝜇𝑣′ →𝑓 — сообщение из вершины с индексом 𝑣 ′ в фактор с индексом 𝑓 называется вектор

При фиксированных значениях сообщений, убеждение о маргинальном распределении в вер-

Для того чтобы определить конкретный алгоритм, осталось определить инициализацию

Отождествим значение энергии на переопределённой разметке с соответствующей энерги-

Оптимизационная задача 1.3.

при условии ϒ ∈ M, (1.20)

Запишем частичную функцию Лагранжа по ограничениям (1.23) для этой задачи:

Заметим, что при отсутствии ограничений целостности минимизация Лагранжиана

Идея алгоритмов двойственного разложения заключается в максимизации этой нижней

Таким образом, алгоритм субградиентного подъёма поочерёдно выполняет два шага: