Краткое введение в машинное обучение Обучение для

arXiv: 1709.02840v3 [cs.LG] 17 мая 2018 г.
Краткое введение в машинное обучение
Обучение для инженеров
(2018), “Краткое введение в машинное обучение для инженеров”,
Том XX, № XX, стр. 1-231. DOI: XXX.
Освальдо Симеоне
Факультет информатики
Королевский колледж Лондона
osvaldo.simeone@kcl.ac.uk
Содержание I
Основы 5
1 вступление 6
1.1 Что такое машинное обучение? . . . . . . . . . . . . . . . . .6
1.2 Когда следует использовать машинное обучение? . . . . . . . . . . . . . .8
1.3 Цели и основные положения . . . . . . . . . . . . . . . . . . . . . .11
2 Мягкое введение с помощью линейной регрессии 15
2.1 Обучение под наблюдением . . . . . . . . . . . . . . . . . . . . .15
2.2 Вывод . . . . . . . . . . . . . . . . . . . . . . . . . . .17
2.3 Частотный подход . . . . . . . . . . . . . . . . . . . .19
2.4 Байесовский подход . . . . . . . . . . . . . . . . . . . . .36
2.5 Минимальная длина описания (MDL)); . . . . . . . . . . .42
2.6 Теоретико-информационные показатели . . . . . . . . . . . . . . . .44
2.7 Интерпретация и причинно-следственная связь; . . . . . . . . . . . . . . . .47
2.8 Краткое изложение . . . . . . . . . . . . . . . . . . . . . . . . . . .49
3 Вероятностные модели для обучения.51
3.1 Предварительные замечания . . . . . . . . . . . . . . . . . . . . . . . . .52
3.2 Экспоненциальное семейство . . . . . . . . . . . . . . . . . . .52
3.3 Частое обучение . . . . . . . . . . . . . . . . . . . . 59

Ч
3.4
3.5
3.6
3.7
3.8
3.9
II
Байесовское обучение . . . . . . . . . . . . . . . . . . . . . .63
Контролируемое обучение с использованием обобщенных линейных моделей (GLM)69
Свойство максимальной энтропии; . . . . . . . . . . . . . . . .71
Модели, основанные на энергии; . . . . . . . . . . . . . . . . . . . .72
Некоторые дополнительные темы; . . . . . . . . . . . . . . . . . . .73
Краткое изложение . . . . . . . . . . . . . . . . . . . . . . . . . . .73
Контролируемое обучение75
4 Классификация76

4.1 Предварительные работы: Стохастический градиентный спуск . . . . . . . . . 77
4.2 Классификация как проблема обучения под наблюдением . . . . . . 78
4.3 Дискриминационные детерминированные модели . . . . . . . . . . . . 80
4.4 Дискриминантные вероятностные модели: Обобщенные линейные
модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.5 Дискриминантные вероятностные модели: за пределами GLM . . . . . 96
4.6 Порождающие вероятностные модели . . . . . . . . . . . . . . . 102
4.7 Повышение; . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.8 Краткое изложение . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5 Теория статистического обучения;
113
5.1 Формальная основа для обучения под наблюдением . . . . . . . 114
5.2 Обучаемость PAC и сложность выборки . . . . . . . . . . 119
5.3 Обучаемость PAC для конечных классов гипотез . . . . . . . . 120
5.4 Размерность VC и фундаментальная теорема обучения PAC 124
5.5 Краткое изложение . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
III
Обучение без присмотра 129
6 Обучение без присмотра 130
6.1 Обучение без присмотра . . . . . . . . . . . . . . . . . . . . 131
6.2 Кластеризация K-средних значений . . . . . . . . . . . . . . . . . . . . . 134
6.3 ML, ELBO и EM . . . . . . . . . . . . . . . . . . . . . 136
6.4 Направленные генеративные модели . . . . . . . . . . . . . . . . 148
6.5 Неориентированные порождающие модели . . . . . . . . . . . . . . . 155
6.6
6.7
6.8
6.9
IV
Дискриминационные модели . . . . . . . . . . . . . . . . . . . . 159
Автоэнкодеры . . . . . . . . . . . . . . . . . . . . . . . . 161
Рейтинг; . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Краткое описание . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Усовершенствованное моделирование и логический вывод 165
7 Вероятностных графических моделей 166
7.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.2 Байесовские сети . . . . . . . . . . . . . . . . . . . . . . 170
7.3 Марковские случайные поля . . . . . . . . . . . . . . . . . . . 178
7.4 Байесовский вывод в вероятностных графических моделях . . . . 182
7.5 Краткое содержание . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
8 Приблизительный вывод и обучение 186
8.1 Методы Монте-Карло . . . . . . . . . . . . . . . . . . . . 187
8.2 Вариационный вывод . . . . . . . . . . . . . . . . . . . . . 189
8.3 Вариационный вывод, основанный на методе Монте-Карло; . . . . . . . . . 197
8.4 Приблизительное обучение; . . . . . . . . . . . . . . . . . . . 199
8.5 Резюме . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
V Выводы 202
9 Заключительные Замечания 203
Приложения 206
Приложение А: Информационные меры 207
A.1 Энтропия . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
A.2 Условная энтропия и взаимная информация . . . . . . . . 210
A.3 Меры расхождения . . . . . . . . . . . . . . . . . . . . 212
B Приложение B: Расхождение KL и экспоненциальное Семейство215
Благодарности 217
Ссылки218
А
Краткое введение в машинное обучение
Обучение для инженеров
Освальдо Симеоне1
1 Факультет информатики Королевского колледжа Лондона;
osvaldo.simeone@kcl.ac.uk
АННОТАЦИЯ

Цель этой монографии - познакомить читателя с ключевыми концепциями, алгоритмами и теоретическими результатами машинного обучения. Основное внимание в ней уделяется вероятностным моделям для решения задач обучения под наблюдением и без присмотра. В нем представлены фундаментальные концепции и алгоритмы, основанные на первых принципах, а также представлены более сложные темы с обширными указателями на литературу в рамках единой нотации и математического изложения.  Материал организован в соответствии с четко определенными категориями, такими как дискриминативные и генеративные модели, частотные и байесовские подходы, точный и приближенный логический вывод, а также направленные и ненаправленные модели. Эта монография предназначена для исследователей, имеющих инженерное образование в области теории вероятностей и линейной алгебры.
ISSN ; DOI XXXXXXXX
c 2018 XXXXXXXX
Примечание
• Случайные величины или случайные векторы, сокращенно называемые rvs, представлены римским шрифтом, а их значения и реализации указаны соответствующим стандартным шрифтом. Например, равенство x = x указывает на то, что rv x принимает значение x.
• Матрицы указаны прописными буквами, с использованием латинского шрифта- грань, используемая для случайных матриц.
• Векторы будут представлены в виде столбцов.
• XТ и X † являются транспонированной и псевдообратной матрицами X соответственно.
• Распределение rv x, либо функция вероятностной массы /probability mass function/ (pmf), для дискретного rv или функции плотности вероятности /probability density/ (pdf) для непрерывных rvs обозначается как px , px (x) или p(x).
• Обозначение x ~px указывает , что rv x распределяется в соответствии с px .
• Для совместно распределенных rvs (x, y) ; pxy условное распределение x с учетом наблюдения y = y обозначается как px|y=y , px|y (x|y) или p(x|y).
• Обозначение x|y = y ; px|y=y указывает на то , что rv x строится в соответствии с условным распределением px|y=y .
• Обозначение Ex; px [·] указывает математическое ожидание аргумента относительно распределения rv x;  px . Соответственно, мы также запишем Ex;px|y [·|y] для условного математического ожидания относительно распределения px|y=y . Если из контекста ясно, что распределение, для которого вычисляется математическое ожидание, может быть опущено.
• Обозначение Prx;px [·] указывает на вероятность события, связанного с аргументом, относительно распределения rv x ; px . Если не указано иное
12
в обозначениях из контекста нижний индекс удаляется.
• Обозначение log представляет логарифм по основанию два, в то время как ln представляет натуральный логарифм.
• x ; N (µ, ;) указывает, что случайный вектор x распределен в соответствии с многомерной гауссовой функцией pdf со средним вектором µ и ковариационной матрицей ;. Многомерный гауссовский pdf обозначается как N (x|µ, ;) как функция от x.
• x ;  U(a, b) указывает, что rv x распределяется в соответствии с равномерным распределением в интервале [a, b]. Соответствующий однородный pdf -файл обозначается как U(x|a, b).
• ;(x) обозначает дельта-функцию Дирака или дельта-функцию Кронекера, как ясно из контекста.

• ||a||2 =; N i=1 a2i - квадратичная, или l2 , норма вектора а, который выражается a =[a1 , ..., aN ] T. Аналогично, мы определяем норму l1 как ||a||1 = ;Ni=1 |ai |, а псевдонорму l0 ||a||0 как число ненулевых элементов вектора a.
• I обозначает единичную матрицу, размеры которой будут понятны из контекста. Аналогично, 1 представляет собой вектор из всех единиц.
• R - множество действительных чисел; R+ - множество неотрицательных действительных
чисел; R; множество неположительных действительных чисел; и RN - множество всех векторов  из N действительных чисел.
• 1 (·) - индикаторная функция: 1 (x) = 1, если x истинно, и 1 (x) = 0 в противном случае.
• |S| представляет мощность множества S.
• xS представляет собой набор rvs xk, индексируемых целыми числами k ; S.
Сокращения
AI: Искусственный интеллект
AMP: Приблизительная передача сообщений
BN: Байесовская сеть
DAG: Направленный ациклический граф
ELBO: Нижняя граница доказательности
EM: Максимизация ожиданий
ERM: Минимизация эмпирического риска
GAN: Порождающая состязательная сеть
GLM: Обобщенная линейная модель
HMM: Скрытая Марковская модель
i.i.d.: независимая, одинаково распределенная
KL: Куллбака-Лейблера
LASSO: Оператор наименьшей абсолютной усадки и отбора
LBP: Циклическое распространение веры
LL: Логарифмическое правдоподобие
LLR: Логарифмическое отношение правдоподобия
LS: Метод наименьших квадратов
MC: Метод Монте-Карло
MCMC: Цепочка Маркова по методу Монте-Карло
MDL: Минимальная длина описания
MFVI: Вывод о вариации среднего поля
ML: Максимальное правдоподобие
MRF: Случайное поле Маркова
NLL: Отрицательное логарифмическое правдоподобие
PAC: Вероятно, приблизительно верно
pdf: функция плотности вероятности
34
Сокращения
pmf: функция вероятности массы
PCA: Анализ главных компонент
PPCA: Вероятностный анализ главных компонент
QDA: Квадратичный дискриминантный анализ
RBM: Ограниченный метод Больцмана
SGD: Стохастический градиентный спуск
SVM: Метод опорных векторов
rv: случайная величина или случайный вектор (в зависимости от контекста)
s.t.: зависит от \относится к\
VAE: Вариационный автоэнкодер
ВК: Вапник–Червоненкис
VI: Вариационный вывод

часть I
Основы
1
Вступление
Поскольку я преподавал курсы по машинному обучению, коллеги и студенты с инженерным образованием часто просят меня подсказать, “с чего лучше всего начать” изучение этого предмета. Обычно в ответ я привожу список книг – общее, но немного устаревшее введение
можно найти в этой книге; подробный обзор методов, основанных на вероятностных моделях, можно найти в других источниках; чтобы узнать больше о статистическом обучении, я счел этот текст полезным; и так начнем. Этот ответ кажется мне и, скорее всего, моим собеседникам совершенно неудовлетворительным. Это особенно верно, ведь размер многих из этих книг может обескуражить занятых специалистов и студентов, работающих над другими проектами. Эта монография представляет собой попытку предложить базовый и компактный справочник, который описывает ключевые идеи и принципы простыми словами и в рамках единой трактовки, включая также более поздние разработки и ссылки на литературу для дальнейшего изучения.
1.1 Что такое машинное обучение?
Полезным способом ознакомления с методологией машинного обучения является сравнение с традиционным процессом инженерного проектирования.
6
1.1. Что такое машинное обучение?
7
Оно начинается с углубленного анализа проблемной области, который определением математической модели раскрывается. Математическая модель предназначена для отражения ключевых особенностей исследуемой проблемы и, как правило, является результатом работы ряда экспертов. В конечном итоге математическая модель подгоняется для получения подручных решений проблемы.
Рассмотрим, например, задачу определения химического процесса для получения данной молекулы. Традиционный подход требует от химиков врубить свои знания о моделях, которые предсказут исход отдельных химических реакций, чтобы создать последовательность подходящих этапов, которые синтезируют нужную молекулу. Другим примером является разработка алгоритмов перевода речи или сжатия изображений/видео. Обе эти задачи включают в себя определение моделей и алгоритмов группами экспертов, таких как лингвисты, психологи и специалисты по обработке сигналов, нередко в ходе длительных совещаний по стандартизации.
Описанный выше процесс инженерного проектирования может оказаться слишком дорогостоящим и неэффективным для задач, требующих более быстрых или менее дорогостоящих решений. Альтернативой машинному обучению является сбор больших наборов данных, например, помеченной речи, изображений или видео, и использование этой информации для тренировки обучающих машин общего назначения выполнению желаемой
задачи. В то время как стандартный процесс проектирования основан на знании предметной
области и проектировании, оптимизированном для конкретной задачи, машинное обучение
позволяет использовать большие объемы данных для определения алгоритмов и решений. С этой целью машинное обучение требует не точной модели исследуемой системы, а определения цели, модели обучения, а также методике оптимизации.
Возвращаясь к первому приведенному выше примеру, подход к машинному обучению
заключается в обучении машины общего назначения предсказывать исход известных химических реакций на основе большого набора данных, а затем использовать обученный алгоритм для изучения способов получения более сложных молекул. Аналогичным образом, большие наборы данных изображений или видео можно было бы использовать для обучения алгоритма общего назначения с целью получения сжатых представлений, из которых исходные данные могут быть восстановлены с некоторыми искажениями.
8
Вступление
1.2 Когда использовать машинное обучение?
Исходя из приведенного выше обсуждения, машинное обучение может предложить эффективную альтернативу традиционному процессу проектирования, когда стоимость и время разработки являются основными проблемами или когда проблема кажется слишком сложной, чтобы ее можно было изучить во всей ее полноте. С другой стороны, этот подход обладает ключевыми недостатками, заключающимися в том, что он, как правило, обеспечивает неоптимальную производительность или затрудняет интерпретацию решения, а также применяется только к ограниченному набору задач.
Чтобы определить задачи, для решения которых методы машинного обучения могут
чтобы было полезны, в ссылке [31] предлагаются следующие критерии:
1. задача включает в себя функцию, которая сопоставляет четко определенные входные данные с четко определенными выходными данными;
2. существуют или могут быть созданы большие наборы данных, содержащие пары вход-выход;
3. задание обеспечивает четкую обратную связь с четко определенными целями и
показателями;
4. задание не требует длинных логических цепочек или рассуждений, которые
зависят от различных базовых знаний или здравого смысла;
5. задание не требует подробных объяснений того, как было принято решение;
6. задача допускает ошибки и не нуждается в доказуемо правильных
или оптимальных решениях;
7. изучаемое явление или функция не должны быстро меняться с течением времени; и
8. не требуется специальной ловкости, физических навыков или мобильности.
Эти критерии являются полезными руководящими принципами для принятия решения о том, подходят ли методы машинного обучения для конкретной задачи, представляющей интерес. Они также предлагают удобную границу между машинным обучением в его современном понимании, с акцентом на обучение и инструменты вычислительной статистики, и более общими понятиями искусственного интеллекта (ИИ), основанными на знаниях и здравом смысле [87] (обзор исследований в области искусственного интеллекта приведен в [126]).
1.2. Когда следует использовать машинное обучение?
1.2.1 Учебные задачи
Мы можем выделить три различных основных типа задач машинного обучения, которые кратко представлены ниже. Обсуждение отражает основное внимание в этой монографии параметрическим вероятностным моделям, о чем более подробно говорится в следующем разделе.
1. Контролируемое обучение: У нас есть N помеченных обучающих примеров
D={(xn , tn )}Nn=1 , где xn представляет собой коварианту, или объясняющую переменную , а tn - соответствующую метку, или ответ. Например, переменная xn может представлять текст электронного письма, в то время как метка tn может быть двоичной переменной, указывающей, является ли электронное письмо спамом или нет.  Цель контролируемого обучения - предсказать значение метки t для входных данных x, которых нет в обучающем наборе. Другими словами, контролируемое обучение направлено на обобщение наблюдений в наборе данных D для новых входных данных. Например, алгоритм, обученный на наборе электронных писем, должен уметь классифицировать новое электронное письмо, отсутствующее в наборе данных D.
В целом мы можем различать проблемы классификации, в частности в которых метка t дискретна, как в примере выше, и задачи регрессии, в которых переменная t непрерывна. Примером задачи регрессии является прогнозирование завтрашней температуры t на основе сегодняшних метеорологических наблюдений x.
Эффективным способом изучения предиктора является определение из набора данных D прогнозирующего распределения p(t|x) из набора параметризованных распределений. Условное распределение p(t|x) определяет профиль предположений \убеждений , вер, белиф\ по всем возможным меткам t с учетом входных данных x. Например,  для прогнозирования температуры можно было бы узнать среднее значение и дисперсию \изменение\ гауссовского распределения p (t|x) в зависимости от входных данных x. В качестве частного случая выходные данные контролируемого алгоритма обучения могут быть представлены в виде детерминированной прогнозирующей функции t = ;t(x).
2. Обучение без контроля: Предположим теперь, что у нас есть набор обучающих примеров без маркировки D={xn }Nn=1 . Менее четко сформулированное, чем контролируемое обучение, неконтролируемое обучение обычно относится к задаче изучения свойств механизма, который генерирует этот набор данных. Конкретные задачи и приложения включают кластеризацию, которая представляет собой задачу группировки похожих примеров xn; уменьшение размерности, извлечение признаков и изучение представлений, все это связано с проблемой, представляющее данные в меньшем или более удобном пространстве; и общие сведения-генеративное моделирование, которое представляет собой задачу изучения генерирующего механизма для создания искусственных примеров, аналогичных имеющимся данным в наборе данных D.
В качестве обобщения как контролируемого, так и неконтролируемого обучения, полу-контролируемое обучение относится к сценариям, в которых не все примеры помечены, а немаркированные примеры предоставляют информацию о распределении ковариант x.
3. Обучение с подкреплением: Обучение с подкреплением относится к проблеме принятия оптимальных последовательных решений, основанных на вознаграждении или наказания, полученные в результате предыдущих действий.  При обучении под наблюдением “метка” t относится к действию, которое должно быть предпринято, когда учащийся находится в информационном состоянии об окружающей среде, определяемом переменной x. При выполнении действия t в состоянии x учащийся получает обратную связь о немедленном вознаграждении, полученном в результате этого решения, и о том,  окружающая среда переходит в другое состояние. Например, агента можно обучить ориентироваться в заданной среде при наличии препятствий, наказывая за решения, которые приводят к коллизиям.
Таким образом, обучение с подкреплением не контролируется, поскольку учащемуся
не предоставляются оптимальные действия t для выбора в данном состоянии x; и оно не является полностью неконтролируемым, учитывая наличие обратной связи о качестве выбранного действия. Обучение с подкреплением также отличается от обучения под наблюдением и без присмотра из-за влияния предыдущих действий на будущие состояния и вознаграждения.
Данная монография посвящена обучению под наблюдением и без присмотра. Эти общие задачи можно классифицировать по следующим параметрам.
• Пассивное и активное обучение: пассивному учащемуся даются обучающие примеры, в то время как активный учащийся может повлиять на выбор обучающих примеров на основе предыдущих наблюдений.
• Автономное обучение по сравнению с онлайн-обучением: Автономное обучение осуществляется на основе серии обучающих выборок, в то время как онлайн-обучение обрабатывает выборки в потоковом режиме. Обратите внимание, что обучение с подкреплением по своей сути осуществляется в режиме онлайн, в то время как обучение под наблюдением и без присмотра может осуществляться как в автономном режиме, так и в режиме онлайн.
1.3. Цели и основные положения
11
В данной монографии рассматривается только пассивное обучение и обучение в автономном режиме.
1.3
Цели и основные положения
Цель данной монографии - дать представление о ключевых концепциях, алгоритмах и теоретических результатах в области машинного обучения. Манипуляции сосредоточены на вероятностных моделях для решения проблем обучения под наблюдением и без присмотра. Он знакомит с фундаментальными концепциями и алгоритмами , опираясь на основные принципы, а также знакомит читателя с более сложными темами, снабженными обширными указателями на литературу, в рамках единой нотной и математической базы. В отличие от других текстов, которые являются здесь, где основное внимание уделяется одному конкретному аспекту данной области, была предпринята попытка дать широкий, но краткий обзор, в котором систематически представлены основные идеи и методы. В частности, материал организован в соответствии с четко определенными категориями, такими как дискриминативные и порождающие модели, частотный и байесовский подходы, точный и приблизительный вывод, а также направленные и ненаправленные модели. Эта монография предназначена для исследователей, имеющих опыт работы в области теории вероятностей и линейной алгебры. Предварительная информация введение в теорию информации полезно, но не обязательно.
Подробно рассматриваются основные концепции и идеи, в том числе переоснащение и обобщение, максимальное правдоподобие и регуляризация, а также байесовский вывод. В тексте также предпринята попытка дать интуитивно понятные объяснения и указания на сложные темы и направления исследований. Разделы и подразделы, содержащие более сложные материалы, которые могут быть пропущены при первом чтении, отмечены звездочкой (;).
Читатель не найдет здесь ни обсуждений вычислительных платформ или каркасов программирования, таких как уменьшение масштаба \мап-редьюс карты уменьшение\, ни подробной информации о конкретных приложениях, использующиех большие массивы данных. Их можно легко найти в обширном и постоянно растущем объеме работ. Более того, вместо того, чтобы предоставлять исчерпывающую информацию о множестве существующих решений в каждой конкретной категории, были отобраны методы, которые полезны для иллюстрации наиболее важных аспектов. Исторические справки также были предоставлены только для нескольких выбранных важных событий.
Наконец, в монографии предпринята попытка найти баланс между алгоритмической и теоретической точками зрения. В частности, все обучающие
Вступление
алгоритмы вводятся на основе теоретических аргументов, часто основанных на теоретико-информационных показателях. Кроме того, отдельная глава посвящена статистической теории обучения, демонстрирующей, как создать область контролируемого обучения на прочной теоретической основе. Эта глава более теоретична, чем другие, и в нее включены доказательства некоторых ключевых результатов, чтобы проиллюстрировать теоретические основы обучения. Это контрастирует с другими главами, в которых доказательства нескольких теоретических результатов сведены к минимуму, чтобы сосредоточиться на основных идеях.
Остальная часть монографии состоит из пяти частей. Первая часть содержит вводный материал. В частности, в главе 2 представлены частотные, байесовские и модели обучения с минимальной длиной описания (MDL) ; дискриминантные и порождающие категории вероятностных моделей; а также ключевые понятия, такие как потери при обучении, обобщение и переобучение - все это в контексте простой задачи линейной регрессии. Также кратко представлены теоретико-информационные показатели, а также расширенные темы интерпретации и причинно-следственной связи. Далее, глава 3 содержит введение в семейство экспоненциальных вероятностных моделей, в обобщенные линейные модели (GLM) и в модели, основанные на энергии, подчеркивая основные свойства, которые будут рассмотрены в последующих главах.
Вторая часть посвящена обучению под наблюдением. В главе 4 рассматриваются линейные и нелинейные методы классификации с использованием дискриминантных и генерирующих моделей, включая методы опорных векторов (SVM), ядерные \зерна, кернел\ методы, логистическую регрессию, многослойные нейронные сети и бустинг. Глава 5 представляет собой краткое введение в систему статистического обучения, вероятно, приблизительно правильной (PAC) теории, охватывающей измерение Вапника–Червоненкиса (VC) и фундаментальную теорему обучения PAC.
Третья часть, состоящая из одной главы, посвящена обучению, не требующему наблюдения. В частности, в главе 6 описаны модели неконтролируемого обучения, в которых проводится различие между управляемыми моделями, для которых Максимизация математического ожидания (EM) определяется как итеративная максимизация нижней границы доказательности (ELBO); неориентированные модели, для которых используются ограниченные машины Больцмана (RBM), обсуждаются в качестве наглядного примера; дискриминационные модели, обученные с использованием принципов InfoMax;
1.3. Цели и выводы
13
 и автоэнкодеры. Также представлены генеративные состязательные сети (GAN).
В четвертой части рассматриваются более продвинутые методы моделирования и логического вывода. В главе 7 дается введение в вероятностные графические модели, а именно в байесовские сети (BNS) и марковские случайные поля (MRFs), как средство кодирования более сложных вероятностных зависимостей, чем модели, рассмотренные в предыдущих главах. Методы приблизительного вывода и обучения представлены в главе 8, в которой основное внимание уделяется методу Монте Карло (MC) и вариационного вывода (VI). В главе кратко представлены такие методы, как вариационный EM, вариационные автоэнкодеры (VAE) и логический вывод с использованием метода черного ящика. Некоторые
заключительные замечания приведены в последней части, состоящей из главы 9..
Мы завершаем эту главу, подчеркивая важность вероятности как общего языка для определения алгоритмов обучения [34]. Центральная роль вероятностной точки зрения не всегда признавалась, но имеет глубокие исторические корни. Это продемонстрировано на примере ниже приведены две цитаты: первая из первого учебника по искусственному интеллекту, опубликованного П. Х. Уинстоном в 1977 году, а вторая - из незаконченной рукописи Дж. фон Неймана (подробнее см. [126, 64]).
“Многие древние греки разделяли мнение Сократа о том, что глубокие, необъяснимые мысли исходят от богов. Сегодняшним эквивалентом этих богов является неустойчивый, даже вероятностный нейрон. Более вероятно, что повышенная хаотичность нейронного поведения - это проблема эпилептиков и пьяниц, а не преимущество бриллианта”.
Из книги "Искусственный интеллект", 1977.
“Все это приведет к созданию теорий вычислений, которые будут гораздо менее жесткими по принципу "все или ничего", чем формальная логика прошлого и настоящего... Существует множество свидетельств, заставляющих нас полагать, что эта новая система формальной логики приблизится к другой дисциплине, которая в прошлом была мало связана с логикой. Это термодинамика в том виде, в каком она была получена от Больцмана”
14.Введение
из книги "Компьютер и мозг", 1958.
2
Требовательное введение в линейную регрессию
В этой главе мы познакомим вас с частотной, байесовской и MDL системами обучения, а также с ключевыми концепциями контролируемого обучения, такими как дискриминационные и генеративные модели, потери при обучении, обобщение и переобучение. Это можно сделать, рассмотрев простую задачу линейной регрессии в качестве повторяющегося примера. Мы начнем с рассмотрения проблемы контролируемого обучения и приведем некоторые общие сведения о логическом выводе. Мы затем изложим частотный, байесовский и MDL подходы к обучению в таком порядке. Рассмотрение MDL ограничено вводным обсуждением, поскольку остальная часть монографии посвящена частотным и байесовским точкам зрения. В заключение мы познакомим вас с важной темой теоретико-информационных метрик, а также с кратким введением в продвинутые разделы причинно-следственного анализа и интерпретации.
2.1 Обучение под наблюдением
В стандартной формулировке задачи обучения под наблюдением нам дается обучающий набор D, содержащий N обучающих точек (xn, tn ), n = 1,..., N. Наблюдения xn считаются свободными переменными и известны как ковариаты, точки области или объясняющие переменные; в то время как целевая
15
16
Требовательное введение в линейную регрессию
 переменная tn предполагается, что зависит от xn и называются зависимыми переменными, метками или ответами. Пример проиллюстрирован на рисунке. 2.1. Мы используем обозначение xD = (x1,...., xN)Т для ковариат и tD = (t1,...., tN)Т для меток в обучающем наборе D. На основе этих данных целью контролируемого обучения является определение алгоритма
чтобы предсказать метку t для новой, то есть пока еще ненаблюдаемой, точки x домена.
Рисунок 2.1: Пример обучающего набора D с N = 10 точками (xn, tn ), n = 1,..., N .
Описанная задача обучения явно невыполнима в отсутствие дополнительной информации о механизме, связывающем переменные x и t. Что касается рис. 2.1, то, если только мы не предположим, скажем, что x и t связаны функцией t = f (x) с некоторыми свойствами, такими как гладкость, у нас нет способа предсказать метку t для ненаблюдаемой точки x домена. Это наблюдение формализуется с помощью теоремы о бесплатном обеде, которая будет рассмотрена в главе 5: невозможно изучить правила, которые обобщаются на невидимые примеры, не сделав предположений о механизме генерации данных. Совокупность всех предположений, сделанных алгоритмом обучения, известна как индуктивное смещение \биас\.
Это обсуждение указывает на ключевое различие между запоминанием и обучением. В то время как первое сводится к простому извлечению значения tn,
2.2. Вывод
17
 что соответствует уже наблюдаемой паре (xn , tn ) ; D, обучение предполагает возможность предсказать значение t для невидимой точки x области. Другими словами, обучение преобразует опыт – в форме D — в экспертные знания - в виде алгоритма прогнозирования. Это хорошо подмечено в следующей цитате Хорхе Луиса Борхеса: "Думать - значит забывать детали, обобщать, делать абстракции” [138].
По большому счету, цель контролируемого обучения состоит в том, чтобы определить
алгоритм прогнозирования, который минимизирует потери при обобщении, то есть ошибку в предсказании новой метки t для ненаблюдаемой объясняющей переменной x. Однако, как именно сформулировать эту задачу, зависит от типа точки зрения на природу модели, которой  будут обучать. Это приводит к различию между частотным и байесовским подходами, которое является центральной в этой главе. Как будет также обсуждаться, философия MDL отличается от упомянутого фокуса на прогнозировании как цели обучения, ориентируясь вместо скупого описания набора данных на D.
2.2 Вывод логический
Прежде чем мы начнем наше обсуждение обучения, полезно рассмотреть некоторые основные понятия, касающиеся статистического вывода, поскольку они нам понадобятся на протяжении всей этой главы и в остальной части этой монографии. Мы специально рассматриваем проблему логического вывода, связанную с предсказанием rv t на основе наблюдения другого rv х в предположении, что их совместное распределение p (x, t) известно. Что касается терминологии, следует отметить, что здесь мы будем использовать термин "логический вывод” в том виде, в каком он обычно используется в литературе по вероятностным графическим моделям (см., например, [81]), что отличается от его использования в других разделах литературы по машинному обучению (см., например,, [23]).
Чтобы определить проблему оптимального вывода, нужно начать с определения неотрицательной функции потерь l(t, ;t). Это определяет затраты, потери или риск, которые возникают, когда правильное значение равно t, а оценка равна ;t.
Важным примером является потеря lq

что включает в себя в качестве частного случая квадратичные потери l2(t, ;t) = (t- ;t) 2 , и
18
Требовательное введение в линейную регрессию
потери 0-1, или ошибки обнаружения, ;0 (t,  ;t) = |t- ;t| 0, где | a | 0 = 1, если a;0 , и |a | 0 = 0 в противном случае. Как только функция потерь выбрана, оптимальный прогноз ;t(x) для заданного значения наблюдения x получается следующим образом: минимизация так называемого риска обобщения или потерь при обобщении1
Обозначение Lp подчеркивает зависимость потерь при обобщении от распределения p (x, t).
Решение этой задачи задается оптимальным прогнозом или правилом принятия решения2
Это можно увидеть, используя закон повторяющихся ожиданий E (x,t);pxt [ * ] = Ex;px [Et ~pt|x [·|x|]. Уравнение (2.3) показывает, что оптимальная оценка, или прогноз, ;t; (x) является функцией апостериорного распределения p (t|x) метки, которая задает точку области x и функцию потерь l. Следовательно, как только заднее значение\постеор\ p (t / x) известно, можно оценить оптимальное предсказание (2.3) для любой желаемой функции потерь без необходимости знать совместное распределение p (x, t).
В частном случае (2.3), при квадратичной функции потерей l2, оптимальным прогнозом является условное среднее значение ^t* (x) = Et~ pt | x [t |x]; в то время как для функции l0 потерь 0-1 оптимальным решением является режим апостериорного распределения, т.е. ^t; (X) = arg max tp (t|x).
Например, предположим, что мы имеем
t |x = x ~ 0,8 ; (t ; x) + 0.2 ; (t + x), (2.4)
таким образом, при условии, что событие x = x, t равно X с вероятностью 0,8 и  -x с вероятностью 0,2. Оптимальным прогнозом является ^t; (x) = 0,8 x-0,2 x = 0,6 x для квадратичных потерь, в то время как ^t; (x) = x для  потерь 0-1.
1 Также часто используются термины "ошибка обобщения" или "ошибка совокупности \популяции\", но они не будут приняты в данной монографии.
2 Оптимальная оценка (2.3) также известна как прогноз Байеса или правило Байеса, но здесь мы не будем использовать эту терминологию, чтобы избежать путаницы с байесовским
подходом, обсуждаемым ниже.
2.3. Частотный подход
19
Цель методов контролируемого обучения, в широком смысле, заключается в получении предиктора ^t(x), который работает близко к оптимальному предиктору ^t; (x), основываясь только на обучающем наборе D и, следовательно, без знания совместного распределения p (x, t). Близость результатов измеряется разницей между потерями при обобщении Lp (^t), достигнутыми обученным предиктором, и минимальными потерями при обобщении (Lp (^t*)) оптимального предиктора, которая зависит от истинного распределения p(x, t). Строго говоря, это утверждение применимо только к частотному подходу, который обсуждается далее. Как будет объяснено далее в этой главе, на самом деле, хотя байесовский подход по-прежнему основан на цели прогнозирования, его модельные допущения отличаются. Более того, подход MDL концентрируется на задаче сжатия данных, а не на прогнозировании.
2.3 Частотный подход
Согласно частотной точке зрения, обучающие данные указывают (xn , tn ) ; D представляют собой независимый с одинаковым распределением (i.i.d.) случайный вектор зависит от \рвс\, полученного из истинного, и неизвестных, распределения p (x, t):
Новое наблюдение (x, t) также независимо генерируется из того же истинного распределения p(x, t); точка области x наблюдается, и метка t должна быть предсказана. Поскольку вероятностная модель p(x, t) неизвестна, невозможно напрямую решить задачу (2.3), чтобы найти оптимальный прогноз, который минимизирует потери при обобщении Lp в (2.2).
Прежде чем обсуждать доступные решения этой проблемы, стоит отметить, что определение “истинного” распределения p(x, t) на практике зависит от способа сбора данных. Как в примере в контексте “искусственного интеллекта красоты”, если ранжирование tn, присвоенное изображениям xn лиц, зависит от расовых предрассудков, распределение p(x, t) будет отражать эти предрассудки и давать искаженные результаты [62].
Таксономия решений. Существует два основных способа решения проблемы, связанной с обучением тому, как выполнять логический вывод, не зная распределения p(x, t):
20

• Раздельное обучение и (подключаемый) логический вывод: сначала изучите приближение, скажем, pD (t|x), условного распределения p(t|x) на основе данных D, а затем включите это приближение в (2.3), чтобы получить аппроксимацию оптимального решения в виде
• Прямой вывод с помощью эмпирической минимизации риска (ERM): непосредственно изучите приближение tD (·) оптимального решающего правила путем минимизации эмпирической оценки потерь при обобщении (2.2), полученной из набора данных в виде
где эмпирический риск или эмпирические потери равны

Обозначение LD (^t) указывает на зависимость эмпирических потерь от предиктора ^t(·) и от обучающего набора D.
На практике, как мы увидим, оба подхода оптимизируют набор параметров, которые определяют вероятностную модель или предиктор. Более того, первый подход, как правило, более гибкий, поскольку наличие оценки pD (t|x) апостериорного распределения p(t|x) позволяет рассчитать прогноз (2.6) для любой функции потерь. В отличие от этого, решение ERM (2.7) связано с конкретным выбором функции потерь ;. В оставшейся части этого раздела мы начнем с первого подхода и обсудим позже, как это соотносится с формулировкой ERM.
Пример линейной регрессии. Для конкретности, в дальнейшем мы рассмотрим следующий пример, основанный на [23]. В этом примере данные генерируются в соответствии с истинным распределением p(x, t) = p(x)p(t|x), где x~ U(0, 1) и
t|x = x ~ N (sin(2nx), 0,1). (2.9)
Обучающая выборка на рис. 2.1 была сгенерирована на основе этого распределения. Если бы это истинное распределение было известно, то оптимальный предсказатель по квадратичным потерям l2
2.3.
21
было бы равен условному среднему значению
^t; (x) = sin(2nx). (2.10)
Следовательно, минимальная потеря при обобщении равна Lp (^t; ) = 0.1.
Следует подчеркнуть, что, хотя мы рассматриваем этот текущий пример для закрепления идей, все определения и идеи, представленные в этой главе, в более общем плане применимы к задачам обучения под наблюдением. Это будет дополнительно рассмотрено в главах 4 и 5.
2.3.1 Дискриминационный по сравнению с Порождающией вероятностной моделью

Для того, чтобы получить аппроксимацию pD (t|x) прогнозируемого распределения p(t|x) на основе данных D, мы сначала выберем семейство параметрических вероятностных моделей, также известное как класс гипотез, и к тому времени изучим параметры модели, чтобы они соответствовали (в некотором смысле, которые будут уточнены позже) данным D.
Рассмотрим в качестве примера задачу линейной регрессии, представленную выше. Мы начнем с моделирования метки t как полиномиальной функции точки x области, добавленной к гауссовскому шуму с дисперсией ; -1. Параметр ; - это точность, т.е. обратная дисперсия аддитивного шума. Полиномиальная функция со степенью M может быть записана в виде
, где мы определили весовой вектор w = [w0 w1 · · · wM ]T и вектор признаков ;(x) = [1 x x2 · · · xM ]T . Вектор w определяет относительный вес степеней в сумме (2.11). Это предположение соответствует принятию параметрической вероятностной модели p(t|x, ;), определяемой как
t|x = x ~ N (µ(x, w), ; -1 ), (2.12)
с параметрами ; = (w,;). Установив этот класс гипотез, можно затем извлечь вектор параметров ; из данных D, как это будет обсуждаться далее.
В приведенном выше примере мы параметризовали апостериорное распределение. В качестве альтернативы мы можем параметризовать и обучить полное совместное распределение p(x, t). Эти две альтернативы представлены ниже.
22 Краткое введение с помощью линейной регрессии
1. Дискриминантная вероятностная модель.
В этом первом классе моделей предполагается, что апостериорное, или прогнозирующее, распределение p(t|x) принадлежит классу гипотез p(t|x, ;), определяемому вектором параметров ;. Вектор параметров ; определяется из набора данных D. Для данного вектора параметров ; условное распределение p(t|x, ;) позволяет различать различные значения метки t на основе их апостериорную вероятность. В частности, как только модель изучена, можно напрямую вычислить предиктор (2.6) для любой функции потерь.
В качестве примера, для задачи линейной регрессии, когда вектор параметров ;D = (wD , ;D ) определен на основе данных D во время обучения, оптимальным прогнозом при потере l2 является условное среднее значение ^tD (x) = Et~p(t|x,;D ) [t|x], то есть ^tD (x) = µ(x, wD ).
2. Порождающая вероятностная модель. Вместо непосредственного изучения апостериорного значения p (t|x) можно смоделировать совместное распределение p(x, t) следующим образом являясь частью параметрического семейства p (x, t|;). Обратите внимание, что, в отличие от дискриминантных моделей, совместное распределение p(x, t|;) моделирует также распределение ковариат x. Соответственно, термин “порождающий” отражает способность моделей этого типа генерировать реализацию ковариат x с использованием предельного значения p(x|;).
Как только совместное распределение p (x, t|;) будет получено из данных, можно вычислить апостериорное значение p (t|x, ;), используя теорему Байеса, и, исходя из этого, оптимальный предиктор (2.6) может быть вычислен для любой функции потерь. В генеративных моделях используются более строгие допущения, поскольку они также моделируют распределение объясняющих переменных. В результате неправильный выбор модели может привести к более серьезным проблемам с предвзятостью. Однако у него есть потенциальные преимущества, такие как возможность работать с отсутствующими данными или скрытыми переменными, например, при обучении под полу- наблюдением. Мы обращаемся к главе 6 для дальнейшего обсуждения (см. также [23]).
В оставшейся части этого раздела, для конкретности, мы рассмотрим дискриминантные вероятностные модели p(t|x, ;), хотя основные определения будут применимы и к порождающим моделям.
2.3.2 Порядок построения модели и параметры модели
В примере с линейной регрессией выбор класса гипотез (2.12) требовал определения степени полинома M, в то время как
2.3. Частотный подход 23

определение конкретной модели p(t|x, ;) в классе, вызываемом для выбора вектора параметров ; = (w, ;). Как мы увидим, эти два типа переменных играют существенно различающуюся роль в процессе обучения и следует четко различать, как описано далее.
1. Порядок модели M (и гиперпараметры): Порядок модели определяет “емкость” класса гипотез, то есть количество степеней свободы в модели. Чем больше значение M, тем лучше модель соответствует имеющимся данным. Например, в примере с линейной регрессией порядок построения модели определяет размер вектора весов w. В более общем плане переменные, которые определяют класс обучаемых моделей, называются гиперпараметрами. Как мы увидим, определение модели упорядочения и, в более широком смысле, гиперпараметров требует процесса, известного как проверка \валидация\.
2. Параметры модели ;: Присвоение определенных значений параметрам модели ; определяет гипотезу в рамках данного класса гипотез.  Это можно сделать, используя такие критерии обучения, как максимальное правдоподобие (ML) и максимальная апостериорная оценка (MAP).
Мы отложим обсуждение проверки до следующего раздела и начнем с представления критериев обучения ML и MAP.
2.3.3 Обучение с максимальным правдоподобием (ML)
Предположим теперь, что порядок модели M фиксирован и что нас интересует при обучении модели параметры ;. Критерий ML выбирает значение ;, при котором обучающий набор D имеет максимальную вероятность быть под наблюдением. Другими словами, значение ;, выбранное ML, с наибольшей вероятностью сгенерирует наблюдаемый обучающий набор. Обратите внимание, что таких значений может быть несколько.
Чтобы продолжить, нам нужно записать вероятность (плотность) наблюдаемых меток tD в обучающем наборе D с учетом соответствующих точек области x. В соответствии с предполагаемой дискриминационной моделью это значение задается как
24 Небольшое введение в линейную регрессию
, в которой мы использовали независимость различных точек данных. Логарифмирование дает функцию логарифмического правдоподобия (LL)
Функцию LL следует рассматривать как функцию параметров модели ; = (w, ;), поскольку набор данных D является фиксированным и заданным. Задача обучения ML определяется минимизацией отрицательной функции LL
(NLLL) как
Этот критерий также называется перекрестной энтропией или логарифмическими потерями, как далее обсуждается в разделе 2.6.
Если кого-то интересует изучение только апостериорного среднего, как в случае, когда функция потерь равна ;2 , то можно решить задачу (2.14) только с весами w, что приведет к оптимизации
Величина LD (w) известна как потери при обучении. Интересным наблюдением является то, что этот критерий совпадает с задачей ERM (2.7) для потери l2, если параметризовать предиктор как ;t(x) = µ(x, w).
Задача ERM (2.16) может быть решена в закрытом виде. С этой целью мы записываем эмпирические потери в виде LD (w) = N -1 ||tD ; XD w||2 , используя матрицу N ; (M + 1)
XD = [;(x1 ) ;(x2 ) · · · ;(xN )]T . (2.17)
Следовательно, его минимизация сводится к задаче наименьших квадратов (LS), которая дает решение
Обратите внимание, что в (2.18) мы предположили типичный переопределенный случай, в котором выполняется неравенство N > (M + 1). В более общем случае задача имеет решение wML=X†DtD . Наконец, дифференцируем NLL с отношением к ;, что дает вместо этого оценку ML


Рисунок 2.2: Иллюстрация недостаточной и избыточной адаптации при обучении ML: Пунктирная линия представляет собой оптимальный предиктор (2.10), который зависит от неизвестного истинного распределения, в то время как другие линии соответствуют предиктору ^tML (x) = µ(x, WML), полученному с помощью ML с различными заказами моделей M .
Пере подгонка и недостаточная подгонка. Приняв потерю l2, давайте теперь сравним предсказатель \предиктор\ ^tM L (x) = µ(x, wM L), полученный с помощью ML, с оптимальным, но неизвестным предсказателем ^t; (x) в (2.10). С этой целью на рис. 2.2 показан оптимальный предиктор ^t; (x) в виде пунктирной линии и основанный на ML предиктор ^tML (x), полученный при различных значениях порядка модели M для обучающего набора D на рис. 2.1 (также показан на рис. 2.2 для справки).
Мы начнем с того, что заметим, что при M = 1 предсказатель ML не соответствует данным - недостаточная подгонка \андерфитинг\: модель недостаточно богата, чтобы учесть вариации, которые присутствует в данных. В результате потери при обучении LD (WMLL ) в (2.16) велики.
26 Небольшое введение с помощью линейной регрессии
Напротив, при M = 9 предиктор ML переоценивает данные: модель слишком богата, и, чтобы учесть наблюдения в обучающем наборе, она дает неточные прогнозы за его пределами. В этом случае потери при обучении LD (w) в (2.16) невелики, но потери при обобщении
имеет большой размер. При переобучении модель запоминает обучающий набор, а не учится обобщать на невидимых примерах.
Выбор M = 3 представляется наилучшим по сравнению с оптимальным предсказателем. Обратите внимание, что на практике это наблюдение исключается из-за невозможности определить ^t; (x) и, следовательно, потери обобщения. Ниже мы обсудим, как оценить потери при обобщении с помощью валидации.

потери при недостаточном или
избыточном соответствии
обобщение
(с помощью валидации)
обучение
среднеквадратичная потеря корня
Рисунок 2.3: Квадратный корень из потерь при обобщении Lp (Wmll ) и потерь при обучении
LD (wM L ) как функция порядка модели M для обучающего набора данных на фиг. 2.1.
Влияние порядка модели M на потери при обучении и обобщении более подробно рассмотрено на рис. 2.3, где показан квадратный корень из потерь при обобщении Lp (WML) и потерь при обучении LD (WML ) как функция M для одного и того же набора обучающих данных. Первое замечание заключается в том, что, как и ожидалось, потери при обучении меньше, чем потери при обобщении,
2.3. Частотный подход
27
поскольку последний учитывает все пары (x, t); p(x, t), в то время как первый включает только тренировочные баллы, используемые для обучения. Что еще более важно, ключевым замечанием здесь является то, что увеличение M позволяет лучше соответствовать – и, возможно, перевыполнять – тренировочному набору, следовательно, уменьшая LD (WML ).  Вместо этого, потери при обобщении Lp (wM L ) сначала уменьшаются по мере того, как мы отходим от режима недостаточного обучения, но в конечном итоге увеличиваются при достаточно большом M. Увеличение разрыва между обучением и обобщением свидетельствует о том, что происходит чрезмерное обучение \оверфитинг, пере- соответствие, переподгонка\. Из рис. 2.3 мы можем сделать вывод, что в этом примере следует избегать порядки модели  превышающие M = 7, поскольку они приводят к переобучению, в то время
как порядок модели, меньший, чем M = 3, также не следует учитывать, чтобы избежать недостаточного соответствия.
 среднеквадратичные потери корня
обобщение (путем проверки)
тренировки
Рисунок 2.4: Квадратный корень из потерь при обобщении Lp (WML ) и потерь при обучении LD (WML) как функция размера обучающей выборки N . Асимптота потерь на обобщение и обучение определяется минимальными потерями на обобщение Lp (w; ) (см. (2.21)), достижимыми для данного порядка модели (см. рис. 2.5).
Каково, если бы у нас было больше данных? Экстраполируя поведение, показанное на рис. 2.2, мы можем предположить, что с увеличением числа N точек данных можно избежать переобучения даже при больших значениях M. Фактически, когда обучающий набор велик по сравнению с количеством параметров в ;,

28 Небольшое введение с помощью линейной регрессии

мы ожидаем, что потери при обучении LD (w) обеспечат точную меру потерь при обобщении Lp (w) для всех возможных значений w. Неофициально мы имеем приближение LD (w) ; Lp (w) одновременно для всех значений- значения w до тех пор, пока N достаточно велико. Следовательно, весовой вектор WML, который минимизирует потери при обучении LD (w), также (приблизительно) минимизирует потери при обобщении Lp (w). Из этого следует, что при больших N вектор WML  параметров ML стремится к оптимальному значению w; (предполагая для простоты рассуждения, что оно уникально), которое минимизирует потери при обобщении среди всех предикторов в модели, т.е.
Это обсуждение будет подробно рассмотрено в главе 5.
Чтобы представить численное подтверждение только что высказанной мысли, на рис. 2.4 представлены графики (квадратный корень из) обобщения и потерь при обучении в сравнении с N, где обучающие наборы были сгенерированы случайным образом из истинного распределения. Из рисунка мы можем сделать следующие важные наблюдения. Во–первых, переобучение – измеряемое разрывом между потерями в обучении и обобщении - исчезает с увеличением N. Это является следствием рассмотренных приближенных равенств LD (w) ; Lp (w) и wM L ; w; , которые справедливы при увеличении N, что подразумевает приближенные равенства LD (wM L) ; Lp (wM L ) ; Lp (w; ).
Во-вторых, следует отметить, что потери при обучении LD (wM L ) стремятся к минимальной потере обобщения Lp (w; ) для данного M снизу, в то время как потери при обобщении Lp (wM L ) стремятся к ней сверху. Это связано с тем, что с увеличением N становится все труднее соответствовать набору данных D, и, следовательно, LD (wM L ) увеличивается. И наоборот, по мере увеличения N оценка ML становится более точной из-за все более точной аппроксимации WML ; w; , и, следовательно, потери при обобщении Lp (WML ) уменьшаются.
В-третьих, выбор меньшего порядка модели M приводит к улучшенному обобщению-
потеря памяти при малом обучающем наборе, в то время как большее значение M желательно при большом наборе данных. На самом деле, как будет обсуждаться ниже, когда N мало, ошибка оценки, вызванная переобучением, преобладает над смещением, вызванным выбором небольшого класса гипотез. Напротив, для достаточно больших обучающих наборов ошибка оценки исчезает, и
 2.3.частотный подход  29

выполнение влияет на смещение, вызванное выбором модели.

Среднеквадратичная потеря корня
погрешность оценки
смещение
Рисунок 2.5: Иллюстрация смещения и ошибки обучения, основанной на декомпозиции (2.22).
Смещение и дефицит в обобщениях. В предыдущем параграфе были представлены понятия ошибки оценки и смещения, связанные с выбором заданного порядка M модели. Хотя в главе 5 эти понятия будут рассмотрены более подробно, полезно кратко остановиться на них, здесь в контексте обучения ML. Ошибка оценки и смещение относятся к следующей декомпозиции потерь при обобщении, достигнутых с помощью данного решения WML.
Это разложение проиллюстрировано на рис. 2.5 для M = 1. В (2.22) член Lp (^t; ) = 0.1 (на рисунке показан квадратный корень), как видно, является минимально достижимой потерей обобщения без каких-либо ограничений на класс гипотез. Термин (Lp (w; ) ; Lp (^t; )) представляет собой смещение, или ошибку аппроксимации, вызванная выбором данного класса гипотез и, следовательно, также выбором M . Это связано с тем, что согласно (2.21),
30 Мягкое введение с помощью линейной регрессии
Lp (w; ) является наилучшей потерей обобщения для данной модели. Напомним, что потери Lp (w; ) могут быть достигнуты, когда N достаточно велико. Наконец, термин (Lp (wM L );Lp (w; )) - это ошибка оценки или пробел в обобщении3, который возникает из-за того, что N недостаточно велико, и, следовательно , мы имеем wM L;w; .
Из разложения (2.22) следует, что большое N позволяет нам уменьшить ошибку оценки, но она не влияет на смещение. Это видно на рис. 2.4, где асимптота, получаемая при потере обобщения при увеличении N, равна минимальной потере обобщения Lp (w; ) для данного порядка модели. Выбор небольшого значения M в режиме больших данных устанавливает минимальный предел достижимых потерь при обобщении, который не может быть преодолен никаким количеством дополнительных данных.
Проверка и тестирование. В приведенном выше обсуждении предполагалось, что потери при обобщении Lp (w) могут быть каким-либо образом оценены. Поскольку это зависит от истинного неизвестного распределения p(x, t), эта оценка является, строго говоря, невозможна. Как тогда оценить потери при обобщении, чтобы можно было выбрать порядок модели, используя график, как на рис. 2.3? Стандартным решением является использование проверки достоверности.
Наиболее простая форма проверки достоверности предусматривает разделение имеющихся данных на два набора: резервный \холд-аут\, или проверочный \валидации\, набор и обучающий набор. Набор для проверки достоверности используется для оценки приблизительного значения потерь при обобщении Lp (w) с помощью эмпирического среднего значения
где суммирование производится по Nv элементам набора проверки.
Только что описанный промежуточный \холд аут\ подход к валидации имеет очевидный недостаток \дро-бак\, поскольку часть имеющихся данных необходимо отложить в сторону и не использовать для обучения. Это означает, что количество примеров, которые могут быть использованы для обучения, меньше, чем общее количество доступных точек данных. Чтобы частично устранить эту проблему, более сложным и часто используемым подходом к проверке является k-кратная перекрестная проверка. С помощью этого метода доступные точки данных разбиваются, как правило, случайным образом, на k подмножеств одинакового размера. Таким образом, потеря обобщения оценивается
3 В некоторых источниках это также определяется как ошибка обобщения.

2.3. Частотный подход 31
усреднением k различных оценок. Каждая оценка получается путем сохранения одного из k подмножеств для проверки, а остальные k ; 1 подмножества - для обучения. Когда k = N, этот подход также известен как перекрестная проверка без исключения \лив уан аут, кроме одного.
Набор тестов. Как только порядок модели M и параметры модели ; были получены путем обучения и валидации, обычно требуется произвести оценку потерь при обобщении, полученных при таком выборе (M, ;). Потери при обобщении, оцененные с помощью валидации, не могут быть использованы для этой цели. На самом деле потери при валидации, как правило, меньше фактического значения потерь при обобщении. В конце концов, мы выбрали порядок моделирования таким образом, чтобы получить наименьшую возможную ошибку в наборе данных для проверки. В результате окончательная оценка потери обобщения должна быть произведена на отдельном наборе данных, называемом тестовым набором, который предназначен для этой цели и не используется ни на одном этапе обучения.
Например, в соревнованиях между различными алгоритмами машинного обучения, тестовый набор хранится у судьи для оценки представленных работ и никогда не передается конкурсантам.
2.3.4 Максимальный апостериорный критерий (MAP)
Мы видели, что решение относительно порядка модели M при обучении ML связано с противоречием между смещением, для уменьшения которого требуется большее M, и ошибкой оценки, для уменьшения которой требуется меньшее M. ML предоставляет единственный целочисленный параметр, M, в качестве критерия, позволяющего купить смещение и ошибки оценки. Как мы обсудим здесь, подход MAP и, в более общем плане, регуляризация позволяют более точно контролировать эти два условия. Ключевая идея заключается в том, чтобы использовать имеющуюся предварительную информацию о поведении параметров в отсутствие или при наличии переобучения.
Для уточнения рассмотрим следующий эксперимент. Оцените машинного обучения ML решение \вес\ wM L в (2.18) для различных значений M и понаблюдайте, как он меняется по мере того, как мы переходим к режиму переобучения за счет увеличения M (см. также [23, таблица 1.1]). Для эксперимента, представленного на рис. 2.2, мы получаем следующие значения: для M = 1, WML = [0,93 ; 1,76]T ; для M = 3, WML = [-0.28, 13.32, -35.92, 22.56]T; и для M = 9, WML = [13,86, ;780.33, 12.99;103 , ;99.27 ; 103 , 416.49 ; 103 , ;1.03 ; 106 , 1.56 ;
106 , 1.40 ; 106 , 0.69 ; 106 , ;1.44 ; 106 ]. Эти результаты свидетельствуют о том, что
32
наглядным проявлением переобучения с помощью линейной регрессии является большое значение нормы ;w; вектора весов. Мы можем использовать это наблюдение в качестве предварительной информации, то есть как часть индуктивного смещения, при разработке алгоритма обучения.
С этой целью мы можем наложить на вектор весов предварительное распределение, которое дает меньшую вероятность больших значений. Возможно, но не единственный способ сделать это - принять гауссовское значение первого как
w ~N (0, ;;1 I), (2.24)
таким образом, все веса являются априорными гауссовыми переменными с нулевым средним значением с дисперсией ;-1 . Увеличение ; приводит к уменьшению весов, поскольку снижает вероятность, связанную с большими весами. Переменная точности ; является примером гиперпараметра. В байесовской модели гиперпараметры управляют распределением параметров модели. Как и ожидалось, гиперпараметры определяются с помощью валидации.
Вместо того, чтобы максимизировать LL, то есть плотность вероятности p(tD |xD , w, ;) для меток в обучающем наборе, как и для ML, критерий MAP предписывает максимизацию совместного распределения вероятностей весов и меток, заданного ранее p(w) = N (w|0, ;;1 I), то есть
Обратите внимание, что для параметра ; также может быть принята априорная вероятность,
но в этом примере мы оставляем ; в качестве детерминированного параметра. МАР следовательно, критерий обучения может быть сформулирован как
Название “Максимальный апостериорный” оправдано тем фактом, что задача (2.26) эквивалентна максимизации апостериорного распределения параметров w с учетом имеющихся данных, что мы дополнительно обсудим в следующем разделе. Это приводит к следующей задаче для весового вектора
, где мы определили ; = ;/; и напомним, что потери при обучении равны LD (w) = N -1 ;tD ; XD w;2 .
2.3. Частотный подход 33

ML против MAP. Согласно (2.27), важно отметить следующее общее свойство MAP решения: по мере увеличения числа N точек данных оценка MAP стремится к оценке ML, учитывая, что вклад члена с предопределённой информацией уменьшается как 1/N. Когда N достаточно велико, любая предопределённая достоверность, следовательно, заменяется информацией, полученной из данных.
Задача (2.27), которую часто называют гребневой регрессией, модифицирует критерий ML путем добавления квадратичной (или Тихоновской) функции регуляции
умноженное на слагаемое ;/N. Функция регуляризации делает норму решения малой, особенно при больших значениях гиперпараметра ; или, что эквивалентно, ;. Решение задачи (2.27) может быть найдено с помощью стандартного LS-анализа, который дает
Это выражение подтверждает, что по мере увеличения N член ;I становится пренебрежимо малым, и решение стремится к оценке ML (2.18) (см. [86] для формальной обработки).
34 Плавное введение с помощью линейной регрессии
обобщение
(посредством проверки)
обучение
средний квадратный корень из потерь
Рисунок 2.6: Квадратный корень из потерь при обобщении Lp (wM AP) и потерь при обучении LD (wM AP) как функция параметра регуляризации ; для набора обучающих данных на рис. 2.1 с M = 9.
На рис. 2.6 показан квадратный корень из общего показателя потерь Lp (wM AP) и потери при обучении LD (wM AP ) в зависимости от ; (в логарифмической шкале) для набора обучающих данных на рис. 2.1 с M = 9. Потери при обобщении оцениваются с использованием валидации. Мы наблюдаем, что увеличение ; и, следовательно, актуальность члена регуляризации имеют аналогичное действие, которое приводит к уменьшению порядка модели M. Увеличение ; снижает эффективную производительность модели. Другими словами, увеличение ; уменьшает переобучение, но может привести к большему смещению.
Другие стандартные примеры для предыдущего распределения включают функцию  распределения плотности вероятности \фрпв\ Лапласа, который дает функцию регуляризации нормы l1 R(w) = ;w;1 = ;Mj=0 |w|1 . Этот термин способствует разреженности решения, что полезно во многих алгоритмах восстановления сигнала [14] и при оценке непараметрических
функций [146]. Соответствующая задача оптимизации
известен как ЛАССО (оператор наименьшей абсолютной усадки и отбора \ОНАУО\ ).
2.3. Частотный подход
2.3.5 Регуляризация
Выше мы видели, что критерий обучения MAP сводится к добавлению регуляризационной функции R(w) в ML или ERM  потерь в обучении. Эта функция корректирует значения весового вектора w, которые могут возникнуть при переобучении или, как правило, являются маловероятными на основе имеющейся предварительной информации. Конечным результатом этого добавления является существенное снижение производительности модели, поскольку набор значений для вектора параметров w, из которого алгоритм обучения, скорее всего, будет выбирать, сокращается. В результате, как видно, регуляризация может контролировать переобучение, а ее оптимизация требует проверки.
Регуляризация обычно относится к методам, направленным на снижение переобучения во время обучения. Обсуждение в предыдущем подразделе было сосредоточено на конкретной форме регуляризации, которая основана на вероятностной интерпретации с точки зрения изучения MАР. Мы отмечаем, что те же самые методы, такие как регрессия гребня и ЛАССО, также могут быть использованы независимо от вероятностной структуры в формулировке ERM. Кроме того, помимо обсуждаемого добавления регуляризационных терминов к эмпирическому риску, существуют другие способы выполнения регуляризации.
Один из подходов заключается в модификации схемы оптимизации с использованием
таких методов, как ранняя остановка [56]. Другой - в расширении обучающего набора путем создания искусственных примеров и, следовательно, эффективного увеличения числа N обучающих примеров. С этой идеей связана технология, известная как упаковка в пакеты. С помощью упаковки мы сначала создаем ряд K из наборов данных начальной загрузки \бутстрап\ . Наборы данных начальной загрузки получаются путем равномерного выбора N
точек данных с заменой из D (так что одна и та же точка данных обычно появляется несколько раз в наборе данных начальной загрузки). Затем мы обучаем модель K раз, каждый раз на разных начальных этапах. Наконец, мы усредняем результаты, полученные с помощью моделей, с использованием равных весовых коэффициентов. Если бы ошибки, накопленные различными моделями, были независимыми, то суммирование дало бы ошибку оценки, которая уменьшается с увеличением K. На практике достигается значительно меньший выигрыш, особенно при больших K, учитывая, что все наборы начальных данных взяты из D и, следовательно, ошибки оценки не являются независимыми [23].
36 Краткое введение с помощью линейной регрессии
2.4 Байесовский подход




Частотные подходы, рассмотренные в предыдущем разделе, предполагают существование истинного распределения и направлены на определение конкретного значения параметров ; вероятностной модели для получения предиктора (см. (2.3)). ML выбирает значение ;, которое максимизирует вероятность получения обучающих данных, в то время как MAP включает в этот расчет также предопределённую информацию о векторе параметров. Таким образом, при частотном подходе данные имеют два распределения: истинное распределение,
аппроксимируемое эмпирическим распределением данных, и модель  (см. дальнейшее обсуждение в разделе 2.8).
Байесовская точка зрения концептуально отличается: (i) Она предполагает, что все точки данных совместно распределены в соответствии с известным распределением, за исключением некоторых гиперпараметров; и (ii) параметры модели ; совместно распределены вместе с данными. В результате, как это будет обсуждаться, вместо того, чтобы придерживаться какого-то одного значения для объяснения данных, байесовский подход рассматривает объяснения, предоставляемые всеми возможными значениями ;, каждое из которых взвешивается в соответствии с обычно отличающимися и зависящими от данных “уверениями”.
Более формально, байесовская точка зрения рассматривает вектор параметров как rvs, которые совместно распределяются с метками tD в обучающих данных D и в новом примере t. Следовательно, мы имеем совместное распределение p(tD , w, t|xD , x). Напомним, что условия для точек предметной области xD и x в обучающем наборе и в новом примере, соответственно, являются отличительными признаками дискриминативных вероятностных моделей. Байесовское решение просто доводит этот выбор модели до логической конечной точки: чтобы предсказать новую метку t, оно непосредственно оценивает апостериорное распределение p(t|xD , tD , x) = p(t|D, x) с учетом доступной информации (D, x) применяя правила отличий для  вероятности к совместному распределению p (tD , w, t|xD , x).
Как видно, апостериорная вероятность p(t|D, x) может быть использована в качестве
прогнозирующего распределения в (2.3) для оценки предиктора t(x). Однако полностью Байесовское решение возвращает все апостериорное значение p(t|D, x), которое предоставляет значительно больше информации о ненаблюдаемой метке t. Как мы обсудим ниже, это знание, закодированное в апостериорном p(t|D, x), объединяет предполагаемую предварительную информацию о весовом векторе w
2.4. Байесовский подход
37

и информацию, полученную из данных D.
Для уточнения в оставшейся части этого раздела мы предполагаем, что параметр точности ; является фиксированным и что единственными доступными для изучения параметрами являются веса в векторе w. Совместное распределение меток в обучающем наборе, весовом векторе и новой метке, обусловленное точками области xD в обучающем наборе и новой точкой x, задается
как
априорное распределение
правдоподобие
распространение новых данных
В предыдущем уравнении мы определили априорное распределение данных; коэффициент правдоподобия p(tD |xD , w) = ;N n=1 N (tn |µ(xn , w), ; -1) в (2.13)4 ; и функция плотности вероятности новой метки p(t|w, x) = N (t|µ(x, w), ; -1). Часто бывает полезно отказаться от зависимости от точек области xD и x, чтобы записать только совместное распределение случайных величин в модели в виде
априорное распределение
правдоподобие
распределение новых данных
Эта факторизация может быть представлена графически с помощью байесовской сети (BN) на рис. 2.7. Значение графика должно быть ясно при проверке, и оно будет подробно рассмотрено в главе 7.
Стоит отметить, что, рассматривая все величины в модели – за исключением гиперпараметра ; –  от которого случайный вектор зависит, байесовская точка зрения устраняет различие между обучением и логическим выводом. Фактически, поскольку в байесовской модели предполагается, что совместное распределение известно, возникает проблема определения неизвестного случайного вектора для величины\свдв\. Чтобы еще раз подчеркнуть этот важный момент, байесовский подход объединяет все проблемы в общую задачу логического вывода, заключающаяся в оценке подмножества, от которого случайный вектор зависит\свз\, с учетом других зависимых случайных векторов\свз\ в наборе совместно распределенных случайных векторов \св\ с известным общим распределением.
4 Правдоподобие также известно как выборочное распределение в байесовской системе
[92].
38 Небольшое введение с помощью линейной регрессии
Рисунок 2.7: Байесовская сеть (BN), описывающая совместное распределение (2.32) весового вектора w, меток tD в обучающих данных D и t в новом примере, используемом в байесовском подходе.
Как уже упоминалось, мы заинтересованы в вычислении апостериорной вероятности-
вероятность p(t|D, x) новой метки t задана обучающими данными D и новой точкой области x = x. Снова отбросив переменные области для упрощения обозначения, мы применяем стандартные правила вероятности, чтобы получить
, где второе равенство следует из правила маргинализации p(tD , t) = ;p(tD , w, t)dw, а последнее равенство - из теоремы Байеса. Восстанавливая зависимость от переменных предметной области, мы получаем прогнозное распределение в виде
апостериорное распределение w
Это ключевое уравнение. Соответственно, байесовский подход учитывает прогнозирующую вероятность p(t|x, w), связанную с каждым значением весового вектора w, взвешенным по апостериорному уверению величины
 Последующее уверение значения p(w|D), которое определяет вес вектора параметров w, следовательно, пропорционально предыдущему значению p(w), умноженному на поправку p(tD |xD , w), обусловленную наблюдаемыми данными.
Вычисление апостериорного значения p (w|D), а также сильно прогнозирующего распределения p(t|x, D), как правило, является сложной задачей, требующей применения методов приближенного вывода, описанных в главе 8. Для этого
2.4. Байесовский подход

например, однако, мы можем напрямую вычислить прогнозирующее распределение в виде [23]
, когда s2 (x) = ; -1 (1 + ;(x)T (;I + XТDXD ). В данном  конкретном примере оптимальным предсказателем при потере l2 является MAP. Это является следствием того факта, что режим и среднее значение гауссовского pdf \функции плотности вероятности\ совпадают, и не является главным свойством. Тем не менее, как будет показано далее, байесовский подход может предоставить значительно больше информации о метке t, чем ML или MAP.
ML и MAP в сравнении с байесовским подходом. Байесовский апостериорный подход (2.36) обеспечивает более точное предсказание меток t с учетом объясняющих переменных x по сравнению с прогнозируемым распределением p(t|x, ; M L ) = N (µ(x, WML ), ; -1 ), возвращаемый ML и аналогичным образом MAP. Чтобы увидеть это, обратите внимание, что последний имеет особую вариацию для всех значений x, а именно ; ;1 . Вместо этого байесовский подход показывает, что из-за неравномерного распределения наблюдаемых значений x точность прогноза меток зависит от значения x: Значения x, расположенные ближе к существующим точкам в обучающих наборах, обычно демонстрируют меньшую вариацию.
Это показано на рис. 2.8, где показан обучающий набор, а также соответствующий предиктор µ(x, wM AP) и интервал высокой вероятности µ(x, wM AP) ± s(x), полученный байесовским методом. Мы устанавливаем M = 9, ; -1 = 0,1 и ;-1 = 0,2 ; 105. Для справки, мы также показываем интервал µ(x, wM AP ) ± ; -1/2, который будет получен в результате анализа МАР. Эти интервалы иллюстрируют способность байесовского подхода обеспечивать информацию о неопределенности, связанной с оценкой t.
Это преимущество байесовского подхода отражает его концептуальное отличие от частотного подхода: частотное прогнозирующее распределение относится к гипотетическому новому наблюдению, полученному с помощью того же механизма, что и обучающие данные; вместо этого байесовское прогнозирующее распределение количественно оценивает  статистическое уверение в значение t с учетом предполагаемых значений предопределённых и обучающих данных.
40 Плавное введение с помощью линейной регрессии

байесовски:
M AP
Рисунок 2.8: Иллюстрация прогнозирующего распределения p(t|x, D), полученного байесовским методом для обучающей выборки, показанной на рисунке, в сравнении с распределением, полученным с помощью критерия MAP. Больший интервал соответствует µ(x, wM AP)±s(x) для байесовского метода, в то время как меньший интервал соответствует µ(x, wM AP) ± ; -1/2 для MAP (M = 9, ; -1 = 0,1 и ;-1 = 0,2 ; 105).
Из (2.36) мы можем сделать еще одно важное общее замечание о взаимосвязи с ML и MAP, касающееся асимптотического поведения, когда N велико. В частности, когда N ; ;, мы уже видели, что неофициально выполняется ограничение wM AP ; wM L. Теперь мы видим, что дисперсия s2 (x) байесовского прогнозирующего распределения также имеет тенденцию к ; -1 . В результате мы можем заключить, что байесовское прогнозирующее распределение приближается к тому, которое возвращает ML, когда N велико. Один из способов обдумать этот вывод заключается в том, что, когда N велико, апостериорное распределение p(w|D) весов имеет тенденцию концентрироваться вокруг оценки ML, следовательно, ограничивая среднее значение (2,34) вкладом решения ML.
Предельная \маргинальная, выделяющееся \  вероятность \правдоподобие. Еще одно преимущество байесовского подхода заключается в том, что, в принципе, он позволяет выполнять выбор модели без проверки достоверности. Для этого вычислите предельную вероятность \выделяющееся правдоподобие\
то есть плотность вероятности для обучающего набора при маргинализации по распределению веса. При использовании подхода ML используется соответствующее
2.4. Байесовский подход 41
количество \квантити\ p(tD |xD , wM L ) может увеличиться только при выборе большего модельного заказа M . Фактически, большее M влечет за собой больше степеней свободы в оптимизации (2.16) LL. Аналогичное обсуждение относится и к MAP. Однако это не относится к (2.37): большее значение M подразумевает более “размытое” предварительное распределение весов, что может привести к более размытому распределению меток в (2.37). Следовательно, увеличение M может привести к меньшей предельной вероятности \ выделяющемуся правдоподобию\.
Рисунок 2.9: Выделяющеся правдоподобие \ Предельная вероятность \ в зависимости от порядка модели M для обучающего набора, представленного на рис. 2.1 (; = 10, ;0 = 10-3).
Чтобы проиллюстрировать этот момент, на рис. 2.9 показана  выделяющеся правдоподобие \предельная вероятность \ для набора данных на рис. 2.1 для ; = 10 и трех различных значений ; как функции M. Предельную вероятность в этом примере можно легко
вычислить, поскольку у нас есть
Замечено, что предельная вероятность достигает максимума при заданном значении M и уменьшается при удалении от оптимального значения. Следовательно, мы могли бы принять значение M, при котором предельная вероятность максимизируется по выбранному порядку построения модели.
Означает ли это, что валидация действительно не нужна при принятии байесовской точки зрении? К сожалению, это не обязательно так.
42 Небольшое введение с помощью линейной регрессии
На самом деле, все равно нужно задать гиперпараметр ;. Как показано на рис. 2.9, изменение ; может привести к различным выводам об оптимальном значении M . Альтернативным подходом было бы рассматривать ; и даже M как случайный вектор rv с заданными приоритетами, которые необходимо указать (см., например, [131]). Это не устранило бы проблему выбора гиперпараметров, которые в настоящее время определяют предыдущие распределения ; и M, но это может привести к созданию мощной иерархической системы.
модели. Необходимые инструменты будут рассмотрены в главе 7.
В качестве заключительного замечания, вместо использования часто непрактичных методов исчерпывающего поиска, рекомендуется оптимизация по гиперпараметрам и порядку модели M для всех рассмотренных до сих пор критериев, а именно ML, MAP и Байесовский, которые можут быть выполнены с использованием так называемых инструментов байесовской оптимизации [132]. Недостатком этих методов является то, что они имеют свои собственные гиперпараметры, которые необходимо выбирать.
Эмпирический метод Байеса. Так называемый эмпирический метод Байеса объединяет как частотную, так и байесовскую точки зрения. Этот подход предполагает априорное распределение параметров, но затем оценивает параметры априорного значения - скажем, среднее значение и дисперсию \вариацию\ гауссовского априорного значения – на основе данных [48].

 2.5 Минимальная длина описания (MDL);
В этом разделе мы кратко представляем третью, концептуально отличную от других, философию обучения - критерий MDL. Предупреждаем читателя, что изложение здесь довольно поверхностное и что более формальное определение критерия MDL потребовало бы более мудрённого обсуждения, которое можно найти в [60]. Кроме того, желательно иметь некоторый опыт в теории информации, чтобы в полной мере извлечь пользу из этого обсуждения.
Для начала мы вспомним из приведенного выше изложения, что обучение требует идентификация модели или класса гипотез – здесь порядок модели M – и конкретной гипотезы, определяемой параметрами ; – здесь ; = (w, ;) – внутри класса. Хотя MDL можно использовать для обеих задач, здесь мы остановимся только на первой.
Чтобы создать необходимую справочную информацию, теперь нам нужно рассмотреть
взаимосвязь между вероятностными моделями и сжатием. С этой целью рассмотрим сигнал x, принимающий значения в конечном алфавите X, например, размер пикселя
2,5. Минимальная длина описания (MDL);  43
на изображении в серой шкале. Определите некоторую функцию массы вероятности (pmf) p(x) в этом алфавите. Ключевой результат в теории информации гласит, что можно разработать схему сжатия без потерь, которая использует ;; log p(x); биты для представления значения x5
В силу этого результата выбор распределения вероятности p(x) сродни выбору схемы сжатия без потерь, которая создает описание в битах с округлением по логарифму p(x) для представления значения x. Обратите внимание, что длина описания ; логарифм p(x) уменьшается с присвоенной вероятностью от p(x) к значению x: более вероятным значениям при p(x) присваивается меньшее значение. описание. Важно отметить, что декодеру необходимо знать значение p(x), чтобы восстановить значение x из описания бита.
На неофициальном уровне критерий MDL предписывает выбор модели, которая сжимает обучающие данные до максимально короткого описания. Другими словами, модель, выбранная MDL, определяет схему сжатия, которая описывает набор данных D с минимальным количеством битов. Таким образом, принцип MDL можно рассматривать как
формулировку "бритвы Оккама": выбирайте модель, которая дает простейшее объяснение данным. Как мы увидим ниже, этот критерий естественным образом приводит к решению, которое наказывает за переобучение.
Какова длина описания набора данных D, которое получается в результате выбора определенного значения M ? Ответ не является однозначным, поскольку для заданного значения M существует столько же вероятностных распределений, сколько значений для соответствующих параметров ;, из которых можно выбирать. Следовательно, формальный расчет длины описания потребовал бы введения концепции универсального сжатия для данной вероятностной модели [60]. Здесь мы ограничимся отодельный класс универсальных кодов, известных как двухкомпонентные коды.
Используя двухкомпонентные коды, мы можем вычислить длину описания для данных D, которые являются результатом выбора модельного порядка M, как показано ниже. Сначала мы получаем МL раствора (wML , ;ML). Затем мы описываем набор данных, используя схему сжатия, определяемую  вероятностью p(t|x, wML , ;ML) = N (t|µ(x, wML ),  ;-1ML).  Как уже обсуждалось, это
5 Это известно как неравенство Крафта. Точнее, оно гласит, что используемая схема сжатия без потерь не содержит префиксов и, следовательно, может быть декодирована или обратима без задержки [38].
44 Краткое введение с помощью линейной регрессии
продуцирует описание , приблизительно равное ; ;Nn=1 log(tn |xn , wML , ;ML) бит 6. Однако этого описания недостаточно, поскольку декодер описания также должен быть проинформирован о параметрах (wML , ;ML).
Используя квантование, параметры могут быть описаны с помощью числа C(M) битов, пропорционального количеству параметров, здесь M + 2. Объединение этих битов с описанием, полученным с помощью модели ML, дает общую длину описания
MDL – в упрощенной форме, обсуждаемой здесь, – выбирает порядок модели M, который минимизирует длину описания (2.39). Соответственно, термин C(M ) действует как регуляризатор. Таким образом, оптимальное значение M для критерия MDL является результатом компромисса между минимизацией накладных расходов C(M ), что требует небольшого значения M, и минимизацией NLL, которая уменьшается с увеличением M .
При некоторых технических допущениях служебный член часто может быть вычислен в виде (K/2) ln N + c, где K — количество параметров в модели, а c - константа. Это выражение не совсем полезно на практике, но дает представление о механизме, используемом MDL для борьбы с переобучением.
2.6 Теоретико-информационные показатели
Теперь мы дадим краткое введение в теоретико-информационные показатели, используя пример, рассмотренный в этой главе. Как мы увидим в следующих главах, теоретико-информационные показатели широко используются при определении алгоритмов обучения. Приложение А содержит подробное  ведение в теоретико-информационные показатели в терминах задач логического вывода. Здесь мы представляем ключевые показатели анализа Кульбака-Лейблера (KL) дивергентность и энтропию, исследуя асимптотическое поведение ML в режиме большого N. Случай с конечным N рассмотрен в главе 6 (см. раздел 6.4.3).

6 При этом игнорируется техническая проблема, заключающаяся в том, что метки на самом деле являются непрерывными  зависимыми случайными векторами rvs , что может быть учтено с помощью квантования.
2.6. Теоретико-информационные показатели 45
Для начала мы вернемся к проблеме ML (2.15), которая сводится к минимизации NLL ;N -1 ;N n=1 ln p(tn |xn , w, ;), также известная как логарифмическая потеря. Согласно частотной точке зрения, обучающий набор  переменных выведен независимо одинаково распределённым i.i.d.  в соответствии с истинным распределением p(x, t), т. е. (xn , tn ) ; pxt независимо одинаково распределённым i.i.d. в соответствии с n = 1, ..., N . Согласно строгому закону больших чисел, мы имеем следующий предел с вероятностью один
Как мы увидим далее, этот предел имеет полезную интерпретацию в терминах расхождения KL.
Расхождение KL между двумя распределениями p и q определяется как
Следовательно, расхождение KL - это математическое ожидание логарифмического отношения правдоподобия (LLR) ln(p(x)/q(x)) между двумя распределениями, где ожидание берется относительно распределения в числителе. Коэффициент LLR в среднем имеет тенденцию быть больше, если два распределения отличаются более существенно, и в то же время равен нулю только тогда, когда оба распределения равны. Таким образом, коэффициент KL-дивергенции измеряет “расстояние” между двумя распределениями. Например, при p(x) = N (x|µ1 , ;12 ) и q (x) = N (x|µ2 , ;22) мы имеем
и, в частном случае ;12 = ;22 = ;2 2 , мы можем записать
, которые действительно увеличиваются по мере того, как два распределения становятся более различными.
Расхождение KL измеряется в натах, когда используется натуральный логарифм, как показано в (2.41), в то время как оно измеряется в битах, если используется логарифм по основанию 2. В целом, дивергенция KL обладает несколькими желательными свойствами как мера расстояния между двумя распределениями [23, с. 55-58].  Наиболее заметным является неравенство Гиббса
KL(p;q) ; 0, (2,44)
46 Небольшое введение с помощью линейной регрессии
, где равенство выполняется тогда и только тогда, когда два распределения p и q идентичны. Тем не менее, расхождение KL также имеет некоторые, на первый взгляд , неблагоприятные особенности, такие как его несимметрия, то есть неравенство KL(p;q) ;KL(q;p). В главе 8 мы увидим, что отсутствие симметрии можно использовать для определения различных типов приближенных выводов и методов обучения.
Важно отметить, что расхождение KL может быть записано в виде
где первый член, H(p||q), известен как перекрестная энтропия между p(x) и q(x) и играет важную роль в качестве критерия обучения, как описано ниже; в то время как второй член, H(p), является энтропией распределения p(x), который является мерой случайности. Мы обращаемся к приложению А для дальнейшего обсуждения энтропии.
Основываясь на разложении (2.45), мы видим, что перекрестная энтропия H(p||q) также может быть принято как мера расхождения между двумя распределениями, когда кто-то заинтересован в оптимизации распределения q(x), поскольку последнее не входит в энтропийный термин. Обратите внимание, что перекрестная энтропия, в отличие от дивергенции KL, может быть отрицательной.
Используя определение (2.41), ожидаемая логарифмическая величина потерь в правой
части (2.40) может быть выражена как
что можно легко проверить, используя закон повторяющихся ожиданий. Следовательно, средняя логарифмическая потеря - это среднее значение по точке x перекрестной энтропии между реальным прогнозируемым распределением p(t|x) и прогнозируемым распределением p(t|x, w, ;), определяемым моделью. От (2.46), задача ML (2.15) может быть интерпретирована как попытка сделать основанное на модели дискриминантное распределение p(t|x, w, ;) как можно более близким к фактическому заднему значению p(t|x). Это достигается путем минимизации расхождения KL или, что эквивалентно, перекрестной энтропии при усреднении по p(x).
В качестве заключительных замечаний, в машинном обучении принято использовать
обозначение KL(p;q), даже когда q ненормализовано, то есть когда q(x) равно
2.7. Интерпретация и причинно-следственная связь; 47
неотрицательно, но мы можем иметь неравенство ;q(x)dx;1. Мы также наблюдаем, что энтропия H(p) = Ex;px [; ln p(x)] неотрицательна для дискретных rv, в то время как для непрерывных rv она может быть отрицательной. При оценке из-за ее различных свойств для непрерывных rv величина H(p) должна быть более точно обозначена как дифференциальная энтропия, когда распределение p представляет собой pdf [38]. В остальной части этой монографии мы не всегда будем проводить это различие.
2.7 Интерпретация и причинно-следственная связь;
При обучении прогностической модели с использованием любого из рассмотренных выше подходов важной и часто упускаемой из виду проблемой является интерпретация результатов, получаемых с помощью обученного алгоритма. Это фактически превратилось в отдельную область в рамках глубоко активной исследовательской области нейросетей  (см. главу 4) [102]. Здесь мы описываем типичную ошибку интерпретации, которая относится к оценке причинно-следственных связей между переменными в модели. Мы следуем примеру из [113].
На рис. 2.10 (вверху) показано возможное распределение точек данных на плоскости, определяемой координатами x = физическая нагрузка и t = холестерин (числовые значения произвольны). Обучение модели, которая связывает t как зависимую переменную с переменной x, позволило бы четко определить тенденцию к росту – можно предсказать, что у человека, который больше тренируется, будет более высокий уровень холестерина. Этот прогноз обоснован и подтверждается имеющимися данными, но можем ли мы также заключить, что меньшие физические нагрузки снизят уровень холестерина в крови? Другими словами, можем ли мы заключить, что существует причинно-следственная связь между x и t? Мы знаем, что ответ будет отрицательным, но это невозможно установить из данных на рисунке.
48 Небольшое введение с помощью линейной регрессии

Холестерин
Упражнение
Холестерин
Упражнение
Рисунок 2.10: Иллюстрация парадокса Симпсона [113].
Выходом из этой ситуации является использование имеющейся у нас предварительной информации о проблемной области. На самом деле, мы можем объяснить эту ложную корреляцию, включив в модель другую измеримую переменную, а именно возраст. Чтобы убедиться в этом, рассмотрим те же данные, теперь перерисованные с выделением возраста человека, соответствующего каждой точке данных. Полученный график, показанный на рис. 2.10 (внизу), показывает, что пожилые люди — в пределах наблюдаемой группы — как правило, имеют более высокий уровень холестерина, а также больше занимаются спортом. Таким образом, возраст является распространенной причиной как физических нагрузок, так и уровня холестерина. Следовательно, чтобы установить причинно-следственную связь между последними переменными, нам необходимо учитывать возраст. Для этого необходимо рассмотреть тенденцию в каждом возрасте отдельно и прийти к ожидаемому выводу о том, что физические упражнения полезны для снижения уровня холестерина.7
Мы приходим к выводу, что в этом примере корреляция между x и t, хотя и полезна для прогнозирования, не должна использоваться для принятия решений. Оценивая причинно-следственную связь между x и t, мы должны сначала понять, какие другие переменные могут объяснить наблюдения, а затем отбросить любые ложные корреляции.
Это обсуждение раскрывает важное ограничение большинства существующих алгоритмов машинного обучения, когда речь заходит об определении причинно-следственных связей или, в более общем плане, об ответах на запросы, основанные на контрфактах [112]. Изучение причинно-следственной связи может быть проведено в рамках элегантной структуры
7Этот пример является примером так называемого парадокса Симпсона: закономерности, видимые в данных, исчезают или даже меняются местами в отдельных данных.
2.8. Резюме 49
работ по вероятностным графическим моделям, разработанным Пёрл [113, 81, 118]. Другие родственные подходы описаны в [115]. Более подробное обсуждение вероятностных графических моделей можно найти в главе 7.
2.8 Краткое изложение
В этой главе мы рассмотрели три ключевые системы обучения, а именно частотную, байесовскую и MDL, в рамках параметрической вероятностной системы. Частотная точка зрения постулирует наличие истинного неизвестного распределения данных и направлена на изучение предиктора, который хорошо обобщает невидимые данные, полученные из этого распределения. Это может быть сделано либо путем обучения вероятностной модели,  которую необходимо подключить в выражение оптимального предиктора или путем непосредственного решения задачи ERM с использованием предиктора. Байесовский подход выводит прогнозное распределение, которое объединяет предшествующую информацию с данными, решая проблему логического вывода, заключающуюся в вычислении апостериорного распределения по невидимой метке. Наконец, метод MDL нацелен на выбор модели, которая позволяет описывать данные с наименьшим количеством битов, что устраняет необходимость в определении задачи обобщения на ненаблюдаемых примерах.
В главе также подробно рассмотрена ключевая проблема, связанная с переобучением, демонстрирующее, как эффективность алгоритма обучения может быть понята с точки зрения предвзятости \смещения\ и ошибки оценки. В частности, хотя выбор класса гипотез имеет важное значение для обеспечения возможности обучения, выбор “неправильного” класса представляет собой неустранимую ошибку, которая может сделать обучение невозможным. В качестве примера из реальной жизни, как сообщается в [109], включение в x в качестве независимых переменных почтового индекса физического лица, обращающегося за кредитом в банк, может привести к дискриминации иммигрантов или меньшинств. Другим примером этого явления является знаменитый эксперимент, проведенный Б. Ф. Скиннер о голубях [133].
В заключение этой главы мы подчеркиваем важный факт о вероятностных моделях, которые используются в современных приложениях машинного обучения. В частотных методах обычно используются по меньшей мере два (возможно, условных) распределения: распределение эмпирических данных и модельное распределение. Первое представляет собой гистограмму данных, которая по закону больших чисел стремится к реальному распределению
50 Плавное введение с помощью линейной регрессии
, когда число точек данных стремится к бесконечности; в то время как последняя параметризуется и подлежит оптимизации. По этой причине показатели расхождения между двумя распределениями играют важную роль в разработке алгоритмов обучения. В остальной части монографии мы увидим, что другие частотные методы могут включать в себя одно распределение, а не два, как обсуждалось в разделе 6.6, или дополнительное, так называемое вариационное распределение, как описано в разделе 6.3 и главе 8.
Напротив, байесовские методы предполагают единое согласованное распределение данных и параметров и формулируют проблему обучения следующим образом один из методов вывода ненаблюдаемых переменных. Как мы обсудим в главе 8, вариационные байесовские методы также вводят дополнительное вариационное распределение и являются основой для частотного обучения при наличии ненаблюдаемых переменных.
Основным примером в этой главе является линейная регрессия для гауссовой модели. В следующей главе представлены необходимые инструменты для построения и изучения более общих вероятностных моделей.
3 Вероятностные модели для обучения
В предыдущей главе мы представили частотный байесовский подход, и обучающие платформы MDL. Как мы уже видели, параметрические вероятностные модели играют ключевую роль для всех трех из них. Пример линейной регрессии, рассмотренный в предыдущей главе, был ограничен простой линейной гауссовой моделью, которой недостаточно, чтобы охватить весь спектр проблем обучения, с которыми приходится сталкиваться на практике. Например, представляющие интерес сценарии могут включать дискретные переменные или неотрицательные величины. В этой главе мы представляем семейство вероятностных моделей, известное как экспоненциальное семейство, члены которого используются в качестве компонентов во многих из наиболее распространенных вероятностных моделей и алгоритмов обучения. Изложенное здесь будет использовано в остальной части монографии, чтобы обеспечить необходимую математическую подготовку. На протяжении всей этой главы мы будем особо подчеркивать общие свойства моделей семейства экспоненциальных, которые окажутся полезными при построении алгоритмов обучения в следующих главах.
52 Вероятностные модели для обучения
3.1 Предварительные замечания
Мы начнем с краткого обзора некоторых определений, которые будут использоваться на протяжении всей главы и в других разделах монографии (подробнее см. [28] ). Читатели, имеющие опыт работы с выпуклым анализом и  вычислениями, могут просто ознакомиться с концепцией достаточной статистики в последнем параграфе.
Сначала мы определяем выпуклое множество как подмножество RD для некоторого D, которое содержит все отрезки между любыми двумя точками множества.  Следовательно, геометрически выпуклые множества не могут иметь “углублений”. Функция f (x) является выпуклой, если ее область является выпуклым множеством и если она удовлетворяет неравенству f (;x + (1 ;;)y) ; ;f (x) + (1 ; ;)f (y) для всех x и y в ее области и для всех 0 ; ; ; 1. Геометрически это условие говорит о том, что функция имеет форму “U”: кривая, определяющая функцию, не может лежать выше отрезка, полученного путем соединения любых двух точек на кривой. Функция — это строго выпуклая, если приведенное выше неравенство является строгим, за исключением случаев, когда ; = 0 или ; = 1, когда x ; y. Вогнутая, или строго вогнутая, функция определяется путем изменения неравенства на противоположное – следовательно, она имеет форму “;”.
Минимизация выпуклой (“U”) функции по выпуклому набору ограничений или максимизация вогнутой (“;”) функции по выпуклому набору ограничений известны как задачи выпуклой оптимизации. Для решения этих задач существуют мощные аналитические и алгоритмические инструменты для получения глобально оптимальных решений [28].
Мы также представляем две полезные концепции из математического анализа. Градиент дифференцируемой функции f (х) при Х = [Х1 · · · хD ]Т ; RD определен как D ; 1 вектор ;f (х) = [;F (х)/;x1 · · · ;f (х)/;хD ]T, содержащие все частные производные. В любой точке x в области действия функции градиент представляет собой вектор, указывающий на направление локально максимального увеличения функции. Гессиан ;2f (x) - это матрица D ; D с элементом (i, j), заданным производной второго порядка ; 2f (x)/;xi ;xj . Она отражает локальную кривизну функции.
Наконец, мы определяем понятие достаточной статистики. Рассмотрим rv x ~ p(x|;), распределение которого зависит от некоторого параметра ;. Функция f (x) является достаточной статистикой1 для оценки ;, если вероятность \правдоподобие\
1 Статистика является функцией данных.
3.2. Экспоненциальное семейство 53
p(x|;) параметров ; зависит от x только через функцию f (x). В качестве примера, для rv x ~N (0, ;2 ) можно легко увидеть, что функция f (x) = x2 достаточна для оценки дисперсии ;2 .
3.2 Экспоненциальное семейство
В этом разделе мы представим экспоненциальное семейство параметрических вероятностных  моделей. Как будет показано ниже, это семейство включает в качестве частных случаев большинство распределений, обычно используемых при решении задач машинного обучения. Например, оно включает гауссово, Лапласово, Гамма-, Бета- и Дирихле функции плотности вероятности, а также Бернулли, категориальные, полиномиальные и пуассоновские функции массы вероятности pmfs. Обширный список можно найти в [156].
3.2.1 Основные определения
Экспоненциальное семейство содержит вероятностные модели вида
где x - дискретный или непрерывнозначный вектор; ; = [;1 · · · nK ]T - вектор натуральных параметров; u(x) = [u1 (x) · · · uK (x)]T — вектор достаточной статистики, при этом каждая достаточная статистика uk (x) является функцией от x; m(x) ; 0 - базовая мера, которая является функцией от x, не зависящей от вектора естественных параметров ;; и Z(;) — статистическая \частичная\ сумма
для непрерывных rv и Z(;) = ;x exp (; T u (x)) m (x) для дискретных rv. Можно видеть, что достаточный статистический вектор u(x) является достаточной статистикой для оценки вектора естественных параметров ; при заданном x.
Статистическая функция нормализует распределение таким образом, что оно интегрируется или суммируется до единицы. Также часто бывает полезно использовать ненормализованное распределение
54 Вероятностные модели для обучения
поскольку последние, как правило, легче поддаются оценке.


Короче говоря, распределения, принадлежащие к семейству экспоненциальных, таковы что логарифм ненормализованного распределения ~p(x|;), который также известен как функция энергии, является линейной2 по естественным параметрам, т.е.

По этой причине модели вида (3.1) также называются логарифмически линейными.3 Включая статистическую обработку, LL натуральных параметров можно записать в виде
где
- функция логарифмического разбиения.
Согласно (3.1), вероятностная модель, принадлежащая к семейству экспоненциальных, определяется набором достаточных статистических данных {uk (x)}Kk=1, порядок следования которых не имеет значения, и определяется мерой m(x). Конкретная гипотеза в рамках модели выбирается путем определения естественного вектора параметра ;. Набор допустимых значений естественных параметров содержит все и только те векторы ;, для которых может быть нормализовано ненормализованное распределение p(x|;), то есть для которых выполняется неравенство A(;) < ;. Ниже мы увидим, что это множество выпуклое.
Пример 3.1. (Гауссовская функция плотности вероятности pdf) В качестве первого примера рассмотрим гауссовскую pdf
Это может быть записано в виде (3.1) после определения базовой меры m(x) = 1 и достаточной статистики u(x) = [x x2]. Обратите внимание, что для того, чтобы сделать это, нам нужно сопоставить параметры (;, ;2 ) с
2 Или, точнее, аффинными, учитывая наличие аддитивной константы.
3Существует более общая версия экспоненциального семейства, в которой естественные параметры являются нелинейными функциями параметров, определяющих распределение.
33.2. Экспоненциальное семейство 55
натуральными  параметрами через соотношение ; = [;/;2 ; 1/(2;2 ) ]. В результате, в то время как параметры (;, ;2 ) принимают все возможные допустимые значения в R ; R+ , вектор натуральных параметров ; принимает значения из набора R ; R; . Каждое значение ; в этом наборе соответствует допустимому pdf в классе гипотез из N моделей (x|;, ;2). Наконец, мы можем вычислить функцию логарифмического разбиения как
Для того чтобы обеспечить идентифицируемость естественных параметров, достаточная статистика {uk (x)}K k=1 должно быть линейно независимым. Это означает , что никакая достаточная статистика uk (x) не может быть вычислена для всех x как линейная комбинация других достаточных статистических данных uk' (x) с k' ;k. Например, это имеет место для вектора u(x) = [xx2 ], имеющего достаточную статистику для гауссовского распределения. Это условие называется минимальным представлением [151]. Если не указано иное, в дальнейшем мы будем предполагать, что исследуемое экспоненциальное семейство минимально. Кроме того, мы будем исходить из технического условия, что набор подходящих значений для ; также открыт (то есть исключается его граница), что дает регулярное экспоненциальное семейство.
3.2.2Натуральные параметры, средние параметры и выпуклость
Как следует из приведенного выше примера, после определения достаточной статистики и базовой меры можно определить конкретную гипотезу – pdf или pmf – либо задав вектор ; естественных параметров, либо вектор µ средних \значений\ параметров. Последнее определяется как математическое ожидание вектора достаточной статистики
µ = Ex~p(x|;) [u(x)]. (3.8)
В предыдущем примере мы имеем вектор среднего параметра µ = [E[x] = ;, E[x2 ] = ;2 + ;2 ]T . Таким образом, мы можем использовать обозначение p(x|µ) а также p(x|;) для описания модели в экспоненциальном семействе. Как мы увидим ниже, наличие этих двух вариантов параметризации подразумевает , что обучение может осуществляться на основе любого набора переменных.
56 Вероятностные модели обучения
Ключевым свойством экспоненциального семейства является то, что соответствие между естественными параметрами и средними параметрами определяется степенью логарифмической функции разбиения. В частности, можно проверить, что частная производная логарифмической функции разбиения равна среднему значению соответствующей достаточной статистике
или, в векторной форме,
Хотя мы не будем использовать этот результат здесь, аналогично гессиан ;2; A(;) логарифмической статистической функции, можно видеть, что равен ковариационной матрице достаточной статистики4 . Которая также равна информационной матрице Фишера для естественных \натуральных\ параметров [45].
Функция логарифмического разбиения A(;) в (3.6) строго выпукла в ;, как это следует из того факта, что она представляет собой функцию логарифмической суммы exp, составленную с аффинной функцией [28]. Это свойство имеет следующие важные следствия. Во-первых, множество допустимых значений для естественных параметров является выпуклым множеством [28]. Заметим, что это, как правило, не относится к соответствующему набору допустимых значений для средних параметров. Во-вторых, соответствие (3.10) между естественными параметрами ; и средними параметрами µ обратимо (см., например, [10])5.
В-третьих, функция LL lnp(x|;) в (3.5) является вогнутой функцией от ;. Как будет рассмотрено далее, задача ML, следовательно, сводится к задаче максимизации выпуклой оптимизации.
3.2.3 Модель Бернулли
В связи с ее важностью для задач бинарной классификации, мы подробно описываем здесь модель Бернулли. Мы также вводим важную логистическую сигмовидную функцию.
4 В более общем плане функция логарифмического разбиения A (;) является кумулятивной функцией для rvx .
5Обратное отображение между средними параметрами и естественными параметрами задается градиентом ;µ A; (µ) выпуклой сопряженной функции A; (µ) = supn ; T µ ; A(;),
где максимизация происходит по допустимому набору естественных параметров.
3.2. Экспоненциальная Семья 57
Распределение Бернулли для двоичного rv x ; {0, 1} представлено в виде
где µ = Ex~Bern(x|µ) [x] = Pr[x = 1]. Поскольку мы можем записать функцию LL
как
достаточной статистической величиной, определяющей модель Бернулли, является u(x) = x, а
функция измерения - m(x) = 1. Соотношение между естественным параметром ; и средним параметром µ представлено в виде
то есть естественным параметром является значение LLR ; = ln(Bern(1|µ)/Bern(0|µ)). Функция (3.13) также известна как логит-функция. Соответствующий следовательно, набор допустимых значений равен R.
Вместо этого обратное отображение задается логистической сигмовидной функцией
Сигмовидная функция преобразует действительное число в интервал [0, 1] с помощью S-образной формы, которая связывает значения меньше 0,5 с отрицательными значениями аргумента, а большие значения - с положительными числами. Наконец, функция логарифмического разбиения задается выпуклой функцией натуральных параметров
A(;) = ;ln(1 ; µ) = ln(1 + e ; ). (3.15)
Обратите внимание, что соотношение (3.10) легко проверяется.
3.2.4 Категориальная модель или модель Мультинулли
Из-за его роли в многоклассовой классификации мы вводим здесь в некоторых деталях категориальное или мультинуллиевое распределение, а также однократное кодирование категориальных переменных и функцию мягкого максимума.
Категориальная модель применима к дискретным переменным, принимающим значения C, которые здесь обозначены без потери общности как {0, 1, ..., C ; 1}. Обратите внимание, что
58 Вероятностные модели для обучения
, устанавливающие C = 2, восстанавливают распределение Бернулли. Pmf в этой модели представлены в виде
где мы определили µk = Pr [x = k] для k = 1, . . . , C ; 1 и µ0 =1 ; ;C;1k=1 ; k= Pr [x = 0]. Функция LL задается в виде
Это демонстрирует, что категориальная модель относится к экспоненциальному типу, с достаточным вектором статистики u(x) = [1(x = 1) · · · 1(x = C — 1)]T и функцией измерения m(x) = 1. Кроме того, средние параметры µ = [µ1 · · · µC;1 ]T связаны с вектором естественных параметров ; =[;1 · · · nC;1 ]T отображением
который снова принимает форму LLR. Обратное отображение задается формулой ;

Приведенная здесь параметризация минимальна, поскольку достаточные статистические данные u(x) линейно независимы. Чрезмерно полное представление вместо этого включало бы в вектор достаточной статистики также функцию 1(x = 0). В этом случае результирующий вектор достаточной статистики
известна как однократное кодирование категориальной переменной, поскольку только
одна запись равна 1, в то время как остальные равны нулю. Кроме того, с помощью этого 3.3. Частотного обучения
59

при кодировании соответствие между естественными параметрами и средними параметрами µ = [µ0 · · · µC;1 ]T может быть выражено в терминах функции софтмакс
Функция софтмакс softmax(;) преобразует вектор “оценок” ; в вектор вероятности. Кроме того, функция обладает тем свойством, что при увеличении c до бесконечности софтмакс(c;) стремится к вектору со всеми нулевыми входами, за исключением позиции, соответствующей максимальному значению ;k (при условии, что оно уникально). Это оправдывает ее название.
3.3 Частотное обучение
В этом разделе мы приводим общие результаты, касающиеся ML и MAP обучения, когда вероятностная модель принадлежит к семейству экспоненциальных. Как было показано в предыдущей главе, при использовании ML и MAP предполагается, что
N доступных точек данных xD = {x1 , . . . , xN } являются независимыми одинаково распределёнными i.i.d.  реализациями вероятностной модели p(x|;) как
Эти данные используются для оценки естественных параметров ; или соответствующих средних параметров µ.
Используя (3.5), LL вектора естественных параметров, заданного наблюдением xD, можно записать в виде
Следовательно, пренебрегая членами, не зависящими от ;, мы можем записать
60 Вероятностные модели для обучения
, в которых мы определили совокупную достаточную статистику
и вектор u(xD ) = [u1 (xD ) · · · uK (xD )]T .
Первое важное наблюдение состоит в том, что функция LL зависит только от K-статистики uk (xD ), k = 1, ..., K. Следовательно, вектор u(xD ) является достаточной статистикой для оценки ; с учетом наблюдения xD . Важно отметить, что вектор u(xD ) имеет размер K, и, следовательно, он не увеличивается с увеличением размера N набора данных. Фактически, экспоненциальное семейство оказывается уникальным в этом отношении: неофициально, среди всех распределений, поддержка которых не зависит от параметров, только распределения в экспоненциальном семействе обладают достаточной статистикой, число которых не растет с увеличением числа N наблюдений (теорема Купмана-Питмана-Дармуа) [7].
Градиент функции LL. Ключевым результатом, который оказывается очень полезным при построении алгоритмов обучения, является выражение градиента из LL (3.24) по отношению к естественным параметрам. Для начала, частную производную по ;k можно записать в виде
Используя (3.9) и (3.10), это означает, что мы имеем
и для градиента

Следовательно, градиент (3.28) определяется разницей между эмпирическими средними  N -1 ;Nn=1 u(xn ) из достаточной статистики с учетом данных xD и среднего значения по совокупности µ.
3.3. Частотное обучение 61
Следующее наблюдение помогает интерпретировать алгоритмы, основанные на градиентном подъеме или спуске для экспоненциальных семейств.  Нормализованный градиент LL (3.28) имеет две составляющие: (i) “положительная” составляющая u(xD)/N указывает в направлении естественного пространства параметров, которое максимизирует ненормализованное распределение lnp(xD |;) =P ; tu(xD )+nn=1 lnm(xn ), следовательно, максимизируя “соответствие \фитнесс\” модели наблюдаемым данным xD ; в то время как (ii) “отрицательная” составляющая ;µ =;;; A(;) указывает на направление, которое минимизирует статистическую сумму, таким образом, минимизируется “приспособленность \фитнесс” модели к ненаблюдаемым данным. Противоречие между этими двумя компонентами устраняется, когда эмпирическое ожидание достаточной статистики становится равным ожидаемому в рамках модели, как описано ниже.
Обучение ML. Из-за вогнутости функции LL или, что эквивалентно, выпуклости NLL и при условии регулярности распределения, ML  оценка ; ML получается путем наложения условия оптимальности
;; lnp(xD |;) = 0,(3,29)
что дает
Другими словами, оценка ML средних параметров получается путем сопоставления средних значений по совокупности, полученных в рамках модели, с эмпирическими средними значениями, наблюдаемыми на основе данных. Эта процедура называется сопоставлением моментов. Обратите внимание, что из (3.30), при необходимости, мы также можем рассчитать
оценку ML ;M L, используя сопоставление между двумя наборами  параметров.
Из (3.30) мы можем сделать вывод, что оценка ML согласована: если данные получены из распределения p(x|;;) в пределах предполагаемого семейства, оценка ML будет стремиться к нему с вероятностью один, поскольку N растет до бесконечности по строгому закону больших чисел [86]. Однако для конечных N, ML могут пострадать от переобучения, как мы увидим далее.
Пример 3.2. (Гауссовский pdf). Оценки параметров ML
62 Вероятностные модели для обучения
(µ, ;2 ) для гауссовой модели задаются в виде
Для модели Бернулли мы имеем ML-оценку среднего параметра µ = Pr [x = 1]
где N [k] измеряет количество наблюдений, равное k, т.е.
N [k] = |{n : xn = k}|.
Обратите внимание, что N [1] имеет биномиальное распределение. Для категориальной модели, аналогичным образом мы можем записать ML-оценку средних параметров µk = Pr [x = k] в виде
Вектор [N [0], ..., N [C ; 1]]T имеет многочленное распределение.
Чтобы проиллюстрировать проблему переобучения, рассмотрим категориальную
модель. Согласно (3.34), если не наблюдается ни одного экземпляра данных, равного некоторому значению k, т.е. если N [k] = 0, ML присваивает нулевую вероятность событию x = k. Выражаясь математическим языком, если N [k] = 0, то ML-оценка вероятности события x = k равна нулю, то есть µk,ML = 0. Таким образом, ML дает нулевую вероятность любому ранее не наблюдавшемуся событию. Эта проблема, которая является примером переобучения, известна как парадокс черного лебедя или проблема нулевого счета: для европейских исследователей 17-го века– или, по крайней мере, для тех из них, кто придерживается принципа ML – черные лебеди в Северной и Южной Америке не могли существовать! [104]
Изучение MАР. В принципе, картографическое решение может быть получено путем
включения в условие оптимальности (3.29) градиента предыдущего распределения. Вместо этого мы решим задачу с MAP в следующем разделе путем вычисления режима апостериорного распределения параметров.
3.4. Байесовское обучение
3.4 Байесовское обучение
Как мы обсуждали в предыдущей главе, байесовская точка зрения заключается в том, чтобы
рассматривать все переменные как совместно распределенные, включая параметры модели
µ и новое ненаблюдаемое значение x. Совместное распределение задается как
априорное распределение
правдоподобие
распределение новых данных
, где ; представляет собой вектор гиперпараметров, определяющих предыдущее распределение. Задача определения ненаблюдаемого значения x решается путем оценки прогнозирующего распределения
Это распределение учитывает средневзвешенное значение вкладов от всех значений вектора параметров µ в соответствии с апостериорным распределением p(µ|xD , ;). Обратите внимание, что для наглядности мы оставили указанную зависимость от гиперпараметров ;. Используя теорему Байеса, задняя часть вектора параметров может быть записана как
Как обсуждалось в главе 2, это соотношение подчеркивает зависимость апостериорного значения как от предыдущего распределения, так и от вероятности p(xD |µ). Мы также отмечаем, что знаменателем в (3.37) является предельная вероятность \ выделяющееся правдоподобие\.
Предварительное распределение. Первый вопрос, который мы должны решить, - это выбор предварительного распределения. Существует два основных подхода: 1) Сопряжение
предшествующего значения: выберите предшествующее значение p(µ|;) таким образом, чтобы последующее значение p(µ|xD , ;) имело то же распределение, что и предыдущее значение p(µ|;), но, как правило, с другими параметрами; 2) Неинформативный априор: выберите априор, который является наименее информативным с учетом наблюдаемых данных [23, с. 117-120]. Здесь мы будем работать с сопряженными априорами, которые чаще используются в приложениях. На самом деле, ключевым преимуществом моделей экспоненциального семейства является то, что все они допускают сопряженные априорные значения, а сопряженные априорные значения также являются членами экспоненциального семейства.
Вместо общего обсуждения, которое может иметь ограниченное практическое применение, мы рассмотрим репрезентативные примеры. Таблицу моделей с соответствующими априорными распределениями можно найти в [155].
64 Вероятностные модели для обучения
3.4.1  Модель Бета-Бернулли
Модель Бета-Бернулли подходит для изучения двоичных данных. При условии, что параметр µ = Pr [x = 1], pmf N-го i.i.d  доступного набора данных наблюдения xD с xn ; {0, 1} задаются как
Как видно, сопряженный априор должен быть таким, чтобы апостериор (3.37) имел такое же распределение априора, но с другими параметрами. Для вероятности (3.38) предшествующим сопряжением является бета;распределение, которое определяется как
где a и b - гиперпараметры, а константа нормализации не указана явно, чтобы упростить запись. Стоит подчеркнуть- вычисление, согласно которому (3.39) представляет собой распределение вероятностей с вероятностью µ. Графики бета-pdf для различных значений a, b ; 1 приведены на рис. 3.1.
Рисунок 3.1: Бета-распределение с различными значениями гиперпараметров a, b ; 1.3.4. Байесовское обучение 65
Среднее значение и режим бета-тестирования pdf-файла можно оценить как

режим
где модальное выражение допустимо только при a, b > 1 (если это условие не выполняется, распределение является мультимодальным, см. рис. 3.1). Среднее значение (3.39) предполагают, что гиперпараметры a и b можно интерпретировать как количество наблюдений, для которых значения равны “1” и "0", в частности, из общего числа измерений a + b, основываясь только на предварительной информации. Более уместно, как мы увидим далее, мы можем придумать это предварительные наблюдения в виде "виртуальных” измерений, также известных как псевдосчетчики, которые следует использовать при реальных измерениях xD обучения.
Теперь мы можем вычислить апостериорное распределение вектора параметров, используя (3.37) как
Эта уверенность в том, что апостериорный дистрибутив действительно является бета-pdf, продиктована выбором бета-конъюгата \сопряжения\ приора. Кроме того, апостериорное бета-распределение имеет параметры a + N [1] и b + N [0]. Это согласуется с интерпретацией, приведенной выше: общее число эффективных наблюдений, равное "1“ и ”0", равно a + N [1] и b + N [0] соответственно. Как и ожидалось, картографическая оценка µ может быть получена путем использования апостериорного метода (3.37), что дает результат
Как мы обсуждали в предыдущей главе, у нас есть предел ;МAP ;;МL для N ; ;.
Возвращаясь к байесовской точке зрения, прогнозирующее распределение (3.36)
представлено в виде
66 Вероятностные модели для обучения
, в которых мы использовали выражение (3.40) для среднего значения бета-rv. Если оно мало, то прогнозная вероятность приблизительно равна среднему значению предыдущего, т.е. p(x = 1|xD, a, b) ; a / (A + b); в то время как, если она велика, как мы видели в предыдущей главе, прогнозирующая вероятность стремится к решению ML, т.е. p(x = 1|xD, a, b) ; N [1] / N.
В качестве примера несопряженного априора можно было бы выбрать распределение естественного параметра ; или, что эквивалентно, логит-функции (3.13) от µ, как гауссово [92].
Ниже приведен список потенциальных преимуществ байесовского подхода, которые уже обсуждались в главе 2 и которые позволяют избежать переобучения. Обратите внимание, что MAP также дал бы аналогичные результаты в этом примере.
Пример 3.3. (Предсказуемые онлайн-отзывы) На платформе онлайн-покупок есть два продавца, предлагающих товар по одинаковой цене. У первого 30 положительных отзывов и 0 отрицательных отзывов, в то время как у второго 90 положительных отзывов и 10 отрицательных отзывов. Какой из них выбрать? Чтобы решить эту проблему, мы можем изучить модель Бета-Бернулли для прогнозирования следующий отзыв будет положительным или нет. Мы можем вычислить вероятность того, что следующий отзыв будет положительным, с помощью прогнозирующего распределения (3.44). Результат показан на рис. 3.2: хотя первый продавец имеет 100% положительную ставку, в отличие от 90%-ной ставки первого продавца, мы предпочитаем выбирать первого продавца, если только предварительное распределение не является слабым, что в данном случае соответствует условию a = b;~ 3.
3.4.2 Категориальная модель Дирихле
Категориальная модель Дирихле обобщает Бета-Бернулли модель на случай дискретных наблюдений, которые могут принимать любое число C значений. Обработка выполняется в том же ключе, что и для Бета- Бернулли модель, и поэтому мы приводим лишь краткое описание. Функция правдоподобия может быть записана в виде
3.4. Байесовское обучение 67

Рис. 3.2: Вероятность того, что следующий положительный комментарий с использованием прогностического распределения (3.44) для примера 3.3.
Конъюгата приора \ сопряжение предопределённого\ распределения Дирихле, обобщение Бета-распределения :
, где ;k - гиперпараметр, представляющий число “предшествующих” наблюдений, равное k. Обратите внимание, что распределение Дирихле является совместным pdf для элементов вектора среднего значения µ. Векторы среднего значения и моды для распределения Дирихле задаются в виде
Следующим из параметров является распределение Дирихле
, в котором мы снова можем интерпретировать ;k + N [k] как эффективное число наблюдений, равное k. Из этого распределения мы можем получить MAP
68 Вероятностные модели
для оценки обучения в качестве режима \моды\. Наконец, байесовское прогнозирующее распределение имеет вид
Можно проверить, что поведение в двух режимах - малом и большом N - согласуется с обсуждением модели Бета-Бернулли.
3.4.3 Гауссово-гауссовская модель
В качестве последнего примера мы рассмотрим непрерывные наблюдения, которые, как предполагается, имеют гауссово распределение N (µ, ;2 ) с неизвестным средним значением µ, но известной дисперсией ;2 . Следовательно, функция правдоподобия равна p(xD |µ) =;N n=1 N (xn |µ, ;2 ). Сопряженный априор также является гауссовым, а именно p(µ|µ0 , ;0 2) =N (µ|µ0 , ;0 2) с гиперпараметрами (µ0 , ;0 2). Апостериорное значение p(µ|xD , µ0 , ;0 2) =N (µ|µN , ;N 2)
2 ), следовательно, является гауссовым, а среднее значение и дисперсия удовлетворяют
где, как мы помним, оценка ML равна ;ML =; Nn=1 xn /N. Обратите внимание, что, поскольку среднее значение и мода равны для гауссовского распределения, среднее значение µN также является оценкой карты µM AP из µ. Наконец, прогнозируемое распределение функция также является гауссовой и задается в виде p(x|xD , µ0 , ;02 ) = N (x|µN , ;2 + ;N2 ). К тому же, по мере увеличения N прогнозируемое распределение стремится к тому, которое получается при использовании метода ML, а именно N (x|; ML , ;2 ).
На рис. 3.3 показана взаимосвязь между ML, MAP и байесовским решениями для гауссово-гауссовой модели. На всех панелях пунктирная линия представляет предыдущее распределение, которое характеризует параметры (µ0 = 1, ;02 = 3), а пунктирная линия - это истинное распределение данных, которое предполагается гауссовым с параметрами (µ = 0, ;2 = 1), следовательно, относящимися к предполагаемой модели. Каждая подфигура отображает
реализацию N наблюдений (кружки), а также решение ML (ромб) и оценку по MAP (звездочка). Сплошные линии представляют байесовское прогнозирующее распределение.
По мере увеличения N мы наблюдаем следующие, уже обсуждавшиеся, явления: (i) ML оценка µM L последовательно оценивает истинное значение
3.5. Контролируемое обучение с помощью обобщенных линейных моделей (GLM)

Рисунок 3.3: Гауссово-гауссовская модель: исходное распределение N (x|µ0 = 1,;02 = 3) (
точечное), истинное распределение N (x|µ = 0,;2 = 1) (пунктирное), N наблюдений (кружки), МL решения (ромб), оценка МАР (звездочка) и байесовское прогнозирующее распределение
(сплошная линия).
µ = 0; (ii) оценка MAP, ; МAP, стремится к оценке ML, ; ML; и (iii) байесовское прогнозирующее распределение стремится к прогнозирующему распределению ML, которое, в свою очередь, совпадает с истинным распределением в соответствии с (i).
3.5 Контролируемое обучение с помощью обобщенных линейных моделей (GLM)
Распределения в семействе экспоненциальных напрямую не подходят для использования в качестве дискриминантных вероятностных моделей, которые будут использоваться в задачах контролируемого обучения. В этом разделе мы представляем обобщенные линейные модели (GLM), которые являются популярными вероятностными дискриминантными моделями, основанными на членах экспоненциального семейства.
70 Вероятностные модели для обучения
Для уточнения обозначим как экспоненциальный (·|;) вероятностную модель в семействе экспоненциальных, то есть модель вида (3.1) с естественными параметрами ;. Мы также записываем экспоненциальный (·|µ) для вероятностной модели в семействе экспоненциальных со средними параметрами µ.
Используя обозначения, принятые в предыдущей главе, в их наиболее распространенной форме, GLM определяет вероятность целевой переменной t как
где мы напоминаем, что x - это вектор объясняющих переменных, а W здесь обозначает матрицу изучаемых весов подходящих размеров. Согласно (3.53), GLM утверждают, что переменная отклика t имеет условное распределение из семейства экспоненциальных с естественным вектором параметров ; = wx, заданный линейной функцией от заданных объясняющих переменных x с весами W . В более общем случае, мы можем иметь параметризацию
для некоторого вектора признаков ;(·), полученного как функция входных переменных x (смотрите следующую главу).
Несмотря на то, что определение (3.54) является наиболее распространенным, оно все же не является наиболее общим для GLMS. В более широком смысле GLMs можно интерпретировать как обобщение линейной модели, рассмотренной в предыдущей главе, в соответствии с которой средние параметры определяются как линейная функция от вектора признаков. Эта точка зрения, описанная далее, может также обеспечить более интуитивное понимание допущений при моделировании, сделанных GLMs.
Напомним, что в повторяющемся примере из главы 2 целевая переменная была смоделирована как распределенная по Гауссу со средним значением, заданным линейной функцией ковариатов x. Расширяя пример, GLM использует условное распределение
где вектор среднего параметра параметризуется как функция вектора признаков ;(x) через обычно нелинейную векторную функцию g(·) подходящих размеров. Другими словами, в GLM предполагается, что целевая переменная является “зашумленной” мерой среднего значения µ = g(W ;(x)).
Когда функция g(·) выбрана в качестве градиента статистической суммы выбранной модели, например, g(·) = ;; A(·), то, согласно (3.10), мы
3.6. Свойство максимальной энтропии; 71
получаем GLM (3.54). Этот выбор для g(·) является типичным и называется (обратной) канонической функцией связи. Например, модель линейной регрессии p(t|x, w) = N (t|wT ;(x), ;2), используемая в главе 2, соответствует GLM с канонической функцией связи. На протяжении всей этой монографии, когда речь заходит о GLM, мы будем рассматривать модели вида (3.54) или, что эквивалентно (3.55), с функцией канонической связи. Для дальнейших обобщений мы обращаемся к [104, 15].
GLM, особенно в форме (3.54), широко используются. Как мы увидим, также в следующей главе мы обсудим, что изучение параметров GLM может быть выполнено с помощью градиентного подъема по LL, используя тождество (3.28) и цепное правило дифференцирования.
3.6 Свойство максимальной энтропии;
В этом более техническом разделе мы рассмотрим свойство максимальной энтропии экспоненциального семейства. Помимо того, что это свойство является убедительной мотивацией для использования моделей этого класса, оно также раскрывает взаимосвязь между естественными и средними параметрами.
Ключевым результатом является следующее: распределение p(x|;) в (3.1) имеет вид-
определяет максимальную энтропию для всех распределений p(x), удовлетворяющих ограничениям Ex;p(x) [uk (x)] = µk для всех k = 1, ..., K. Напомним, что, как упоминалось в главе 2 и более подробно обсуждалось в приложении A, энтропия - мера случайности случайной величины.  Математически распределение p(x|;) решает задачу оптимизации
Каждый естественный параметр ;k оказывается оптимальным множителем Лагранжа, связанным с k-м ограничением (см. [45, гл. 6-7]).
Чтобы увидеть практическую значимость этого результата, предположим, что единственная доступная информация о некоторых данных x предоставляется значениями \средними\ заданных функций uk (x), k = 1, ..., K. Вероятностная модель (3.1) тогда может быть интерпретирована как кодирующая наименьшее количество дополнительной информации о данных, в том смысле, что это “наиболее случайное” распределение при заданных ограничениях. Это наблюдение обосновывает принятие данной модели принципом максимальной энтропии.
72 Вероятностные модели для обучения
Более того, тот факт, что экспоненциальное распределение решает задачу о максимальной энтропии (3.56), таким образом раскрывает взаимосвязь между средними параметрами {µk} и естественными параметрами {;k}, поскольку естественный параметр ;k является оптимальным множителем Лагранжа, связанным с ограничением Ex;p(x) [uk (x)] = µk .
В качестве еще одного замечания по экспоненциальному семейству и теоретико-информационным метрикам, в приложении B мы приводим обсуждение расчета расхождения KL между двумя распределениями в одном и том же экспоненциальном семействе, но с разными параметрами.
3.7 Модели, основанные на энергии;
Обобщение экспоненциального семейства задается вероятностными моделями вида
где функции Ec (xc |;) называются энергетическими функциями, а Z(;) является статистической \разделения\  функцией. Каждая энергетическая функция Ec (xc |;) обычно зависит от подмножества xc переменных в векторе x. Если каждая энергетическая функция линейно зависит от вектора параметров ;, мы получаем экспоненциальное семейство, рассмотренное выше. Однако энергетические функции могут иметь более важную  нелинейную форму. Примером может служить функция Ec (xc |;) = ln (1 + (;cT xc)2 ), соответствующая модели t-распределения Стьюдента6 [83].
Модели в форме (3.57) кодируют информацию о достоверности различных конфигураций подмножеств rvs xc, используя соответствующее значение энергии: большая энергия влечет за собой недостоверную конфигурацию, в то время как малая энергия определяет вероятные конфигурации. Например, подмножество rvs xc может иметь тенденцию к равенству с высокой вероятностью, подразумевая, что конфигурации, в которых это условие не выполняется, должны обладать высокой энергией. Модели, основанные на энергии, обычно представляются с помощью графического формализма марковских сетей, как это будет обсуждаться в главе 7.
6T-распределение Стьюдента можно интерпретировать как бесконечную смесь гауссиан. В результате оно имеет более длинные хвосты, чем гауссианский pdf [23, глава 2].
3.8. Некоторые дополнительные темы; 73
В моделях, основанных на энергии, ключевая формула (3.28) градиента LL по отношению к параметрам модели обобщается как
Обобщая обсуждение (3.28), можно сказать, что первый член в (3.58) является “положительным” компонентом, указывающим на направление, которое минимизирует энергию наблюдений xD; в то время как второй член является “отрицательным” компонентом, который увеличивает энергию ненаблюдаемых конфигураций. В методах градиентного подъема применение первого термина обычно называется позитивной фазой, в то время как вторая фаза называется негативной. (Некоторые авторы даже используют негативную фазу для моделирования работы мозга во время сна! [56]) В то время как для экспоненциального семейства математическое ожидание в отрицательной фазе легко приводит к получению средних параметров, для более общих моделей оценка этого параметра, как правило, является непомерно высокой и обычно требует аппроксимаций методом Монте-Карло, которые обсуждаются в главе 8.
3.8 Некоторые дополнительные темы;
В предыдущих разделах основное внимание уделялось важному классу параметрических вероятностных моделей из семейства экспоненциальных. Здесь мы кратко рассмотрим содержание этой главы в более широком контексте вероятностных моделей для машинного обучения. Во-первых, часто бывает полезно закодировать дополнительную информацию о взаимосвязях между переменными модели с помощью графического формализма, который будет рассмотрен в главе 7. Во-вторых, проблема изучения распределения данных наблюдений, которая была изучена здесь с использованием параметрических моделей, также может быть решена с использованием непараметрического подхода. Соответственно, распределение определяется делая только предположения относительно его локальной гладкости. Типичные методы в этом семействе включают оценку плотности ядра \корня\ и  оценку плотности  ближайшего соседа (см., например, [140]).
Кроме того, в некоторых приложениях, вместо изучения отдельных плотностей вероятности, более полезно непосредственно оценить соотношения плотностей. Это тот случай, когда, например, требуется оценить
74 Вероятностные модели для изучения
взаимную информацию между двумя наблюдаемыми переменными или в тестах с двумя выборками, при которых необходимо решить, имеют ли два набора наблюдений одинаковое распределение или нет. Мы обращаемся к [140] за подробностями. Наконец, существуют важные сценарии, в которых невозможно назначить явную вероятностную модель для данных наблюдений, а только указать механизм генерации. Возникающие в результате проблемы с выводом без учета вероятности рассматриваются в [100] и будут дополнительно рассмотрены в главе 6.
3.9 Краткое содержание
В этой главе мы рассмотрели важный класс вероятностных моделей, которые широко используются в качестве компонентов алгоритмов обучения как для контролируемых, так и для неконтролируемых учебных задач. Среди ключевых свойств членов этого класса, известного как экспоненциальное семейство, есть такие, которые представляют собой простую форму, которую принимает градиент LL, а также наличие  доступных сопряженных априорных значений в том же семействе для байесовского вывода.  Обширный список распределений в экспоненциальном семействе вместе с соответствующей достаточной статистикой, функциями измерения, функциями логарифмического разбиения и отображениями между естественными и средними параметрами можно найти в [156]. Более сложные примеры включают в себя ограниченные машины Больцмана (RBM), которые будут рассмотрены в главах 6 и 8. Стоит отметить, что существуют также распределения, не относящиеся к экспоненциальному семейству, такие как равномерное распределение, параметризованное его поддержкой. В этой главе также была рассмотрена важная идея применения экспоненциальных моделей для обучения с помощью GLMS. Наконец, в качестве дополнительной темы были рассмотрены модели, основанные на использовании энергии.
В следующей главе будут представлены различные применения моделей из семейства
экспоненциальных для решения задач классификации.
Часть II
Контролируемое обучение
4
Классификация
В предыдущих главах были рассмотрены важные справочные материалы по обучающим и вероятностным моделям. В этой главе мы используем принципы и идеи, рассмотренные до сих пор, для изучения проблемы классификации при контролируемом обучении. Классификация, пожалуй, является квинтэссенцией проблемы машинного обучения, с самым передовым уровнем техники и наиболее широким применением для решения таких разнообразных задач, как обнаружение спама на электронной почте и медицинская диагностика. Из-за ограниченности объема эта глава не может дать исчерпывающий обзор всех существующих методов и новейших разработок, особенно в области активных исследований нейронных сетей. Например, мы не рассматриваем здесь деревья принятия решений (см., например, [158]). Скорее, мы представим принципиальную таксономию подходов и предложим несколько репрезентативных методов для каждой категории в рамках единой структуры. В частности, мы сначала представим в качестве предварительного материала метод оптимизации стохастического градиентного спуска. Затем мы обсудим детерминированные и вероятностные дискриминантные модели и , наконец, рассмотрим вероятностные порождающие модели.
76
4.1. Предварительные этапы: Стохастический градиентный спуск
4.1 Предварительные сведения: Стохастический градиентный спуск 77
 В этом разделе мы рассмотрим метод, который широко используется при решении задач оптимизации, которые определяют проблемы обучения, такие как ML и MAP (см. главу 2). Этот метод известен как стохастический градиентный спуск (SGD). SGD представлен здесь и применяется на протяжении всей этой монографии к другим задачам обучения, включая обучение без контроля и обучение с подкреплением. Обсуждения вопросов конвергенции и более продвинутых методов оптимизации, которые могут быть пропущены при первом чтении, можно найти в приложении А к этой главе.
SGD решает задачи оптимизации вида
, где ; - вектор переменных, подлежащих оптимизации. Функция затрат fn (;) обычно зависит от n-го примера в обучающем наборе D. В соответствии с обозначениями, приведенными в главе 2, например, в случае дискриминационных детерминированных моделей, общепринятая форма функций затрат
где ; - функция потерь; (xn , tn ) - n-й обучающий пример; и ;t(x, ;) — предиктор, параметризованный вектором ;.
SGD требует дифференцируемости функций затрат fn (·). Идея заключается в том, что
заключается в перемещении на каждой итерации в направлении максимального снижения для функции затрат в (4.1), когда последняя оценивается как ; n;S fn (;) по подмножеству или мини-пакету S выборок из обучающего набора.1 Учитывая график скорости обучения ; (i) и инициализации ; (0) параметров, SGD повторяется на каждой итерации до тех пор, пока не будут выполнены следующие два шага:
• Выбрать мини-пакет S из S индексов из набора {1, ..., N } в соответствии с некоторым заданным порядком или случайным образом;
1 Строго говоря, когда функции fn (;) фиксированы и они обрабатываются в соответствии с детерминированным порядком этот подход следует называть методом постепенного градиента [22]. Однако в машинном обучении используется термин SGD, который отражает тот факт, что выбор мини-пакетов может быть случайным, и что сумма (4.1) считается эмпирическим средним значением целевого совокупного среднего значения (см. также
[101]).
78 Классификация
• Обновите значения веса в направлении наиболее крутого местного спуска как
Скорость обучения ; (i) как функция итерации i, как правило, считается- считается частью гиперпараметров, которые должны быть оптимизированы с помощью валидации. Более подробное обсуждение этого вопроса можно найти в Приложении А к этой главе.
4.2 Классификация как задача обучения под наблюдением
Классификация - это задача контролируемого обучения, в которой метка t может принимать дискретное конечное число значений. Введение в контролируемое обучение приведено в разделе 2.1. В бинарной классификации каждая точка x домена относится к одному из двух классов, которые обозначаются как C0 и C1 и идентифицируются по значению метки t следующим образом
Обратите внимание, что для идентификации класса C0 нам будет удобно использовать либо метку t = 0, либо t = -1. В более общем случае для K классов C0 , C1 , ..., C K;1 , вместо этого мы предпочтем использовать однократное кодирование (разд. 3.2) путем обозначения точки x ; Ck  с  K ; 1 меткой t, содержащей все нули, за исключением записи “1” в позиции k + 1.
Пример 4.1. Примеры бинарной классификации включают обнаружение спама по электронной почте и оценку кредитоспособности 2. В первом случае точка x домена может быть закодирована с использованием модели набора слов, так что каждая запись представляет собой количество раз, когда каждый термин из заданного набора появляется в электронном письме. В последнем приложении основной вектор x обычно содержит ценную информацию для принятия решения о том, следует ли предоставлять клиенту кредит, такую как кредитный рейтинг и зарплата (см., например, [2]). Примеры многоклассовой классификации включают в себя классификацию текстовых документов по таким категориям, как спорт, политика или технологии, а также маркировку изображений в зависимости от типа изображенного предмета.
2 Классификатор “хот-дог/ не хот-дог”, разработанный в “Силиконовой долине" показывает HBO  (4 сезон) также является подходящим примером.
4.2. Классификация в качестве задачи обучения под наблюдением 79
Задача бинарной классификации проиллюстрирована на рис. 4.1. Учитывая обучающий набор D из помеченных примеров xn, n = 1, ..., N, задача состоит в том, чтобы присвоить новому примеру x класс C0 или C1. В этом конкретном стандартном наборе данных две переменные в каждом векторе xn измеряют длину и ширину листиков цветка ириса. Последние могут принадлежать либо к семейству сетоса, либо к семейству вирджиника, что обозначается меткой tn и представлено на рисунке разными маркерами. На всем протяжении мы обозначаем как D размер точки x домена (D = 2 на рис. 4.1).
Рисунок 4.1: Иллюстрация задачи бинарной классификации (K = 2 класса) с пространством предметной области размерности D = 2. К какому классу следует отнести новый пример x?
Следуя таксономии, представленной в главе 2, мы можем выделить следующие подходы к моделированию, которые будут рассмотрены в указанном порядке в оставшейся части этой главы.
• Дискриминантные детерминированные модели: непосредственно моделируют детерминированное отображение между точкой предметной области и меткой с помощью параметризованной функции t = ;t (x).
• Дискриминантные вероятностные модели: моделируют вероятность, что точка x принадлежит классу Ck с помощью параметризованного условного pmf p(t|x), при этом соотношение между t и Ck определено в (4.4). Мы также
80 Классификация
запишем p(Ck |x) для определения вероятности распознавания, когда это более удобно.
• Порождающая вероятностная модель: моделируйте совместное распределение точки домена и метки класса, задавая предварительное распределение p(t) или p(Ck) и зависящее от класса распределение вероятности p(x|t) или p(x|Ck) точек домена внутри каждого класса.
Дискриминационные модели, возможно, следует рассматривать как устанавливающие
современное состояние классификации, включая такие популярные методы, как метод опорных векторов (SVM) и глубокие нейронные сети.  Генерирующие модели потенциально более гибкие и мощные, поскольку они позволяют фиксировать различные свойства ковариат x, зависящие от класса.
4.3 Дискриминантно-детерминированные модели
В этом разделе мы обсудим бинарную классификацию с использованием дискриминантно- детерминированных моделей. Ввиду их практической важности и интуитивно понятных геометрических свойств мы сосредоточимся на линейных моделях, с помощью которых бинарное предсказание ;t(x) получается путем применения порогового правила к переменной принятия решения a(x, ~w), полученной как линейная функция изучаемых весов w (обозначения будут приведены ниже). Обратите внимание, что переменная a(x, w) решения может не быть линейной функцией ковариат x. Как мы обсудим, этот класс моделей лежит в основе важных алгоритмов, которые широко используются в практических приложениях, таких как SVM.  Краткое обсуждение многоклассовой классификации с использованием детерминированных моделей приведено в конце этого раздела. В следующих двух разделах мы рассмотрим дискриминантные вероятностные модели, включая GLM и более общие
модели.
4.3.1 Модель
В своей простейшей форме линейные дискриминативные детерминированные классификационные модели имеют вид
4.3. Дискриминантные детерминированные модели 81
, где активационная или решающая переменная задается в виде
и мы определили весовые векторы w = [w1 · · · wD ]T и ~w =[w0 w1 · · · wD ]T , а также точка расширенной области ~x = [1 xT ]T , где x = [x1 · · · xD ]T . Функция знака в правиле принятия решений (4.5) выводит 1, если его аргумент положительный, и 0 или -1, если аргумент отрицательный, в зависимости от предполагаемого правила ассоциации в (4.4).
Геометрическая интерпретация: классификация, геометрические и функциональные границы. Решающее правило (4.5) определяет гиперплоскость, которая разделяет точки области, классифицированные как принадлежащие к любому из двух классов. Гиперплоскость ; это прямая, когда D = 2; плоскость, когда D = 3; и, в более общем плане, D - 1-мерное аффинное подпространство [28] в доменном пространстве. Гиперплоскость определяется уравнением a(x, ~w) = 0, при этом точки с обеих сторон характеризуются либо положительными, либо отрицательными значениями активации a(x, ~w). Решающую гиперплоскость можно идентифицировать, как описано на рис. 4.2: вектор w определяет направление, перпендикулярное гиперплоскости, а ;w0 / ||w|| - это смещение решающей поверхности в направлении w.//

Рисунок 4.2: Ключевые определения для бинарного линейного классификатора.
82 Классификация
Учитывая точку x, полезно измерить уровень достоверности, при котором классификатор относит x к классу, определяемому с помощью правила (4.5). Это можно сделать, определив евклидово расстояние между x и гиперплоскостью принятия решения. Как показано на рис. 4.2, это расстояние, также известное как предел \прибыль\ классификации, может быть вычислено как |a (x, ~w) |/ ;w;.
Точка x имеет истинную метку t, которая может совпадать или не совпадать с меткой, присвоенной правилом (4.5). Чтобы учесть это, мы расширяем определение границы, присваивая положительный знак правильно классифицированным точкам и отрицательный знак неправильно классифицированным точкам. Предполагая, что t принимает значения в {-1, 1}, это дает определение геометрического раздела \прибыли\ как
абсолютное значение которого равно пределу классификации. Для дальнейшего
использования мы также определяем функциональный предел \прибыль\ как t · a (x, ~w).
Модель, основанная на характеристиках. Описанная выше модель, в которой активация является линейной функцией входных переменных x, имеет следующие недостатки.
Рисунок 4.3: Нелинейно разделяемый обучающий набор.
1) Смещение: как следует из примера на рис. 4.3, при разделении основной из ковариат x с помощью гиперплоскости может не получиться захватить
4.3. Дискриминантные детерминированные модели 83
геометрическую структуру данных. В частности, в приведенном примере два класса не являются линейно разделимыми в пространстве ковариат – гиперплоскость не разделяет точно точки области в двух классах. В таких случаях классификаторы вида (4.5) могут привести к большим средним потерям из-за смещения, вызванного выбором модели (см. раздел 2.3.3).
2) Переобучение: Когда D велико, а точек данных N недостаточно, изучение весов классификатора D + 1 может привести к переобучению.
3) Размер предметной области, зависящий от данных: В некоторых приложениях размерность D может даже изменяться от точки данных к точке данных, то есть может изменяться в зависимости от индекса n. Например, текст xn, например, представленный в формате ASCII, будет иметь другое измерение Dn в зависимости от количества слов в тексте.
Для решения этих проблем эффективным подходом является работа с векторами признаков ;k (x), k = 1, ... , D', а не непосредственно с ковариатами x в качестве входных данных для классификатора. Свойство ;k (x), как правило, является нелинейной функцией вектора x. Важно подчеркнуть, что эти функции являются фиксированными и не изучаются.
Выбор ряда признаков D' > D, который дает более полное представление точки данных x, может помочь избежать предвзятости; в то время как выбор неполного представления с D' < D может помочь решить проблему переобучения. Кроме того, одно и то же количество параметров D', например, количество слов в модели набора слов, может быть выбрано независимо от размера точки данных, что также решает последнюю проблему, перечисленную выше.
Функционально-ориентированная модель может быть выражена в виде (4.5) с активацией
где мы определили вектор признаков ;(x) = [;1 (x) · · · ;D' (x)]T . Обратите внимание, что модель (4.5) является частным случаем (4.8) с выбором ;(x) =[1 xT ]Т.
4.3.2 Обучение
Как видно из раздела 2.3.3, изучение детерминированных дискриминантных моделей может быть выполнено с помощью ERM для заданной функции потерь ;. Кроме того,
84
как обсуждалось в разделе 2.3.5, переобучением можно управлять, вводя функцию регуляризации R(~w) для весового вектора ~w. Соответственно, детерминированный предиктор ;t(x, ~w), определенный в (4.5), может быть получен путем решения регуляризованной задачи ERM
с эмпирическим риском
В (4.9) гиперпараметр ; должен быть выбран путем проверки, как описано в разделе 2.3.5.
Расширяя примеры, рассмотренные в разделе 2.3.5, член регуляризации обычно является выпуклым, но, возможно, не дифференцируемым, например, R (~w) = ;w;1 . Более того, естественным выбором для функции потерь является потеря 0-1, что подразумевает, что общая потеря Lp в (2.2) является вероятностью ошибки классификации.
В частном случае линейно разделяемых наборов данных результирующая задача ERM может быть преобразована в линейную программу (LP) [133]. Отсюда на практике невозможно гарантировать условие отделимости априори, обычно требуется непосредственно решить задачу ERM (4.9). Функция со знаком (·) почти везде имеет нулевую производную и не дифференцируема, когда аргумент равен нулю. По этой причине трудно решить задачу (4.9) с помощью стандартных алгоритмов оптимизации на основе градиента, таких как SGD. Вместо этого часто бывает полезно рассмотреть суррогатные функции потерь l(t, a), которые напрямую зависят от дифференцируемой (аффинной) активации a(x, ~w). Предпочтительно, чтобы суррогатная функция потерь была выпукла в a и, следовательно, в ~w, гарантируя, что результат регуляризованной ERM-задачи
является выпуклым. Это облегчает оптимизацию [28] и, при соответствующих дополнительных условиях, гарантирует обобщение [133] (см. также следующую главу). В идеале суррогатная функция потерь также должна иметь верхнюю границу
4.3. Дискриминантные детерминированные модели 85
для исходной функции потерь. Таким образом, фактические средние потери гарантированно будут меньше, чем значение, полученное при использовании суррогатной функции потерь. Примеры замещающих функций, которые будут рассмотрены далее, приведены на рис. 4.4.
шарнирные
экспоненциальные
логистические
персептрона
Рис. 4.4: Некоторые заметные суррогатной функции потерь для двоичной классификации с потерей 0-1.
Алгоритм Персептрона
Алгоритм персептрона является одним из самых первых алгоритмов машинного обучения и
 ИИ. Он был представлен Фрэнком Розенблаттом в Корнельском университете Авиационной лаборатории в 1957 году под шумок популярной прессы – это “зародыш электронного компьютера, который, как ожидают [военно-морские силы], будет быть способным ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование”, - сообщает Нью Йорк Таймс [144]. Алгоритм был реализован с использованием аналоговой электроники и продемонстрировал впечатляющую для того времени эффективность классификации изображений [23].
Используя для обобщения функциональную модель, алгоритм персептрона пытается решить задачу (4.11) с помощью суррогатной
86

функции потерь персептрона при классификации, определяемая как
Потеря персептрона приводит к нулевой стоимости правильно классифицированного примера x, функциональная маржа которого t · a (x, ~w) положительна, и стоимость, равная абсолютному значению функциональной маржи для неправильно классифицированного примера, функциональная маржа которого отрицательна. Сравнение с потерями 0-1 показано на рис. 4.4. Алгоритм персептрона решает задачу (4.11) при ; = 0 с помощью SGD с размером мини-пакета S = 1. Результирующий алгоритм работает следующим образом. Сначала инициализируются веса ~w(0). Затем для каждой итерации i = 1, 2, ...
• Равномерно выберите обучающий пример (xn , tn) с заменой из D;
• Если пример классифицирован правильно, т.е. если tn a(xn , ~w) ; 0, не обновляйте веса: ~w(i) ; ~w(i;1) ;
• Если пример неправильно классифицирован, т.е. если tn a(xn , ~w) < 0, обновите веса следующим образом:
Можно доказать, что на каждом шаге алгоритм уменьшает слагаемое l(tn , a(xn , ~w)) в потере персептрона, связанной с выбранным обучающим примером n, если последний неправильно классифицирован. Также можно показать, что, если обучающий набор линейно разделим, алгоритм персептрона находит весовой вектор ~w, который разделяет два класса точно за конечное число шагов [23]. Однако сходимость может быть медленной. Что еще более важно, персептрон дает сбой на обучающих наборах, которые не являются линейно разделяемыми, таких как обучающий набор “XOR” D={([0, 0]T , 0), ([0, 1]T , 1), ([1, 0] T , 1), ([1, 1]T , 0)} [97]. Осознание этого стало разочарованием и привело к первому так называемому зимнему периоду искусственного интеллекта, характеризующемуся сокращением финансирования bсследования в области искусственного интеллекта и машинного обучения [154].
Метод опорных векторов (SVM)
SVM, представленный в его современной форме Кортесом и Вапником [37] в 1995 год стал одной из основных причин возобновления интереса к машинному
4.3. Дискриминационные детерминистические модели 87

обучению и искусственному интеллекту. Для этого раздела мы запишем явно (и с
небольшим нарушением нотации) активацию в виде
чтобы подчеркнуть смещение w0. SVM решает регуляризованную задачу ERM (4.11) с помощью суррогатной функции потери шарнира
и с функцией регуляризации R(~w) = ;w;2 . Обратите внимание, что в последнем случае используется только вектор w, а не масса смещения w0 – ниже мы увидим, почему это разумный выбор. Функция потери шарнира также показана на Рис. 4.4.
Поэтому, в отличие от алгоритма персептрона, SVM включает в себя условие регулярности, которое, как было показано, обеспечивает надежные теоретические гарантии с точки зрения ошибки обобщения [39]. Более того, вместо того, чтобы полагаться на SGD, SVM пытается напрямую решить регуляризованную задачу ERM, используя мощные методы выпуклой оптимизации [28].
Для начала нам нужно разобраться с недифференцируемостью потери шарнира (4.15). Это можно сделать, введя вспомогательные переменные zn , по одной для каждого обучающего примера n. Фактически, применение неравенства zn ;;(tn , a(xn , ~w)) приводит к следующей эквивалентной задаче
, где z = [z1 · · · zN ]T . Эквивалентность между оригинальной регуляризованной задачей ERM и задачей (4.16) вытекают из того факта, что любое оптимальное значение переменных (~w, z) должно удовлетворять либо ограничению (4.16b), либо (4.16c) с соблюдением равенства. Это можно увидеть по противоречию: решение, для которого оба ограничения свободны для некоторого n, всегда можно улучшить, уменьшив значение соответствующих переменных zn до выполнения самого строгого из двух ограничений в (4.16). Как следствие, при оптимальном решении мы имеем равенство zn = l(tn , a(xn , ~w)).
88 Классификация
Преимущество формулировки (4.16) заключается в том, что задача является выпуклой
и, следовательно, может быть решена с использованием мощных методов выпуклой оптимизации [28]. На самом деле функция затрат строго выпуклая, и, следовательно, оптимальное решение является единственным [28]. Более того, оптимальное решение имеет
интересную интерпретацию в частном случае, когда набор обучающих данных линейно разделим. Как мы увидим, эта интерпретация оправдывает название этого метода.
Линейно разделяемые множества и опорные векторы. Когда набор данных линейно разделим, можно найти вектор ~w таким образом, чтобы все точки были правильно классифицированы, и, следовательно, все функциональные границы были положительными, т.е. tn · a(xn , ~w) > 0 для n = 1, ..., N. Более того, путем масштабирования вектора ~w таким образом, всегда можно гарантировать, что минимальный функциональный запас равен 1 (или любому другому положительному значению). Это означает, что мы можем без потери оптимальности ввести неравенства tn · a(xn , ~w) ; 1 для n = 1, ..., N и, следовательно, задать z = 0 в задаче (4.16). Это результат задачи оптимизации
Описанную выше задачу можно интерпретировать как максимизацию минимального геометрического запаса \прибыли, отрезка\ по всем точкам тренировки. Чтобы убедиться в этом, обратите внимание, что в соответствии с ограничением (4.17b) минимальный геометрический запас может быть вычислен как
Кроме того, мы называем векторы, удовлетворяющие ограничениям (4.17b) с равенством, т.е. tn · a(xn , ~w) = 1, в качестве опорных векторов, поскольку они поддерживают гиперплоскости, параллельные решающей гиперплоскости на минимальный геометрический предел \прибыль , отрезок\ . При оптимальном значении ~w имеется как минимум два опорных вектора, по одному с каждой стороны разделяющей гиперплоскости (см. [23, рис. 7.1]).
Используя двойственность Лагранжа, опорные векторы можно легко идентифицировать, наблюдая за оптимальными значениями {an } множителей, связанных с ограничениями (4.16b). Опорные векторы xn соответствуют положительным множителям Лагранжа an > 0 (см., например, [23]), в то время как все остальные точки имеют
4.3. Дискриминантные детерминированные модели 89
нулевые множители Лагранжа. Обратите внимание, что множители Лагранжа  вычислены с помощью стандартных решателей, таких как те, которые реализованы с помощью CVX инструмента тулбокс в MATLAB [58].

Рисунок 4.5: Пример бинарной классификации с помощью SVM с использованием полиномиальных признаков вплоть до степени M (;/N = 0.2).
Пример 4.2. В примере на рис. 4.5 проиллюстрированные N = 80 обучающих выборок передаются в SVM с использованием одночленного признака вектора ;(x) = [1 x1 x2 · · · x1M
x2M ] и ;/N = 0,2 для заданных порядков модели M. Граница принятия решения показана пунктирной и сплошной линиями.  Видно, что при использовании достаточно большого порядка (здесь M = 3) SVM способен эффективно разделить две выборки на два класса. Более того, даже при больших значениях M (здесь M = 8) SVM, по-видимому, не страдает от существенного переобучения благодаря квадратичному члену регуляризации.
Задача оптимизации (4.16) может быть удобно решена с помощью методов двойственности Лагранжа. Этот подход также позволяет естественным образом использовать мощный инструмент методов ядра. Заинтересованный читатель может ознакомиться с этим обсуждением в приложении В к этой главе.
90 Классификация
4.3.3 Многоклассовая классификация;
Здесь мы кратко опишем сценарии классификации с K > 2 классами. В качестве первого замечания, можно построить многоклассовые классификаторы на основе исключительно на нескольких бинарных классификаторах, таких как SVM. Это можно сделать, следуя одной из двух общих стратегий, а именно "один против всех" и "один против одного" [23, глава 7]. Подход "один против всех" обучает K отдельных двоичных классификаторов, скажем, k = 1, ..., K, при этом k-й классификатор работает с примерами, относящимися к классу Ck, в сравнении с примерами из всех других классов. Вместо этого метод "один на один" обучает K (K - 1)/2 бинарных классификатора, по одному для каждой пары классов. Оба подхода могут привести к неоднозначности в классификации [23, глава 7].
4.4 Дискриминантные вероятностные модели: Обобщенные линейные модели

Дискриминантные вероятностные модели потенциально более эффективны, чем детерминированные, поскольку они позволяют моделировать источники неопределенности при присвоении меток входным переменным. Эта случайность может моделировать шум, ошибки маркировки, например, для этикеток, полученных с помощью краудсорсинга \источник из толпы\, и/или остаточную неопределенность в правиле классификации из-за наличия ограниченных данных. Вероятностные модели также могут более естественно учитывать наличие более двух классов, создавая вероятность распределения по возможным значениям меток.
В этом разделе мы изучаем GLM, которые были представлены в разделе 3.5. Напомним, что GLM (3.54) утверждает, что условный pmf p(t|x), или p (Ck |x), является членом экспоненциального семейства, в котором вектор естественного параметра ; задается как линейная функция вектора признаков ;(x), т.е. ; = W ;(x) для весовой матрицы W. 3 Следует отметить, что GLM не являются линейными: только ненормализованное логарифмическое правдоподобие является линейным в весовой матрице W (см. раздел 3.2). Мы начнем с обсуждения бинарной классификации, а затем рассмотрим многоклассовый случай в разделе 4.4.3.
3 Более общее определение приведено в разделе 3.5.
4.4. Дискриминантные вероятностные модели: Обобщенные линейные модели 91
4.4.1 Модель
Для целей классификации метка t может принимать конечное число значений и, следовательно, может быть описана переменной Бернулли в бинарном случае или, в более общем случае, категориальной переменной (см. главу 3). GLM (3.54) для бинарной классификации известно как логистическая регрессия, и оно предполагает прогнозирующее распределение
Напомним, что ;(a) = (1 + exp(;a))-1 является сигмовидной функцией (см. Глава 2). Мы также наблюдаем, что
;(;a) = 1 ; ;(a), (4.20)
это означает, что мы можем записать p(t = 0|x) = 1;;(~wT ;(x)) = ;(;~wT ;(x)). Интуитивно сигмовидную функцию в (4.19) можно рассматривать как “мягкую” версию пороговой функции sign(a), используемой в детерминированных моделях, рассмотренных в предыдущем разделе.
Мы подчеркиваем, что модель логистической регрессии (4.19) является GLM, поскольку она представляет собой распределение Бернулли, которое относится к семейству экспоненциальных, с вектором естественных параметров ; = ~wT ;(x), как в
Логический вывод. Прежде чем перейти к обсуждению обучения, мы заметим, что логический вывод прост. Фактически, как только известна дискриминационная модель (4.19),
средняя потеря 0-1, то есть вероятность ошибки, сводится к минимуму путем выбора метки в соответствии со следующим правилом
или эквивалентно
92  Классификация
4.4.2 Обучение
Рассмотрим сначала ML. Функцию NLL можно записать в виде
где мы определили yn = ;(~wT ;(xn )). NLL (4.23) также используется в качестве критерия потери перекрестной энтропии, поскольку член ;t ln(y) ; (1 ; t) ln(1 ; y) - это перекрестная энтропия H((t, 1 ; t)||(y, 1 ; y)) (см. раздел 2.6). Отметим, что перекрестная энтропия может быть использована для получения верхних оценок вероятности ошибки (см., например, [50]). Задача ML по минимизации NLL является выпуклой (см. раздел 3.1), и, следовательно, ее можно решить либо непосредственно с помощью инструментов выпуклой оптимизации, либо с помощью итерационных методов, таких как SGD или Ньютона (последний дает итерационный перевешенный минимум алгоритма площади [23, с. 207]).
При разработке этих методов используется выражение градиента функции LL (3.28) (используемое при N = 1) для экспоненциального семейства. Чтобы уточнить, используя цепное правило для дифференцирования, мы можем записать градиент
что, если вспомнить, что ;; ln(Bern(t|;)) = (t ; ;(;)) (см. (3.28)), дает
Оценка точного апостериорного распределения для байесовского подхода, как правило, оказывается трудноразрешимой задачей из-за сложности в нормализации постеори\ задней части\
Мы ссылаемся на [23, с. 217-220] для получения приближенного решения, основанного на
приближении Лапласа. Другие полезные приближенные методы будут рассмотрены в главе 8.
4.4. Дискриминантные вероятностные модели: Обобщенные линейные модели 93
В качестве последнего замечания, с биполярными метками, т.е. t; {-1, +1},
функция потерь перекрестной энтропии может быть записана как
Эта формулировка показывает, что логистическую регрессию можно рассматривать как
Метод ERM с функцией потерь l(t, a(x, ~w)) = ln(1 + exp(;ta(x, ~w)), которая, как показано на рис. 4.4, является выпуклой заменой потерь 0-1.
Смешанные модели.; Как видно, байесовский подход позволяет получить прогнозируемое распределение путем усреднения по нескольким моделям p(t|x, w) относительно апостериорного значения p(w|D) параметров (см. (2.34)). Таким образом, результирующая модель смешивает прогнозы, полученные с помощью нескольких дискриминантных моделей p(t|x, w), для получения прогнозирующего распределения p(t|x) =
;p(w|D)p(t|x, w)dw. Как мы кратко обсудим ниже, также возможно обучить смешанные модели в рамках частотной структуры.
Рассмотрим K вероятностных дискриминантных моделей p(t|x, wk ), k = 1, ..., K,
таких как логистическая регрессия. Смешанная модель определяется как
В этой модели вектор ; изучаемых параметров включает в себя вектор вероятности ;, который определяет относительный вес K моделей, и векторы w1 , ..., wK для K составляющих моделей. Как уже обсуждалось, в байесовском подходе веса ;k вычисляются непосредственно с использованием правил вероятности, как это сделано в (4.27). Вместо этого в рамках частотного подхода обучение ML обычно выполняется с помощью специализированного алгоритма, который будет описан в главе 6 и известен как максимизация математического ожидания (EM).
Смешанные модели увеличивают возможности дискриминантных моделей и это позволяет изучать более сложные взаимосвязи между ковариатами и метками. В частности, смешанная модель, такая как (4.29), имеет количество параметров, которое увеличивается пропорционально количеству K составляющих моделей. Следовательно, емкость смешанной модели возрастает с увеличением K. В качестве примера, эту увеличенную емкость можно использовать, специализируя каждую составляющую модель p (t|x, wk) на другой области
ковариационной области.
94 Классификация
Учитывая их большую вместимость, смесевые модели могут быть подвержены перегрузке. Способ контроля перегрузки будет рассмотрен в разделе 4.7.
4.4.3 Многоклассовая классификация
В случае K классов соответствующее экспоненциальное распределение семейств является Категориальным с естественными параметрами, линейно зависящими от вектора признаков. Это дает следующую дискриминантную модель как обобщение логистической регрессии
где вектор меток t определяется с использованием однократного кодирования (глава 3), а W - это матрица весов. Мы также можем эквивалентно записать вектор вероятностей для K классов в виде

, где y = [y1 · · · yK ]T с yk = p(Ck |x); и ;k = wk+1 T;(x) c wkT- это k-я строка весовой матрицы W .
Обучение происходит так же, как и для логистической регрессии. Чтобы кратко пояснить этот момент, NLL можно записать в виде функции перекрестной энтропии
, где логарифм применяется элемент за элементом, и мы получаем yn = softmax(W ;(xn )). Обратите внимание, что каждый член в (4.32) может быть выражен как перекрестная энтропия -tTn ln(yn ) = H(tn ||yn ). Проблема ML снова возникает выпуклой и, следовательно, эффективно разрешимой. Градиент NLL можно снова найти, используя общую формулу (3.28) для экспоненциальных моделей и правило цепочки для производных. Мы можем записать
4.4. Дискриминантные вероятностные модели: Обобщенные линейные
модели95
, которые дают
;W ln p(t|x, W ) = (t ; y);(x)T .(4.34)
4.4.4  Отношение к нейронным сетям
Модели GLM вида (4.30) или (4.19) в частном случае бинарной классификации могут быть интерпретированы в терминах показанной нейронной сети на рис. 4.6. Нейронная сеть состоит из ориентированного графа вычислительных элементов, известных как нейроны. Каждый нейрон применяет детерминированное преобразование своих входных данных, определяемое входящими ребрами, для получения скалярного вывода на своем исходящем ребре.
На рис. 4.6 входной вектор x сначала обрабатывается скрытым слоем нейронов, в котором каждый k-й нейрон вычисляет признак ;k (x). Затем каждый k-й нейрон в выходном слое применяет k-й элемент нелинейности софтмакс (4.31) к числам, полученным скрытыми
нейронами, чтобы вычислить вероятность yk = p(Ck |x). Обратите внимание, что, в случае бинарной классификации достаточно только одного выходного нейрона, чтобы вычислить вероятность (4.19). Также важно подчеркнуть, что запоминаются только веса между скрытым и выходным слоями, в то время как работа нейронов в скрытом слое фиксирована.
Рисунок 4.6: GLM как трехслойная нейронная сеть с обучаемыми весами только между скрытым и выходным слоями.

Мы отмечаем, что не следует путать график, подобный приведенному в Рис. 4.6 с представлением BN, ранее показанным на рис. 2.7, которое будет рассмотрено в главе 7. Фактически, в то время как BNs представляли собой распределения вероятностей, диаграммы нейронных сетей, такие как на рис. 4.6 опиcывают детерминированные функциональные связи между переменными. Это
96 Классификация
это несмотря на то, что выходной уровень сети на рис. 4.6 вычисляет вектор вероятностей. Другими словами, в то время как узлы BN являются RV, узлы в графе нейронной сети являются вычислительными узлами.
"Экстремальное машинное обучение".* Архитектура, в которой функции ; (x) выбираются с помощью случайных линейных комбинаций входного вектора x, иногда изучается под рубрикой "экстремальное машинное обучение” [67]. Преимущество этой архитектуры по сравнению с глубокими нейронными сетями заключается в большем количестве скрытых слоев и полном изучении весов (раздел (5)). Она имеет низкую сложность.
4.5 Дискриминантные вероятностные модели: за пределами GLM

Рисунок 4.7: Многослойная нейронная сеть.
Как показано на рисунке 4.6, GLMs можно интерпретировать как трехслойную нейронную сеть, в которых единственный скрытый уровень вычисляет фиксированные объекты \свойства\. Затем фиксированные объекты обрабатываются на уровне классификации выходных данных. В различных приложениях определение подходящих объектов является сложной и трудоемкой задачей, требующей значительных знаний предметной области.  Выход за рамки GLMS позволяет нам работать с моделями, которые учитывают не только веса, используемые выходным слоем для классификации, но и векторные значения \объектов\ ; (x), с которыми работает выходной слой. Такой подход дает гораздо более богатый набор моделей, которые, наряду с подходящими обучения алгоритмами привели к широко опубликованными прорывами в различных областях применения - от перевода речи до медицинской диагностики.
В качестве яркого примера классификационных моделей, выходящих за рамки GLM, мы описываем здесь многослойные нейронные сети с прямой связью, или глубокие нейронные
4.5. Дискриминационные вероятностные модели: за пределами GLM 97
сети, в которых скрыто большое количество слоев. Мы отмечаем, что, помимо использования самых современных алгоритмов классификации, многослойные сети прямой связи \подачи\ также являются ключевыми компонентами вычислительной теории разума [116].
4.5.1 Модель
Как показано на рис. 4.7, многоуровневые сети с прямой связью состоят из нескольких уровней с поддающимися изучению весами. Если говорить о многоклассовой классификации, то мы имеем цепочку векторов x ; h1 ; · · * ; hL ; y, где x - это входной (наблюдаемый) вектор D ; 1; y - вектор вероятностей выходных данных K;1 для K классов; а hl представляет вектор выходных данных в скрытом слое. Количество нейронов в каждом скрытом слое является гиперпараметром, который необходимо оптимизировать с помощью проверки или байесовского метода расчета коэффициентов (глава 2). Обратите внимание, что принятая нумерация слоев не соответствует общепринятой, и также используется обратный порядок.
Обращаясь к рис. 4.7, мы можем описать работу нейронной сети с помощью функциональных соотношений
Нелинейная функция h(·) применяется поэлементно и обычно выбирается в виде сигмоиды, такой как логистическая сигмоида или гиперболический тангенс, или, как это становится все более распространенным, выпрямленная Линейная единица измерения (ReLU) h(a) = max(0, a). В (4.35) мы определили векторы активации al для скрытых слоев l = 1, ..., L и матрицы весов wl , l = 1, ..., L + 1, размеры которых зависят от размера скрытых слоев. Обозначим тензор4 всех весов как W .
Определяемые \обучаемые\ веса скрытых слоев кодируют вектор признаков ;(x) = hL, используемый последним слоем для классификации. С помощью многослойных сетей мы перешли от использования фиксированных объектов, определенных априори
4 Тензор является обобщением матрицы в том смысле, что он может иметь более двух
измерений, см., например, [35].
98 Классификация
по вектору ;(x) в линейных моделях для разработки оптимальных характеристик, которые максимально повышают производительность классификатора в нелинейных моделях. Кроме того, в многоуровневых сетях изученные характеристики h1, ..., hL имеют тенденцию к прогрессированию от низкоуровневых объектов в нижних слоях, таких как края изображения, до высокоуровневых понятий и категорий, таких как “кошки” или “собаки”, в
верхних слоях [56].
4.5.2 Обучение
Обучение глубоких нейронных сетей - это искусство [56]. Основной алгоритм, лежащий в его основе, - обратное распространение, впервые предложенный в 1969 году, а затем заново изобретенный в середине 1980-х [126, 125]. Однако на практике для достижения самых современных результатов требуется ряд хитростей, включая методы борьбы с переобучением, например, с отсевом. Рассмотрим эти решения- эти исследования потребовали бы отдельного трактата, и здесь мы ссылаемся на [64, 56] для подробного обсуждения.
Обратное распространение – или сокращенно бакпроп – расширяет вывод, выполненный в (4.34), для оценки градиента LL, который будет использоваться в алгоритме, основанном на SGD. Опять же, основными компонентами являются общая формула (3.28) для экспоненциальных моделей и правило цепочки для производных. Для уточнения выберем данный обучающий пример (xn , tn ) = (x, t), который будет использоваться в итерации SGD. Бакпроп вычисляет производную от NLL, или функции потерь перекрестной энтропии, L(W ) = ; ln p(t|x, W ) = ;tT ln y (см. (4.32)), где выходные данные y получены с помощью соотношений (4.35).  Важно отметить, что, в отличие от линейных моделей, рассмотренных выше, перекрестная энтропия для многослойных моделей, как правило, является невыпуклой функцией весов.
Программа бакпроп вычисляет градиенты в зависимости от весовых коэффициентов, выполняя следующие этапы.
• Прямой проход: учитывая x, применим формулы (4.35) для вычисления a1 , h1 , a2 , h2 , ..., aL , hL и y.
• Обратный проход: дано a1 , h1 , a2 , h2 , ..., aL , hL , aL+1 , y и t,
4.5. Дискриминантные вероятностные модели: За пределами GLM 99
вычислить
, где h' (·) обозначает первую производную функции h(·); произведение · берется поэлементно; и мы устанавливаем h0 = x.
Для обратной обработки \распространения\ требуется прямой и обратный проходы для каждого  рассматриваемого примера обучения. При прямом проходе используется нейронная сеть, определенная уравнениями (4.35). Это требует умножения на весовые матрицы wl для вычисления векторов активации, а также применения нелинейной функции h(·). В отличие от этого, обратный проход требует только линейных операций, которые, согласно (4.36b), основаны на преобразовании (wl)Т весовой матрицы Wl, используемой при прямом проходе.
Производные (4.36c), вычисленные при обратном проходе, имеют общий вид
где wijl - (i, j);й элемент матрицы wl, соответствующий  весу между пресинаптическим нейроном j в слое l - 1 и постсинаптическим нейроном i в слое l; hi l;1 - выходной сигнал пресинаптического нейрона i; и ;lj - это ошибка, распространяющаяся в обратном направлении. Распространяемый в обратном направлении ошибка назначает “ответственность” за ошибку y ; t, измеренную на последнем слое  (слой L+1)  каждого синаптического веса w lij  между нейронами j в слое  l ; 1 и нейрону i в слое l. Ошибка, распространяющаяся в обратном направлении, получается с помощью линейных операций в (4.36b).
100 Классификация
Рисунок 4.8: Вероятность того, что метка класса такая же, как в примерах, отмеченных кружочками, в соответствии с результатами работы многослойной сети с прямой связью с одним скрытым слоем (L = 1) и шестью скрытыми нейронами (с нелинейностью сигмовидной формы).  Вероятность представлена цветовой схемой, показанной полосой справа от рисунка. Для справки, сплошная линия представляет линию принятия решения для логистической регрессии.
Пример 4.3.  В примере на рис. 4.8 показано, что N = 300 обучающих примеров используемых для обучения логистической регрессии, т. е. модели GLM, и многоуровневой сети с прямой связью с одним скрытым слоем (L = 1) и шестью скрытыми нейронами с нелинейностью сигмовидной формы h(x) = ;(x). Логистическая модель использует линейные характеристики ;(x) = [1 x]T . Обе сети обучаются с использованием SGD. Для логистической регрессии линия принятия решения показана сплошной линией, в то время как для многослойной сети мы строим график вероятности того, что метка класса совпадает с примерами, отмеченными кружками, в виде цветной карты. Видно, что модель GLM с линейными объектами не может быть использована. чтобы зафиксировать структуру данных, в то время как многоуровневая сеть может изучить подходящие признаки, повышающие эффективность классификации.
4.5.3 Некоторые продвинутые темы*
В заключение этого раздела мы отметим несколько важных аспектов текущих исследований глубоких нейронных сетей.
Первый вопрос касается теоретического понимания обобщающих свойств глубоких нейронных сетей. На первый взгляд, успех
4.5. Дискриминантные вероятностные модели: за пределами GLM 101
глубоких нейронных сетей, по-видимому, противоречит одному из принципов, заложенных в
из главы 2, которая будет формализована в следующей главе: сильно перегруженные параметризацией модели, обученные с помощью ML, страдают от переобучения и, следовательно, плохо поддаются обобщению. Недавние результаты показывают, что использование SGD, основанного на градиенте (4.37), может выполнять регуляризующую функцию с точки зрения MDL. Фактически, SGD способствует достижению локального максимального значения функции правдоподобия. Плоские максимумы требуют указания меньшего количества битов по сравнению с острыми максимумами, поскольку в плоском максимуме вектор параметров может быть с ограниченной точностью описан в пределах плоской области функции правдоподобия [66, 79, 71] (смотрите также [78] с другой точки зрения).
Другой важный аспект касается аппаратной реализации бакдроп. Это становится чрезвычайно актуальным, учитывая практическое применение глубоких нейронных сетей для потребительских устройств. На самом деле, ключевым аспектом бакдроп является необходимость распространения ошибки, которая измеряется на последнем уровне, на каждый синапс с помощью обратного прохода. Это необходимо для оценки градиента (4.37). В то время как программное обеспечение реализация этого правила не представляет каких-либо концептуальных трудностей, однако при реализации вычислений в (4.36) на аппаратном уровне или даже в биологической нейронной системе возникает ряд проблем.
Первая проблема заключается в нелокальности обновления (4.37). Правило обновления является локальным, если оно использует только информацию, доступную для каждого нейрона. В отличие от этого, как видно, правило (4.37) требует обратного распространения по нейронной сети. Другая проблема заключается в том, что при обратном проходе необходимо использовать другой нейронный путь по сравнению с прямым проходом, учитывая, что, в отличие от обратного прохода, прямой проход также включает нелинейности. Полезное обсуждение аспектов аппаратной реализации можно найти в [12] (смотрите также ссылки в нем).
Чтобы избежать, по крайней мере, некоторых из этих практических проблем, был предложен ряд вариантов правила (4.37) [12]. Например, правило выравнивания с обратной связью изменяет (4.36b), используя фиксированные случайные матрицы вместо текущих весовых матриц wl; в то время как правило широковещательного выравнивания записывает векторы ;l как линейную функцию с фиксированными случайными коэффициентами ошибки (y - t), следовательно, устраняя необходимость в обратном распространении [129].
102 Классификация
Кроме того, помимо ML, существуют байесовские алгоритмы обучения [53], включая упрощенные подходы, такие как отсев [56, 64].  Значительный прогресс был также достигнут в таких приложениях, как распознавание изображений, за счет использования базовой структуры или геометрии данных [30]. В качестве важного примера можно привести сверточные нейронные сети, которые усиливают стационарность, локальность и пространственную инвариантность элементов изображения, ограничивая восприимчивое поле нейронов (т.е. устанавливая нулевые веса, связанные с “удаленными” пикселями) и связывая веса нейронов в одном слое.
Еще одним недавним достижением является разработка событийно-ориентированных
нейронных сетей, которые могут быть реализованы на нейроморфных вычислительных платформах с чрезвычайно низким энергопотреблением (см., например, [84, 11]).
4.6 Генерирующие вероятностные модели
Как обсуждалось в главе 2, дискриминантные модели не пытаются моделировать распределение точек области x, изучая только прогнозируемое распределение p(t|x). В отличие от этого, порождающие модели нацелены на моделирование совместного распределения путем задания параметризованных версий предыдущего распределения p(t) или p(Ck) и распределения вероятности, обусловленной классом.- отношение p(x|t) или p(x|Ck ). В результате порождающие модели делают больше предположений о данных, учитывая также распределение ковариат x. Таким образом, порождающие модели могут страдать от смещения при неправильном выборе модели. Однако способность фиксировать свойства распределения объясняющих переменных x может улучшить обучение, если распределение p(x|t), зависящее от класса, имеет существенную структуру.
4.6.1 Модель
Порождающие модели для бинарной классификации обычно определяются следующим
образом
4.6. Порождающие вероятностные модели 103
где экспонента(;) представляет собой распределение из семейства экспонент с вектором естественных параметров ; (см. предыдущую главу).  Соответственно, параметры модели равны ; = (;, ;0 , ;1 ), где векторы ;t представляют естественные параметры распределений, зависящих от класса. Как мы видели в главе 2, мы также можем эквивалентно использовать средние параметры для определения экспоненциальных семейных распределений. В результате этого выбора совместное распределение для rv (x, t) задается как p(x, t|;, ;0, ;1 ) = p(t|;)p(x|; t ).
Логический вывод. Учитывая новую точку x, чтобы свести к минимуму вероятность ошибки, можно предположить, что оптимальный прогноз класса с потерями 0-1 удовлетворяет максимальному апостериорному правилу
4.6.2 Обучение
Сейчас мы сосредоточились на изучении ML. Функция LL может быть записана в виде
Учитывая разложение LL в (4.40), мы можем оптимизировать по ;, ;0 и ;1 по отдельности, получая соответствующие оценки ML. Однако обратите внимание, в то время как для ; мы можем использовать весь набор данных, оптимизация по параметрам ;0 и ;1 может использовать меньшие наборы данных, которые включают только выборки xn с метками tn = 0 или tn = 1 соответственно. Как мы обсуждали в главе 2, оценки ML для экспоненциальных семейств просто требуют сопоставления моментов, что в целом упрощает получение этих оценок. Ниже мы проиллюстрируем это двумя важными примерами.
Квадратичный дискриминантный анализ (QDA). В QDA распределения, зависящие от класса, являются гауссовыми с зависящим от класса средним значением и ковариацией:
104 Классификация
В соответствии с общими правилами, полученными в главе 2 для экспоненциального семейства, ML выбирает оценки, соответствующие моменту времени
Результирующее прогнозирующее распределение для метки нового образца затем определяется по формуле (4.39) путем добавления приведенных выше оценок в виде
Линейный дискриминантный анализ (LDA). Установка ;k = ; для обоих классов k = 1, 2 дает модель линейного дискриминантного анализа (LDA) [104]. Установление равенства двух в целом различных параметров, таких как ;1 и ;2, является примером привязки или совместного использования параметров. За счет сокращения количества параметров, которые необходимо обучить, совместное использование параметров может уменьшить переобучение за счет потенциальной величины введённого смещения (см. главу 2).
В предположении о сопряженных приоритетах и априорной независимости параметров MAP- и байесовский подходы могут быть получены непосредственно, следуя выводам, рассмотренным в главе 2. Мы ссылаемся к [23, 15, 104] за подробностями.
4.6. Порождающие вероятностные модели
Рисунок 4.9: Вероятность того, что метка класса совпадает с меткой для примеров, отмеченных кружочками, в соответствии с выводами QDA-генерирующей модели. Вероятность представлена цветовой картой, показанной полосой справа от рисунка. В этом примере видно, что LDA не удается разделить два класса (не показано).
Пример 4.4. Продолжим рассмотрение примера в разделе 4.5, показав на рис. 4.9 вероятность (4,43) того, что метка класса такая же, как и в примерах, помеченных кружочками, в соответствии с выводами QDA. Учитывая, что ковариаты имеют структуру, которая хорошо моделируется с помощью смеси гауссиан с различными ковариационными матрицами, QDA работает хорошо, возможно, лучше, чем дискриминантные модели, рассмотренные в разделе 4.5. Однако важно отметить, что в этом примере LDA не сработает.
Это связано с тем, что модель с одинаковыми зависящими от класса ковариационными матрицами, как предполагает LDA, это повлекло бы за собой значительную предвзятость \смещение\ для данного примера.
4.6.3 Многоклассовая классификация;
В качестве примера порождающей вероятностной модели с несколькими классами мы кратко рассмотрим обобщение QDA на K ; 2 классов. Расширяя (4.41) на несколько классов, модель описывается как
106  Классификация
, в которой t кодируется с использованием однократного кодирования, так что метка каждого
примера задается вектором tn = [t0n , ..., t(K-1)n ]T . Следуя приведенному выше обсуждению, сопоставление моментов дает оценки ML
4.7. Повышение; \Бустинг\
В этом последнем разделе мы вернемся к смешанным моделям вида (4.29) и обсудим популярный подход к обучению, позволяющий уменьшить переобучение. Мы фокусируемся
на детерминированных дискриминантных моделях с активациями ak (x, ~wk), k = 1, ..., K, в которых предиктор смеси задается как
с заданными параметрами {;k } и {~wk }. Метод, известный как бустинг, заключается в последовательном обучении одной модели ak (x, ~wk ) за раз, от k = 1 до k = K, следовательно, добавляя по одному предиктору на каждом шаге обучения k. В результате бустинг в последовательной манере увеличивает пропускную способность модели, расширяя сумму в (4.46) на растущее число предикторов. Таким образом, сначала обучают модель с большим смещением, или ошибкой аппроксимации, и постепенно уменьшают смещение за счет потенциально большей ошибки оценки (дальнейшее обсуждение смещения и ошибки оценки приведено в главе 2 и следующей главе). Как мы обсудим ниже, каждая модель обучается путем решения задачи ERM, в которой вклад обучающего примера взвешивается по норме ошибок в ранее обученных моделях.
Более подробно, бустинг – более конкретно, схему AdaBoost – можно описать как решение задачи ERM с экспоненциальной функцией потерь l(t, a(x, ~w)) = exp(;t · a(x, ~w)), которая представлена на рис. 4.4.
4.8. Краткое описание 107
При обучении k;й модели выходные данные a1 (x,~w1 ), ..., ak;1 (x, ~wk-1 ) ранее обученных моделей, а также их веса ;1, ..., ;k;1 остаются неизменными. Исключая модели k + 1, ..., K, потери при обучении можно записать в виде
с весами
Важным моментом является то, что веса (4.48) больше для обучающих выборок n с меньшим функциональным запасом в рамках смешанной модели ;k;1j=1 ;j aj (xn , ~wj ). Поэтому при обучении k-й модели мы уделяем больше внимания примерам, которые хуже подходят с точки зрения допустимых пределов классификации в рамках текущей смешанной модели. Обратите внимание, что на каждом этапе обучения k обучается простая модель, которая имеет дополнительное преимущество в снижении вычислительной сложности по сравнению с прямого обучения моделью в случае полного обучения. Мы ссылаемся на [23, гл. 14] [133, гл. 10] для получения более подробной информации.
4.8 Краткое изложение
В этой главе представлен краткий обзор ключевой проблемы классификации при обучении под наблюдением. Следуя таксономии, изложенной в главе 2, мы разделили алгоритмы обучения в соответствии с типом моделей, используемых для связи объясняющих переменных и меток. В частности, мы описали детерминированные дискриминационные модели, как линейные, так и нелинейные, рассматриваются алгоритм персептрона, SVM и бакпроп для многослойных нейронных сетей; вероятностные дискриминантные модели, в основном для GLM; и вероятностные порождающие модели, включая QDA и LDA. Мы также представили более продвинутые разделы, касающиеся моделей смешивания и бустинга. Наконец, мы упоминаем, что контролируемое обучение в форме классификации и регрессии также может быть использовано в качестве основы для задачи последовательной обработки решений с помощью имитационного обучения (см., например, [88])
108. Классификация
В то время как в этой главе основное внимание уделялось алгоритмическим аспектам, в следующей главе обсуждается устоявшаяся теоретическая основа для изучения эффективности обучения в целях классификации.
Приложение А: Подробнее о SGD;
В этом приложении мы приводим некоторые рассуждения о конвергенции SGD и о более продвинутых методах оптимизации.
Конвергенция \сходимость\
Чтобы кратко обсудить свойства сходимости SGD, рассмотрим сначала для справки обычные алгоритмы градиентного спуска, которые соответствуют выбору всего обучающего набора, т.е. S = {1, ..., N }, для каждой итераций. Если оптимизируемая функция является строго выпуклой 5, что касается квадратичных потерь, то алгоритм гарантированно сходится к (уникальному) минимальный даже при фиксированной скорости обучения ; (i) = ;, при условии, что широта не превышает величину, обратную максимальной кривизне функции потерь L, т.е. ; ; 1/L. Для дважды дифференцируемых функций потерь максимальная кривизна L может быть вычислена как максимальное собственное значение Гессиан матрицы. Функции с конечной кривизной L называются гладкими по Липшицу. Сходимость этих функций геометрическая, и, следовательно, количество итераций, необходимых для получения ошибки в оптимальном решении, равном ;, измеряется как ln(1/;) (см., например, [152, глава 8][33, 72]).
Теперь мы перейдем к правильному алгоритму SGD, работающему с меньшим размером мини-пакета S. Если график скорости обучения выбран таким образом, чтобы удовлетворять условиям Роббинса–Монро
известно, что алгоритм SGD сходится к оптимальному решению задачи (4.9) в случае строго выпуклых функций и к стационарным точкам для невыпуклых функций с ограниченной кривизной (см. [152,
5 Если функция дважды дифференцируема, то строгая выпуклость эквивалентна требованию, чтобы все собственные значения Гессиан матрицы были строго положительными.
4.8. Резюме
109
Глава 8] для получения подробной информации). Графики темпов обучения, удовлетворяющие (4.49), включают ; (i) = 1/i. Интуитивной причиной использования снижающейся скорости обучения является необходимость ограничить влияние “шума”, связанного с оценкой градиента по конечной выборке [22]. Доказательство сходимости использует несмещенность оценки градиента, полученной с помощью SGD.
На практике больший размер мини-пакета S уменьшает дисперсию оценки градиента, следовательно, повышая точность при приближении к стационарной точке. Однако выбор меньшего размера S может повысить скорость сходимости, когда текущее решение далеко от оптимального [152, Глава 8][22]. Также известно, что меньший размер мини-пакета S повышает эффективность обобщения алгоритмов обучения, избегая резких экстремальных точек функции потерь при обучении [66, 79, 71] (см. также раздел 4.5). Кроме того, в качестве альтернативы уменьшению размера шага можно также увеличить размер мини-пакета на итерациях алгоритма SGD [136].
Варианты и обобщения
Было предложено множество вариантов обсуждаемого базового алгоритма SGD, которые обычно используются. Общие принципы, лежащие в основе этих вариантов расписания, включают [56, глава 8]: (i) импульс \момент\ , или тяжелый шар, память: скорректируйте направление, предложенное стохастическим градиентом, с учетом “импульса”, полученного во время последнего обновления; (ii) адаптивность: используйте разную скорость обучения для разных параметров в зависимости от оценки кривизны функции потерь по каждому параметру; (iii) управляющие переменные: чтобы уменьшить дисперсию обновлений SGD, добавьте управляющие переменные, которые не влияют на несмещенность стохастического градиента и отрицательно коррелируют со стохастическим градиентом; и (iv) обновления второго порядка: включите информацию о кривизне функции затрат или целевой функции в
обновление параметра.
Как подробно описано в [56, глава 8] [76, 43], к которым мы обращаемся для дальнейшего обсуждения, схемы первой категории включают импульс Нестерова; во второй категории мы находим AdaGrad, RMSProp и Adam, а в третью входят SVRG и SAGA. Наконец, в четвертой представлены
110 классификация
методы Ньютона, которые требуют вычисления кривой Гессиана для оценки локальной кривизны объекта, и аппроксимированные методы Ньютона, которые используют оценку кривой Гессиана. Практические и теоретические последствия использования этих методов все еще обсуждаются [157].
К методам второго порядка относится естественный градиентный подход, который наиболее естественно применяется к вероятностным моделям, в которых функция LL - задача, которую необходимо оптимизировать, [5]. Традиционный градиентный метод обновляет параметры, двигаясь в направлении, которое минимизирует функцию затрат, при ограничении нормы вектора обновления в пространстве параметров. Потенциально проблемным аспектом этого метода является то, что евклидово расстояние ||; ' ; ; " ||2 между двумя векторами параметров ; ' и ; ", например, два средних параметра в модели, входящей в семейство экспоненциальных, не обеспечивают прямой оценки расстояния между двумя соответствующими распределениями с точки зрения соответствующих показателей, таких как Расхождение KL. Метод естественного градиента решает эту проблему, измеряя размер обновления непосредственно в терминах расхождения KL между распределениями. Это изменяет обновление путем предварительного умножения градиента на величину, обратную информационной матрице Фишера [5].
Приведенное выше обсуждение сосредоточено на общем случае дифференцируемых функций затрат. Проблемы ERM обычно включают в себя, возможно, недифференцируемые условия регуляризации. Для решения этих проблем вместо SGD могут использоваться такие методы, как субградиентный метод и проксимальный градиент [22]. Другие важные аспекты оптимизационных схем включают параллелизм и невыпуклость (см., например, [130, 141, 44, 161]). Альтернативы градиентным методам, которые не требуют дифференцируемости, включают эволюционные схемы [128].
Приложение В: Методы ядра;
В этом разделе мы приводим краткое введение в методы ядра. В этом разделе требуется некоторое представление о двойственности Лагранжа.
Мы начнем с повторного рассмотрения задачи (4.16), решенной SVM. В соответствии с двойственностью Лагранжа, оптимизация (4.16) может быть решена двойственным образом, то есть путем оптимизации по двойственным переменным или по множителям Лагранжа. Обращаясь за подробностями к [23, глава 7], мы получаем задачу
4.8. Резюме
111
, которая оказывается квадратичной и выпуклой. Важно отметить, что результирующая  оптимальная активация может быть выражена как
где ;n - оптимальные двойные переменные, и мы определили функцию ядра
где x и y - два вектора аргументов. Функция ядра измеряет корреляцию – неофициально, сходство – между двумя входными векторами x и y. Следовательно, активация (4.50) имеет интуитивную интерпретацию: Решение о метке примера x зависит от опорных векторов xn, которые имеют значение ;n > 0 и наиболее похожи на x. Отметим, что уравнение (4.50) также может быть обосновано с помощью теоремы о репрезентаторе в [133, глава 16], где показано, что оптимальный весовой вектор должен быть линейной комбинацией векторов признаков {;(xn )}N n=1 .
Работа в двойной области может иметь вычислительные преимущества, когда число первичных переменных, в данном случае размер D' весового вектора ~w, больше, чем число N двойственных переменных. Хотя на практике это кажется маловероятным, оказывается, что это не так. Ключевая идея заключается в том, что можно использовать (4.50) с любой другой функцией ядра, не обязательно с той, которая явно определена функциональной системой.- функция ;(·). Функция ядра - это любая симметричная функция, измеряющая корреляцию двух точек данных, возможно, в бесконечномерном пространстве. Это известно как трюк с ядром.
В качестве первого примера можно привести полиномиальное ядро
где r > 0, соответствует корреляции ;(x)T ;(y) в многомерном пространстве D' . Например, при L = 2 и D = 1 мы имеем D ' = 6 и вектор признаков ;(x) = [х1, ;2x1 , ;2x2 , x21x22 , ;2x1x2]T [104]. В качестве другого, более экстремального примера, можно привести обычное гауссово ядро
соответствует внутреннему произведению в бесконечномерном пространстве [104]. Подробное обсуждение методов ядра можно найти в [104].
112 Классификация
Прежде чем перейти к рассмотрению методов ядра, стоит отметить, что важный класс методов, включая k;Nearest Neighbor \ближайшего соседа\ (k-NN), использует ядра, зависящие от данных. k-NN также является примером непараметрических правил обучения. В отличие от других рассмотренных здесь схем, она не опирается на параметрическую модель (вероятностной) взаимосвязи между входными и выходными данными. Вместо этого k-NN использует предположение о том, что метки соседних точек x должны быть одинаковыми [81].
5
Теория статистического обучения;
Теория статистического обучения предоставляет хорошо зарекомендовавшую себя теоретическую основу для изучения компромисса между количеством N доступных точек данных и производительностью обобщения обучений машины. Этот подход формализует понятия возможностей модели, ошибок в оценке (или пробелов в обобщении) и предвзятости \смещений\, которые лежат в основе многих вариантов проектирования, необходимых для обучения под наблюдением, как мы видели в предыдущих главах. Эта глава носит математическую натуру, и что отделено от алгоритмов значительно, чему уделяет основное внимание в тексте. Хотя при первом чтении эта глава может быть пропущена, она проливает свет на ключевые эмпирические наблюдения, сделанные в предыдущих главах относительно обучения в условиях частотной настройки. В ней рассматриваются теоретические основы контролируемого обучения в рамках классической теории статистического обучения. С этой целью в главе содержится ряд формальных утверждений с доказательствами. Доказательства были тщательно отобраны, чтобы выделить и прояснить ключевые теоретические идеи. Эта глава в основном повторяет изложение, приведенное в [133].
113статистическая теория обучения;
114
5.1 Формальная структура для обучения под наблюдением
В этой главе мы сосредоточимся на дискриминативно-детерминированных моделях бинарной классификации, как это обычно делается в статистической теории обучения. Мы также сосредоточимся на стандартной потере 0-1 ;(t, ;t) = 1(;t; t), для которой общая потеря - это вероятность ошибки. Метки t для двух классов принимают значения из множества {0, 1} (см. (4.4)).
Задача обучения формализуется следующим образом. Предположим, что была выбрана модель, или класс гипотез, H. Этот набор содержит, возможно, бесчисленное количество предикторов ;t, которые сопоставляют каждую точку x в основном пространстве с меткой ;t(x) в {0, 1}. Мы хотели бы выбрать конкретную гипотезу или предиктор,;t;H которая минимизирует ошибку обобщения (см. (2.2))
Решение этой задачи вывода позволило бы получить оптимальную модель в классе H как
В примечании (5.2) подчеркивается, что может быть несколько оптимальных гипотез, которые могут быть получены путем минимизации ошибки обобщения Lp (;t). Тем не менее, чтобы закрепить идеи, полезно рассмотреть случай в что существует единственная оптимальная гипотеза. Это, например, случай, когда функция потерь строго выпуклая. Для получения оптимального предсказателя (5.2) требуется знание истинного распределения p(x, t), которое недоступно.
Пример 5.1. Для линейных (детерминированных) методов, рассмотренных в главе 4, модель определяется как
с ~w = [wT w0 ]T , и аналогично для версии , основанной на характеристиках.  Для определения гипотезы в рамках этого класса требуется выбрать весовой вектор ~w ; RD+1 .
Вместо истинного распределения p(x, t) доступно только независимый одинаково распределённый i.i.d. обучающий набор
5.1. Формальная структура для контролируемого обучения

, распределенный  в соответствии с p(x, t). Алгоритм обучения, такой как ERM, принимает обучающий набор D в качестве входных данных и возвращает предиктор tD ; H в качестве выходных данных. Мы хотели бы, чтобы прогнозирующая модель ;tD ; H давала ошибку обобщения Lp (;tD ), которая была бы как можно ближе к минимальной потере обобщения Lp (;t;H ). Обратите внимание, что выбранная модель tD является случайной из-за случайности набора данных D.
В связи с этим мы напоминаем, что правило обучения ERM выбирает гипотезу ;tERMD ; H, следуя критерию ;tERMD= argmin ;t;H LD (;t), где эмпирический риск равен
Обозначение в (5.5) подчеркивает случайность обучающего набора
D = {(xn , tn )}Nn=1 .
Поскольку распределение p(x, t) неизвестно, правило обучения ;tD, такое как ERM, может только приблизительно минимизировать потери при обобщении Lp (;t) , основываясь на наблюдении за данными D. Кроме того, это приближение может быть гарантировано только при некотором уровне вероятности из-за случайности набора данных D. Это проиллюстрировано на рис. 5.1, на котором мы изобразили интервал высокой вероятности для rv Lp (;tD) на горизонтальной оси. Мы хотели бы, чтобы аппроксимация была точной для всех значений Lp (;tD ) в пределах этого интервала.
Но это еще не все: вероятностная гарантия с точки зрения точности не может зависеть от конкретного распределения p(x, t), но вместо этого она должна быть универсальной по отношению ко всем распределениям p(x, t). Таким образом, лучшее, на что можно надеяться, - это наличие правила обучения ;tD, которое, вероятно, является  вероятно приблизительно правильным (PAC).
Чтобы формализовать это понятие, мы введем следующее определение.
Определение 5.1. Обучающее правило ;tD является (N, ;, ;) PAC, если при работе с наборами данных D из N примеров оно удовлетворяет неравенству
с вероятностью не меньшей, чем 1 ; ;, то есть,
116 Статистическая теория обучения;
Рисунок 5.1: Обучающий алгоритм tD выдает гипотезу, которая зависит от случайного обучающего набора D. Следовательно, он принимает значения в заданном интервале (поле на
горизонтальная ось) с некоторой большой вероятностью 1 ; ;. Уровень точности ; измеряется разностью потерь при оптимальном обобщении Lp (;t;H ) для наихудшего
случая ;tD в интервале высокой вероятности.

для любого истинного распределения p(x, t).




В (5.6) мы определили ; как параметр точности, а ; - как параметр достоверности. Точность также известна как ошибка оценки или разрыв в обобщении в соответствии с определением, приведенным в разделе 2.3.3. Другими словами, условие (N, ;, ;) PAC (5.6) требует, чтобы правило обучения ^tD, работающий по N точкам данных, является ;;точным с вероятностью 1 ; ; для любого распределения p(x, t).
Ключевой вопрос заключается в следующем: учитывая модель H, насколько большим должно быть N, чтобы обеспечить существование (N, ;,;) схемы обучения PAC ^tD для заданных уровней точности и достоверности (;,;)? На высоком уровне мы знаем, что большой заказ модели подразумевает необходимость в большем количестве N, чтобы избежать переобучения. Точнее, мы ожидаем наблюдать поведение, показанное на рис. 5.2: По мере увеличения N  интервал значений (i), принимаемых потерями обобщения Lp (^tD) с вероятностью не меньшей, чем 1 ; ; уменьшается; и (ii) потеря обобщения Lp (^tD) стремится к минимальной потере обобщения Lp (^t;H ), и, следовательно, ошибка оценки исчезает. Как 5.1. Формальная структура для обучения под наблюдением 117
показано в следующем примере, такое ожидаемое поведение является следствием закона больших чисел, поскольку большее N позволяет более точно оценить истинные общие потери.
Рисунок 5.2: Интервал высокой вероятности (пунктирная стрелка) ошибки обобщения Lp (^tD ) в зависимости от числа N точек данных для модели H.
Пример 5.2. Рассмотрим задачу бинарной классификации с использованием модели пороговых функций, а именно

где x - действительное число (D = 1). Обратите внимание, что модель параметризуется пороговым значением ;. Сделайте предположение о реализуемости, что истинное распределение находится в пределах гипотезы, допускаемой моделью, т.е. p(x, t) = p(x)1(t = ^t0 (x)), и, следовательно, оптимальной гипотезой является ^t;H = ^t0 , или, что эквивалентно, оптимальным порогом является ; ; = 0. Предполагая равномерное распределение p(x) = U(x| ; 0,5, 0,5) в интервале [-0,5, 0,5] для точек домена на рис. 5.3 показана ошибка обобщения Pr[^t; (x) ; t0 (x)] = |;|, а также потери при обучении LD (^t; ) для тренировочного набора , показанного на горизонтальной оси, для двух значений N . Обратите внимание, что потери при обучении LD (^t; ) - это просто
118 Статистическая теория обучения;
доля обучающих примеров, которые правильно классифицированы. Видно, что по мере увеличения N потери при обучении, или эмпирический риск, становятся все более надежной оценкой потерь при обобщении, одинаковой для всех гипотез, параметризованных через ;, в модели.
Рисунок 5.3: Потери при обобщении и обучении для модели скалярного порогового классификатора.



Как следует из приведенного примера, если N достаточно велико, то эмпирический риск, или потеря при обучении, LD (^t) все более приблизительно (с высокой вероятностью) соответствует потере при обобщении Lp (^t) для любой фиксированной гипотезы в ^t ; H по закону больших чисел. Тогда может показаться, что проблема решена: поскольку LD (^t) ; Lp (^t) для любого ^t,  ERM-решения ^tDERM, который минимизирует потери при обучении LD (t), должен также приблизительно минимизировать потери при обобщении Lp(^t), и, следовательно, у нас есть ^tDERM; ^t;H . Однако этот аргумент неверен. На самом деле нам нужны потери при обучении LD (^t) является точной аппроксимацией потерь при обобщении Lp (^t) единообразно для всех гипотез в ^t ; H, чтобы обеспечить выполнение условия ^tDERM; ^t;H . Как мы увидим в остальной части этой главы, чтобы гарантировать это условие требуется наблюдения за количеством выборок N, которое растет с увеличением “емкости” модели H, то есть, грубо говоря, с увеличением количества параметров, определяющих гипотезы в H. Более того, некоторые модели
5.2. Обучаемость PAC и сложность выборки 119
оказываются невозможными для обучения: ниже формализован смысл обучаемости PAC
– независимо от того, насколько велико значение N.
5.2 Обучаемость PAC и сложность выборки
Чтобы формально ответить на ключевой вопрос, поставленный выше, касающийся обучаемости модели H, мы даем следующие определения. Как уже упоминалось, для простоты мы рассматриваем бинарную классификацию с потерями 0-1, хотя при подходящих условиях анализ может быть обобщен [133].
Определение 5.2. Гипотетический класс H является обучаемым PAC, если для любых ;, ; ;
(0, 1) существует (N, ;, ;) правило обучения PAC, если выполняется неравенство N ; NH (;, ;) выполняется для некоторой функции NH (;, ;) < ;.
Другими словами, класс гипотез можно обучать, если достаточно после сбора данных можно найти алгоритм обучения, который обеспечивает любой желаемый уровень точности и достоверности. Иллюстрация порогового значения NH (;, ;) приведена на рис. 5.2. Менее строгое определение PAC для удобства изучения требуется, чтобы (5.7) выполнялось только для всех истинных распределений p(x, t), которые могут быть записаны как
p(x, t) = p(x)1(t = ^t(x)). (5.9)
для некоторого предельного распределения p(x) и для некоторой гипотезы ^t(x) ; H. Условие (5.9) известно как предположение о реализуемости, которое подразумевает, что данные генерируются с помощью некоторого механизма, который включен в классе гипотез. Обратите внимание, что реализуемость подразумевает линейную разделимость любого набора данных, полученного из истинного распределения для класса линейных предсказателей (см. главу 4).
Первое важное и, возможно, неожиданное наблюдение заключается в том, что не все модели поддаются изучению с помощью PAC. В качестве крайнего примера этого явления рассмотрим класс H всех функций от RD до {0, 1}. Согласно теореме о не бесплатном обеде, этот класс не поддается изучению в PAC. Фактически, при любом объеме данных мы всегда можем найти распределение p(x, t), при котором условие PAC не выполняется. Интуитивно, даже в реализуемом случае, зная правильный предиктор ^t(x) в (5.9) для любого числа Статистических теорий обучения; 120
x ; RD не дает никакой информации о значении t(x) для других значений x. В качестве другого, менее очевидного, примера можно привести класс
H = {hw (x) = 1(sin(wx) > 0)} (5.10)
не поддается изучению PAC, несмотря на то, что он параметризуется одним скаляром [133].

Определение 5.3. Сложность выборки NH ; (;, ;) модели H является минимальным значением-- это максимальное значение NH (;, ;), которое удовлетворяет требованиям PAC-обучения для H.
Далее мы увидим, что сложность выборки зависит от производительности модели H. Обратите внимание, что сложность выборки в двух приведенных выше примерах бесконечна, поскольку они не поддаются изучению с помощью PAC. Мы также отмечаем, что обучаемость PAC может быть альтернативно определена  как функция ; и c дополнительными условиями масштабирования NH;(;, ;), а также вычислительной сложностью правила обучения. Мы не будем рассматривать здесь эти более точные определения и отсылаем читателя к [51, 133] для обсуждения.
5.3 Обучаемость PAC для конечных классов гипотез
В этом разделе мы рассмотрим модели с конечным числом гипотез. Основной результат обобщен в следующей теореме, которая доказывается ниже, в разделе 5.3.1.
Теорема 5.1. Конечная гипотеза класса H легко поддается обучению при сложности выборки, удовлетворяющей неравенству
Более того, алгоритм ERM достигает верхней границы NHERM(;,;).
Предыдущая теорема показывает, что все конечные классы являются PAC-обучаемыми. Кроме того, для всех конечых классов ERM является правилом обучения PAC для любого требуемого уровня точности и достоверности (;, ;) при условии, что N больше порога NHERM (;, ;). Этот порог, который мы будем называть не порогом обучаемости
5.3. PAC для конечных классов гипотез 121
, а сложностью выборки ERM для класса H, зависит от ёмкости класса гипотез, определяемой как ln |H| (nats) или log2 |H| (bits). Это количество битов, необходимое для индексации гипотез в H. Интересно также отметить, что увеличение точности, т.е. уменьшение ;, требует больше усилий, чем увеличение достоверности, т. е. уменьшение ;, с точки зрения сложности выборки.
Другой способ понять результат (5.11) состоит в том, что при N точках данных мы можем получить ошибку оценки
с вероятностью 1 ; ;, используя ERM. В результате, имея N точек данных, мы можем установить верхнюю границу потерь при обобщении ERM как
с вероятностью 1 ; ;. Другими словами, ERM достигает оптимальной потери при обобщении с погрешностью оценки, которая масштабируется с использованием квадратного корня из ёмкости модели и обратного квадратного корня из N .
В качестве еще одного важного замечания, в соответствии с предположением о реализуемости, еорема может быть изменена, чтобы получить меньшую верхнюю границу [133].
что также достижимо с помощью ERM.


Что говорит теорема о бесконечных моделях, таких как линейный классификатор (5.3)? Один из подходов заключается в изучении “квантованной” версии H, скажем, Hb, в которой каждый вес представлен b битами или, что эквивалентно, одним из 2b заранее определенных уровней квантования. В результате число гипотез в классе гипотез H равно |H| = (2b )D+1 , а ёмкость класса гипотез равна log |H| = (D + 1)b (бит) или ln |H| =b(D + 1) ln 2 (nats). Из этого следует, что, используя (5.3), мы получаем сложность выборки ERM
Теория статистического обучения;122
Замечено, что сложность ERM-выборки масштабируется пропорционально количеству параметров D + 1 и разрешающей способности b. Следовательно, получение произвольной точности путем выбора больших значений параметра b приводит к неограниченной сложности выборки. Ниже мы увидим, как исправить этот результат, введя более продвинутую теорию обобщения с помощью концепции измерения Вапника-Червоненкиса (VC).
5.3.1 Доказательство теоремы 5.1
Доказательство теоремы 5.1 раскрывает роль потери при обучении LD (^t) в равномерном приближении потери при обобщении Lp (^t) для всех гипотез ^t ; H. Начнем со следующей ключевой леммы.
Лемма 5.2. Для любого N ; NHERM (;, ;), мы имеем
для всех значений 5.16)
Отражая наблюдение, сделанное выше на рис. 5.3, лемма гласит, что потери при обучении LD (^t) являются равномерно точным приближением с уровнем точности ;/2 потерь при обобщении, если N ;NHERM (;, ;).
Предположим теперь, что лемма верна – доказательство будет приведено ниже. Используя лемму, теорема 5.1 непосредственно вытекает из неравенств
где первое неравенство следует из леммы, второе — из определения ERM, а третье - из другого применения леммы.
Следовательно, нам нужно только доказать лемму, чтобы завершить доказательство. Чтобы продолжить, мы воспользуемся неравенством Хеффдинга, которое гласит следующее (см., например, [133]). Для i.i.d. rvs u1 , u2 , · · · , uM ~ p(u) такие что E [ui ] = µ и Pr[a ; ui ; b] = 1, мы имеем неравенство большого отклонения
5.3 PAC обучаемость для конечных гипотез классов. 123
Теперь мы можем записать следующую последовательность равенств и неравенств, которые доказывают лемму и, следовательно, завершают доказательство:
где первое неравенство вытекает из границы объединения; второе — из неравенства Хеффдинга; и третье может быть подтверждено как истинное до тех пор, пока выполняется  неравенство N ; NHERM (;, ;).
5.3.2 Минимизация структурных рисков*
Приведенный выше результат полезен также для определения подхода к обучению с минимизацией структурного риска (SRM). SRM - это метод совместного выбора модели и изучения гипотез, основанный на минимизации верхней границы потерь при обобщении. В принципе, этот подход позволяет избежать использования валидации и обладает глубокими теоретическими свойствами в плане обобщения [133]. В практических приложениях этот подход используется редко, и часто предпочтительнее валидация. Тем не менее, концептуально и теоретически это краеугольный камень теории статистического обучения. Для уточнения предположим, что у нас есть вложенный набор классов гипотез H1 ; H2 ; ... ; HMmax . Например, вложенная модель может соответствовать линейным классификаторам с возрастающими порядками M ; {1, 2, ..., Mmax }. Из леммы 5.2 мы можем получить следующую оценку
124 Статистическая теория обучения;
для всех ^t ; HM с вероятностью 1 ; ;. SRM минимизирует эту верхнюю границу, которая является пессимистической оценкой потери обобщения, как при выборе модели M, так и при гипотезе ^t ; HM . Отметим сходство этого подхода с упрощенным критерием MDL, основанным на кодах из двух частей, рассмотренных в главе 2.
5.4 Измерение VC и фундаментальная теорема обучения PAC
Мы видели, что конечные классы легко поддаются обучению с помощью PAC, а сложность выборки пропорциональна производительности модели ln |Н| с помощью ERM. В этом разделе (;, ;) мы рассматриваем следующие вопросы: Является ли выборка NH самом маленьком случае \модели\ сложной? Как мы можем определить вместимость бесконечных классов гипотез? В конце раздела 5.3 мы обсуждали, что ответ на последний вопрос не может быть найден путем экстраполяции результатов полученные при рассмотрении конечных классов гипотез. В отличие от этого, здесь мы увидим, что ответы на оба этих вопроса основаны на концепции измерения VC, которая служит более фундаментальным определением емкости модели. Измерение VC определяется следующим образом.
Определение 5.4.  Считается, что гипотеза класса H разрушает множество точек области X = {xn }Vn=1, если, независимо от того, как соответствующие метки {tn ; {0, 1}}выбрано значение Vn=1, существует гипотеза ^t ; H, которая гарантирует, что ^t(xn ) = tn для всех n = 1, ..., V .
Определение 5.5. Размерность VC dim(H) модели H представляет собой размер наибольшего множества X, разделенного на H.
Исходя из приведенных выше определений, чтобы доказать, что модель имеет VCdim(H) = V, нам нужно выполнить следующие два шага:
Шаг 1 ) Продемонстрируйте существование множества X с |X | = V, которое разбито на H; и
Шаг 2 ) Докажите, что не существует множества X размерности V + 1, которое разбито на H.
Второй этап обычно считается более сложным, что иллюстрируется следующими примерами.
Пример 5.3. Модель пороговой функции (5.8) имеет значение VCdim(H)= 1, поскольку очевидно, что существует множество X из одной выборки (V = 1), которое можно разбить-
5.4.Размерность VC и фундаментальная теорема обучения PAC 125
 (шаг 1); но нет наборов V = 2, которые можно разбить  (Шаг 2). Фактически, для любого множества X = (x1 , x2 ) из двух точек с x1 ; x2 присвоение метки (t1 , t2 ) = (1, 0) не может быть реализовано никаким выбором порога ;, который является единственным параметром в модели.
Пример 5.4. Модель H = {^ta,b (x) = 1 (a ; x ; b)}, которая присваивает метку t = 1 внутри интервала [a, b] и метку t = 0 за его пределами, имеет VCdim(H)= 2. Фактически, любой набор из V = 2 точек может быть разбит на части – и, следовательно, также существует один такой набор (шаг 1); в то время как нет наборов X из V = 3 точек, которые можно было бы разбить (шаг 2). Для шага 2 обратите внимание, что для любого набора X = (x1 , x2 , x3 ) из трех точек с x1 ; x2 ; x3 назначение меток (t1 , t2 , t3 ) = (1, 0, 1) не может быть реализовано никаким выбором из двух свободных параметров (a, b).

Пример 5.5. Модель H = {^ta1 ,a2 ,b1 ,b2 (x) = 1(a1 ; x1 ; a2 и b1 ;x2 ; b2 )}, которому присваивается метка t = 1 внутри выровненного по оси прямоугольника, определенного параметрами a1 , a2 , b1 и b2, имеет значение VCdim(H)= 4, что можно доказать с помощью аргументов, аналогичных предыдущим примерам.
Пример 5.6. Линейный классификатор (5.3) имеет значение VCdim(H)= D + 1 [133].
Приведенный выше пример показывает, что размерность VC набора часто совпадает с числом степеней свободы, или свободных параметров, в модели. Однако это не обязательно так.
Пример 5.7. Модель (5.10), хотя и имеет один параметр, имеет бесконечную размерность VC [133].
Отметим также, что для конечных классов мы имеем неравенство VCdim(H) ;log |H|, поскольку гипотезы |H| могут создавать не более |H| различных конфигураций меток. Следующая теорема, важность которой подтверждается ее названием "Фундаментальная теорема обучения PAC", дает ответ на два вопроса, поставленных в начале этого раздела.
Теорема 5.3. Модель H с конечным значением VCdim(H)= d < ; является моделью PAC. обучаемой с учетом сложности выборки
для некоторых констант C1 и C2 . Более того, правило обучения ERM достигает верхней границы.
Cтатистическая теория обучения; 126
Теорема показывает, что сложность выборки пропорциональна (VCdim(H) + ln(1/;))/;2. Это показывает, что VCdim(H) можно рассматривать как правильное определение способности для гипотетического класса H, независимо от того, является ли класс конечным или нет: по мере увеличения Vcdim(H) количество точек данных, необходимых для изучения PAC, увеличивается пропорционально этому. Кроме того, теорема демонстрирует, что если обучаться  возможно для данной модели H, то ERM позволяет нам обучаться со сложностью выборки, близкой к оптимальной.
Для доказательства этого результата и для расширений мы обращаемся к подробному
описанию в [133]. Здесь мы упоминаем о важном распространении теории обобщения на выпуклые задачи обучения, то есть на задачи с выпуклым набором параметров и выпуклой функцией потерь.  Обобщение в этом классе задач зависит не от сложности модели, как это было до сих пор разработано в теории, а от стабильности алгоритмов обучения. Стабильность - это свойство, при котором небольшие изменения в системе входные данные не сильно влияют на выходные данные алгоритма обучения – понятие, связанное с дифференциальной конфиденциальностью [119]. Мы также указываем на связанное с этим понятие емкости персептрона, введенное в [94].
5.5 Краткое содержание
В этой главе описана классическая структура PAC для анализа эффективности обобщения при обучении под наблюдением для целей классификации. Мы видели, что концепция размерности VC определяет емкость модели и, через нее, количество выборок, необходимых для обучения модели с заданной точностью и уверенностью, или сложность выборки. В следующей главе мы перейдем от обучения под наблюдением к задачам обучения без контроля.
Приложение: Минимаксная избыточность и емкость модели;
В этом приложении мы описываем альтернативное определение пропускной способности \ёмкости\ модели, которое напрямую связано с общепринятым понятием \ёмкости\ пропускной способности канала с шумом по Шеннону [38]. Что касается раздела 2.5, то для полного понимания содержания этого приложения могут потребоваться некоторые знания в области теории информации.
5.5. Резюме 127
Для уточнения рассмотрим вероятностную модель H, определенную как набор всех pmf p(x|;), параметризованных через ; в данном наборе. С некоторыми ошибками в качестве обозначения мы принимаем, что H также является областью действия параметра ;. Чтобы закрепить идеи, предположим, что x принимает значения в конечном алфавите.  Из раздела 2.5 мы знаем, что распределение q(x) связано со схемой сжатия без потерь, которая требует, чтобы значение x описывалось битами q(x) с округлением по логарифму. Кроме того, если бы мы были проинформированы об истинном параметре ;, минимальной средней длиной кодирования была бы энтропия H(p(x|;)), для чего требуется установить q(x) = p(x|;) (см. Приложение A).
Предположим теперь, что мы знаем только, что параметр ; находится в наборе H, и, следовательно, истинное распределение p(x|;) неизвестно. В этом случае мы не можем выбрать истинное распределение параметров, и вместо этого нам нужно выбрать в целом другое распределение q(x), чтобы определить схему сжатия. При заданном распределении q(x) средняя длина кодирования определяется как ;; x p(x|;) log q(x). Следовательно, выбор в целом неправильного распределения q(x) влечет за собой избыточность
битов.
Избыточность ;R(q(x), ;) в (5.22) зависит от истинного значения ;. Поскольку последнее неизвестно, эта величина не может быть вычислена.  Вместо этого мы можем получить вычислимую метрику, максимизируя все значения ; H, что дает избыточность в худшем случае
Это количество может быть сведено к минимуму с помощью q(x), что обеспечивает так называемую минимакс избыточность:
Минимаксная избыточность может быть принята в качестве показателя пропускной способности модели H, поскольку более богатая модель, как правило, дает большее значение ;R(H). Фактически,
Теория статистического обучения; 128
для более богатой модели сложнее найти репрезентативное распределение q(x), которое дает среднюю длину кодирования, близкую к минимальной H(p(x|;)) для всех значений ;.
Получается, что минимаксная избыточность равна пропускной способности C(p(x|;)) канала p(x|;), которая определяется как C(p(x|;)) = maxp(;) I(x; ;) [38]. Это показано в следующей последовательности равенств:
где первое равенство следует из того, что среднее значение набора чисел не больше, чем любое из чисел; второе является следствием теоремы о минимаксе, поскольку член ;x;;  p(;)p(x|;) log(p(x|;)/q(x)) выпукло в q (x) и вогнуто в p(;); и третье равенство следует из неравенства Гиббса (см. разделы 2.6 и (А.5) в приложении А). В заключение отметим, что взаимная информация I(x; ;) между параметрами модели и данными также играет центральную роль в получении оценок эффективности оценки [91].


Часть III
Неконтролируемое обучение
6
Неконтролируемое обучение



В отличие от контролируемого обучения, задачи неконтролируемого обучения выполняются с
использованием немаркированных наборов данных. Помимо этого общего утверждения, неконтролируемое обучение определяется более расплывчато, чем обучение под наблюдением, и ему также не хватает прочной теоретической основы, которая отражала бы теорию обучения PAC, рассмотренную в предыдущей главе. Тем не менее, многие ожидают, что будущие прорывы в машинном обучении будут достигнуты главным образом за счет достижений в теории и разработке алгоритмов обучения без контроля. Это связано с наличием огромных хранилищ немаркированных данных, а также с более широкой применимостью задач обучения, при которых машина учится, так сказать, без контроля или обратной связи.  Непреднамеренное обучение также рассматривается некоторыми как ключ к развитию общего ИИ, в отличие от ИИ, специфичного для конкретной задачи [137] (подробнее об общем ИИ читайте также [142, 87]).
Вообще говоря, алгоритмы неконтролируемого обучения нацелены на изучение некоторых интересующих свойств механизма, лежащего в основе генерации данных. В этом смысле неконтролируемое обучение относится к изучение генеративных моделей, хотя, как мы увидим, это утверждение сопровождается некоторыми оговорками. Общим аспектом многих моделей, используемых для обучения без контроля, является наличие скрытых переменных,
130
6.1. Обучение без контроля 131
которое помогает объяснить структуру данных.
Эта глава начинается с обсуждения применения обучения без наблюдения и описания хорошо известного алгоритма K-средних. Затем рассматриваются направленные и ненаправленные порождающие вероятностные модели для обучения без наблюдения. Как мы подробно расскажем, эти модели предполагают различные типы статистических зависимостей между скрытыми и измеряемыми переменными. Также представлены дискриминантные модели, которые фиксируют зависимость скрытых переменных от наблюдаемых переменных, а также автоэнкодеры, которые сочетают дискриминантную и генеративную модели. В конце главы обсуждается другой тип алгоритма обучения, который можно рассматривать как неконтролируемый, а именно PageRank, который включен из-за его практической значимости.
6.1 Обучение без унаблюдения
Определение обучения без наблюдения. Общее и довольно неточное, определение задач обучения без наблюдения таково. С точки зрения частотного метода, нам дан набор данных D, состоящий из N i.i.d. немаркированных наблюдений xn ; RD . Предполагается, что они нарисованы идентично из неизвестного истинного распределения, как
Цель состоит в том, чтобы изучить некоторые полезные свойства распределения p (x), где интересующие свойства зависят от конкретного приложения. Хотя это определение является достаточно общим, чтобы включать в себя также проблемы с оценкой, рассмотренные в главе 3, как уже упоминалось, проблемы с обучением без контроля обычно характеризуются наличием скрытых или незначительных переменных. В качестве примечательных примеров можно привести следующие.
• Оценка плотности: Оценка плотности направлена на непосредственное получение хорошей аппроксимации распределения p(x), например, для использования в подключаемых модулях оценки [86], для разработки алгоритмов сжатия (см. раздел 2.5) или для обнаружения выбросов [139].
• Кластеризация: Кластеризация предполагает наличие ненаблюдаемой метки zn, связанной с каждой точкой данных xn, и цель состоит в том, чтобы восстановить метки zn для всех точек в наборе данных D. Например,
132 Обучение без контроля
может возникнуть необходимость сгруппировать набор текстовых документов D в соответствии с их тематикой, смоделировав их в виде ненаблюдаемой метки zn. В широком смысле, для этого необходимо сгруппировать документы, которые похожи по тематике. к какому-то показателю. На данном этапе важно подчеркнуть различие между классификацией и кластеризацией: в то время как первая предполагает наличие помеченного набора обучающих примеров и оценивает его эффективность (обобщение) на отдельном наборе немаркированных примеров, вторая работает с одним немаркированным набором примеров. Различные обозначения, используемые для меток – zn вместо tn – призваны напомнить об этом ключевом отличии.
• Уменьшение размерности и представление: учитывая множество D, нам хотелось бы представить точки данных xn ; D в пространстве меньшей размерности. Это позволяет выделить независимые объясняющие факторы и/или упростить визуализацию и интерпретацию [93], например, для анализа текста с помощью векторного встраивания (см., например, [124]).
• Извлечение признаков: Извлечение признаков - это задача получения функций из точек данных xn, которые предоставляют полезные входные данные меньшего размера для таких задач, как контролируемое обучение. Извлеченные признаки являются ненаблюдаемыми и, следовательно, скрытыми переменными. В качестве примера, скрытый слой глубокой нейронной сети извлекает функции из данных для использования на уровне вывода (см. раздел 4.5).
• Генерация новых образцов: Цель данного исследования - обучить машину, способную производить образцы, распределение которых приблизительно соответствует истинному распределению p(x). Например, в области компьютерной графики для кинопроизводства или игр может потребоваться обучить программное обеспечение, способное создавать искусственные сцены на основе заданного описания.
Разнообразие задач и сложность предоставления формальных определений, например, реалистичности искусственно созданного изображения, делают неконтролируемое обучение, по крайней мере в его нынешнем виде, менее формальной областью, чем обучение под наблюдением. Часто критерии потерь при обучении без контроля определяют расхождение между обученной моделью и распределением эмпирических данных, но, как мы увидим, есть важные исключения.
6.1. Обучение без контроля 133
Рисунок 6.1: (а) Направленные \прямые\ генерирующие модели; (б) Ненаправленные генерирующие модели; (в) Дискриминирующие модели; (г) Автоэнкодеры.
Модели. Теперь мы рассмотрим типы моделей, которые могут быть использованы для
решения проблем обучения без присмотра. Модели будут рассмотрены  в последующих разделах этой главы.
• Направленные \Управляемые \ порождающие модели: Управляемые порождающие модели - это смешанные модели, в которых распределение p(x|;) данных определяется параметризованным предшествующим p(z|;) скрытых переменных z и параметризованным условным распределением p(x|z, ;), которое определяет взаимосвязь между скрытыми и наблюдаемыми переменными. Соответственно, распределение может быть выражено для дискретных скрытых переменных z как
Аналогичное выражение применимо к непрерывным скрытым переменным с интегралом вместо суммы. Направленные модели подходят для определения причинно-следственных связей между z и x. Схема, описывающая направленные порождающие модели, показана на рис. 6.1(а). Графические модели, включающие BNs, будут подробно рассмотрены в следующей главе. Примерами прямолинейных порождающих моделей являются модель смеси гауссиан и так называемые модели без учета правдоподобности, в которых условное распределение p(x|z, ;) реализуется с помощью детерминированного преобразования, наиболее типичного для многоуровневой сети.
• Неориентированные \ненаправленные\ порождающие модели: Неориентированные модели параметризуют прямо \направленно\ совместное распределение наблюдаемых переменных x и скрытых переменных z как p(x, z|;) и, соответственно, записывают распределение
134 Неконтролируемых обучающих
данных как
В отличие от ориентированных моделей, неориентированные модели отражают сходство или совместимость заданных конфигураций значений для z и x. Случайное поле Маркова (MRF), описывающее неориентированные порождающие модели, показано на рисунке Рис. 6.1(b) (смотрите следующую главу). Ярким примером является система управления рисками (RBMs).
• Дискриминационные модели: Дискриминационные модели пытаются напрямую обучить кодировку вероятностного отображения p(z|x, ;) между точкой данных x и представлением z. Это представлено символом BN на рис. 6.1(c).
• Автоэнкодеры: Как показано на рис. 6.1(d), автоэнкодеры создают параметризованную дискриминантную модель p(z|x, ;), которая генерирует скрытые переменные z из данных x, с параметризованной генерирующей моделью p(x|z, ;). Первый известен как кодер, а второй - как декодер. Соответственно, скрытые переменные также называются кодом. В наиболее типичных реализациях используются параметризованные детерминированные функции.- зависимости z = F; (x) и x = G; (z) вместо более общих вероятностных моделей p(z|x, ;) и p(x|z, ;) соответственно. Как мы увидим, автоэнкодеры обучены воспроизводить данные x на выходе, превращая неподготовленную проблему в контролируемую с “метками”, заданными самой точкой данных x.
6.2 Кластеризация K-Means \K средними\
Мы начнем с обзора хорошо известного алгоритма кластеризации с использованием K-средних. Цель данной статьи - подчеркнуть алгоритмическую структуру, а именно алгоритм максимизации математического ожидания (EM), который концептуально лежит в основе многих алгоритмов обучения без контроля.
Проблема заключается в многокластерной кластеризации: учитывая набор данных от D до одного D = {xn }N n=1 , мы хотели бы присвоить каждому вектору xn ; RD из K кластеров. Кластерные индексы кодируются категориальными переменными zn с помощью однократного кодирования (см. главу 3). Соответственно, мы записываем k -ю компоненту вектора zn как zkn = 1, если xn присваивается кластеру k, в то время как в противном случае мы записываем zkn = 0. Подчеркивается, что метки не указаны ни для одного из примеров в D. Следовательно, алгоритм должен
Кластеризация с использованием K-средних значений135
выявить некоторую закономерность в данных, чтобы разделить набор данных на K классы.


K-среднее - это эвристический метод, который пытается сгруппировать \собрать в кластер\ точки, расположенные на евклидовом расстоянии друг от друга. С этой целью K- среднее присваивает всем точкам в одном кластере заданный “прототип” репрезентативного вектора µk . Этот вектор можно рассматривать в терминах квантования: все точки в пределах данного кластера могут быть квантованы до прототипа µk с минимальными квадратичными потерями. Это формализуется следующей задачей оптимизации переменных назначения кластера zn и представителей кластера µk :
где d(x, µ) = ;x ; µ;2 - квадрат евклидова расстояния. При использовании общей метрики расстояния описываемый подход известен как алгоритм K-medoids. В этой связи мы, например, отмечаем, что кластеризацию можно применять и к дискретным данным, если расстояние d определено должным образом - обычно с помощью матрицы попарных различий.
Алгоритм K-средних выполняет альтернативную оптимизацию переменных назначения кластера zn и представителей кластера µk следующим образом:
• Инициализируем представителей кластера {µoldk }.
• Шаг математического ожидания, или шаг E: для фиксированных векторов {µoldk } решите задачу (6.4) над назначением кластера {zn}:
Соответственно, каждая точка обучения присваивается кластеру с ближайшим прототипом. Обратите внимание, что этот шаг обычно требует вычисления K расстояний для каждой точки данных xn.
• Шаг максимизации, или шаг M: для фиксированных векторов {zn }, решение задачи (6.4) для представителей кластера {µk}. Накладывая условие оптимальности на то, чтобы градиент целевой функции в (6.4) был равен нулю,
136 Неконтролируемое обучение
мы получаем
Значение µnewk, представляющее новый кластер для каждого кластера k, представляет собой среднее значение  точек данных, присвоенных кластеру k.
• Если критерий сходимости не удовлетворен, установите {µoldk } ; {µk } и возвращаемся к шагу E.
Поскольку как шаг E, так и шаг M минимизируют целевую функцию в (6.4), соответственно, для переменных назначения кластера zn и представителей кластера µk значение целевой функции не уменьшается на протяжении итераций. Это обеспечивает сходимость. Иллюстрации описание сходимости и примеры можно найти в [23, глава 9]. Следует отметить, что алгоритм также известен как квантование Ллойда-Макса [54].
На высоком уровне K-средние значения чередуются между: (i) выводами о скрытых переменных {zn } на основе текущей модели, определенной представителями {µk } на этапе E; и (ii) обновлением модели {µk } для сопоставления данных {xn } и предполагаемых \выводимых\ переменных {zn } на шаге M. Мы увидим, что аналогичная алгоритмическая структура применяется во многих алгоритмах обучения без контроля.
Прежде чем мы перейдем к обсуждению более общих решений, стоит остановимся в нескольких словах на проблеме выбора количества кластеров K. Первая возможность заключается в добавлении или удалении кластеров до тех пор, пока не будут выполнены определенные эвристические критерии, такие как “чистота” кластеров. Вторым подходом является иерархическая кластеризация, при которой строится дерево, известное как дендрограмма, которое включает в себя решения для кластеризации с увеличением числа кластеров по мере удаления от корня (см., например, [51]). Еще одно решение состоит в том, чтобы позволить K выбирать автоматически, предварительно применив непараметрический байесовский подход с помощью процесса Дирихле [104].
6.3 ML, ELBO и EM \МЛ, ЭЛЬБО и ЭМ\
В этом разделе мы обсудим два ключевых технических инструмента, которые широко используются для решения проблем обучения без присмотра, а именно Очевидная Нижняя граница (ELBO Evidence Lower BOund) и алгоритм EM. Отправной точкой является фундаментальная проблема изучения вероятностной, направленной или ненаправленной
6.3. ML, ELBO и EM 137
модели p(x|;) на основе данных с использованием ML. Позже мы обсудим, как изучать дискриминационные модели и автоэнкодеры.
6.3.1 Обучение ML

Из раздела 2.6 мы знаем, что ML, асимптотически находящийся в N, стремится минимизировать расхождение KL между истинным распределением p(x) и выбранной гипотезой в модели. Этот критерий хорошо подходит для многих задач обучения без контроля, упомянутых выше, таких как оценка плотности или генерация новых выборок, и поэтому полезно начать обсуждение с изучения ML.
Прежде чем мы это сделаем, необходимо сделать несколько замечаний. Во-первых, часто бывает полезно выбирать расхождения, отличные от KL, которые адаптированы к конкретным условиям интереса [8]. Мы более подробно обсудим этот аспект в разд. 6.4.3. Во-вторых, когда целью является обучение представления, машина стремится получить полезные функции z. Следовательно, минимизация расхождения KL для соответствия истинному распределению p(x) напрямую не решает представленную задачу обучения, если только на модель p(x|z, ;) не наложены соответствующие ограничения. На самом деле, если порождающая модель p(x|z, ;) слишком мощная, то она может игнорировать признаки z и все равно получать данные с высоким правдоподобием (см., например, [69]). Мы вернемся к этому замечание в разделе 6.6. Наконец, получение ML-решений часто нецелесообразно, особенно в больших моделях. Тем не менее, понимание проблемы ML позволяет лучше оценить влияние приближений и упрощений, применяемых для получения эффективных алгоритмов.
Чтобы продолжить, мы рассмотрим вероятностную, направленную или ненаправленную модель и сосредоточимся, с целью упрощения обозначения, на наборе данных с одной точкой данных (N = 1). Расширение набора данных с произвольным числом N точек требует только добавления внешней суммы к  индексу выборки для функции LL. Мы также сосредоточимся на дискретных скрытых случайных векторах RV, а обобщение на непрерывные rv получается путем замены сумм подходящими интегралами. Задача ML может быть записана как максимизация функции LL в виде
138 Неконтролируемое обучение
где x обозначает данные, а z - скрытые или латентные переменные. Обратите внимание на маргинализацию скрытых переменных в (6.7). Эту задачу следует сравнить с задачей контролируемого обучения ML , полученной при наблюдении как x, так и z, а именно
Пример 6.1. Рассмотрим направленную порождающую модель Бернулли-Гаусса, характеризуемую как
Это соответствует модели смеси гауссовых функций, в которой единственным параметром ; является среднее значение одной из двух гауссовых компонент.  Предположим, что мы наблюдаем x = 0. Рассмотрим сначала случай обучения под наблюдением, где мы предполагаем, что мы также измеряем z = 1. В этом случае функция LL в (6.8) равна ln p(x = 0, z = 1|;) = ln N (x|;, 1) + ln(0.5). В отличие от этого, при обучении без контроля функция LL в (6.7) имеет вид ln p(x = 0|;) = ln(0,5N (0/2, 1) + 0,5N (0|;, 1)).
Функции LL показаны на рис. 6.2. В отличие от обучения под наблюдением, LL для обучения без присмотра не является вогнутым. В данном примере это является следствием того факта, что, когда ; достаточно велико по абсолютной величине, вероятность того, что данные x будут получены в результате фиксированного гауссовского распределения с центром в x = 2, делает вклад гауссовского распределения с центром в ; все более несущественным.
6.3. ML, ELBO и EM 139
контролируемый
Логарифмическое правдоподобие
неконтролируемый
Рисунок 6.2: Иллюстрация функций LL для контролируемого и неконтролируемого обучения
в смешанной модели Гаусса (пример 6.1).

Решение задачи (6.7) сопряжено с двумя дополнительными сложностями по сравнению с аналогом контролируемого обучения (6.8). Первая проблема была выявлена в предыдущем примере: даже для моделей, в которых задача обучения под руководством ML является выпуклой, LL обычно не является вогнутой, когда переменные z скрыты, что исключает использование алгоритмов выпуклой оптимизации. За исключением использования часто непрактичных алгоритмов глобальной оптимизации, невыпуклые задачи, как правило, не могут быть решены в точности. Скорее, лучшее, на что можно надеяться,  для стандартных локальных схем оптимизации, таких как SGD, заключается в получении стационарных точек или локально оптимальных точек [28]. На практике эта проблема может быть не критичной, поскольку невыпуклость сама по себе не является причиной низкой эффективности обучения. Например, как показано в главе 4, методы обучения с контролем за пределами GLM, включая глубокие нейронные сети, решают невыпуклые задачи.
Вторая сложность заключается в необходимости суммирования - или интегрирования – скрытых переменных для оценки LL. Этот шаг осложняется тем фактом, что распределение скрытых переменных должно быть обучено и, следовательно, неизвестено. Это является существенным препятствием на пути разработки эффективных алгоритмов обучения, и, как правило, его необходимо устранять, чтобы сделать обучение возможным. В оставшейся части этого раздела мы опишем два технических средства, которые полезны для решения этих проблем.
140  Обучение без присмотра.
В главе 8 будут предложены более сложные решения проблем, возникающих при наличии больших скрытых пространств, в которых маргинализация нецелесообразна.
6.3.2 ELBO
Многие методы решения проблемы ML (6.7) основаны на максимизации ELBO. Эти методы включают в себя алгоритм EM и некоторые алгоритмы вариационного вывода, которые будут рассмотрены в главе 8. Ключевым элементом в разработке ELBO является введение вспомогательного распределения q(z) для скрытых переменных. Это называется вариационным распределением или вариационным апостериорным коэффициентом по причинам, которые будут разъяснены позже. Как мы увидим, для вычисления ELBO требуется среднее значение по распределению q(z), которое может быть установлено независимо от параметров модели. Это решает  указанную выше ключевую проблему способа усреднения по зависящему от параметра предела  скрытых переменных.
Определение 6.1. Для любого фиксированного значения x и любого распределения q(z) по скрытым переменным z (возможно, зависящим от x) ELBO L(q, ;) определяется в одной из следующих эквивалентных форм
обучающий сигнал
негативная энергия
энтропия
перекрестная энтропия
вариационная регуляризация
там, где мы определили некоторые термины, используя общепринятую терминологию, которая будет разъяснена ниже, и в (6.13) мы использовали условное определение KL(p||q), даже если q не нормализовано (см. разд.2.6).
6.3. ML, ELBO и EM  141
Эквивалентность между тремя формами ELBO может быть легко проверена. Форма (6.11) обосновывает определение отрицательной величины ELBO как вариационной свободной энергии или свободной энергии Гиббса, которая представляет собой разность энергии и энтропии. Эта форма особенно полезна для неориентированных моделей, в которых непосредственно задается совместное распределение p(x, z|;), например, модели, основанные на энергии, в то время как форма (6.12) особенно хорошо подходит для управляемых моделей, которые учитывают дискриминантное распределение p(x|z, ;), например, для глубоких нейронных сетей [27]. Для обеих форм первый член может быть интерпретирован как перекрестная потеря энтропии.  Форма (6.13) более компактна и предполагает, что, как мы будем формализировать ниже, ELBO максимизируется, когда q(z) выбрано в соответствии с  моделью распределения. Последняя форма дает термины, которые, как правило, нелегко вычислить, но она проливает свет на взаимосвязь между заполненными функция и ELBO, о чем мы поговорим далее.
Следующая теорема описывает определяющее свойство ELBO, а также еще одно важное свойство. Взятые вместе, эти особенности делают ELBO уникальным решением для разработки алгоритмических решений задачи (6.7).
Теорема 6.1. ELBO - это глобальная нижняя граница функции LL, то есть
ln p(x|;) ; L(q, ;), (6.15)
где равенство выполняется при значении ;0 тогда и только тогда, когда распределение q(z) удовлетворяет q(z) = p(z|x, ;0 ). Кроме того, угол является вогнутым в q (z) при фиксированном ;; и, если ln p (x, z|;) является вогнутым в ;, он также является вогнутым в ;
для фиксированного q(z).
Доказательство. Первая часть теоремы непосредственно следует из вида (6.14), которое мы можем переписать как
ln p(x|;) = L(q, ;)+KL (q(z)||p(z|x, ;)), (6.16)
и из неравенства Гиббса. Фактически, последнее подразумевает, что разность KL (q(z)||p(z|x, ;)) неотрицательна и равна нулю тогда и только тогда, когда два распределения в аргументе равны. Вогнутость изгиба ELBO можно легко проверить, используя стандартные свойства выпуклых функций [28]. В качестве примечания, альтернативное доказательство первой части
142 Обучение без контроля
теорема может быть доказана с помощью трюка с выборкой важности и неравенства Дженсена. Фактически, мы можем записать
где первое равенство просто получается путем умножения и деления на q (z) – важный прием выборки, – а последний шаг является следствием неравенства Дженсена. Напомним, что неравенство Дженсена гласит, что для любой вогнутой функции f (x) – здесь f (x) = ln(x) – мы имеем неравенство E[f (x)] ; f (E[x]).
Мы проиллюстрируем только что описанные свойства ELBO на следующем примере.
Пример 6.2. Рассмотрим снова направленную порождающую модель Бернулли-Гаусса (6.9). Апостериорное распределение скрытой переменной при заданном наблюдении x задается как
Зафиксируйте параметризованное вариационное распределение q(z|;) = Bern(z|;). С помощью (6.11), тогда ELBO задается в виде
L(q, ;) = ;(ln(N (0|;, 1)+ln(0,5))+(1;;)(ln(N (0/2, 1)+ln(0,5))+H(q). (6.19)
Приведенная выше теорема гласит, что при любом значении ; ELBO является нижней границей \меньшее привязаное\ к функции LL, равномерно для всех значений ;. Кроме того, эта граница является жесткой. т.е. она равна функции LL при всех значениях ;0, для которых выбранное вариационное распределение q(z|;) равно апостериорной из скрытых переменных, то есть для которых мы имеем ; = p(z = 1|x = 0, ;0 ). Это показано на рис. 6.3, где мы строим график LL и ELBO. Мы видим , что действительно ELBO является единой нижней границей для LL, которая равна
6.3. ML, ELBO и EM 143
для определенных значений ;0 параметра ;. Отражая свойство вогнутости ELBO в теореме, ELBO также рассматривается как вогнутая функция параметра ;.

Логарифмическое правдоподобие
Рисунок 6.3: Иллюстрация ELBO для двух различных вариантов вариационного распределения, которые являются жесткими при разных значениях ;0 параметра.
Свойство нижней границы ELBO делает его полезным не только для оптимизации ML, но и для оценки LL и, следовательно, от того, насколько хорошо модель соответствует данным, для целей выбора модели. Кроме того, ELBO может быть вычислен аналитически в особых случаях для экспоненциальных моделей [151, 159].
ELBO может быть обобщено как ELBO с несколькими выборками [32]:
Доказательство этого неравенства выполняется так же, как и для уравнения ELBO. Преимущество этой оценки в том, что по мере увеличения K она становится все более точной. Фактически, когда K ; ;, по закону больших чисел, мы имеем предел K -1 ;k=1 Kp(x, zk|;); ;zp(x, z |;) с вероятностью один.
Вывод по методу ELBO и Байесу. Таким образом, для данного вариационного распределения q(z) ELBO предоставляет верхнюю границу для функции LL или, что эквивалентно, нижнюю границу для функции NLL. Эта
144 Неконтролируемая обучения
граница является жесткой для значений векторов параметров ;, при которых мы имеем равенство q(z) = p(z|x, ;). Таким образом, при определенном значении ; вектора параметров вариационное распределение q(z), которое обеспечивает наиболее жесткую границу, является апостериорным распределением q(z) = p(z|x, ;), при котором расхождение KL в (6.16) обращается в нуль. То есть, чтобы получить максимально точный ELBO, необходимо решить задачу байесовского вывода, заключающуюся в вычислении апостериорного значения p(z|x, ;) скрытых переменных для заданного значения ;. Это свойство может быть указано для справки следующим образом
Градиенты LL и ELBO в зависимости от параметров модели.; При подходящем предположении дифференцируемости, градиент ELBO по значению ;0, в котором ELBO  плотно совпадает с градиентом LL, т. е.
Об этом также свидетельствуют кривые на рис. 6.3. На примере из раздела 6.5.1 мы увидим, что эта формула чрезвычайно полезна, когда градиент для полного логарифмического правдоподобия ;; ln p(x, z|;)|;=;0 может быть легко вычислен, например, для семейства экспоненциальных моделей.
Другие глобальные нижние границы правдоподобия.; Возвращаясь к доказательству теоремы 6.1, можно сделать вывод, что следующее общее семейство нижних границ
для любой вогнутой функции f. В то время как ELBO равен отрицательному значению расхождения KL между вариационным распределением и истинным распределением, как показано в (6.13), это представление дает более общие показатели расхождения, такие как ;-расхождение, которые будут обсуждаться в главе 8 [90, 13, 159].
6.3.3 Алгоритм EM
Как уже упоминалось, большое количество практических схем обучения без контроля с использованием направленных и ненаправленных генеративных моделей основано на
6.3. ML, ELBO и EM 145
• Инициализируем вектор параметра ;old  .
• Шаг E: Для вектора фиксированных параметров ; old максимизируем ELBO по вариационному распределению q, т.е. решаем задачу max L(q, ; old ), которая, согласно (6.21), дает новое распределение
• Шаг M: Для фиксированного вариационного распределения q new (z) максимизируем ELBO по вектору параметров ;, т.е. решаем задачу max L(q new , ;).

Эта выпуклая задача может быть эквивалентно записана как максимизация отрицательной энергии
• Если критерий сходимости не удовлетворен, установите ; new ; ; old и вернитесь к шагу E.
Таблица 6.1: Алгоритм EM.
максимизация ELBO L(q, ;) вместо функции LL. Как видно, ключевое преимущество такой максимизации заключается в том, что  ELBO \угол наклона\ является вогнутой функцией параметров ;. Кроме того, свойство нижней границы (6.15) гарантирует, что, если угол наклона является плотным при значении ;0 , результат оптимизация ELBO обязательно должна привести к значению LL, которое не меньше, чем ln p(x|;0 ). Это наблюдение используется алгоритмом EM для получения процедуры, которая гарантированно сходится к стационарной точке исходной задачи ML (6.7).
Алгоритм EM описан в таблице 6.1.
Во многих задачах, представляющих интерес, модель p (x, z|;) может быть принята либо как произведение априорного значения и вероятности из экспоненциального семейства для ориентированных моделей, либо непосредственно как член экспоненциального семейства для неориентированных моделей. В этих случаях задача (6.25), решенная на шаге M, будет показана ниже на примере, сводящемся к соответствующей задаче обучения под наблюдением, с оговоркой, что достаточная статистика усредняется по апостериорному распределению p (z|x, ; old ).
Алгоритм EM является примером более общего
146 Обучение без контроля
алгоритма минимизации  специализации \ мажоризации\ (MM) [141]. В этом классе алгоритмов на каждой итерации строится строгая нижняя граница целевой функции на текущей итерации ; old . Эта граница, которую должно быть легко максимизировать, затем оптимизируется, что приводит к новой итерации ; new . Этот процесс проиллюстрирован на рис. 6.4. Как видно, на каждой итерации гарантируется, что целевая функция не уменьшается, что обеспечивает приближение к локальному оптимуму исходной задачи. В EM строгой нижней границей является ELBO L(q new , ;), который получается путем вычисления апостериорного распределения скрытых переменных q new (z) = p(z|x, ; old ) на текущей итерации ; old .
старое
новое
Рисунок 6.4: Иллюстрация алгоритма EM. Пунктирная линия - это функция LL. Сплошные линии обозначают значения ELBO, соответствующие первым двум шагам алгоритма, а пунктирная линия - значение ELBO после нескольких итераций. На каждом шаге EM максимизирует значение ELBO, которое является нижней границей функции LL. EM является примером более общего подхода MM [141].
Обобщая алгоритм K-средних, алгоритм EM чередует между: (i) выводами о скрытых переменных z на основе модели, определенной текущей итерацией параметра модели ; на шаге E; и (ii) обновлением модели ; для приведения в соответствие данных x и предполагаемых переменных z на шаге M. Полезно подчеркнуть,
6.3. ML, ELBO и EM 147
что неконтролируемое обучение, даже при предполагаемом частотном подходе, влечет за собой проблему байесовского вывода, связанную с оценкой апостериорной части скрытых переменных.
Обобщение на N наблюдений. Мы завершаем этот раздел явным обобщением алгоритма EM на случай в которых у нас есть N i.i.d. независимых одинаково распределённых наблюдений. Для уточнения предположим, что у нас есть пары наблюдаемых/ ненаблюдаемых идентификационных переменных (xn , zn ), чьё предполагаемое совместное распределение может быть записано в виде p(xN , zN |;) = ПN n=1 p(xn , zn |;).
Шаг E: Шаг E требует вычисления апостериорного значения p(zN |xN , ;). Это можно увидеть на примере разложения на множители, поскольку у нас есть
Следовательно, чтобы вычислить апостериорное значение, мы можем действовать отдельно
для каждого примера в наборе данных путем вычисления p(zn |xn , ;) для всех n = 1, ..., N .
Шаг M: Аналогичным образом, функция отрицательной энергии Q(;, ; old ) для использования на шаге M может быть вычисленf отдельно для каждого примера, как
и , следовательно, отдельно для каждого примера. Обратите внимание, что оптимизация на
шаге M вместо этого должна выполняться совместно с (6.27).
Расширения.; Алгоритм EM решает проблему невыпуклости, выявленную в начале этого раздела, путем оптимизации ELBOs итеративно в соответствии с описанным механизмом MM. Тем не менее, на практике реализация алгоритма EM может потребовать слишком больших вычислительных затрат. Фактически, на этапе E требуется вычислить апостериорное распределение скрытых переменных, что может быть трудно выполнимо, когда латентное пространство велико; а на этапе M вычисляется среднее значение по последующему распределению, которое также может быть трудно выполнимо. В главе 8 мы рассмотрим
148 Обучение без присмотра
подходы к преодолению этих проблем с помощью приблизительных выводов и методов обучения. Для расширения алгоритма EM мы ссылаемся на [15, с. 247-248]. В этой связи здесь отмечается, что алгоритм EM применим также к сценариям, в которых разные точки данных, как правило, имеют разные подмножества ненаблюдаемых переменных.
6.4 Направленные генеративные модели
В этом разделе мы обсуждаем модели направленного генерирования, в которых, как показано
на рис. 6.1(а), задается параметризованное предварительное значение p(z|;) скрытых переменных z и параметризованное условное распределение декодирования p(x|z, ;). Как уже говорилось, целью может быть обучение распределения p(x) истинных данных или извлечение полезных характеристик z. В последнем случае использование направленной генеративной модели называется выполнением анализа путем синтеза. Сначала мы обсудим два прототипа применения EM для обучения ML. Затем мы расскажем об альтернативном подходе, известном как GAN, который можно рассматривать как обобщение ML. Соответственно, вместо того, чтобы априори выбирать дивергенцию KL в качестве показателя производительности, как это неявно делается в ML, GAN одновременно изучают дивергенцию и генеративную модель.
Рассмотренные здесь многослойные расширения генеративно-ориентированных моделей относятся к категории машин Гельмгольца. Мы ссылаемся, например, на [42], для обсуждения задачи обучения этих сетей с помощью аппроксимации алгоритма EM, который использует инструменты, описанные в главе 8.
6.4.1 Модель смеси гауссиан
Модель смеси гауссиан может быть описана следующей направленной порождающей моделью
с вектором параметров ; = [;,µ0 , ..., µK;1 , ;0 , ..., ;K;1 ]. Мы используем однократное кодирование для категориальных переменных zn = [z0n , ..., z(K;1)n ]T . Обратите внимание, что эту модель можно рассматривать как неконтролируемую версию QDA модели для полностью наблюдаемого или контролируемого случая рассмотреного в разделе 4.6
6.4. Модели направленного генерирования 149
(см. (4.44)). Ниже мы увидим, что алгоритм EM использует это наблюдение на шаге M. Кроме того, будет замечено, что EM для смеси гауссианов обобщает алгоритм K-средних. Шаг E. На шаге E, согласно (6.26), нам нужно решить задачу вывода для вычисления апостериорного значения p(zkn |xn , ; old ) для каждого примера n и кластерного индекса k = 0, ..., K -1. В этом случае это может быть сделано непосредственно с помощью теоремы Байеса, поскольку нормализация требует суммирования только по К возможным значениям, полученным с помощью zn , что дает значение
Шаг M. На шаге M нам нужно максимизировать функцию отрицательной энергии Q(;, ; old ) в (6.27). Каждый член суммы может быть вычислен непосредственно как
где
Как это можно легко проверить, функция Q(;, ; old ) равна функции LL, которая решение задачи, контролируемой QDA, в которой наблюдаются переменные zn, со следующей оговоркой: достаточные статистические данные zkn заменяются их апостериорными средними значениями ;zkn . В результате, в отличие от управляемого обучения, EM описывает каждый пример xn как часть всех кластеров, при этом “ответственность” кластера k определяется ;zkn.
Сделав это наблюдение, мы теперь можем легко оптимизировать функцию Q(;, ;old ), используя решения ML (4.45) для QDA, заменив ;zkn на наблюдаемую переменную tkn .  Установка ;k = ;I в качестве известного параметра и значение ; ; 0 восстанавливает алгоритм K-средних [23, с. 443].
150 Обучение без учителя
Рисунок 6.5: Истинное распределение (пунктирная линия) и модель смешения гауссиан, полученная с помощью EM (сплошная линия).


Пример 6.3. Рассмотрим данные, выведенные на основе многомодального распределения, показанного на рис. 6.5 в виде пунктирной линии, которая получена в виде смеси двух гауссиан и экспоненциального распределения. Когда M = 1, смесь распределений гауссианов, обученных с помощью EM, соответствует согласованная оценка ML и, следовательно, получена с помощью сопоставления моментов (см. главу 3). Это показано на рисунке для данной реализации данных с N = 100. Запуск EM с большими значениями M = 2 и M = 3 также возвращает то же распределение. Это распределение, как видно, включает в себя всю поддержку истинного распределения и сглаживает границы исходного распределения. Как мы далее обсудим в разделе 6.4.3, это является следствием того факта, что ML сводит к минимуму расхождение KL по второму аргументу.
Аналогичная модель, которая применяется к двоичным данным, а не к непрерывным данным, таким как черно-белые изображения, представляют собой смесь модели Бернулли. Алгоритм EM может быть получен путем выполнения тех же шагов, которые описаны здесь [23].
6.4. Направленные генерирующие модели 151
6.4.2 Вероятностный анализ главных компонент
Вероятностный анализ главных компонент (PPCA) - популярная обобщающая модель, которая описывает данные в терминах M < D признаков, линейно связанных с вектором данных. В частности, PPCA использует линейную факторную генеративную модель с параметрами M < D, описываемыми как
с вектором параметров ; = (W µ ;). Эквивалентно, согласно PPCA, вектор данных может быть записан как
xn = W zn + µ + qn , (6.33)
со скрытыми переменными zn ; N (0, I) и аддитивным шумом qn ; N (0, ;2I). Согласно (6.33), столбцы {wk } матрицы W = [w1 w2 · · · wM ] можно интерпретировать как линейные характеристики данных. Это означает, что каждая точка данных записывается как линейная комбинация векторов характеристик в виде
где zmn - это m-я компонента скрытого вектора zn .
В моделях, рассмотренных выше, скрытая переменная была категориальным идентификатором класса наблюдения. Таким образом, в PPCA вместо этого представление наблюдения xn в пространстве скрытых переменных распределено по всем переменным в векторе zn . Это обеспечивает более эффективное кодирование скрытого представления. Это особенно очевидно в случае дискретного скрытого rv, который будет дополнительно рассмотрен в разделе 6.5.1 (см. также [20]).
Можно разработать алгоритм EM для определения вектора параметров, как описано в [23, с. 577]. Шаг E использует известный результат, который апостериори \задняя \ из скрытых переменных может быть записан как
с матрицей J = ; -2 W T W + I.
152 Обучение без контроля
Отметим, что если мы моделируем скрытые переменные zkn, k = 1, ..., M независимыми, но не гауссовыми, мы получаем тип независимого Компонентного анализа (ICA) (см. [23, с. 591]). Также возможно наложить структуру на скрытый вектор, выбрав подходящие предельные распределения p(z). Например, выбрав t-распределение Стьюдента или Распределение Лапласа имеет тенденцию к разреженности изученной модели. A общее обсуждение линейных факторных моделей можно найти в [104] (смотрите также [36] для обобщения PPCA на любую модель из семейства экспоненциальных ).
6.4.3 GAN \ГАН\
В разделе 2.6 мы видели, что ML можно интерпретировать в асимптотическом режиме для большого набора данных N как минимизацию расхождения KL между истинным распределением данных и моделью. Мы начинаем этот раздел с повторного рассмотрения этого аргумента в пользу обучения без присмотра, чтобы подчеркнуть аналогичную интерпретацию, которая справедлива для конечных значений N. Эта точка зрения приведет нас к обобщению подхода к обучению ML на методы в который позволяет адаптировать выбранную меру расхождения к данным. В качестве важного побочного продукта можно отметить, что результирующий метод, известный как GAN, легко адаптируется к моделям без учета правдоподобности. В настоящее время считается, что GAN дают самые современные результаты для генерации изображений [57].
Чтобы упростить обсуждение, предположим, что переменные xn являются категориальными и принимают конечное число значений. Для начала давайте заметим, что функция NLL (6.1) для i.i.d. данных может быть записана в виде
где, как мы помним, N [x] = |{n : xn = x}|. Теперь мы заметим, что задача минимизации NLL (6.36) по ; эквивалентна задаче минимизации расхождения KL
6.4. Направленные порождающие модели 153
в которых мы определили эмпирическое распределение
Таким образом, мы приходим к выводу, что ML пытается минимизировать расхождение KL
между эмпирическим распределением pD (x) данных и модельным распределением p(x|;). Задача ML min ; KL(pD (x)||p(x|;)) также известна как M-проекция распределения данных pD (x) на модель {p(x|;)} [40] (дальнейшее обсуждение приведено в главе 8).
Коэффициент KL-дивергенции (6.37) является мерой различия между двумя распределениями со специфическими свойствами, которые могут не соответствовать интересующему нас конкретному применению. Например, распределения  полученные путем минимизации (6.37), как правило, дают “размытые” оценки распределения данных, как мы видели на рис. 6.5. В результате, известно, что обучение распределений изображений с использованием M-проекций приводит к тому, что обученная модель выдает расфокусированные изображения [57].
Однако расхождение в KL не является единственным показателем различий между двумя распределениями. Как более подробно обсуждается в приложении A, расхождение KL на самом деле является частью более широкого класса f-расхождений между двумя распределениями p(x) и q(x). Этот класс включает в себя расхождение меры, определяемые вариационным выражением1
для некоторой вогнутой возрастающей функции g(·) (значение подпункта f обсуждается в приложении A). Ключевым новым элементом в (6.39) является решающее правило T (x), которое также известно как дискриминатор или критик. Эта функция принимает в качестве входных данных выборку x и в идеале выдает большое значение, когда x генерируется из распределения p, и малое значение, когда оно генерируется из q. Следовательно, оптимизация по T (x) гарантирует, что правая часть (6.39) велика, когда два распределения различны, и, следовательно, может быть выделена на основе наблюдения x. Когда область, в которой оптимизирован дискриминатор T (x), остается неограниченной, решение задачи (6.39) восстанавливает расхождение KL и  значение
1Термин "вариационный" относится к тому факту, что определение включает оптимизацию.
154 Неконтролируемое обучение
дивергенции Дженсена-Шеннона, среди прочего, с конкретным выбором функции g (см. Приложение А)2.
Обобщая задачу ML (6.37), GaN пытаются решить
задачу
Более точно, GAN параметризуют дискриминатор T (x), выбирая дифференцируемую функцию T; (x) вектора параметров ;. Это эффективно сокращает пространство поиска дискриминатора и определяет другой тип расхождения для каждого значения ;. Типичным выбором для T; (x) является вывод многослойной нейронной сети с весами ; или их функцией (см. раздел 4.5). Имея это в виду, используя (6.39) в (6.40), мы получаем минимаксную задачу, решаемую с помощью GANs3
Согласно (6.41), GAN выбирают меру расхождения адаптивно путем оптимизации дискриминатора T; (x). Задачу (6.41) также можно интерпретировать в терминах стратегической игры, в которую играют генератор и дискриминатор [57].4
Оригинальный метод GAN [57] основан на установке T; (x) = ln D; (x), где D; (x) - выходной сигнал многослойного персептрона, а g(t) = ; log(1 ; exp(t)). Вариант, который, как показано, более полезен на практике, также обсуждается в первой статье GAN (см. [49]). В качестве другого популярного примера, Вассерштейн ГАН просто устанавливает значение T; (x) ) в качестве выходного многослойного персептрона и выбирает g(t) = ;(1 ; t).
Применение к моделям, не основанным на правдоподобии.; GAN обычно используются с моделями без учета вероятности. Соответственно, модельное распределение p(x|;) записывается в виде
2Для данной функции T (x) правая часть (6.39), исключая максимизацию, дает нижнюю границу дивергенции Df (p||q). Другой полезной связанной оценкой для дивергенции KL является так называемое представление Донскера-Варадхана (см., например, [18]).
3 Приведенная здесь версия GAN известна как f -GANs [107], которая является обобщением
оригинального GAN.
4 Следует отметить, что настройка GAN напоминает состязательную модель, используемую
для определения семантической безопасности в криптографии.
6.5. Неориентированные порождающие модели 155
Следовательно, выборки x моделируются как выходные данные функции генератора G; (z), входные данные которого z задаются i.i.d. гауссовыми переменными.  Таким образом, эта обобщающая модель может быть интерпретирована как обобщение PPCA для нелинейных кодеров G; (z). Последняя снова традиционно моделируется как многослойная нейронная сеть.
Задача (6.41) обычно решается с помощью SGD (глава 4) путем итераций между оптимизацией параметров генератора ; и параметров дискриминатора ; (см. [8, алгоритм 1]). Обучение требует эмпирических приближений для оценки градиентов, которые будут рассмотрены в главе 8.
Точка зрения оценки отношения правдоподобия.; Когда на дискриминатор T (x) в (6.39) не накладывается никаких ограничений и функция g выбрана как g(t) = exp(t ; 1), оптимальное решение задается в виде T (x) = 1 + ln(pD (x)/p(x|;)) и соответствующая мера расхождения (6.39) является расхождением KL(pD (x)||p(x|;)). Следовательно, решение задачи (6.39) для достаточно общего семейства функций T; (x)  позволяет получить оценку логарифмического отношения правдоподобия ln(pD (x)/p(x|;)). В результате, GANs может быть интерпретирован как выполняющий оценку соотношения правдоподобия между распределениями данных и моделей являются одним из этапов процесса обучения. Идея оценки коэффициентов правдоподобия для оценки расхождений KL полезна в других задачах обучения, основанных на вариационном выводе, которые будут рассмотрены в главе 8 (см. [70]).
Некоторые темы исследований.; Среди тем текущих исследований мы упоминаем проблему регуляризации GAN [123]. Мы также отмечаем, что GAN также может быть распространена на задачи обучения с контролем [108]. Подход GAN к формулированию расхождения как оптимизации также недавно было обнаружено, что использование дискриминаторной функции полезно для ICA [29].
6.5 Неориентированные порождающие модели
В отличие от направленных генеративных моделей, ненаправленные генеративные модели предполагают совместное распределение скрытых и наблюдаемых переменных, которое отражает скорее сходство, чем причинно-следственную связь между двумя наборами переменных, как показано на рис. 6.1(б). В этом разделе мы обсудим наглядный пример ненаправленных генеративных моделей, который считается, что
156 Обучение без контроля
является мощным инструментом для ряда приложений, включая управление отбор свойств, создание новых образцов и даже рекомендательных систем [127]. Модель, известная как RBM, также находит применение в качестве компонента более крупных многослойных структур, в том числе для обучения под наблюдением [64].
6.5.1 Ограниченные машины Больцмана (RBM)
RBM обычно характеризуются M-мерным двоичным скрытым вектором z €{0, 1}M , в то время как наблюдаемые переменные могут быть дискретными или непрерывными. Здесь мы рассмотрим случай бинарных наблюдаемых переменных, который подходит для моделирования, например, черно-белых изображений или положительных/ отрицательных рекомендаций. Модель RBM определяется как (6.3), где совместное распределение видимых и скрытых переменных является логарифмически линейной моделью и, следовательно, относится к семейству экспоненциальных. Математически мы имеем
с энергетической функцией, заданной в виде
и статистической суммой в виде Z(;) = ;x,z exp(;E(x, z|;)).  Вектор параметров ; включает в себя M ; 1 вектор a, D ; 1 вектор b и матрицу D ; M W .
Определение “ограничено” отражает тот факт, что функция энергии (6.44) содержит только перекрестные термины, которые включают одну переменную из x и одна из z, а не две переменные из x или две из z. Другими словами, модель учитывает сходство между переменными в x и z, но не напрямую между переменными ни в x, ни в z [20]. Например, если (i, j)-я запись wij матрицы W является большим положительным числом, переменные xi и zj будут иметь одинаковые знаки, чтобы минимизировать энергию и, следовательно, максимизировать вероятность; и наоборот, когда wij отрицателен. Как мы увидим в следующей главе, этот тип вероятностной зависимости может быть представлен неориентированной графической моделью известные как MRF, показанные на рис. 6.6.
6.5. Неориентированные генеративные модели 157
Рисунок 6.6: Неориентированный график (MRF), описывающий совместное распределение, заданное моделью RBM (6.43)-(6.44).
Исходя из модели, легко вычислить распределение каждой скрытой или наблюдаемой переменной при обработке всех наблюдаемых или скрытых переменных соответственно. В частности, мы имеем, что переменные в z взаимно независимы, если они обусловлены x, и, аналогично, переменные в x независимы при заданном z. Кроме того, условные распределения задаются в виде:
где wj - j-й столбец матрицы W, а wi - i-я строка матрицы W, преобразованная в вектор-столбец посредством транспозиции. Эти соотношения раскрывают значимость бинарных скрытых переменных z с точки зрения характеристик.
Фактически, что касается PPCA, мы можем рассматривать каждый столбец матрицы W как вектор признаков, который вносит свой вклад в объяснение наблюдений. Чтобы убедиться в этом, обратите внимание, что (6.45a) предполагает, что j-я скрытая переменная zj
равна 1, когда функция wj хорошо коррелирует с точкой данных x. Вероятность (6.45b) также подтверждает эту интерпретацию, поскольку каждая переменная zj умножает i-й элемент вектора признаков wj при определении LLR с помощью ~wTi z + bi (см. раздел 3.2). Кроме того, распределенное представление данных в терминах двоичного скрытого вектора z является более эффективным, чем это обеспечивается моделями с категориальными переменными, такими как смесь гауссовой модели. Это имеет следующий смысл. В то время как категориальные модели требуют обучения ряда параметров, которые линейно увеличиваются
с увеличением числа классов, распределенное представление с двоичным вектором z позволяет различать двумерные 2D комбинации объектов с рядом параметров, которые линейно увеличиваются с увеличением D [20].
158  Обучение без присмотра
Обучение обычно осуществляется с помощью приближенного метода SGD, в котором используются методы MC. Вспомним общую формулу (3.28) для показательного семейства, градиент на текущей итерации ; = ; old можно вычислить, используя (6.22), а
который может быть дополнительно упрощен с помощью (6.45). Градиент представляет собой структуру, описанную в главе 3, которая определяется разницей между положительным
компонентом, зависящим от данных x, и отрицательным компонентом, который вместо этого требует усреднения по всем другим возможным выборкам x ~ p(x|; old ). Аналогичные cоотношения могут быть записаны для градиентов относительно a и b, а именно
и
Чтобы оценить ожидания в отрицательных компонентах градиентов, обычно используется метод MC, известный как цепь Маркова  MC (MCMC), которая будет рассмотрена в главе 8. Более конкретно, было обнаружено, что упрощенный подход, известный как контрастивная дивергенция (CD), является эффективным приближением. Соответственно, видимые переменные “привязываются” к наблюдаемым переменным x = x и генерируется последовательность x ; z (0) ; x(1) ; z (1), используя условную вероятность (6.45a) для генерации z из x и (6.45b) для генерации x из z.  Полученные выборки используются для аппроксимации математических ожиданий в виде (0)(1) (1)
аналогичные выражения применимы и к другим градиентам. Схема CD также может быть обобщена на CD-k путем увеличения последовательности марковских цепей до k шагов и использования результирующих выборок x(k) и z (k) вместо x(1) и z (1).
Расширения и применение  RBM обсуждаются в работах [20, 153]. Обобщения RBM с несколькими уровнями скрытых переменных называются глубокими машинами Больцмана. Мы ссылаемся на [64] для обсуждения обучения и приложений.
6.6. Дискриминантные модели 159
6.6 Дискриминационные модели
Когда целью является обучение представления z данных x, можно попытаться напрямую обучить параметризованный кодер, или дискриминационную модель, p(z|x, ;), как показано на рис. 6.1(c). С помощью кодера p(z|x, ;) мы можем определить совместное распределение как p(x, z| ;) = p(x)p(z|x, ;), где p(x) - истинное распределение данных. Последнее на практике приблизительно соответствует эмпирическому распределению pD (x) данных. Это дает совместное распределение
Из (6.50) видно, что, в отличие от рассмотренных до сих пор частотных методов, дискриминантные модели для обучения без контроля основаны на определении единого распределения по наблюдаемым и ненаблюдаемым переменным. Таким образом, показатели расхождения, которые включают два распределения, не являются релевантными показателями эффективности. В отличие от этого, подходящей метрикой является взаимная информация между совместно распределенными переменными (x,z). Взаимная информация является мерой статистической зависимости между двумя RV и представлена в приложении A.
Уточним, что типичным критерием обучения является максимизация взаимной информации Ip(x,z|;)(x; z) между представлением z и данными x при совместном распределении p(x, z|;). Обратите внимание, что для ясности мы явно указали совместное распределение, используемое для оценки взаимной информации, в качестве нижнего индекса. Это может быть связано с расхождением KL следующим образом Ip(x,z|;)(x; z) = KL(p(x, z|;)||p(x)p(z)). Эта взаимосвязь указывает на то, что взаимная информация количественно определяет степень статистической зависимости или расстояние от независимости для двух RV.
Результирующая задача максимизации информации задается как
Как видно, чтобы избежать изучения тривиального сопоставления идентификаторов, необходимо наложить подходящие ограничения на кодер p(z|x, ;), чтобы ограничить его пропускную способность. Чтобы решить проблему (6.51), типичным решением является обращение к MM-подходу, который сродни EM-алгоритму для обучения ML описано выше (см. рис. 6.4).
С этой целью, как и для EM, мы вводим вариационное распределение q(x|z) и заметим, что у нас есть следующая нижняя граница для
160  Обучение без контроля
взаимной информации 5
Этот результат достигается с использованием тех же шагов, что и для ELBO. Граница является строгой, когда вариационное распределение q(x|z) равно точному апостериорному
P p(x|z, ;) = pD (x)p(z|x, ;)/( ;x pD (x)p(z|x, ;)). Основываясь на этом неравенстве, можно разработать итеративный алгоритм оптимизации параметров модели и вариационного распределения q(x|z) (см., например, [3, 150]). Когда последний ограничен тем, что он находится в параметризованном семействе, оптимизация с помощью декодера q(x|z) является примером вариационного вывода, который будет обсуждаться в главе 8. Оптимизация параметров модели может быть упрощена, если модель имеет дополнительную структуру, например, в методе InfoMax ICA [85].
Интерпретация на основе логического вывода.; Взаимная информация может быть связана с вероятностью ошибки при выводе x с учетом представления z. Это можно увидеть, например, с помощью неравенства Фано [38, 3]. Более конкретно, критерий (6.52) можно интерпретировать в терминах вывода x учитывая z, отметим, что его правую часть можно записать в виде разности H(pD (x))-(Еx,z~pD (x)p(z|x,;) [- ln q(x|z)]). Фактически, второй член является мерой перекрестной энтропии для предсказания значения x при заданном z с помощью вариационного распределения q(x|z). Следовательно, путем максимизации (6.52) над ; модель p(z|x, ;) получает представление z таким образом, что предсказатель q(x|z) обеспечивает в среднем хорошую реконструкцию x при заданном z. Этот момент более подробно рассматривается в [4]. Мы специально указываем на [4, рис. 2], где приводится сравнение с методами, основанными на ML.
Метод информационного узкого места.; Важным изменением принципа InfoMax является метод информационного узкого места. В последнем случае предполагается наличие дополнительной переменной y, распределенной совместно с x, которая представляет желаемую информацию, но остается ненаблюдаемой. Цель состоит в том, как указано выше, чтобы изучить кодер p(z|x, ;) между наблюдаемым x и представлением z. Однако в данном случае это достигается путем максимизации взаимной информации I(y; z) между целевой ненаблюдаемой переменной y и представлением z при наличии термин регуляризации, направленный на минимизацию сложности
5 Ограничение также используется алгоритмом Блахута-Аримото [38].
6.7.  Автоэнкодеров 161
представления. Этот штрафной срок \член\ определяется взаимной информацией I(x; z), что находит оправдание в аргументах, связанных с искажением скорости [145].
6.7 Автоэнкодеры
Как видно из рис. 6.1, автоэнкодеры включают параметрические модели как для кодера, так и для декодера. Для краткости мы сосредоточимся здесь на детерминированных автокодерах , в которых кодер определяется функцией z = F; (x), а декодер - функцией x = G; (z). Обратите внимание, что параметры, определяющие эти две функции могут быть связаны или, наоборот, различаться, и обозначение является достаточно общим, чтобы охватить оба случая.  В конце этого раздела мы упомянем вероятностные автоэнкодеры, в которых кодер и декодер определяются условными распределениями вероятностей.
Автоэнкодеры преобразуют задачу неконтролируемого обучения, заключающуюся в получении представления z = F; (x) входных данных x, основанного исключительно на немаркированных примерах {xn }N n=1, в задачу контролируемого обучения. Они делают это путем объединения кодера z = F; (x) с декодером x = G; (z)., таким образом, чтобы получить соотношение "вход-выход" t = G; (F; (x)). Ключевая идея состоит в том, чтобы обучить эту функцию, установив целевое значение t равным входному значению x. Таким образом, машина учится получать промежуточное представление z = F; (x), которое позволяет получить подходящую оценку t = G; (z) ; x из x.
Чтобы формализовать подход, обучение обычно формулируется в терминах задачи ERM
в которой как уже объяснялось, кодер-декодер, отображающий G; (F; (·)), обучен воспроизводить входные данные на своем выходе.
В отсутствие ограничений на кодер и декодер, приведенная выше задача тривиально возвращает идентификационное отображение, т.е. g; (f; (x)) = x. Следовательно, чтобы потенциально изучить полезную модель, необходимо наложить ограничения, такие как размерность или разреженность, на скрытый вектор z. Далее обсуждаются некоторые примечательные примеры.
PCA. PCA использует линейный кодер и декодер и связывает их весовые матрицы с помощью перестановки. В частности, PCA устанавливает кодер
162 Неконтролируемое обучение
в виде F; (x) = W T x, а декодер в виде G; (z) = W z. Параметры ; следовательно, они задаются матрицей D ; M W . Согласно этим определениям, столбцы M матрицы  W имеют интерпретацию линейных характеристик, как для PPCA.
С квадратичной функцией потерь задача обучения (6.53) задается как
Эта задача может быть решена в замкнутом виде. Решение фактически задается M главными собственными векторами выборочной ковариационной матрицы N -1 ;Nn=1 xn xnT . Также могут быть разработаны расширения PCA, использующие трюк с ядром (глава 4) (см., например, [104]). Кроме того, PCA можно рассматривать как частный случай PPCA, установив в последнем значение µ = 0 и приняв предел ;2 ; 0.
Обучение словаря. При обучении словаря декодер работает линейно, т.е. G; (z) = wz, как и для PCA. Однако кодер ограничен только ограничениями на набор допустимых скрытых переменных z. Типичным таким ограничением является разреженность: скрытый вектор должен содержать небольшое количество ненулевых элементов. Определяя как C набор допустимых значений для z, задачу изучения словаря можно сформулировать следующим образом
Название метода объясняет тот факт, что матрицу W можно рассматривать как словарь из M объектов – ее столбцов, – которые используются для описания данных. Описанная выше задача обычно решается с помощью альтернативной оптимизации. Соответственно, выполняется оптимизация по W для фиксированного набора скрытых векторов {zn }, что является стандартной задачей наименьших квадратов; и оптимизирует каждый скрытый вектор zn для получения фиксированного значения W. Вторая проблема может быть решена с помощью стандартных методов, основанных на разреженности, таких как LASSO (глава 2).
Многослойные автоэнкодеры.; Можно также представить как кодер, так и декодер в виде многослойных нейронных сетей. В этом случае веса кодера и декодеров обычно привязываются друг к другу таким образом, чтобы они были взаимозаменяемы, аналогично PCA. Обучение часто проводится сначала поэтапно, например, с использованием RBM-обучения, а затем с помощью обратного распространения по всей сети [64].
6.8. Ранжирование; 163
Устраняющие шум автоэнкодеры.; Альтернативный подход, облегчающий изучение полезных функций, заключается в устранении шумов в автоэнкодерах [150]. Автоэнкодеры с шумоподавлением добавляют шум к каждому входному сигналу xn, получая
зашумленную версию xn , и затем обучают машину с целью восстановления входного сигнала xn из зашумленной версии xn . Формально это можно  сделать, минимизировав эмпирический риск ;Тn=1 ;(xn , G; (F; (xn ))).
Вероятностные автоэнкодеры. ; Вместо использования детерминированных энкодеров и декодеров-дешифраторов можно работать с вероятностными кодерами и декодеры, а именно p(z|x, ;) и p(x|z, ;) соответственно. Рассматривая декодер как вариационное распределение, обучение может быть выполнено с помощью варианта алгоритма EM. Полученный в результате алгоритм, известный как вариационный автоэнкодер (VAE), будет упомянут в главе 8.
6.8 Ранжирование;
В заключение этой главы мы кратко обсудим проблему ранжирования. При наличии доступных ранжированных примеров ранжирование может быть сформулировано как задача обучения под наблюдением [133]. Вместо этого мы сосредоточимся на задаче ранжирования набора веб-страниц, основанной только на знании лежащего в их основе графа взаимных гиперссылок. Эту схему можно рассматривать как особый пример обучения без присмотра. Мы специально описываем репрезентативную, популярную схему, известную как PageRank [110], которая использует исключительно сеть гиперссылок в качестве формы контрольного сигнала для определения рейтинга.
Чтобы уточнить, мы определяем граф связности, включая вершину для каждой веб-страницы и записывая смежную матрицу в виде
 если страница j ссылается на страницу i
в противном случае
Таким образом, исходящий уровень веб-страницы определяется как
PageRank вычисляет рейтинг pi веб;страницы i как
164 Неконтролируемое обучение
где параметром является 0 < d < 1. Следовательно, рейтинг страницы - это взвешенная сумма общего рейтинга, равного 1, которая позволяет выбирать новые страницы и совокупное “голосование” с других страниц. Последнее условие таково, что любая другая страница j голосует за страницу i, если она ссылается на страницу i, и ее голос равен ее собственному рейтингу, деленному на общее количество исходящих ссылок, то есть pj /Cj . По сути, страница i имеет высокий рейтинг, если на нее ссылаются по страницам с высоким рейтингом. Уравнение (6.58) может быть решено рекурсивно для получения рангов всех страниц. Вариант PageRank, который адаптирует ранжирование к предпочтениям пользователя, может быть получен, как описано в [63].
6.9 Краткое изложение \итог\

В этой главе мы рассмотрели основы обучения без контроля.  Общим аспектом всех рассмотренных подходов является наличие скрытых переменных, которые помогают объяснить структуру данных.  Сначала мы рассмотрели обучение ML с помощью EM и его вариации для направленных и ненаправленных моделей. Затем мы представили метод GAN как обобщение ML, в котором расхождение KL заменяется мерой расхождения, которая извлекается из данных. Затем мы рассмотрели дискриминантные модели, которые могут быть обучены с помощью принципа InfoMax , и автоэнкодеры.
В следующем разделе мы расширим выразительные возможности рассмотренных до сих пор вероятностных моделей, обсудив мощную структуру вероятностных графических моделей.
Часть IV
Расширенное моделирование и Логический вывод
7
Вероятностные графические модели
Как мы видели в предыдущих главах, вероятностные модели широко используются в машинном обучении. Используя рис. 6.1 в качестве примера, мы столкнулись как с направленными, так и с ненаправленными моделями, которые использовались для выполнения контролируемых и неконтролируемых задач обучения. Графические модели кодируют структурную информацию о rvs интереса, как наблюдаемые, так и скрытые. Таким образом, они обеспечивают принципиальный способ определения параметрических вероятностных моделей с желаемыми характеристиками.
Следовательно, выбор вероятностной графической модели следует тем же общим правилам, которые обсуждались до сих пор: более специализированная или структурированная модель может помочь сократить переобучение и, следовательно, разрыв в обобщении. Как мы увидим, это достигается за счет сокращения числа параметров, которые необходимо обучить. С другой стороны, специализация может привести к необратимым отклонениям \смещениям\.
В этой главе мы познакомим вас с обширной областью, в которой возникают проблемы -пробабилистические \вероятностные\  графические модели - это мощная платформа, которая позволяет нам представлять и изучать структурированные вероятностные модели. Цель данной статьи - познакомить с основными концепциями и инструментами, а для получения дополнительной информации обратиться к обширным методам манипуляций \лечения, обращений \ в [81, 15, 104, 151].
166
7.1. Вступление167
7.1 Вступление
В этом разделе мы начнем с обсуждения двух примеров, иллюстрирующих тип структурной информации, которая может быть закодирована с помощью вероятностных графических моделей. Затем мы дадим обзор этой главы.
Как показано в двух примерах ниже, структурированные вероятностные модели могут использоваться для создания параметрических моделей как для контролируемого, так и для неконтролируемого обучения. В первом случае в обучающем наборе наблюдаются все переменные, причем некоторые rv являются входными данными, т.е. ковариантами (x), а другие рассматриваются как выходные данные или целевые показатели (t). Напротив, в последнем случае некоторые переменные остаются ненаблюдаемыми и играют роль скрытых
переменных (z), которые помогают объяснить или сгенерировать наблюдаемые переменные (x).1
Пример 7.1. Рассмотрим задачи классификации текста с помощью контролируемого обучения или кластеризация текста с помощью обучения без контроля. В случае обучения с контролем проблема заключается в классификации документов в зависимости от их тематики, например, спортивной, политической или развлекательной, на основе набора помеченных документов. При обучении без контроля проблема заключается в том, чтобы сгруппировать документы в соответствии со сходством их содержания, основываясь только на наблюдении за самими документами.
Минимальная модель для решения этой задачи должна включать переменную t, представляющую тему, и переменную x для документа. Тема может может быть представлена категориальной переменной, принимающей значения T, т.е. t ; {1, ..., T }, которая наблюдается при контролируемом обучении и скрыта при неконтролируемом обучении. Что касается документа, то при кодировании “мешком слов” выбирается набор из W интересующих слов, и документ кодируется как двоичный вектор W ; 1 x = [x1 , ..., xW ]T , в котором xw = 1, если слово w содержится в документе.2
Для начала мы могли бы попробовать использовать неструктурированную направленную модель, определенную как
t ~Cat(;) (7.1a)
x|t = t ~ Cat(;t ), (7.1b)
1Строго говоря, это различие применимо к частотному подходу, поскольку в в байесовском подходе параметры модели всегда рассматриваются как ненаблюдаемые rv.
2Обратите внимание, что W здесь не представляет собой матрицу весов!
168 Вероятностные графические модели
в которых вектор параметров включает в себя T ; 1 вектор вероятности ; и T векторов вероятности ;t, по одному для каждого класса, каждый из которых имеет размерность 2W. Обратите внимание, что вектор x может принимать 2W возможных значений. Таким образом, для этой модели необходимо будет изучить параметры (T -1)+T (2W -1), которые быстро становятся непрактичными, когда количество W интересующих слов становится достаточно большим. Более того, как мы уже видели, обучаемая модель с большим количеством параметров неизбежно пострадает от переобучения, если доступные данные относительно ограничены.
Вместо использования этой неструктурированной модели мы можем использовать модель, которая кодирует некоторые дополнительные предположения, которые могут быть обоснованно сделаны на основе данных. Вот одно из возможных предположений такого рода: как только тема определена, наличие слова не зависит от наличия других слов. Полученная модель известна как наивная байесовская модель Бернулли и может быть описана следующим образом
с вектором параметров, включающим T ; 1 вектор вероятности ; и T устанавливает W вероятностей ;w|t , w = 1, ..., W для каждой темы t. Параметр ;w|t представляет вероятность появления слова w в документе по теме t. Таким образом, упомянутое предположение о независимости позволило нам сократить количество параметров до (T ; 1) + Tw, что соответствует \экспоненциальному сокращению\.
 
Рисунок 7.1: BN для наивной байесовской модели с использованием табличной записи.  Доступные для изучения параметры представлены точками.
Наивная байесовская модель может быть представлена графически с использованием BN,
7.1. Введение 169
показана на рисунке 7.1, где мы рассмотрели i.i.d. N документов. Обратите внимание, что график является направленным: в этой задаче рекомендуется моделировать документ в соответствии с темой, что влечет за собой направленную причинно-следственную связь. Обучаемые параметры представлены точками.  Более подробную информацию смотрите в разделе 7.2.

Рисунок 7.2: MRF для примера подавления шума на изображении. Показано только одно изображение, и доступные для обучения параметры не указаны для упрощения иллюстрации.
Пример 7.2. Второй пример касается подавления шума на изображении с помощью автоматизированного обучения. Чтобы решить эту проблему, мы хотим обучить совместное распространение p(x,z|;) зашумленного изображения x и соответствующего желаемого изображения без шума z. Мы кодируем изображения, используя матрицу, представляющую числовые значения в пикселях. Структурированная модель в этой задаче может учитывать следующие разумные допущения: (i) соседние пиксели немого изображения коррелируют, в то время как пиксели, расположенные дальше друг от друга, напрямую не зависят друг от друга; и (ii) шум воздействует независимо на каждый пиксель немого изображения, создавая зашумленное изображение. Эти предположения кодируются с использованием MRF, показанного на рисунке 7.2. Обратите внимание, что это это ненаправленная модель. Этот выбор обоснован необходимостью учитывать взаимную корреляцию между соседними пикселями, которая не может быть описана как направленная причинно-следственная связь. Мы рассмотрим MRF в разделе 7.3.
Как следует из приведенных выше примеров, структура в вероятностных моделях может быть удобно представлена в виде графов. На фундаментальном уровне структурные свойства в вероятностной модели равны
170 Вероятностные графические модели
допускают условную независимость. Например, в наивной байесовской модели вербальные \слова \ показатели являются условно независимыми, учитывая тематику. Как мы увидим в остальной части этой главы, предположения об условной независимости преобразуются в факторизацию совместного распределения исследуемых переменных. Факторизации и связанные с ними свойства условной независимости могут быть представлены тремя различными графическими структурами, а именно BNs, MRF и графами  фактора \коэффициента\. Для краткости в этой главе мы сосредоточимся только на первых двух.
7.2 Байесовские сети
В этом разделе дается краткое введение в BNs, основное внимание уделяется ключевым определениям и проблеме изучения ML, а также некоторым замечаниям о MAP и байесовских представлениях.
7.2.1 Определения и основы
BNSs кодируют вероятностную факторизацию или, что эквивалентно, набор зависимостей от условий с помощью ориентированного графа. Отправной точкой является правило цепочки для вероятностей для общего набора из K rv {x1 , ..., xK }:
где порядок переменных произвольный. Факторизация (7.3) применяется для общего совместного распределения и не содержит никакой дополнительной структурной информации. Обратите внимание, что приведенные здесь обозначения являются общими и не обозначают те переменные, которые необходимо наблюдать.
Пример 7.3. Рассмотрим еще раз наивную байесовскую модель классификации /кластеризации текста. Там мы ввели структурное ограничение, согласно которому переменные-индикаторы слов {xw }ww=1 должны быть условно независимыми, учитывая тему t. Это предположение об условной независимости может быть выражено с помощью обозначения "perp \преступник"
7.2. Байесовские сети 171
или обозначение цепи Маркова
Математически это условие означает, что мы имеем p(xw |t, {xw' }) = p(xw |t), где {xw' } - любое подмножество переменных {xw' }w' ;w . Применяя правило цепочки к rvs ({xw } ww=1 , t), используя порядок t, x1 , ..., xW (или любой другой  В другом порядке для переменных {xw }Ww=1), следовательно, мы можем записать
Эта факторизация представлена в виде BN на рис. 7.1. На прямолинейном графике, показанном на рисунке, каждая вершина соответствует rv, а направленное ребро включено от t к каждой переменной xw . Это ребро отражает тот факт, что условная вероятность переменной xw в (7.6) зависит от rv t. Неофициально, t “вызывает” все переменные в векторе x. График учитывает множественную реализацию ввода-вывода (xD , tD ) = {xn , tn }N n=1 , где мы обозначаем n-ю выборку как xn = [x1n · · · xW n ]T . Совместное распределение умножается на
В BN используется тайловая \плиточная\ нотация, которая будет формализована ниже, для обозначения нескольких независимых реализаций rv с одинаковым распределением.
Обобщая приведенный выше пример, мы определяем BNs следующим образом.
Определение 7.1. BN - это ориентированный ациклический граф (DAG)3, версия которого- значения представляют rvs {x1 , ...., xK } с соответствующим совместным распределением, которое преобразуется в
где P(k) обозначает набор родительских элементов узла k в DAG. В BN rvs представлены кругами, в то время как доступные для изучения параметры, определяющие условные распределения, представлены точками.
3В DAG нет направленных циклов, то есть замкнутых путей, следующих по направлению стрелок.
172 Вероятностные графические модели
Согласно определению, родительские значения xP(k) для rv xk в DAG учитывают статистическую зависимость xk от всех предыдущих переменных x1 , ..., xk-1 в соответствии с выбранным порядком. Таким образом, BN кодирует локальные зависимости условной независимости
используя обозначение “perp” или, что эквивалентно, xk ; xP(k) ; {x1 , ..., xk;1 }, используя обозначение цепи Маркова, для k = 1, ..., K. Как видно из рис. 7.1, таблицы \тарелки\ используются для представления независимых копий части графика.
Когда использовать BNS. BNS являются подходящими моделями, когда можно определить причинно-следственные связи между переменными. В таких случаях существует естественный порядок переменных, такой, что rvs, которые появляются позже в порядке, вызываются подмножеством предыдущих переменных. Вызывающие rvs для каждого rv xk включены в родительский набор P(k) и таковы, что при настройке на rv xP(k) , rv xk не зависит от всех других предыдущих rvs {x1 , ..., xk;1}. BNS также лежат в основе системы вмешательств, которая позволяет оценивать причинно-следственную связь между наблюдаемыми переменными, в отличие от простой корреляции, как кратко обсуждается в разделе 2.7 [113].
Выборка из миллиарда. Причинно-следственная связь между заказанными \упорядоченными\ переменными {x1 , ..., xK }, закодированные с помощью BN, упрощают, по крайней мере в принципе, получение выборок из BN. Это можно сделать, используя выборку предков: сгенерируйте rv x1 ~p(x1 ); затем x2~p(x2 |xP(2) ); и так далее, при этом rv xk генерируется как xk ~ p(xk |xP(k)).


Пример 7.4. Скрытые марковские модели (HMM) используются для изучения временных рядов или, в более общем плане, последовательных данных, измеренных с помощью преобразования без запоминания, такого как канал с аддитивным шумом.  Математически HMMS может быть представлена двумя наборами переменных: базовой последовательностью z1 , z2 , ..., zD и измеренными “зашумленными” данными x1 , x2 , ..., xD . HMMs кодирует два допущения: (i) каждая выборка zi зависит от предыдущих выборок только через предыдущую выборку zi;1; и (ii) каждые измеренные данные xi зависят только от zi. Предположение (i) превращает процессы z1 , z2 ,... в марковскую цепочку.
Используя порядок z1 , x1 , z2 , x2 , ..., мы можем записать совместное распределение
7.2. Байесовские сети
в виде
путем обеспечения локальной независимости zi ;zi;1 ;{z1 , ..., zi;2 , x1 , ..., xi;2 } и xi ; zi ; {z1 , ..., zi;1 , x1 , ..., xi;1 }. Эта факторизация представлена в виде BN на рис. 7.3. Хотя она и не указана на рисунке для наглядности, важным аспектом HMMs является то, что доступные для обучения параметры, определяющие вероятности переходов p(zi |zi;1) и преобразования p(xi |zi-1), соответственно, они должны быть одинаковыми или привязанными для всех i, что сокращает количество параметров для обучения.
Среди множества соответствующих примеров применения HMMs (см. [81, 104, 15, 117]), здесь мы упоминаем автокоррекцию текста, при которой исходные последовательные данные z1 , z2 , ... соответствуют правильному тексту, а измеренные данные x1 , x2, ... - напечатанному тексту; и распознавание речи, при котором исходные временные ряды z1 , z2  представляет собой последовательность слов, а преобразованые  значения x1 , x2 , ... в измеренную записанную речь.

Рисунок 7.3: BN, представляющий собой HMM. Доступные для записи параметры явно не
указаны.
В приложениях контролируемого обучения обе последовательности наблюдаются в обучающих данных с целью обучения прогнозированию последовательности z1, z2 , ... для новых измеренных точек данных x1 , x2, ... для обученной модели. Эта задача в данном контексте также известна как устранение шума, поскольку x1 , x2 , ... можно рассматривать как зашумленную версию z1 , z2 , ... При неконтролируемом обучении соблюдается только последовательность x1 , x2 , .…
Пример 7.5. Этот пример демонстрирует, как легко байесовское моделирование может быть включено в BN. Для этого снова рассмотрим
174 Вероятностные графические модели
наивную байесовскую модель Бернулли (7.2) для классификации текста. С байесовской точки зрения параметры ; и {;w|t } следует рассматривать как rvs. Далее мы предполагаем, что они априори независимы, что известно как предположение о глобальной независимости. В результате совместное распределение вероятностей для каждого документа умножается на
При приведенной выше факторизации мы сделали стандартное предположение о коэффициенте Дирихле для вектора вероятности ; и бета-коэффициенте для параметров {;w|t }, как обсуждалось в главе 3. Величины ;, a, b являются гиперпараметрами. Обратите внимание, что гиперпараметры (a, b) являются общими для всех переменных ;w|t в этом примере. Соответствующее значение BN показано на рис. 7.4, которое можно сравнить с рис. 7.1 для соответствующей частотной модели.

Рисунок 7.4: BN для байесовской версии наивной байесовской модели (7.11).  Гиперпараметры не указаны, а индексы фрагментов обозначены без их диапазонов для наглядности.
Мы предлагаем читателю также рассмотреть модель скрытого распределения Дирихле (LDA) и другие примеры, доступные в упомянутых учебниках.
7.2. Байесовские сети 175
7.2.2 Глобальная условная независимость
Как мы уже обсуждали, BNS определяются локальными свойствами условной независимости, которые закодированы в факторизации совместного распределения и в поддерживающей DAG. BNS также можно использовать для оценки общих глобальных запросов с условной независимостью типа: Является ли данное подмножество переменных A независимым от другого набора переменных B, зависящего от третьего подмножества переменных C? Алгоритм d-разделения по категориям выдает либо положительный ответ, либо ответ “возможно” на этот вопрос. Он кратко описывается следующим образом:
• Постройте подграф G ' из исходного DAG, сохранив все вершины в подмножествах A, B и C, а также все ребра и вершины, встречающиеся при перемещении назад по DAG одного или нескольких ребер от вершин в A, B и C;
• Постройте подграф G " из G ', удалив все ребра, выходящие из вершин в C;
• Если нет пути, пренебрегающего направленностью ребер, между узлом в A и узлом в B, то выполняется соотношение условной независимости A ; B|C. В противном случае, если существует один такой путь, то существует по крайней мере одно совместное распределение, которое факторизуется как для данного DAG, для которого условие A; B|C не выполняется.
Пример 7.6. Рассмотрим так называемую V-структуру x ; y ; z. Используя d- разделение, можно увидеть, что условная независимость x - y ; z в общем случае не выполняется.
7.2.3 Обучение
Предположим, что задан DAG для BN. Изучение структуры, то есть решение о том, какие ребра следует включить в граф на основе доступных обучающих данных, также является важной проблемой, которая здесь рассматриваться не будет. Явно выражая зависимость коэффициентов вероятности от обучаемых параметров µ, совместное распределение, закодированное как BN, может быть записано как
176 Вероятностные графические модели
где µk|xP(k) - параметры, определяющие условное распределение- значение p(xk |xP(k)). Обратите внимание, что параметры µk|xP(k) обычно различаются для разных значений k и родительских переменных xP(k) (см., например, (7.11)). В большинстве случаев, представляющих интерес, распределение вероятностей p(xk |xP(k) , µk|xP(k)) относится к семейству экспоненциальных или представляет собой GLM (см. главу 3).
Как мы уже видели в предыдущих примерах, параметры µk|xP(k) могут быть либо отдельными, то есть отличными для каждого k и каждого значения xP(k) , либо они могут быть связаны. В последнем случае некоторые параметры µk|xP(k) должны быть одинаковыми при различных значениях xP(k) и/или при разных значениях k. В качестве особого случая связанных параметров значение µk|xP(k) также может не зависеть от xP(k), как, например, в случае GLMs.
Что касается данных, мы видели, что rvs x1 , ..., xK могут либо полностью наблюдаться в обучающей выборке, как при контролируемом обучении, либо они могут наблюдаться частично, как при неконтролируемом обучении.
Для краткости здесь мы описываем обучение только для случая полностью наблюдаемых данных с отдельными параметрами и кратко упоминаем о расширениях для других случаев.
Полностью наблюдаемые данные с отдельными параметрами
Нам дан полностью наблюдаемый набор данных D = {xn }N n=1 , где каждая точка данных записана как xn = [x1n , ..., xKn ]T . Для конкретности предположим, что все переменные являются категориальными. Обозначив как xP(k)n родительские значения переменной xkn , функция LL может быть разложена на множители в виде:
7.2. Байесовские сети 177
где мы определили набор индексов
Этот набор включает в себя индексы n, для которых родительские значения xP(k)n узла k принимают определенный вектор значений xP(k). В (7.13c) внутренняя сумма зависит только от параметров µk|xP(k), соответствующих заданному значению xP(k) rvs xP(k)n для n = 1, ..., N . Таким образом, в случае отдельных параметров оценка ML для каждого параметра µk|xP(k) может быть выполнена независимо. Хотя это упрощает задачу, это также может подвести к  выводам из-под переобучения ввиду проблем фрагментации данных, поскольку каждый из этих  параметр оценивается на основе только части набора данных.
В качестве еще более конкретного примера рассмотрим двоичные переменные, представленные в виде xk ~ Bern(µk|xP(k)). Соответственно, вероятность каждого rv зависит от значения xP(k) родителей. Для этого случая мы можем записать оценку ML как




Рисунок 7.5: BN для примера 7.7.
Пример 7.7. Рассмотрим BN, показанный на рисунке 7.5, с бинарными rv в
178 Вероятностные графические модели
представляют собой алфавит {0, 1}. Наблюдаемые данные D представлены в виде
где в нижней строке указано количество наблюдений, равное вектору над ним. Оценки ML следующие:
  Можно увидеть, что оценки MAP разложены аналогичным образом, т. е. исходим из предположений о глобальной независимости параметров, и то же самое справедливо для байесовского подхода [81].
Замечания по общему случаю
При использовании общих параметров для получения оценок ML и MAP требуется агрегировать статистику по всем переменным, которые имеют одинаковые параметры. Байесовский подход более сложен, и мы ссылаемся на [81] для обсуждения. Альтернативным подходом с “мягким разделением” является иерархическая байесовская модель (см. [81, рис. 17.11]). При наличии недостающих данных для обучения обычно используется алгоритм EM, описанный в главе 6 или приблизительные обучающие аналоги, которые будут представлены в следующей главе.
7.3 Марковские случайные поля
В этом разделе мы обратимся к MRF, следуя тому же подходу, что и для BNs в предыдущем разделе.
7.3.1 Определения и основы
Как и BNS, MRF кодируют факторизацию вероятности или, что эквивалентно, набор отношений условной независимости. Однако они делают это с помощью неориентированного графа.
7.3. Марковские случайные поля 179
Определение 7.2. MRF - это неориентированный граф, вершины которого представляют rv с соответствующим совместным распределением, которое разложимо на множители как
где c - индекс клики4 в графе; xc - набор rv , связанных с вершинами в клике c; ;c (xc ) ; 0 - коэффициент или потенциал для клики c; и Z = ;x ;c;c (xc ) - функция разделения.
Без потери общности сумма может быть ограничена максимальными кликами (т.е. кликами, которые не полностью включены в более крупную клику). В MRF rv представлены круглыми точками, в то время как доступные для изучения параметры, определяющие условные распределения, представлены точками.
Каждый коэффициент ;c (xc ) в (7.16) кодирует совместимость значений xc в каждой группе, причем большие значения ;c (xc ) соответствуют более вероятным конфигурациям xc . Факторы, как правило, не являются вероятностными распределениями, т.е. они не нормализуются для суммирования или интегрирования в единицу. Кроме того, в отличие от BNs, в каждом факторе не проводится различия между обусловливающими факторами и rv с обусловленной вероятностью. Скорее всего, все переменные в клике xc могут играть одинаковую роль в определении значения потенциального  ;c (xc ).
Когда следует использовать MRFs. Это обсуждение указывает на тот факт, что MRFS особенно хорошо подходят для моделирования взаимосвязей совместимости, или их отсутствие, среди переменных, а не причинно-следственных связей.
Оценка вероятностей и выборка из MRF. Эта отличительная особенность MRF, которая дает потенциальные преимущества при моделировании в некоторых приложениях, сопряжена с дополнительной сложностью оценки совместного распределения вероятностей и выборки из совместного распределения. Фактически, вычисление вероятности (7.16) требует
вычисления статистической суммы Z, которая, как правило, является неразрешимой, когда алфавит вектора x достаточно велик. Обычно это не случай для BNs, в котором каждая условная вероятность традиционно выбирается из известного (нормализованного) распределения. Кроме того, в отличие от BNs, MRF не допускают выборки предков, поскольку все условные вероятности-
4 Клика - это полностью связный подграф.
180 Вероятностные графические модели
распределения отдельных rv в x, как правило, связаны друг с другом с помощью функции
разделения.
Пример 7.8. В примере шумоподавления изображения, описанном в начале этой главы, используется MRF на рис. 7.2. На нем максимальное количество кликов задаются парами rv {zi , zj } и {xi , zi }, которые соединены ребром. Сопоставление коэффициента или потенциала с каждой кликой дает факторизованное совместное распределение
где {i, j} представляет ребро неориентированного графа. В качестве примечательного примера, в модели Изинга переменные являются биполярными, т.е. zi , xi ; {-1, +1}, и потенциалы определяются как ;ij (zi , zj |;1 ) = exp(;E(zi , zj |;1 )) и ;i (zi , xi |;2 ) = exp(;E(zi , xi |;2 )), с энергетическими функциями
E(zi , zj |;1 ) = ;;1 zi zj и E(zi , xi |;) = ;;2 zi xi . (7.18)
Из этого определения следует, что большой естественный параметр ;1 > 0 дает большую вероятность – или низкую энергию – при равных значениях zi и zj; и, аналогично, большое значение ;2 > 0 благоприятствует конфигурациям, в которых zi = xi, то есть с низким уровнем шума.
Пример 7.9. Другой связанный с этим пример приведен в RBMS, рассмотренной в разделе 6.5.1, неориентированный график которой показан на рис. 6.6.
Как показано в предыдущих примерах, потенциалы обычно параметризуются с использованием формы, основанной на энергии
с вектором параметров ;c . Эта форма гарантирует, что коэффициенты строго положительны до тех пор, пока энергия ограничена сверху. Особый класс таких моделей составляют логарифмически-линейные модели, такие как модель Изинга, в которой, как показано в главе 3, энергия является линейной функцией параметров.
7.3.2 Глобальная условная независимость
MRF, аналогично BNS, позволяет глобально оценивать свойства условной независимости на графике. Процедура, описанная
7.3. Марковские случайные поля

на самом деле, с MRF проще благодаря теореме Хаммерсли–Клиффорда. Последнее говорит о том, что, если потенциалы ;c (xc ) строго положительны для всех клик c, как для потенциалов, основанных на энергии (7.19), то зависимость условной независимости A ; B|C может быть проверена с помощью следующего простого алгоритма.
• Исключите все переменные в C и все связанные ребра;
• Если между rv в A и B нет пути, то отношение A ; B| C выполняется; если вместо этого существует путь, то существует по крайней мере одно совместное распределение, которое факторизуется как для рассматриваемого неориентированного графа, для которого отношение A  ; B|C не выполняется.
7.3.3 Обучение
Обучение в MRFs усложняется функцией статистического разбиения.  Фактически, функция статистического разбиения объединяет все параметры. Это делает невозможным выполнение отдельной оценки параметров ;c, связанных с каждой группой, даже в полностью наблюдаемом случае с отдельными параметрами. Тем не менее, MRF с потенциалами на основе энергии  (7.19) относятся либо к семейству экспоненциальных, когда коэффициенты логарифмически нормальны, либо к более общему классу моделей, основанных на энергии. В обоих случаях алгоритмы, основанные на градиенте, могут быть разработаны с использованием методов, аналогичных тем, которые используются в разделе 6.5.1 для RBMS.
7.3.4 Преобразование BNs в MRFs
Как было показано в приведенном выше обсуждении, BNs и MRF подходят для кодирования различных типов статистических зависимостей, при этом первые учитывают причинно-следственную связь, а вторые - взаимную совместимость. На самом деле существуют свойства условной независимости, которые могут быть использованы- выжимается BN или MRF, но не обоими сразу. Примером может служить V-образная структура x ; y ; z, рассмотренная в примере 7.6, независимость которой не может быть зафиксирована MRF.
Тем не менее, учитывая BN с факторизацией (7.8), мы можем определить потенциальные функции

182 Вероятностные графические модели
для получения факторизации
с функцией распределения Z = 1. Эта факторизация определяет MRF, в котором каждая максимальная клика содержит rv xk и его родительские элементы xP(k).  Соответствующий неориентированный граф может быть непосредственно получен из DAG это определяет BN с помощью следующих двух шагов:
• Соедините все родительские пары ненаправленным ребром – этот шаг известен как “морализация”;
• Сделайте все ребра ненаправленными.
Согласно приведенному выше обсуждению, результирующий MRF может не учитывать всех зависимостей, закодированных в исходном графе. Это можно легко увидеть, применив процедуру к V-образной структуре.
7.4 Байесовский вывод в вероятностных графических моделях
Байесовский вывод сводится к вычислению апостериорной вероятности ненаблюдаемых, или скрытых, переменных с учетом наблюдаемых переменных. В в этой связи полезно проводить различие между интенсивными и экстенсивными скрытыми переменными. Интенсивные скрытые переменные - это параметры модели, число которых не увеличивается с увеличением числа N точек данных, такие как векторы вероятности (;,{; w|t }) в наивной байесовской модели Бернулли. Обширные скрытые переменные - это rv, индексируемые с помощью индекса примера n, число которых увеличивается с увеличением размера выборки N. Они соответствуют скрытым переменным zn, представленным в предыдущей главе.
Байесовский вывод - фундаментальная задача, лежащая в основе как проблемы с выводом, так и проблемы с обучением. Как показано в главе 2, это подразумевает контролируемое обучение для генерирующих вероятностных моделей, которое требует вычисления прогнозирующей вероятности p(t|x, ;) для новой выборки (x,t) из обученной модели p(x, t|;). Это также лежит в основе байесовского контролируемого обучения, которое оценивает апостериорное значение p(;|D) вектора параметров ; (интенсивной переменной), чтобы получить  прогнозируемое апостериорное значение p(t|x, D) = ;p(;|D)p(t|x, ;)d; для нового образца (x, t). Как было рассмотрено в главе 6, байесовский вывод является ключевым шагом в неконтролируемом обучении даже с частотной точки зрения, начиная с
 7.4. Байесовский вывод в вероятностных графических моделях 183
алгоритма EM требует вычисления апостериорного значения p(zn |xn , ;) скрытых (расширенных) переменных {zn } с учетом текущей итерации ;.
Как уже обсуждалось, при выполнении байесовского вывода мы можем различать наблюдаемые переменные, скажем x, и скрытые переменные z. В общем, интерес может представлять только подмножество скрытых переменных, скажем zi , а остальные rv в z обозначаются как z;i . Вычисляемой величиной является апостериорное распределение
где

 где сумма заменяется интегралом для непрерывных переменных. Ключевой сложностью при вычислении этих выражений является необходимость суммирования по потенциально большим множествам, а именно по областям переменных z;i и zi. Обратите внимание, что сумма в (7.23), которая появляется в числителе (7.22), находится над всеми скрытыми переменными, которые не представляют интереса. Напротив, сумма в (7.24), которая находится в знаменателе (7.22), относится к переменным, апостериорная вероятность которых (7.22) является конечной целью расчета.
Сложность шагов (7.23) и (7.24) экспоненциально зависит от соответствующего числа скрытых переменных, по которым вычисляются суммы, и, следовательно, может быть непомерно высокой.
Пример 7.10. Рассмотрим HMM, BN которого показан на рис. 7.3 . Обучив вероятностную модель, типичная задача состоит в том, чтобы вывести заданную скрытую переменную zi, учитывая наблюдаемые переменные x = {x1 , ...., xD }.  Вычисление апостериорного значения p(zi |x) требует вычисления сумм в (7.23) и (7.24). Когда скрытые переменные z1 , ..., zD дискретны с размер алфавита Z, сложность шага (7.23) составляет порядка |Z| D;1, поскольку необходимо просуммировать по |Z| D;1 возможные значения скрытых переменных.
184 Вероятностные графические модели
Структура, кодируемая вероятностными графическими моделями, может помочь снизить сложность байесовского вывода. Таким образом, вероятностные графические модели могут не только улучшить обучение, контролируя производительность модели, но и обеспечить возможность байесовского вывода. Для пояснения рассмотрим совместное распределение, определенное с помощью MRF, как показано в (7.16). Обратите внимание, что, как мы видели в разделе 7.3.4, можно легко преобразовать BNS в MRF, хотя, возможно, за счет того, что не сохраняется некоторая линейная зависимость. При такой факторизации маргинализации (7.23)-(7.24) требуют решения так называемой задачи вывода суммарного произведения
где переменные z являются подмножеством переменных в x.
В качестве важного замечания, формулировка (7.25) подчеркивает тот факт, что задача вычисления статистической суммы Z для MRFS является частным случаем задачи вывода суммарного произведения. Фактически, для того, чтобы вычислить Z, сумма в (7.25) выполняется по всем переменным в x.
Когда неориентированный граф, описывающий совместное распределение, представляет собой дерево 5 , сложность вывода суммарного произведения становится экспоненциальной только при максимальном количестве переменных в каждом факторе, также известном как древовидная ширина графа. В этом случае задача вывода суммарного произведения может быть точно решена с помощью передачи сообщений о распространении веры по факторному графу, связанному с MRF. Мы обращаемся к учебникам [81, 15, 104] для получения подробной информации о факторных графах и распространении уверений \веры\.
Пример 7.11. MRF, связанный с HMM, получается из BN на рис. 7.3 путем простой замены неориентированных ребер направленными, и распределение (7.10) преобразуется в виде
Неориентированный граф - это дерево с шириной дерева, равной 2, поскольку, согласно (7.26), в каждой клике не более двух переменных. Следовательно, распространение веры позволяет оценить последующие значения p(zi |x) со сложностью порядка |Z| 2, которая не зависит экспоненциально от числа D временных выборок.
5 В дереве существует только один путь между любыми парами узлов (без циклов).
7.5. Краткое описание 185
Когда неориентированный граф не является деревом, можно использовать алгоритм дерева соединений для точного байесовского вывода. Идея состоит в том, чтобы сгруппировать подмножества переменных в клики таким образом, чтобы результирующий граф представлял собой дерево. Сложность зависит от ширины дерева результирующего графа. Когда эта сложность оказывается слишком высокой для данного приложения, необходимы методы приближенного вывода. Этому посвящена следующая глава.
7.5 Краткое содержание
Вероятностные графические модели кодируют априорную информацию о структуре данных в виде причинно–следственных связей - с помощью прямых графов и BNS – или взаимного сходства – с помощью неориентированных графов и MRF. Эта структура преобразуется в условия условной независимости. Структурные свойства, кодируемые вероятностными графическими моделями, имеют потенциальное преимущество в управлении производительностью \ёмкости\ модели, что, следовательно, способствует уменьшению переобучения за счет возможных эффектов смещения (см. главу 5). Они также облегчают байесовского подхода логический вывод (главы 2-4), по крайней мере, в графах с древовидной структурой. Вероятностные графические модели могут использоваться в качестве базовой вероятностной основы для задач обучения под наблюдением, без присмотра \контроля\ и частично под наблюдением, в зависимости от того, какие подмножества rv являются наблюдаемыми или скрытыми.
Хотя графические модели могут снизить сложность байесовского вывода, для большинства интересующих нас моделей это, как правило, остаются невыполнимыми с точки зрения вычислений. Чтобы решить эту проблему, в следующей главе обсуждается непосредственный байесовский вывод, а также связанные с ним проблемы обучения (Глава 6).
8
Приблизительный вывод и обучение
В главах 6 и 7 мы видели, что задачи обучения и логического вывода часто усложняются необходимостью вычисления апостериорного распределения p(z|x) ненаблюдаемой переменной z при заданных наблюдаемых переменных x. Эта задача требует вычисления нормализующего предельного значения
где сумма заменяется интегралом для непрерывных переменных.1 Это вычисление затруднительно, если алфавит скрытой переменной z достаточно велик. В главе 7 показано, что сложность вычислений- сложность (8.1) может быть уменьшена в частном случае, когда разложенное на множители совместное распределение p(x, z) определяется конкретными классами вероятностных графических моделей.
Что делать, если сложность вычисления (8.1) является чрезмерной? В этой главе мы приводим краткое введение в два популярных подхода к приближённому выводу, а именно в методы MC и вариационный Логический вывод (VI). Мы также обсуждаем их применение в обучении. Что касается
1 Обратите внимание, что эта задача включается в (7.23) после соответствующих переопределений переменных.
186
8.1. Методы Монте-Карло 187
предыдущей главы читатель может ознакомиться с [81, 15, 104, 151] для получения подробной информации и обобщений (см. также [114]).
8.1 Методы Монте-Карло
Чтобы представить методы MC, мы начнем с того, что заметим, что выражение (8.1) можно переписать как среднее значение по совокупности
по латентному rvs z;p(z). Общая идея методов MC заключается в замене средних значений по ансамблю средними значениями по эмпирическим выборкам на случайно сгенерированные выборки. В самом простом воплощении MC используются M i.i.d. выборки zm ~ p(z), m = 1, ..., M, генерируются из предельного распределения p(z) латентных переменных, а затем среднее значение по совокупности (8.2) аппроксимируется эмпирическим средним значением
Согласно закону больших чисел, мы знаем, что эта оценка согласована в том смысле, что она с вероятностью один стремится к среднему значению по ансамблю (8.2), когда M велико. Кроме того, погрешность аппроксимации составляет 1/; M.
Пример 8.1. Рассмотрим модель Изинга для подавления шума на изображении, представленную в примере 7.8. Напомним, что совместное распределение может быть разложено на множители в виде
где {i, j} представляет собой ребро неориентированного графа с энергетическими потенциалами ;ij (zi , zj ) = exp(;1 zi zj ) и ;i (zi , xi ) = exp(;2 zi xi ). Мы убрали зависимость потенциалов от (естественных) параметров ;1 и ;2 для простоты обозначения. Чтобы вычислить заднее значение p(z|x), которое может быть использовано для уменьшения шума на изображении, метод MC (8.3) требует выборки из предельного значения p(z). Однако это непросто, учитывая невозможность выполнения выборки предков по MRF, как описано в разделе 7.3.
188 Приблизительный вывод и обучение
Отбор проб по важности. Как видно из предыдущего примера, описанная выше процедура MC не всегда выполнима на практике, поскольку отбор проб из предельного значения p(z) может оказаться затруднительным. Например, предельное значение p(z) может быть неизвестно, или из него может быть трудно сделать выборки. В таких распространенных случаях можно вместо этого прибегнуть к упрощенному распределению q(z), из которого легко сделать выборку. Это распределение , как правило, обладает удобными свойствами факторизации, которые позволяют использовать выборку предков.
Исходным наблюдением является то, что предельное распределение (8.1) может быть выражено как среднее значение по совокупности для rv z~ q(z) как
до тех пор, пока поддержка распределения q(z) содержит поддержку распределения p(z). Это
выражение предполагает следующую эмпирическую оценку, которая называется выборкой важности: сгенерируйте M i.i.d. выборок zm ~ q(z), m = 1, ..., M, а затем вычислите эмпирическую аппроксимацию
Эта оценка снова согласуется, но ее отклонение зависит от того, насколько хорошо q(z) приблизительно соответствует p(z). Обратите внимание, что этот подход требует знания предельного значения p(z), но не возможности выполнять выборку из него.
Цепочка Маркова методом Монте-Карло (MCMC) с использованием выборки Гиббса.
Вместо того чтобы извлекать выборки из распределения, имитирующего p(z), для вычисления аппроксимации апостериорного p(z|x) = p(x, z)/p(x), Методы MCMC направлены на получение выборок {zm } непосредственно из исходного p(z|x). С помощью таких выборок можно вычислить эмпирические приближения любого среднего значения по ансамблю относительно p(z|x). Этого достаточно для выполнения большинства задач, представляющих интерес, включая математическое ожидание, необходимое для оценки апостериорного прогноза в байесовских методах контролируемого обучения или средней энергии в алгоритме EM.
8.2. Вариационный вывод 189
Методы MCMC генерируют последовательность коррелированных выборок z1 , z2 , … из простой в использовании цепочки Маркова z1 ; z2 ; ... ключевым свойством этого метода является то, что желаемое распределение p(z|x) является стационарным. Такая цепь Маркова может быть спроектирована автоматически, как только будет доступна факторизация совместного распределения с помощью BN или MRF. С этой целью в выборке Гиббса последовательно отбираются подмножества rv. Для каждого подмножества выборочное распределение получается путем нормализации произведения всех факторов, включая rv, для которого проводится выборка (см., например, [81]).
Механический характер этой процедуры делает ее универсальным методом логического вывода, или методом "черного ящика", в том смысле, что ее можно автоматически применять к любой типичной вероятностной графической модели. Это привело к недавнему появлению вероятностного программирования, благодаря которому Байесовский вывод автоматически выполняется программными библиотеками, которым в качестве входных данных предоставляется вероятностная графическая модель для совместного распределения (см., например, [41, 148]).
Методы MC часто используются в сочетании с VI, как описанов разделе 8.3.
8.2 Вариационный вывод
Общая идея, лежащая в основе VI, заключается в замене среднего значения по совокупности в (8.2) подходящей оптимизацией, которая возвращает аппроксимацию последующего распределения p(z|x). В частности, методы VI вводят дополнительное распределение для скрытых переменных z, которое оптимизируется для приближения желаемого апостериорного значения p(z|x).
I-проекция. Начнем с наблюдения, что решение задачи оптимизации
при фиксированном значении x получаем единственное решение q(z) = p(z|x), если на q(z) не накладывается никаких ограничений. Это связано с неравенством Гиббса (2.44). Этот результат сам по себе бесполезен, поскольку для оценки дивергенции KL KL(q(z)||p(z|x)) требуется знание p(z|x), а это именно то, что нам нужно.
190 Приблизительный вывод и обучение
Однако равенство между (6.13) и (6.14), а именно
KL(q(z)||p(x, z)) = KL(q(z)||p(z|x)) ; ln p(x), (8.8)
демонстрирует, что задача (8.7) эквивалентна решению задачи
где с помощью (6.11) мы можем записать
KL(q(z)||p(x, z)) = ;Ez~q(z) [ln p(x, z)] ; H(q). (8.10)
Другими словами, решение задачи (8.7) эквивалентно минимизации вариационной свободной энергий или свободной энергий Гиббса (8.10) – или отрицательная величина ELBO. Ключевой особенностью этой альтернативной формулировки является то, что она не требует знания недоступного апостериорного значения p (z|x).
Из приведенного выше вывода следует, что точное решение задачи (8.9) без наложения каких-либо ограничений на q (z) дало бы желаемый апостериорный результат p(z|x) в качестве результата. Ключевая идея VI заключается в выборе параметрической формы q(z|;) для вариационного постериора, который позволяет решить задачу
Согласно приведенному выше обсуждению, это эквивалентно минимизации KL(q(z|;)||p(z|x)), несмотря на то, что p(z|x) неизвестно.
Решение q(z|;; ) задачи (8.11) известно как I-проекция распределения p(z|x) на множество распределений {q(z|;)}, определенных заданной параметризацией. I-проекция может быть принята в качестве оценки заднего значения \постериора\  p(z|x). Фактически, если параметризованное семейство {q(z|;)} достаточно богато, чтобы содержать распределения, близкие к истинному постериорному p(z|x), минимизация (8.11) гарантирует приблизительное равенство q(z|;; ) ;p(z|x).
Чтобы обеспечить выполнимость оптимизации (8.11), необходимо параметризованное распределение q(z|;) обычно выбирается таким образом, чтобы обеспечить удобную факторизацию и чтобы коэффициенты имели поддающиеся анализу формы, такие как члены экспоненциального семейства или GLM [16].
Амортизированный VI.; Вариационная апостериорная величина q(z|;), полученная из I-проекции (8.11), зависит от конкретного значения наблюдаемых переменных x = x . Задача (8.11), по сути, решается отдельно для каждого
 Вариационный вывод  191
значения x = x. Потенциально более эффективный способ решение состоит в том, чтобы определить промежуточное \ логического вывода\ вариационное распределение q(z|x, ;), которое моделирует апостериорное распределение z для любого значения x = x. Распределение логического вывода параметризуется вектором ; и обычно реализуется с использованием многослойной нейронной сети. В этом случае оно обычно называется сетью логического вывода. Этот подход называется амортизированным VI.
Амортизированный VI обладает ключевым преимуществом, заключающимся в том, что после того, как получено логическое распределение, не требуется выполнять I-прогнозы для ранее ненаблюдаемых значений x = x. Вместо этого можно напрямую применить q(z|x, ;) к получаемым \обучаемым\ значениям параметра ; [80].
Логического вывода распределение q(z|x, ;) может быть получено путем решения задачи амортизированной I-проекции
где среднее значение по совокупности на практике заменяется эмпирическим средним значением по имеющимся точкам данных {xn }. Таким образом, решение задачи VI (8.12) “амортизируется” по нескольким значениям x.

М-проекция.; Согласно теореме 6.1, I-проекция максимизирует нижнюю границу – ELBO – логарифмического распределения наблюдаемых данных x. Это дает I-проекциям сильное теоретическое обоснование, основанное на принципе обучения ML. Напоминая, что расхождение KL не является симметричным (см. раздел 2.6 и приложение A), можно также определить альтернативную задачу
Решение q(z|;; ) этой задачи известно как M-проекция распределения p(z|x) в наборе распределений {q(z|;)}, определяемом заданной параметризацией.
Что касается аналога (8.7), то эта задача, по-видимому, неразрешима, поскольку требует знания желаемого апостериорного значения p (z | x). Однако оказывается, что задача имеет простое решение, если q (z|;) принадлежит к семейству экспоненциальных. Фактически, градиент по отношению к естественным параметрам ; расхождения KL в (8.7) может быть вычислен путем выполнения тех же шагов, которые описаны для изучения ML в разделе 3.3. Результат этого вычисления и выполнения условия оптимальности
192 Приблизительный вывод и обучение
заключается в том, что M-проекция получается путем сопоставления моментов. В частности, необходимо найти такое значение параметра ;, при котором ожидаемая достаточная статистика модели q(z|;) при распределении q(z|;) будет соответствовать ожидаемой достаточной статистике модели q(z|;), и соответствует тем же ожиданиям при истинном распределении p(z|x).
Выражаясь математическим языком, M-проекция в экспоненциальной семейной модели q(z|;) ; exp(;T u(z)) при достаточной статистике u(z) дает естественные параметры ;;, удовлетворяющие условию соответствия моментов
Этот вывод подробно описан в приложении к данной главе. Амортизированный логический
вывод может быть определен аналогично I-проекции.
I-проекция
М-проекция
Рисунок 8.1: Пример I- и M-проекций смеси распределений Гаусса (пунктирная линия).
Пример 8.2. Этот простой пример предназначен для наглядного сравнения аппроксимаций, полученных с помощью I- и M-проекций. С этой целью рассмотрим смесь гауссовых распределений
8.2. Вариационный вывод 193
как показано на рис. 8.1. Обратите внимание, что этот пример явно идеализирован, поскольку
на практике условное распределение p(z|x) неизвестно. Предполагать вариационное распределение q(z|;) = N (z|m, ;2 ) с вариационными параметрами ; = (m, ;2 ). M-проекция возвращает оценки соответствия моментов m = Ez~p(z|x) [z] = 0,4 и ;2 = varz~p(z|x)[z] = 0,3((;1 ; m)2 + ;12 ) + 0,7((;2 ; m)2 + ;22 ) = 1,93 для i = 1, 2. Вместо этого I- проекцию можно вычислить численно, получив m = 1 и ;2 = 0,3. I- и M-проекции также показаны на рис. 8.1.
Предыдущий пример иллюстрирует несколько важных фактов о I- и M-проекциях. Во-первых, I-проекция, как правило, ориентирована на поиск режима и исключительная. Математически это объясняется тем, что вариационный апостериор q(z|;) определяет опору, по которой распределения p(z|x) и q(z|;) сравниваются с помощью дивергенции KL. Следовательно, I-прогнозы, как правило, недооценивают дисперсию распределения 2. Кроме того, I-прогнозы, как правило, более точны там, где p(z|x) больше.  Напротив, M-проекция имеет тенденцию быть всеобъемлющей и охватывать всю поддержку p(z|x). Это связано с тем, что M-проекция предпочитает избегать нулевых значений для q(z|;) при значениях z, таких что p(z|x) ; 0, чтобы избежать бесконечную дивергенцию KL. Соответствующий пример приведен на рис. 6.5.
;;дивергенция.; Как уже обсуждалось в разделе 6.4.3, расхождение KL является лишь одним из многих возможных способов определения меры расстояния между двумя распределениями. Метрика, которая нашла полезное применение в контексте VI, - это ;-дивергенция, введенная в [96]. ;-дивергенция между двумя распределениями p(x) и q(x) определяется как
где p и q не обязательно должны быть нормализованы, а ; - это параметр. Можно доказать, что при ; ; 0 мы получаем D; (p||q) = KL(q||p), а при ; ; 1 мы имеем D;(p||q) = KL(p||q). В соответствии с обсуждением I- и M-проекций в предыдущем примере, выполнение проекций типа min; D; (p(x|z)||q(z|;)) при ; ; 0 и уменьшающихся значениях ; приводит ко все большему поиску режима, или исключительного решения; при увеличении значений ; ; 1 постепенно получаются
2 В [147] приведен пример, демонстрирующий ограничения этого общего утверждения.
194 Приблизительный вывод и обучение
более всеобъемлющие решения, позволяющие избежать нулевого уровня (см. [96, рис. 1]). Наконец, при всех ;6= 0 можно доказать, что стационарные точки проекции min; D;  (p(x|z)||q(z|;)) совпадают с точками проекции min; KL(p(x|z)||p(x|z); q(z|;)1;; ). ;-дивергенция может быть дополнительно обобщена, как описано в приложении А.
8.2.1 Логический вывод о вариации среднего поля
Среднее поле VI (MFVI) - это метод VI, который приводит к универсальному методу байесовского вывода или методу черного ящика, такому как выборка Гиббса для Техники MC. MFVI предполагает факторизацию q(z) = ;j q(zj ), и выполняет I-проекцию итеративно для одной скрытой переменной zi за раз, фиксируя коэффициенты qj (zj ) для других скрытых переменных zj с помощью j; i. На каждый коэффициент qj (zj ) не накладывается никаких ограничений. Это соответствует решению задачи I-проекции с использованием блочного координатного спуска в рамках данного факторизованного семейства распределений.
Для каждого фактора qi (zi) задача I-проекции минимизирует переменную свободной энергии
 где для краткости мы определили математическое ожидание

Пренебрегая константами, не зависящими от qi (zi), эта задача эквивалентна
задаче минимизации
Легко увидеть, что решение этой проблемы можно получить, нормализовав правый аргумент дивергенции в виде

MFVI решает систему уравнений (8.20) для всех i, циклически перебирая коэффициенты qi (zi ) или выбирая их случайным образом. Обратите внимание, что, как указано в пункте
8.2. Вариационный вывод 195
как обсуждалось выше в более общем плане, эта процедура не требует знания желаемого заднего \постериор\ p (z|x), а только присоединённого \совместного\  распределения p(x, z). Итерации MFVI гарантированно сходятся к стационарной точке задачи минимизации KL.
Остается обсудить, как оценить математические ожидания в (8.20). С этой целью давайте предположим, что совместное распределение p(x, z) разложимо на множители как p(x, z) = Z -1 ;c ;c (xc , zc ), что касается MRF или BNs – напомним, что в последнем случае мы имеем Z = 1. Уравнение MFVI (8.20) можно записать в виде
Во второй строке мы использовали тот факт, что достаточно учитывать только факторы, соответствующие кликам, которые включают zi . Это позволяет реализовать реализацию посредством локальной передачи сообщений (см., например, [81]). Кроме того, возможны дополнительные упрощения, когда коэффициенты ;c (xc , zc ) логарифмически линейны, как показано в следующем примере.
Расхождение KL
количество итераций
Рисунок 8.2: Расхождение KL между фактической аппроксимацией апостериорного и среднего поля в зависимости от числа итераций MFVI (;1 = 0,15).
Пример 8.3. Снова рассмотрим модель Изинга (8.4). Уравнения MFVI
196 Приближенный вывод и методы обучения
(8.21) для аппроксимации апостериорного p(z|x) приведены в виде
и, следовательно, при нормализации мы имеем
гдк
Для численного примера рассмотрим двоичное изображение z размером 4 ; 4, наблюдаемое
как матрица x, где совместное распределение x и z задается моделью Изинга. Обратите внимание, что, согласно этой модели, наблюдаемая матрица x такова, что каждый пиксель исходной матрицы z переворачивается независимо с вероятностью ;(-2;2 ). В этом небольшом примере легко сгенерировать изображение x, распределенное в соответствии с моделью, а также вычислить точное апостериорное значение p(z|x) путем перебора всех возможных изображений z.  KL дивергенция KL(p(x|z)|| ;i qi (zi )), полученная в конце каждой итерации MFVI - с одной итерацией, применяющей (8.23) последовательно ко всем переменным – показано на рис. 8.2 для ;1 = 0,15 и различных значений ;2. По мере увеличения ;2 апостериорное распределение имеет тенденцию становиться детерминированным, поскольку x является все более точным показателем z. В результате конечная аппроксимация среднего поля более точно \верно\ соответствует реальному результату, поскольку распределение продукта может отражать детерминированный pmf. Однако при меньших значениях ;2 смещение, обусловленное предположением о среднем поле, приводит к значительному минимальному значению достижимого отклонения KL.
За пределами MFVI.; MFVI предполагает полностью факторизованный вариационный разброс- распределение q(z). Также возможно разработать методы, основанные на той же факторизации, что и совместное распределение p(x, z). Этот подход известен как подход Бете и позволяет использовать циклическое распространение убеждений (LBP) в качестве конкретного метода решения. LBP также может быть интерпретирован как применение метода передачи сообщений о проверке \пройдена\, который был описан в
 8.3. Вариационный вывод, основанный на методе Монте-Карло; 197
разделе 7.4, где рассматриваются факторные графы с циклами. Упрощение метода распространения предположений по циклу включает в себя приближенную передачу сообщений (AMP). При применении к M-проекциям с коэффициентами, которые должны находиться в экспоненциальном семействе, этот подход дает метод распространения математического ожидания. Мы ссылаемся на [81, 114] для получения подробной информации.
8.3 Вариационный вывод на основе метода Монте-Карло;
Методы VI, описанные в предыдущем разделе, требуют оценки ожидаемых значений по отношению к вариационному апостериору (см., например, (8.20)). Выполнимость этой операции зависит от конкретных допущений о вариационном апостериоре, например, о его факторизационных свойствах и принадлежности к экспоненциальному семейству. Следовательно, желательно разработать методы, которые не требуют точного вычисления средних значений по ансамблю относительно вариационного апостериора q(z|;). Как мы увидим ниже, это возможно благодаря сочетанию методов VI с приближениями MC. Полученные в результате методы могут использовать SGD, масштабироваться до больших наборов данных и в последнее время нашли большое количество применений [24, 25, 7].
Ключевая идея VI, основанного на MC, заключается в аппроксимации дивергенции KL (8.10) с помощью MC путем построения одной или нескольких выборок zm ~q(z) с m = 1, ..., M и вычисления эмпирического среднего значения
Для оптимизации по параметрам ; вариационного апостериорного q(z|;), на самом деле более полезно аппроксимировать градиент расхождения KL, как описано далее.
ПОДКРЕПЛЯЮЩИЙ подход. Чтобы продолжить, предположим следующие два довольно мягких условия для параметризованного вариационного апостериора: (i) легко нарисовать выборки z ~q(z|;); и (ii) можно вычислить градиент ;; lnq(z|;). Теперь мы можем разработать схему, основанную на SGD, следующим образом. Основным результатом является то, что градиент расхождения KL в I-проекционной задаче (8.11) относительно вариационных параметров ; может быть записана в виде
198 Приблизительный вывод и обучение
в котором мы определили обучающий сигнал
l; (x, z) = lnq(z|;) ; lnp(x, z). (8.26)
Чтобы получить (8.25), мы использовали тождество ;; lnq(z|;) = ;;q(z|;)/q(z|;), которое следует из правила цепочки для дифференцирования, а также  равенство Ez~q(z|;) [;;lnq(z|;)] = 0 (подробнее см. [25]).
Методы VI, основанные на MC, оценивают MC-аппроксимацию градиента (8.25) при заданном значении ; путем построения одной или нескольких выборок zm ~q(z|;) с m = 1, ..., M , а затем вычисления
Эта оценка также известна как отношение правдоподобия или степень УСИЛЕНИЯ, и ее можно использовать для обновления значения ; с помощью SGD (см. раздел "Параметры"). 4.1). Название отражает происхождение и важность подхода, описанного в литературе по обучению с подкреплением, о чем мы кратко расскажем в  главе 93
На практике эти градиенты имеют высокую дисперсию. Интуитивно это объясняется тем, что этот оценщик не использует никакой информации о том, как изменение z влияет на обучающий сигнал l; (x, z), поскольку он зависит только от значения этого сигнала. Следовательно, необходимо внедрить такие методы, как Рао- Блэквеллизация или контроль вариаций, чтобы уменьшить их дисперсию (обзор см. в [89]). Упрощения возможны, когда предполагается, что вариационная апостериорная функция факторизуется, например, в соответствии с полной факторизацией среднего поля. Этот подход используется в методе "логического вывода черного ящика " из [120].
Трюк с репараметризацией. Чтобы смягчить проблему высокой дисперсии УСИЛИВАЮЩЕЙ оценки, метод репараметризации использует дополнительную информацию о зависимости вариационного распределения q(z|;) и, следовательно, обучающего сигнала l ; (x, z) от переменной z. Этот подход применим, если: (i) скрытая переменная z ~ q(z|;) может быть записана как z =G;(w) для некоторой дифференцируемой функции
3 При обучении с подкреплением полезно вычислить градиент среднего значения вознаграждение Et~q(t|x,;) [R(t, x)] в зависимости от параметров ;, определяющих распределение q(t|x, ;) действия t с учетом текущего состояния окружающей среды x. Вознаграждение R(t, x) - это функция, возможно, стохастическая, от действия и состояния.
8.4. Приблизительное обучение; 199


G; (·) и для некоторого rv w ; s (z), распределение которого не зависит от ;; и (ii) \вариационный \ член вариационной регуляризации KL(q(z|;)||p(z)) в (6.12) может быть вычислен и дифференцирован относительно ;. Допущению (ii) удовлетворяют члены экспоненциального семейства (см. Приложение B).  Типичный вариант, удовлетворяющий этим условиям, заключается в том, чтобы задать p(z) как i.i.d. Гауссово распределение; w как i.i.d. гауссов rvs; и функция G; (w) как G; (w)= A; w + b;, где матрица A; и вектор b; параметризуются многослойной нейронной сетью. Обратите внимание, что при таком выборе мы имеем q(z|;) = N (z| b; , A; A;T ). Другие примеры приведены в [73, 95].
Чтобы понять, почему эти предположения полезны, давайте сначала перепишем цель
задачи I-проекции, используя (6.12) как
Теперь мы можем аппроксимировать математическое ожидание в первом члене с помощью эмпирического среднего, сгенерировав i.i.d. выборки wm ~ s(w), m = 1, ..., M4 . Обратите внимание, что это распределение не зависит от текущей итерации ;. Затем мы можем оценить градиент, записав
Этот подход, как правило, дает оценку с меньшей дисперсией, чем градиент УСИЛЕНИЯ, поскольку он использует структуру распределения q(z|;).
Как метод УСИЛЕНИЯ, так и метод репараметризации могут быть естественным образом объединены с погашенным логическим выводом. Мы также ссылаемся на [59] для получения информации о предлагаемой комбинации обоих методов.
8.4 Приближенное обучение;
Как мы уже говорили, байесовский логический вывод играет ключевую роль в задачах обучения. В этом разделе мы кратко обсудим репрезентативные схемы, которые используют приблизительный логический вывод для обучения. Поскольку байесовский метод обучения
4 Это можно рассматривать как применение Закона бессознательной статистики.
200 Приблизительный логический вывод и обучение
может получить непосредственную пользу от приблизительного логического вывода при оценке последующего значения \постеор\ параметров и вариационной зависимости, поэтому мы сосредоточимся здесь на частотной точке зрения.
Обучение ML при наличии скрытых переменных может быть приближено путем максимизации ELBO как по параметрам модели ;, которые определяют прямую модель p(x|z, ;), так и по параметрам ; вариационной (амортизированной) модели q(z|x, ;). Чтобы понять, что после выполнения этой оптимизации полезно записать ELBO поверх набора данных D={xn }N n=1, используя (6.14) как

Таким образом, для любого фиксированного ;, оптимизация ELBO по ; максимизирует функцию правдоподобия в первом члене при условии вариационной регуляризации, которая наказывает последующие значения \постеор\ p(z|x, ;), которые значительно отличаются от выбранных вариационных значений q(z|x, ;). Следовательно, выбор данной модели для вариационного постериора стимулирует обучение и должен рассматриваться как выбор модели или гиперпараметра [68].
Максимизация ELBO как по модельным, так и по вариационным параметрам может быть выполнена различными способами. В качестве первого подхода можно использовать EM, выполнив шаг E с помощью приближенного логического вывода, чтобы оценить апостериорную часть скрытых переменных. Когда для этой цели используется VI, результирующая схема называется вариационной EM.  В качестве альтернативы можно использовать SGD в отношении обоих векторов параметров ; и ;, используя метод УСИЛЕНИЯ или трюк с перепараметризацией. Например, в VAE используется трюк с репараметризацией метод генеративного моделирования [80], также известный как глубокой Гаусса Латентной модели [122], а также в методе обучения с использованием черного ящика [121] (см. также [98]). Дивергенция KL также может быть заменена дивергенцией, обученной с использованием противоположных методов, как в подходе GAN [47] (см. раздел Ii). 6.4.3).
Когда вариационные параметры обновляются с использованием M-проекции, а не I-проекции, которая является результатом максимизации ELBO, подход совместной оптимизации модели и вариационных параметров приводит к алгоритму бодрствования и сна [65].
8.5. Резюме 201

8.5 Резюме

Поскольку в предыдущих главах отмечалось, что обучение в вероятностных моделях часто сдерживается сложностью точного байесовского вывода для скрытых переменных, в этой главе представлен обзор приближенных методов логического вывода с меньшей сложностью. Мы сосредоточились на методах MC и VI, которые используются чаще всего. В статье подчеркивалось влияние конструктивных решений на выбор различных типов критериев аппроксимации, таких как M- и I-проекция. В нем также говорилось об использовании приближенного логического вывода в задачах обучения. Методы рассмотренные в этой главе, поправляют состояние искусства выше, активно исследуются. В следующей главе рассматриваются некоторые дополнительные темы для будущих исследований.
Приложение: M-проекция с экспоненциальным семейством
В этом приложении мы рассмотрим задачу получения M-проекции распределения p(z) на модель q(z|;) = Z(;)-1 exp(;T u(z)) из экспоненциального семейства с достаточной статистикой u(z). Мы докажем, что если существует значение ;; вектора естественных параметров, удовлетворяющее условию соответствия моментов (8.14), то q(z|;; ) является
M-проекцией.
Сначала мы запишем дивергенцию KL в виде
Разницу между расходимостью KL для вектора общего параметра ; и для вектора ;;, удовлетворяющего (8.14), можно записать в виде



Поскольку последнее неравенство неотрицательно и равно нулю при ; = ;; , такой выбор естественных параметров минимизирует расхождение KL.
Часть V
Выводы
9
Заключительные замечания
Эта монография представляет собой краткое введение в машинное обучение, уделяя особое внимание параметрическим вероятностным моделям для задач обучения под наблюдением и без присмотра. В ней предпринята попытка описать фундаментальные концепции в рамках единого подхода, начиная с первых принципов. На протяжении всего текста мы также приводили указания на сложные темы, которые мы смогли лишь упомянуть или кратко затронуть. Здесь мы предлагаем краткий список дополнительных важных аспектов и нерешенных проблем, которые не были рассмотрены в предыдущих главах.
• Конфиденциальность: Во многих приложениях наборы данных, используемые для обучения алгоритмов машинного обучения, содержат конфиденциальную информацию, такую как личные предпочтения для систем рекомендаций. Поэтому важно убедиться, что обученная модель не раскрывает никакой информации об отдельных элементах обучающего набора. Это ограничение может быть сформулировано с использованием концепции дифференциальной конфиденциальности. Типичные методы, гарантирующие конфиденциальность отдельных точек данных, включают добавление шума к градиентам при обучении с помощью SGD и привлечение группы экспертов обучать с использованием различных подмножеств данных [1].
• Надежность: Сообщалось, что различные модели машинного обучения, включая нейронные сети, чувствительны к небольшим изменениям в
203
204 Заключительные замечания
данных, дающие неверную реакцию на незначительные, правильно выбранные изменения в объясняющих переменных. Обратите внимание, что такие примеры, выбранные с целью противодействия, которые приводят к сбою конкретной машины, концептуально отличаются от примеров, выбранных случайным образом, которые используются при определении обобщающих свойств сети. Имеются доказательства что найти такие примеры можно, даже не зная внутренней структуры машины, а основываясь исключительно на наблюдениях с помощью черного ящика [111]. Модификация процедуры обучения с целью обеспечения устойчивости к состязательным примерам является активной областью исследований, имеющих важные практические последствия [55].
• Вычислительные платформы и платформы программирования: Для расширения масштабов приложений машинного обучения необходимо использовать распределенные вычислительные архитектуры и связанные с ними стандартные платформы программирования [17, 7].  В качестве дополнительного и более футуристического подхода, в недавней работе даже предлагалось использовать возможности квантовых компьютеров на основе отжига в качестве сэмплеров \выборки делать\ [82] или дискретных оптимизаторов [103].
• Перенос обучения: машины, подготовленные для выполнения определенной задачи, в настоящее время нуждаются в переподготовке, чтобы их можно было переназначить для выполнения другой задачи. Например, машину, которая научилась водить автомобиль, необходимо будет переобучить, чтобы научиться водить грузовик. Область трансферного обучения охватывает сценарии, в которых требуется перенести опыт, приобретенный в ходе выполнения одних задач, на другие. Трансферное обучение включает в себя различные связанные парадигмы, такие как многозадачное обучение, обучение на протяжении всей жизни, обучение с нуля и адаптация к предметной области [149]. При многозадачном обучении несколько задач осваиваются одновременно. Типичные решения для многозадачного обучения на основе нейронных сетей предполагают наличие общих скрытых слоев между нейронными сетями, обученными для разных задач [19]. Обучение на протяжении всей жизни позволяет машине, обученной ряду задач, выполнять новую задачу, используя знания, накопленные на предыдущих этапах обучения [143]. Обучение с нуля относится к моделям способным распознавать невидимые классы с обучающими примерами, доступными только для связанных, но разных классов. Это часто влечет за собой задачу изучения представления классов, таких как векторы-прототипы, которые генерируют данные в классе с помощью фиксированного вероятностного механизма [52]. Адаптация к предметной области будет рассмотрена отдельно в следующем пункте.
205
• Адаптация к предметной области: во многих задачах обучения распределение доступных
данных отличается от данных, на которых будет тестироваться алгоритм. Например, при распознавании речи имеется доступная информация для одного пользователя во время обучения, но после обучения может оказаться желательным использовать ту же машину для другого пользователя. Для обучения под наблюдением это обычно моделируется в предположении, что распределение ковариат x отличается во время обучения и тестирования, в то время как различительное условное распределение p(t|x) одинаково для обеих фаз [149]. Обобщение теории PAC анализирует адаптацию предметной области, получая оценки ошибки обобщения при желаемом распределении тестов как функции разницы между обучающим и тестовым распределениями [26].
• Коммуникационно-эффективное обучение: В распределенных вычислительных платформах
данные обычно распределяются между процессорами, а обмен данными между процессорами влечет за собой задержку и потребление энергии. Важной исследовательской проблемой является определение наилучшего соотношения между эффективностью обучения и коммуникационными издержками [160].
• Обучение с подкреплением: Обучение с подкреплением лежит в основе недавних успехов методов машинного обучения в приобретении навыков, необходимых для игры в видеоигры или игр против людей (см., например, [99]). При обучении с подкреплением требуется изучить оптимальное отображение, скажем, q(t|x, ;), между наблюдаемым состоянием мира x и действием t. В отличие от обучения под наблюдением, оптимальное действие t неизвестно, но машина подает сигнал о вознаграждении/наказании в зависимости от эффекта действия. Популярный подход, называемый глубоким обучением с подкреплением, моделирует отображение q(t|x, ;) с использованием глубокой нейронной сети. Это обучается максимизировать среднее вознаграждение с помощью SGD, используя метод ПОДКРЕПЛЕНИЯ (глава 8) для оценки градиента [135, 88, 77, 9].
 Приложения
А
Приложение А: Информационные показатели
В этом приложении мы описываем принципиальное и интуитивно понятное введение в информационные показатели, основанное на выводах, а именно на оценке и проверке гипотез. Мы фокусируемся на показателях энтропии, взаимной информации и расхождений. Мы также уделяем особое внимание дискретным rv. В монографии мы применили прагматический подход, распространив определения на непрерывные переменные, заменив суммы интегралами. Стоит отметить, что этот подход не сопряжен с какими-либо практическими сложностями, когда речь идет о взаимной информации и расхождениях. К той, непрерывной версии энтропии, известной как дифференциальная энтропия, следует относиться с осторожностью, поскольку она не удовлетворяет некоторым ключевым свойствам энтропии, таким как неотрицательность.
A.1 Энтропия
Как предложил Клод Шеннон, объем информации, полученной в результате наблюдения дискретной случайной величины x ~ p(x), определенной по конечному алфавиту X, должен измеряться величиной неопределенности относительно ее значения до ее измерения [134]. С этой целью мы рассмотрим задачу оценки значения x, когда известно только
207
208 Приложение A: Информация измеряет
вероятностную модель p(x). Ключевая идея заключается в том, что наблюдение за случайной величиной x является более информативным, если ее значение сложнее предсказать априори, то есть на основе только знания p(x).
Чтобы формализовать это понятие, нам нужно указать: (i) тип оценок, которые разрешено делать для значения x; и (ii) функцию потерь l, которая используется для измерения точности оценки. Далее мы рассмотрим два типа оценок, а именно оценки точки, при которых в качестве оценки x необходимо использовать конкретное значение x; и оценки распределения, при которых вместо этого нам разрешается выводить pmf ^p(x) по алфавиту X, тем самым определяя профиль "убеждений" над возможными значениями rv x. Ниже мы увидим, что второй подход дает энтропию Шеннона, впервые встречающуюся в этой монографии в (2.45).
Точечные оценки. Учитывая точечную оценку ^x и наблюдаемое значение x ; X, как мы уже видели, погрешность оценки может быть измерена неотрицательной функцией потерь ;(x, ^x), такой как квадратичная функция потерь и функция потерь 0-1. Для любой заданной функции потерь ;, основываясь на приведенном выше обсуждении, мы можем измерить информацию, полученную в результате наблюдения x ~ px, путем оценки среднего убытка, который возникает при наилучшей возможной априорной оценке x. Это приводит к определению обобщенной энтропии [61].
где оценка ^x не обязательно должна лежать в альфавите X. Как видно из обозначения H;(px ), обобщенная энтропия зависит от pmf px и от функции потерь ;. Понятие обобщенной энтропии (A.1) совпадает с понятием минимального байесовского риска для данной функции потерь ;.
Для квадратичной функции потерь обобщенная энтропия представляет собой изменение распределения H;2 (px ) = var(px ). Чтобы убедиться в этом, введем условие оптимальности dE[(x ; ^x)2 ]/d^x = 0, чтобы заключить, что оптимальная точная оценка - это среднее значение ^x = Ex~px [x]. Что касаеся потерь 0-1, то обобщенная энтропия равна минимальной вероятности ошибки при обнаружении x, то есть

Это связано с тем, что оптимальной оценкой является режим, т.е. значение ^x с наибольшей вероятностью p(x).
A.1. Энтропия 209
Оценка распределения. Теперь мы рассмотрим другой тип задачи оценивания, в которой нам разрешено выбрать pmf ^p(x) в алфавите X в качестве оценки для результата переменной x. Чтобы для наглядности мы можем представить, что ^p(x) представляет собой долю ставки, которая инвестируется в то, что результат x равен определенному значению x. Обратите внимание, что не всегда оптимально ставить все свои деньги на одно значение x! На самом деле, это зависит от того, как мы оцениваем вознаграждение или, наоборот, затраты, полученные при реализации значения x = x.
С этой целью мы определяем неотрицательную функцию потерь l(x, ^px ), представляющую потери, или “отрицательный выигрыш”, которые возникают при соблюдении значения x = x . Очевидно, что эти потери должны быть убывающей функцией от ^p(x) – мы регистрируем меньший проигрыш или, наоборот, больший выигрыш, когда ставим больше на фактический результат x. Таким образом, в качестве довольно общего класса функций потерь мы можем определить
l(x, ^px ) = f (^p(x)), (A.3)
где f - убывающая функция. Более общие классы функций потерь рассмотрены в [46].
Обозначим как ;(X ) симплекс pmf , определенный по алфавиту X.  Обобщенная энтропия теперь может быть определена способом, формально эквивалентным (A.1), с единственным отличием - оптимизация по pmf ^px, а не по точечной оценке x:
Ключевым примером функции потерь l(x, ^px ) в классе (A.3) является логарифмическая функция потерь l(x, ^px ) = ; log ^p(x). Логарифмическая потеря имеет сильную мотивацию с точки зрения сжатия без потерь. Фактически, как обсуждалось в разделе 2.5, в соответствии с неравенством Крафта, можно разработать схему сжатия без префикса и, следовательно, декодируемую без задержек, без потерь, которая использует ;- log ^p(x); бит для представления значения x. В результате выбор формата pmf px сродни выбору схемы сжатия без префиксов и потерь, которая требует описания примерно из ln p(x) битов для представления значения x. Математическое ожидание в (A.4) измеряет соответствующее среднее число битов, необходимое для сжатия без потерь по данной схеме.
210  Приложение A: Информационные измерения
Используя логарифмические потери в (A.1), мы получаем энтропию Шеннона
Фактически, наложение условия оптимальности приводит к оптимальному pmf ^p(x) как p(x) = p(x). Уравнение (A.5) показывает, что энтропия H(px ) является минимальной средней логарифмической потерей при оптимизации по всем возможным ^px pmfs .
На первый взгляд может показаться, что выбор ^p(x) = p(x) должен быть оптимальным для большинства разумных функций потерь в классе (A.3), но это не так. Фактически, когда алфавит X содержит более двух элементов, можно доказать, что логарифмическая потеря, более широко определяемая как ;(x, ^px ) = b log ^p(x) + c при b ; 0 и любом c, является единственной функцией потерь вида (A.3) для которого ^p(x) = p(x) является оптимальным [74].
В заключение отметим, что обобщенная энтропия H; (px ) является вогнутой функцией от px , что означает , что мы имеем неравенство H; (;px + (1 ; ;)qx ) ; ; H; (px ) + (1 ; ;) H; (qx ) для любых двух распределений px и qx и любого 0 ; ; ; 1. Это следует из того факта, что энтропия является минимальной для семейства линейных функционалов от px [28]. Вогнутость H; (px ) подразумевает, что переменная x ~ ;px + (1 ; ;)qx, распределенная в соответствии со смесью двух распределений, является более “случайной”, т.е. ее труднее оценить, чем обе переменные x ~ px и x~ qx .
A.2 Условная энтропия и взаимная информация

Учитывая, что две случайные величины x и y совместно распределены в соответствии с известной вероятностной моделью p(x, y), то есть (x, y) ~ pxy , мы теперь обсудим, как количественно оценить информацию, которую наблюдение за одной переменной, скажем, y, приводит к другой, а именно x. Следуя тому же подходу, который был принят выше, мы можем выделить два логических сценария для этой цели: в первом случае необходимо получить точечную оценку ^x(y) из x на основе наблюдения значения y = y и знания совместного pmf pxy; в то время как во втором случае мы вам разрешено выбирать pmf ^px|y=y как оценка x с учетом наблюдения y = y.
Точечная оценка: предполагающая точечные оценки и заданную функцию потерь. l(x, ^x), обобщенная условная энтропия для наблюдения y = y,
2. Условная энтропия и взаимная информация 211
определяется как минимальная средняя потеря
Обратите внимание, что это определение согласуется с (A.1) применительно к условной pmf px|y=y . Усреднение по распределению наблюдения y дает обобщенную условную энтропию
Подчеркивается, что обобщенная условная энтропия зависит от совместного распределения pxy , в то время как (A.7) зависит только от условного pmf px|y=y .
Для квадратичной ошибки обобщенная условная энтропия, как можно легко увидеть, представляет собой среднюю условную дисперсию H; 2 (x|y) = Ey;py [var(px|y )],  поскольку апостериорное среднее значение ^x(y) = Ex;px|y=y [x|y = y] - это оптимальная оценка. Для потерь 0-1 обобщенная условная энтропия H ; 0 (x|y) вместо этого равна минимальной вероятности ошибки при обнаружении x, при заданном y, а оценка MAP ^x(y) = argmax ^x€x p(^x|y) является оптимальной.
Оценка распределения: Предположим теперь, что нам разрешено выбрать pmf ^px|y=y в качестве оценки x, учитывая наблюдение y = y, и что мы измеряем потерю оценки с помощью функции l(x, ^px ), как показано в (A.3). Определение обобщенной условной энтропии для заданное значение y = y непосредственно следует из приведенных выше аргументов и задается как H; (px|y=y ), в то время как обобщенная условная энтропия равна (A.8). С помощью функции логарифмических потерь можно снова увидеть, что приведенное выше определение совпадает с условной энтропией H(x|y) = Ex,y~px,y [ - ln p(x|y)].
Если x и y независимы, то мы имеем равенство H; (x|y) = H; (x). Кроме того, поскольку в (A.7) мы всегда можем выбрать оценки, которые не зависят от y, мы обычно имеем неравенство H; (x|y) ; H; (x): наблюдение за y в среднем может только уменьшить энтропию. Заметим, однако, что неверно, что H; (px|y=y ) обязательно меньше, чем H; (x) [38].
Взаимная информация: Неравенство H; (x|y) ; H; (x) обосновывает определение обобщенной взаимной информации относительно данной функции потерь ; как
I; (x; y) = H; (x) ; H; (x|y). (A.9)
212 Приложение A: Информационные меры
Взаимная информация измеряет уменьшение средних потерь, получаемых при наблюдении за y, по сравнению с получением только предварительной информации о px . Это понятие взаимной информации согласуется с концепцией статистической информации, предложенной ДеГрутом (недавнюю трактовку см. в [46]). При потере логарифма обобщенная взаимная информация (A.9) сводится к взаимной информации Шеннона. Как показано в [75], логарифмические потери фактически являются единственной функцией потерь с точностью до мультипликативных множителей, при которой обобщенная взаимная информация (A.9) удовлетворяет неравенство обработки данных при условии, что алфавит x содержит более двух элементов.
A.3 Измерения расхождения
Теперь мы обсудим способ количественной оценки “разницы” между двумя заданными вероятностными моделями px и qx, определенными с помощью одного и того же алфавита X .  Здесь мы рассматриваем точку зрения проверки бинарных гипотез как теоретическую основу для решения проблемы. Другие родственные подходы также нашли применение в машинном обучении, включая теорию оптимального переноса и методы ядра [8].
Мы рассмотрим следующую стандартную задачу проверки бинарных гипотез. Учитывая наблюдение x, решите, было ли x сгенерировано из pmf px или из pmf qx . Чтобы продолжить, мы определяем правило принятия решения T (x), которое должно обладать тем свойством, что оно увеличивается с уверенностью в том, что значение x = x генерируется из px, а не из qx . Например, на практике можно установить пороговое значение для правила T (x), чтобы, когда Если T (x) больше порогового значения, принимается решение, что x = x было получено из px .
Чтобы разработать правило принятия решения T (x), мы снова минимизируем функцию потерь или, что эквивалентно, максимизируем функцию полезности. Для удобства здесь мы используем последний подход и определяем задачу максимизации функции полезности
по правилу T (x), где g - вогнутая возрастающая функция. Этот критерий может быть обоснован следующим образом: (i) Он увеличивается, если T (x) в среднем велико для значений x, полученных из px; и (ii) он уменьшается, если, согласно
А.3. Показатели расхождения 213
математического ожидания, T (x) велико для значений x, полученных из qx . Функция g может быть использована для определения относительной важности ошибок, допущенных в пользу того или иного распределения. Исходя из этого обсуждения, оптимальное значение (A.10) можно принять за меру расстояния между двумя pmf. Это приводит к следующему определению расхождения между двумя pmf
где индекс f будет обоснован ниже.
При подходящих предположениях о дифференцируемости функции g (см. [107] для обобщений), используя производную по T (x) для всех x ; x дает условие оптимальности g' (T (x)) = p(x)/q(x). Это соотношение показывает связь между оптимальным детектором T (x) и
LLR p(x)/q(x). Подключив этот результат к (A.11), можно напрямую проверить, выполняется ли следующее равенство [105]
где функция f (x) = g; (x) является выпуклой дуальной функцией от g(t), которая определяется как g; (x) = supt (xt ; g(t)). Обратите внимание, что дуальная функция f всегда выпуклая [28].
При дополнительном ограничении f (1) = 0 определение (A.12)  описывает большой класс мер расхождения, параметризуемых функцией сходимости f, которые известны как f-расхождения или меры расстояния Али-Сильви [45]. Обратите внимание, что ограничение f (1) = 0 гарантирует, что расхождения равно нулю, когда px и qx pmf идентичны. Среди их ключевых свойств f-дивергенции удовлетворяют неравенству обработки данных [45].
Например, выбор g(t) = exp(t ; 1), который дает двойную кривую f (x) = x ln x, выдает оптимальный детектор T (x) = 1 + ln(p(x)/q(x)) и соответствующее расхождение мерой (A.12) является стандартная дивергенция KL(px ||qx ). В качестве другого примера f-дивергенции, при g(t) = ; ln(2;exp(t)) мы получаем оптимальный детектор T (x) = ln(2px (x)/px (x))+ qx (x)), а Df (px ||qx ) становится дивергенцией Дженсена-Шеннона1 . Для
1 Расхождение Дженсена-Шеннона также может быть интерпретировано как взаимная
информация I(s; x)
214 Приложение А: Информация измеряет
ссылку, последняя может быть записана в виде
JS(px ||qx ) = KL(px ||mx )+KL(qx ||mx ), (A.13)
где mx (x) = (px (x) + qx (x))/2.2 Другим частным случаем, обобщающим расхождение KL и другие показатели, является ;-расхождение, рассмотренное в главе 8 (см. (8.16)), которое получается при f (x) = (;(x ; 1) ; (x; ; 1))/(;(1 ; ;)) для некоторого действительного параметра ;. Мы ссылаемся на [107, 45] для других примеров.
Приведенное выше обсуждение оправдало использование функции потерь (A.11) эвристическим способом. Однако можно вывести формальные зависимости между вероятностью ошибки при проверке бинарной гипотезы и f-дивергенциями [21]. Мы также ссылаемся на классическую лемму Санова и Лемма Штейна как фундаментальное применение дивергенции KL к большим отклонениям и проверке гипотез [38].
2Расхождение Дженсена-Шеннона, как определено выше, пропорционально взаимной информации I(s; x) для совместного распределения ps,x (s, x) = 1/2 · px|s (x|s) с двоичным s и условным pmf, определяемым как px|s (x|0) = px (x) и px|s (x|s)(x|1) = qx (x).

B
Приложение В: Дивергенция KL и экспоненциальное семейство
В этом приложении мы приводим общее выражение для расхождения KL между двумя распределениями p (x|;1) и p (x|;2) из одного и того же регулярного экспоненциального семейства с логарифмической статистической функцией A(·), достаточной статистикой u(x) и параметрами момента µ1 и µ2 соответственно. Мы вспоминаем из В главе 3 показано, что логарифмическая функция разбиения выпукла и что у нас есть тождество ;A(;) = µ.
Расхождение KL между двумя распределениями может быть преобразовано в расхождение в пространстве естественных параметров. В частности, имеет место следующее соотношение [6]
KL(p(x|;1 )||p(x|;2 )) = D A(;2  , ;1 ), (B.1)
где DA (;2 , ;1) представляет собой дивергенцию Брегмана с генераторной функцией, заданной функцией логарифмического разбиения A(·), то есть

Первая строка (B.2) представляет собой общее определение брегмановского расхождения DA (·, ·) с генераторной функцией A(·), в то время как вторая следует из соотношения (3.10). Обратите внимание что дивергенция Брегмана может
215216

Приложение В: Дивергенция KL и экспоненциальное семейство
оказаться неотрицательной и выпуклой в своем первом аргументе, но не обязательно во втором аргументе. Равенство (B.1)-(B.2) может быть доказано с помощью определения экспоненциального семейства с помощью следующего равенства
Еще раз напоминая , что мы имеем равенство ;A(;1 ) = µ1 , соотношение (B.1)-(B.2) можно приблизительно представить в виде
где Jn = ;E ;2; lnp(x|;) - информационная матрица Фишера. Это разложение выполняется с учетом соотношения ;2; A(;) = J;  [45].

Также можно записать соотношение, аналогичное (B.1)-(B.2), в терминах средних параметров. Это делается с помощью выпуклой сопряженной функции
 где максимальное значение превышает допустимый набор естественных параметров. Фактически, оптимизация по ; приводит к естественному параметру ;, соответствующему среднему параметру µ, т.е. ;A(;) = µ. Следовательно, из (B.2) следует, что мы имеем
где во второй строке мы использовали обратное отображение ;A;(µ) = ; между средними и естественными параметрами (которое справедливо для минимальных семейств).
Меры дивергенции Чернова, включая расстояние Бхаттачарьи, также могут быть записаны в замкнутом виде для экспоненциальных семейств [106].
Признание
Освальдо Симеоне получил финансирование от Европейского исследовательского центра
Совет (ERC) в рамках программы исследований и инноваций Европейского союза "Горизонт 2020 " (грантовое соглашение № 725731).
217
 Ссылки
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
Абади, М., У. Эрлингссон, И. Гудфеллоу, Х. Брендан Макма-
хан, И. Миронов, Н. Паперно, К. Талвар и Л. Чжан. 2017.
“О защите частной информации при машинном обучении"
Системы: два новейших подхода”. Электронные копии arXiv. Август. arXiv:
1708.08022 [stat.ML].

Абу-Мостафа, Ю. С., М. Магдон-Исмаил и Х.-Т. Лин. 2012.
Изучение данных. Том. 4. AMLBook Нью-Йорк, Нью-Йорк, США.
Агаков Ф., 2005. Максимизация вариационной информации в
стохастических средах (докторская диссертация). Эдинбургский университет.
Алеми А. А., Б. Пул и Э. А. Фишер., 2017. “Информация-
Теоретический анализ моделей с глубокими латентными переменными”. Электронные
распечатки в формате arXiv. Ноябрь. arXiv: 1711.00464v1.
Амари, С.-И., 1998. “Естественный градиент эффективно
помогает в обучении”. Нейронные вычисления. 10 (2): 251-276.
Амари, С.-И., 2016. Информационная геометрия и ее приложения.
Прыгун.
Анджелино, Э., М. Дж. Джонсон, Р. П. Адамс и др., 2016. “Паттерны
масштабируемого байесовского вывода”. Основы и тенденции развития
Машинное обучение. 9(2-3): 119–247.
Арьовски, М., С. Чинтала и Л. Боттоу. 2017. “Вассерштейн
ГАН”. Препринт arXiv arXiv: 1701.07875.
218 ссылок
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
219
Арулкумаран, К., М. П. Дейзенрот, М. Брандейдж и А. А.
Бхарат, 2017. “Глубокое обучение с подкреплением: краткий обзор”.
Журнал IEEE по обработке сигналов. 34(6): 26-38. issn: 1053-5888.
doi: 10.1109/MSP.2017.2743240.
Азури, К. С. и М. К. Уормут. 2001. “Границы относительных потерь
для онлайн-оценки плотности с использованием экспоненциального семейства
распределений”. Машинное обучение. 43(3): 211-246.
Багери, А., О. Симеоне и Б. Раджендран. 2017. “Обучение
Вероятностным нейронным сетям с пиками и декодированием от первого к последующему пику”
. Электронные копии в формате arXiv. Октябрь. arXiv: 1710.10704 [stat.ML].
Балди, П., П. Садовски и З. Лу. 2016. “Обучение в машине:
случайное обратное распространение и канал обучения”.
Препринт arXiv arXiv: 1612.02734.
Бамлер, Р., К. Чжан, М. Оппер и С. Мандт. 2017. “Пертур-
логический вывод с использованием вариаций черного ящика”. Электронные копии arXiv. Сентябрь.
arXiv: 1709.07433 [stat.ML].
Баранюк, Р. Г. 2007. “Компрессионное зондирование [конспекты лекций]”.
Журнал IEEE по обработке сигналов. 24(4): 118-121.
Барбер, Д. 2012. Байесовские рассуждения и машинное обучение.
Издательство Кембриджского университета.
Бил, М. Дж. 2003. Вариационные алгоритмы для приближенного байесовского
вывода. Лондонский университет, Лондон.
Беккерман Р., М. Биленко и Дж. Лэнгфорд. 2011. Расширение масштабов
машинного обучения: параллельные и распределенные подходы. Кембридж
Университетское издательство.
Белгази, И., С. Раджешвар, А. Баратин, Р. Д. Йельм и А. Курвиль.
2018. “ШАХТА: нейронная оценка взаимной информации”.
Препринт arXiv arXiv: 1801.04062.
Бенгио, Ю., 2012. “Глубокое изучение представлений для
обучения без контроля и переноса”. В: Материалы семинара ICML
по неконтролируемому обучению и передаче знаний. 17–36.
Бенжио, Ю., А. Курвиль и П. Винсент. 2013. “
Обучение репрезентации: обзор и новые перспективы”. IEEE transactions on
pattern analysis and machine intelligence. 35(8): 1798-1828.220 ссылок
[21]Бериша В., А. Вислер, А. О. Геро и А. Спаниас. 2016. “Эм-
математически оцениваемые границы классификации, основанные на
непараметрической мере расхождения”. Транзакции IEEE по обработке сигналов
. 64(3): 580-591.
Бертсекас, Д. П. 2011. “Инкрементальные градиентные, субградиентные и
проксимальные методы выпуклой оптимизации: обзор”.
Оптимизация для машинного обучения. 2010(1-38): 3.
Бишоп, К. М., 2006. Распознавание образов и машинное обучение.
Прыгун.
Блей, Д. М., А. Кучукельбир и Дж. Д . Маколифф. 2017. “
Вариативный вывод: обзор для статистиков”. Журнал
Американской статистической ассоциации. (только что принят).
Блей, Д., Р. Ранганат и С. Мохамед. “Вариационный вывод:
Основы и современные методы”.
Блитцер, Дж., К. Краммер, А. Кулеша, Ф. Перейра и Дж. Вортман.
2008. “Границы обучения для адаптации к предметной области”. В разделе: Достижения
в области нейронных систем обработки информации. 129–136.
Бланделл, К., Дж. Корнебиз, К. Кавукчуоглу и Д. Вирстра.
2015. “Весовая неопределенность в нейронных сетях”. Препринт
arXiv arXiv: 1505.05424.
Бойд, С. и Л. Ванденберги. 2004. Выпуклая оптимизация.
Издательство Кембриджского университета.
Бракель, П. и Ю. Бенгио. 2017. “Особенности самостоятельного обучения
с конкурирующими сетями для нелинейного ICA”. Электронные копии в формате arXiv. Окт.
arXiv: 1710.05050 [stat.ML].
Бронштейн, М. М., Дж. Бруна, Ю. Лекун, А. Шлэм и П. Ван-
Дергейнст. 2017. “Глубокое геометрическое обучение: выход за рамки европейских
данных”. Журнал IEEE Signal Processing Magazine. 34(4): 18-42.
Бриньольфссон, Э. и Т. Митчелл, 2017. “Что может сделать машинное
обучение? Влияние на рабочую силу”. Наука. 358(6370): 1530–
1534.
Бурда, Ю., Р. Гросс и Р. Салахутдинов. 2015. “
Автоэнкодеры, взвешенные по важности”. Препринт arXiv arXiv: 1509.00519.
[22]
[23]
[24]
[25]
[26]
[27]
[28]
[29]
[30]
[31]
[32]Список литературы
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
221
Кевхер, В., С. Беккер и М. Шмидт. 2014. “Выпуклая
оптимизация для больших данных: масштабируемые, рандомизированные и параллельные алгоритмы
для анализа больших данных”. Журнал IEEE по обработке сигналов. 31(5):
32–43.
Чизмен, П. С., 1985. “В защиту теории вероятностей”. В издании: IJCAI.
Том 85. 1002-1009.
Чичоцки, А., Д. Мандич, Л. Де Латаувер, Г. Чжоу, К. Чжао, С.
Кайафа и Х. А. Фан. 2015. “Тензорные разложения для
приложений обработки сигналов: от двустороннего к многокомпонентному
анализу”. Журнал IEEE по обработке сигналов. 32(2): 145-163.
Коллинз, М., С. Дасгупта и Р. Э. Шапир. 2002. “Обобщение
анализа главных компонент для экспоненциального
семейства”. В: Достижения в области нейронных систем обработки информации.
617–624.
Кортес, К. и В. Вапник. 1995. “Сети с опорными векторами”.
Компьютерное обучение. 20 (3): 273-297.
Обложка, Т. М. и Дж. А. Томас. 2012. Элементы теории информации
. John Wiley & Sons.
Кристианини, Н. и Дж. Шоу-Тейлор. 2000. Введение в
методы опорных векторов и другие методы обучения, основанные на ядре
. Издательство Кембриджского университета.
Чишар, И. и П. С. Шилдс. 2004. “Теория информации и
статистика: учебное пособие”. Основы и тенденции
развития теории коммуникаций и информации. 1(4): 417–528.
Дэвидсон-Пилон, С. 2015. “Вероятностное программирование и байесовский подход
Методы для хакеров”.
П. Даян, Г. Э. Хинтон, Р. М. Нил и Р. С. Земел. 1995.
“Машина Гельмгольца”. Нейронные вычисления. 7(5): 889–904.
Де, С., Г. Тейлор и Т. Голдштейн. 2015. “Уменьшение дисперсии
для распределенного стохастического градиентного спуска”. Препринт
arXiv arXiv: 1512.01708.
Ди Лоренцо, П. и Г. Скутари. 2016. “Далее:
оптимизация без проблем в сети”. Транзакции IEEE по сигналам и информации-
обработка данных по сетям. 2(2): 120–136.222
[45]
[46]
[47]
[48]
[49]
[50]
[51]
[52]
[53]
[54]
[55]
[56]
[57]
Рекомендации
Дучи, Дж. 2016. “Конспекты лекций по статистике 311/
электротехнике 377”.
Дучи, Дж. С., К. Хосрави и Ф. Руан. 2016. “Информация
Измерения, эксперименты, проверка гипотез по нескольким категориям и
Суррогатные потери”. Препринт arXiv arXiv: 1603.00126.
Дюмулен В., И. Белгази, Б. Пул, О. Мастропьетро, А. Лэмб,
М. Аржовски и А. Курвиль. 2016. “Опыт, полученный в
ходе состязаний”. Препринт arXiv arXiv: 1606.00704.
Эфрон, Б. и Т. Хасти. 2016. Статистический вывод о компьютерном веке
. Том 5. Издательство Кембриджского университета.
Федус, У., М. Рошка, Б. Лакшминараянан, А. М. Дай, С.
Мохаммед и И. Гудфеллоу. 2017. “Много путей к равновесию:
Операторам GAN не нужно уменьшать расхождение на каждом этапе”.
Электронные копии arXiv. Октябрь. arXiv: 1710.08446 [stat.ML].
Фейтри, К., П. Пиантанида, Ю. Бенгио и П. Дюамель. 2018.
“Изучение анонимизированных представлений с помощью состязательных нейронных сетей
Сети”. Электронные распечатки в формате arXiv. Февраль. arXiv: 1802.09386 [stat.ML].
Фридман Дж., Т. Хасти и Р. Тибширани. 2001. Элементы
статистического образования. Том 1. Серия Springer в statistics New
Йорк.
Фу, Ю., Т. Сян, Ю.-Г. Цзян, Х. Сюэ, Л. Сигал и С. Гун.
2017. “Последние достижения в распознавании с нуля”. Препринт
arXiv arXiv: 1710.04837.
Гал, Ю., 2016. “Неопределенность в глубоком обучении”. Докторская диссертация.
Кембриджский университет.
Гершо, А. и Р. М. Грей. 2012. Векторное квантование и
сжатие сигналов. Том 159. Springer Science & Business Media.
Гудфеллоу, И. Дж., Дж. Шленс и К. Сегеди. 2014а. “Объяснение
и использование примеров противостояния”. Препринт arXiv arXiv: 1412.6572.
Гудфеллоу, И., Ю. Бенжио и А. Курвиль. 2016. Глубокое обучение.
Издательство Массачусетского технологического института.
Гудфеллоу, И., Дж. Пуже-Абади, М. Мирза, Б. Сюй, Д. Вард.-
Фарли, С. Озэйр, А. Курвиль и Ю. Бенжио. 2014b. “
Порождающие состязательные сети”. В: Достижения в области нейронных
систем обработки информации. 2672-2680.Список литературы
[58]
[59]
[60]
[61]
[62]
[63]
[64]
[65]
[66]
[67]
[68]
[69]
[70]
[71]
223
Грант, М. и Ю. Е. Арти. “Руководство пользователя cvx”.
Гратвол, У., Д. Чой, Ю. Ву, Г. Редер и Д. Дювено.
2017. “Обратное распространение через пустоту: оптимизация управления
варьируется для оценки градиента черного ящика”. Электронные распечатки в формате arXiv. Окт.
arXiv: 1711.00123 [cs.LG].
Грюнвальд, Департамент полиции, 2007. Принцип минимальной длины описания
. Издательство Массачусетского технологического института.
Грюнвальд, доктор философии, А. П. Давид и др., 2004. “Теория игр,
максимальная энтропия, минимальное расхождение и надежная байесовская
теория принятия решений”. Анналы статистики. 32 (4): 1367-1433.
Guardian), S. L. (2016. Конкурс красоты оценивался с помощью искусственного интеллекта, и
роботам не понравилась темная кожа. url: http://www.nytimes.com/1958/07/08/a
Хавеливала, Т. Х., 2003. “Рейтинг страницы, учитывающий тематику: контекст-
чувствительный алгоритм ранжирования для веб-поиска”. IEEE transactions
on knowledge and data engineering. 15 (4): 784-796.
Хинтон Г., 2016. “Нейронные сети для машинного обучения (онлайн
-курс)”.
Хинтон, Г. Э., П. Даян, Б. Дж. Фрей и Р. М. Нил. 1995.
“Алгоритм "бодрствования и сна" для неконтролируемых нейронных сетей”.
Наука. 268(5214): 1158.
Хохрайтер, С. и Й. Шмидхубер. 1997. “Плоские минимумы”. Нервный
Вычисление. 9(1): 1–42.
Хуан, Дж.-Б., К.-Ю. Чжу и К.-К. Сью. 2006. “Экстремальная обучающая
машина: теория и приложения”. Нейрокомпьютинг. 70(1):
489–501.
Хусар, Ф. 2017a. “Выбор моделей распознавания в VAEs:
взгляд на регуляризацию”.
Хусар, Ф. 2017b. “Полезна ли функция максимального правдоподобия для
обучения репрезентации?”
Хусар, Ф. 2017с. “Вариационный вывод с использованием неявных
распределений”. Препринт arXiv arXiv: 1702.08235.
Хусар Ф. “Все, что работает, работает потому, что оно байесовское:224
[72]
[73]

[73]
[74]
[75]
[76]
[77]
[78]
[79]
[80]
[81]
[82]
[83]
Рекомендации
Джейн, П. и П. Кар, 2017. “Невыпуклая оптимизация для
машинного обучения”. Основы и тенденции машинного
обучения. 10 (3-4): 142-336. issn: 1935-8237. url: http://dx.doi.org/10.1561/22000
Джанг Э., С. Гу и Б. Пул. 2016. “Категориальная
перепараметризация с помощью gumbel-softmax”. Препринт arXiv arXiv: 1611.01144.
Цзяо, Дж., Т. А. Кортейд, А. Но, К. Венкат и Т. Вайсман.
2014. “Информационные измерения: любопытный случай двоичного
алфавита”. Труды IEEE по теории информации. 60(12):
7616-7626.
Цзяо, Дж., Т. А. Кортейд, К. Венкат и Т. Вайсман. 2015.
“Обоснование логарифмических потерь с помощью дополнительной
информации”. Труды IEEE по теории информации. 61(10): 5357–
5365.
Джонсон, Р. и Т. Чжан. 2013. “Ускорение стохастического
градиентного снижения с помощью уменьшения прогностической дисперсии”. В кн.: Достижения
в области нейронных систем обработки информации. 315–323.
Карпати, А. “Глубокое обучение с подкреплением: игра с пикселями”.
url: http://karpathy.github.io/2016/05/31/rl/.
Кавагути, К., Л. Пак Келблинг и Ю. Бенгио. 2017. “Общие сведения-
интеграция в глубоком обучении”. Электронные копии arXiv. Октябрь. arXiv: 1710.05468 [статистика.М.
Кескар, Н. С., Д. Мудигер, Ж. Ночедаль, М. Смелянский и
П. Т. П. Тан. 2016. “О крупномасштабном обучении для глубокого обучения:
Разрыв в обобщениях и резкие минимумы”. Препринт arXiv arXiv: 1609.04836.
Кингма, Д. П. и М. Уэллинг. 2013. “Автоматическое кодирование по вариационному
Байесу”. Препринт arXiv arXiv: 1312.6114.
Коллер, Д. и Н. Фридман. 2009. Вероятностные графические модели:
принципы и методы. Издательство Массачусетского технологического института.
Коренкевич, Д., Ю. Сюэ, З. Биан, Ф. Чудак, У. Г. Макриди,
Дж. Рольф и Э. Андрияш. 2016. “Сравнительный анализ квантового
оборудования для обучения полностью видимых машин Больцмана”.
Препринт arXiv arXiv: 1611.04528.
Лекун, Ю., С. Чопра, Р. Хадселл, М. Ранзато и Ф. Хуан.
2006. “Учебное пособие по обучению, основанному на использовании энергии”. Прогнозирование структурных ссылок
[84]
[85]
[86]
[87]
[88]
[89]
[90]
[91]
[92]
[93]
[94]
[95]
[96]
[97]
[98]
225
Ли, Дж. Х., Т. Дельбрюк и М. Пфайффер. 2016. “Обучение
нейронных сетей с глубокими всплесками с использованием обратного распространения”. Рубежи в
нейронауке. 10.
Ли, Т.-У., М. Джиролами и Т. Дж. Сейновски. 1999. “Независимый-
анализ компонентов dent с использованием расширенного алгоритма infomax
для смешанных субгауссовых и супергауссовых источников”. Нейронные вычисления
. 11 (2): 417-441.
Леманн, Э. Л. и Дж. Казелла. 2006. Теория точечной оценки.
Springer Science & Business Media.
Левеск, Х. Дж., 2017. Здравый смысл, тест Тьюринга и
поиски настоящего искусственного интеллекта. Издательство Массачусетского технологического института.
Левин, С. 2017. Глубокое обучение с подкреплением. url: http://rll.berkeley.edu/
Ли, Ю. “Темы в приближенном выводе”. url: http://yingzhenli.net/home/
Ли, Ю. и Р. Э. Тернер. 2016. “Вариационная дивергенция Реньи".
логический вывод”. В: Достижения в области нейронных систем обработки информации
. 1073-1081.
Лох, П.-Л. 2017. “О нижних границах статистической
теории обучения”. Энтропия. 19(11): 617.
Ланн, Д., К. Джексон, Н. Бест, А. Томас и Д.
Шпигельхальтер. 2012. Книга об ОШИБКАХ: практическое введение в байесовский
анализ. Издательство CRC.
Маатен, Л. В. Д. и Г. Хинтон. 2008. “Визуализация данных с помощью
t-SNE”. Журнал исследований в области машинного обучения. 9(ноября): 2579–
2605.
Маккей, Д. Дж., 2003. Теория информации, алгоритмы логического вывода и обучения
. Издательство Кембриджского университета.
Мэддисон, К. Дж., А. Мних и Ю. У. Т., 2016. “Конкретное
распределение: непрерывная релаксация дискретных случайных величин
”. Препринт arXiv arXiv: 1611.00712.
Минка, Т. 2005. “Меры по расхождению и передаче сообщений”.
Технический представитель. Технический отчет, Microsoft Research.
Мински, М. и С. Паперт. 1969. “Персептроны”.
Мних, А. и К. Грегор. 2014. “Нейронный вариационный вывод и
обучение в сетях убеждений”. Препринт arXiv arXiv: 1402.0030.226
[99]
[100]
[101]
[102]
[103]
[104]
[105]
[106]
[107]
[108]
[109]
[110]
[111]
Рекомендации
Мних, В., К. Кавукджуоглу, Д. Сильвер, А. Грейвс, И. Антоноглу,
Д. Вирстра и М. Ридмиллер. 2013. “Игра в atari с глубоким
обучением с подкреплением”. Препринт arXiv arXiv: 1312.5602.
Мохамед, С. и Б. Лакшминараянан. 2016. “Обучение в
сложных генеративных моделях”. Препринт arXiv arXiv: 1610.03483.
Мохтари, А. и А. Рибейро. 2017. “
Методы адаптивной выборки первого порядка для уменьшения сложности эмпирической
оценки риска”. Электронные копии в формате arXiv. Сентябрь. arXiv: 1709.00599 [cs.LG].
Монтавон, Г., В. Самек и К.-Р. Мюллер. 2017. “Методы
интерпретации и понимания глубоких нейронных сетей”.
Препринт arXiv arXiv: 1706.07979.
Мотт, А., Дж. Джоб, Дж.-Р. Влимант, Д. Лидар и М. Спиропулу.
2017. “Решение задачи оптимизации Хиггса с
помощью квантового анализа для машинного обучения”. Природа. 550(7676): 375.
Мерфи, К. П. 2012. Машинное обучение: вероятностный
подход. Издательство Массачусетского технологического института.
Нгуен, Х., М. Дж. Уэйнрайт и М. И. Джордан. 2010. “Оценка
функционалов дивергенции и отношения правдоподобия с помощью выпуклой
минимизации риска”. IEEE Transactions по теории информации.
56(11): 5847–5861.
Нильсен, Ф. 2011. “Информация Чернова об экспоненциальных семействах”.
Препринт arXiv arXiv: 1102.2684.
Новозин, С., Б. Чеке и Р. Томиока. 2016. “f-GAN:
обучение генеративных нейронных пробоотборников с использованием минимизации вариационной
дивергенции”. В кн.: Достижения в области нейронных систем обработки информации
. 271–279.
Одена, А., К. Олах и Дж. Шленс., 2016. “Синтез условных изображений
с помощью вспомогательного классификатора gans”. Препринт arXiv arXiv: 1610.09585.
О'Нил, К. 2016. Оружие математического уничтожения. Penguin Books.
Пейдж, Л., С. Брин, Р. Мотвани и Т. Виноград. 1999. “Рейтинг цитируемости
PageRank: наведение порядка в Интернете”. Технический директор.
 Стэнфордская информационная лаборатория.
Паперно, Н., П. Макдэниел, И. Гудфеллоу, С. Джа, З.
Беркайлик и А. Свами. 2016. “Практические атаки с использованием "черного ящика" против
Машинное обучение”. Электронные копии arXiv. Февраль. arXiv: 1602.02697 [cs.CR].Ссылки
[112]
[113]
[114]
[115]
[116]
[117]
[118]
[119]
[120]
[121]
[122]
[123]
227
Перл, Дж. 2018. “Теоретические препятствия для машинного обучения"
И ”Семь искр каузальной революции". Электронные копии в архиве arXiv.
Январь. arXiv: 1801.04016 [cs.LG].
Перл, Дж., М. Глимур и Н. П. Джуэлл. 2016. Причинно
-следственные связи в статистике: учебник для начинающих. John Wiley & Sons.
Перейра, М., П. Шнитер, Э. Шузену, Ж.-К. Песке, Ж.-Ю.
Турнере, А. О. Геро и С. Маклафлин. 2016. “Обзор методов
стохастического моделирования и оптимизации в
обработке сигналов”. Журнал IEEE по избранным темам в области обработки сигналов.
10(2): 224–241.
Питерс, Дж., Д. Янцинг и Б. Шолкопф. 2017. Элементы
причинно-следственного вывода: основы и алгоритмы обучения. МТИ
Нажмите (доступно в режиме онлайн).
Пинкер С., 1997. Как работает разум. Издательство "Пингвин Пресс Сайенс".
Рабинер, Л. и Б. Хуанг, 1986. “Введение в скрытую
Марковские модели”. Журнал IEEE ASSP. 3(1): 4–16.
Рагински, М., 2011. “Направленная информация и причинно
-следственный расчет Перла”. В издании: Коммуникация, управление и вычислительная техника (Аллертон),
2011, 49-я ежегодная конференция Аллертона по. IEEE. 958–965.
Рагинский, М., А. Рахлин, М. Цао, Ю. Ву и А. Сюй. 2016.
“Теоретико-информационный анализ устойчивости и смещения
алгоритмов обучения”. В: Семинар по теории информации (ITW), 2016
IEEE. IEEE. 26–30.
Ранганат, Р., С. Герриш и Д. Блей. 2014. “Вариативный вывод из черного ящика
”. В: Искусственный интеллект и статистика. 814–
822.
Ранганат, Р., Л. Тан, Л. Чарлин и Д. Блей. 2015. “Глубокий
экспоненциальные семейства”. В: Искусственный интеллект и статистика.
762–771.
Резенде, Д. Дж., С. Мохаммед и Д. Вирстра. 2014. “Стохастическое
обратное распространение и приближенный вывод в глубоких генеративных
моделях”. Препринт arXiv arXiv: 1401.4082.
Рот, К., А. Лукки, С. Новозин и Т. Хофманн. 2017. “
Стабилизирующее обучение генеративных состязательных сетей посредством
Регуляризация”. Препринт arXiv arXiv: 1705.09367.228
[124]
[125]
[126]
[127]
[128]
[129]
[130]
[131]
[132]
[133]
[134]
[135]
Рекомендации
Рудольф, М., Ф. Руис, С. Атей и Д. Блей. 2017. “Структурированный
Встраивание моделей для сгруппированных данных”. Электронные копии arXiv. Сентябрь.
arXiv: 1709.10367 [stat.ML].
Румельхарт, Д. Э., Г. Э. Хинтон и Р. Дж. Уильямс. 1988. “Изучение
представлений путем обратного распространения ошибок”. Когнитивное моделирование
. 5(3): 1.
Рассел, С. и П. Норвиг. 2009. Искусственный интеллект: Современный
Подход. Пирсон.
Салахутдинов Р., А. Мних и Г. Хинтон. 2007. “Ограниченный
Машины Больцмана для коллаборативной фильтрации”. В сборнике: Материалы
24-й международной конференции по машинному обучению. ACM.
791–798.
Салиманс, Т., Дж. Хо, Х. Чен и И. Суцкевер. 2017. “Эволюция
стратегии как масштабируемая альтернатива обучению с подкреплением”.
Препринт arXiv arXiv: 1703.03864.
Самади А., Т. П. Лилликрап и Д. Б. Твид. 2017. “Глубокое
Обучение с динамическим подключением нейронов и фиксированной обратной связью
Веса”. Нейронные вычисления. 29 (3): 578-602.
Скутари, Г., Ф. Факкиней, Л. Лампариелло и П. Сонг. 2014.
“Распределенные методы для ограниченной невыпуклой мультиагентной оптимизации -
часть I: теория”. Препринт arXiv arXiv: 1410.4754.
Скутари, М., 2017. “Байесовские оценки в байесовской сети Дирихле
и принцип максимальной энтропии”. Препринт arXiv arXiv: 1708.00689.
Шахриари, Б., К. Сверски, З. Ванг, Р. П. Адамс и Н. де
Фрейтас. 2016. “Вывод человека из-под контроля: обзор байесовской оптимизации”.
 Труды IEEE. 104(1): 148–
175.
Шалев-Шварц, С. и С. Бен-Давид. 2014. Понимание
машинного обучения: от теории к алгоритмам.
Издательство Кембриджского университета.
Шеннон, К. Э., 1948. “Математическая теория
коммуникации”. Технический журнал Bell System. 27 (3): 379-423.
Сильвер, Д. 2015. Курс по обучению с подкреплением. url: http://www0.cs.ucl.References
[136]
[137]
[138]
[139]
[140]
[141]
[142]
[143]
[144]
[145]
[146]
[147]
[148]
229
Смит, С. Л., П.-Дж. Киндерманс и К. В. Ле. 2017. “ Не надо
Снизьте скорость обучения, увеличьте размер пакета”. Электронные
распечатки в формате arXiv. Ноябрь. arXiv: 1711.00489 [cs.LG].
Спектрум, И. Будет ли будущее обучения ИИ больше зависеть от
Природы или воспитания? url: <url> https://spectrum.ieee.org/tech-talk/robotics/artifi
Спектрум И. Будет ли будущее обучения ИИ в большей степени зависеть от
Природы или воспитания? url: https://spectrum.ieee.org/tech-talk/robotics/artifi
Стиглер С. М. 2016. Семь столпов статистической мудрости. Издательство
Гарвардского университета.
Субраманьям, С., Т. Палпанас, Д. Пападопулос, В. Калогер-
аки и Д. Гунопулос. 2006. “Оперативное обнаружение выбросов в
данных датчиков с использованием непараметрических моделей”. В: Материалы
32-й международной конференции по сверхбольшим базам данных. VLDB
Дарование. 187–198.
Сугияма, М., Т. Сузуки и Т. Канамори. 2012. Соотношение плотностей
оценка в машинном обучении. Издательство Кембриджского университета.
Сан, Ю., П. Бабу и Д. П. Паломар. 2017. “Алгоритмы мажоризации-минимизации
в обработке сигналов, коммуникациях и машинном
обучении”. Транзакции IEEE по обработке сигналов. 65(3): 794–
816.
Тегмарк, М., 2017. Жизнь 3.0: быть человеком в век
искусственного интеллекта. Аллен Лейн.
Трун, С. 1996. “Легче ли выучить n-ю вещь, чем
первую?” В книге "Достижения в области нейронных
систем обработки информации". 640–646.
Times, Нью-Йорк, 1958. НОВОЕ ВОЕННО-МОРСКОЕ УСТРОЙСТВО УЧИТСЯ НА ПРАКТИКЕ-
ING; Психолог показывает эмбрион компьютера, предназначенного для чтения
и роста мудрости. url: http://www.nytimes.com/1958/07/08/archives/new-
Тишби, Н., Ф. С. Перейра и В. Бялек. 2000. “Метод информационного
узкого места”. Препринт arXiv physics/0004057.
Цыбаков А. Б., 2009. “Введение в непараметрические
оценки”.
Тернер, Р. Э. и М. Сахани. 2011. “Две проблемы с максимизацией
математического ожидания для моделей временных рядов”. Байесовские
Модели временных рядов: 115-138.
Убер. Поджигатель: Глубокое универсальное вероятностное программирование. url: http://pyro.ai/.230
[149]
[150]
[151]
[152]
[153]
[154]
[155]
[156]
[157]
[158]
[159]
Рекомендации
Венкатешвара, Х., С. Чакраборти и С. Панчанатан. 2017.
“Системы глубокого обучения для адаптации предметной области в компьютерных
Концепция: изучение переносимых представлений функций”. IEEE
Журнал по обработке сигналов. 34(6): 117-129. issn: 1053-5888.
doi: 10.1109/MSP.2017.2740460.
Винсент, П., Х. Ларошель, И. Лажуа, Ю. Бенжио и П.-А. Ман-
загол. 2010. “Автоэнкодеры со встроенным шумоподавлением: изучение полезных
представлений в глубокой сети с использованием локального критерия
шумоподавления”. Журнал исследований в области машинного обучения. 11 (декабрь): 3371–
3408.
Уэйнрайт, Эм Джей и М. И. Джордан. 2008. “Графические
модели, экспоненциальные семейства и вариационный вывод”. Основы
и тенденции машинного обучения. 1(1–2): 1–305.
Уотт, Дж., Р. Борхани и А. Кацаггелос. 2016.
Усовершенствованное машинное обучение: основы, алгоритмы и приложения.
Издательство Кембриджского университета.
Уэллинг, М., М. Розен-Цви и Г. Э. Хинтон. 2005. “
Экспоненциальные семейные фисгармонии с возможностью обновления
информации”. В кн.: Достижения в области нейронных систем обработки информации.
1481–1488.
Википедия. Ай Винтер. url: https://en.wikipedia.org/wiki/AI_winter.
Википедия. Сопряженные априорные значения. url: https://en.wikipedia.org/wiki/Conjugate
Википедия. Экспоненциальное семейство. url: https://en.wikipedia.org/wiki/Exponen
Уилсон, А. С., Р. Рулофс, М. Стерн, Н. Сребро и Б. Рехт.
2017. “Предельная ценность адаптивных градиентных методов в
Машинное обучение”. Препринт arXiv arXiv: 1705.08292.
Уиттен, И. Х., Э. Фрэнк, М. А. Холл и К. Дж. Пал, 2016. Данные
Майнинг: практические инструменты и методы машинного обучения.
Морган Кауфманн.
Чжан, К., Дж. Бутпэйдж, Х. Челлстром и С. Мандт. 2017.
“Достижения в области вариационного вывода”. Электронные копии в формате arXiv. Ноябрь. arXiv:Список литературы
[160]
231
Чжан, Ю., Дж. Дучи, М. И. Джордан и М. Дж. Уэйнрайт. 2013.
“Нижние границы теории информации для распределенной статистической
оценки с учетом коммуникационных ограничений”. В: Достижения в области
Нейронные системы обработки информации. 2328-2336.
[161] Чжао, Х. и А. Х. Сайед. 2015. “Асинхронная адаптация и
обучение в сетях — Часть I: Моделирование и анализ стабильности”.
Транзакции IEEE по обработке сигналов. 63(4): 811-826.


Рецензии