17-19Байесовские рассуждения смыслы и машинное обу
Линейные модели
17.1 Введение: Подгонка по прямой линии
Учитывая обучающие данные {(xn , yn ) , n = 1, . . . , N }, для скалярного ввода xn и скалярного вывода yn, линейная регрессия соответствует
y (x) = a + bx (17.1.1)
Чтобы определить наилучшие параметры a, b, мы используем меру расхождения между наблюдаемыми результатами и результатами линейной регрессии, такую как ошибка обучения в квадрате суммы. Это также называется обычным методом наименьших квадратов и минимизирует среднюю вертикальную проекцию точек y на подобранную линию:
Наша задача - найти параметры a и b, которые минимизируют E(a, b). Дифференцируя относительно a и b, получим
Разделив на N и приравняв к нулю, получим оптимальные параметры из решения двух линейных уравнений
, где мы использовали обозначение <f (x, y)> для обозначения 1/ N;n=1N f (x , y). Мы можем легко решить уравнения(17.1.4), чтобы определить a и b:
Следовательно
и a определяется путем подстановки этого значения вместо b в уравнение (17.1.5).
В отличие от обычной регрессии методом наименьших квадратов, PCA из главы (15) минимизирует ортогональную проекцию y на прямую и называется ортогональным методом наименьших квадратов – см. пример(76).
311 Линейные модели параметров для регрессии
чириканья в секунду
температура (F)
Рисунок 17.1: Данные о сверчках – количество стрекотаний в секунду в зависимости от температуры в градусах Фаренгейта.
Пример 76. Рассмотрим данные на рис. 17.1, на котором мы показываем зависимость количества стрекотаний сверчков c в секунду от температуры t в градусах по Фаренгейту. Биолог считает, что существует простая зависимость между количеством чириканья и температурой формы
c = a + bt (17.1.8)
где ей нужно определить параметры a и b. Для данных по крикету соответствие показано на рисунке (17.2a). Для сравнения мы построим график соответствия из PCA, рис.17.2, б, который минимизирует сумму квадратов ортогональных проекции данных на прямую. В этом случае численная разница между двумя подходами невелика.
17.2 Модели с Линейными Параметрами для Регрессии
Мы можем обобщить идею подгонки прямых линий к линейным функциям векторных входных данных. Для набора данных {(xn , yn ) , n = 1, . . . , N } модель линейной параметрической регрессии (LPM) определяется как1
где ;(x) является векторнозначной функцией входного вектора x. Например, в случае прямой
подгонки со скалярными входными и выходными данными, раздел (17.1), мы имеем
Мы определяем ошибку последовательности как сумму квадратов различий между наблюдаемыми результатами и прогнозами в рамках линейной модели:
, где
Теперь мы хотим определить вектор параметров w, который минимизирует значение E(w). Запишем ошибку в виде составляющих w,
Дифференцируя относительно wk и приравнивая к нулю , получаем
или, в матричной записи,
1Обратите внимание, что модель линейна по параметру w, но не обязательно линейна по x.
ЧЕРНОВИК от 9 марта 2010 г. 312 Модели с линейными параметрами для регрессии
чириканье в секунду
, чириканье в секунду
температура (F)
температура (F)
Рисунок 17.2: (a): Соответствие прямой линии регрессии данным по крикету. (b): Соответствие PCA данным. В регрессии мы минимизируем остаточные значения \резидуалс – расстояния по вертикали от точек данных до линии. В PCA подгонка минимизирует ортогональные проекции на линию. В этом случае разница в подогнанных линиях невелика. Оба уравнения основаны на среднем значении данных; соответствие линейной регрессии имеет наклон 0,121, а соответствие PCA имеет наклон 0,126.
Они называются нормальными уравнениями, для которых решение равно
Хотя мы записываем решение, используя матричную инверсию, на практике численное решение можно найти, используя исключение по Гауссу [117], поскольку это быстрее и более численно стабильно.
Пример 77. Кубический многочлен подходит
Кубический многочлен задается формулой
В виде LPM это может быть выражено с помощью
Обычное решение методом наименьших квадратов имеет вид, приведенный в уравнении (17.2.17). Подобранный кубический многочлен показан на рисунке(17.3). Смотрите также demoCubicPoly.m.
Пример 78 (Прогнозирование доходности \возврата). На рисунке(17.4) мы представляем пример подгонки LPM с векторными входными данными x к скалярному выходу y. Вектор x представляет факторы, которые, как считается, влияют на цену акций компании, а доходность акций определяется скаляром y. Управляющий хедж-фондом считает, что доходность может быть линейно связана с факторами:
и хочет соответствовать параметрам w, чтобы использовать модель для прогнозирования будущей доходности акций. Это просто с помощью обычных наименьших квадратов, это просто LPM с линейной функцией ;. Видеть
чириканья в секунду
Температура 80-85 градусов по Фаренгейту
Рисунок 17.3: Соответствие кубического многочлена данным по крикету.
ПРОЕКТ от 9 марта 2010 г. 313 Линейные модели параметров для регрессии
Рисунок 17.4: Прогнозирование доходности акций с использованием линейного LPM. На пяти верхних панелях представлены входные данные x1 , . . . , x5 для 20 дней движения поездов \тренировок (синие) и 5 дней тестирования (красные). На нижней панели указано соответствующее количество поездов (возврат на склад) y для каждого дня. Предсказаний y21 , . . . , y25 - это предсказания, основанные на yt = ;i wi xit, при этом w обучается с использованием обычных наименьших квадратов. С коэффициентом регуляризации 0,01wт w, полученное OLS значение w равно [1.42, 0.62, 0.27, ;0.26, 1.54]. Несмотря на простоту этих моделей, их применение в финансовой отрасли широко распространено, при этом значительные инвестиции направляются на сопоставление факторов x, которые могут указывать на будущую доходность. См. demoLPMhedge.m.
пример приведен на рис.17.4. Такие модели также являются основой для более сложных моделей в области финансов, см., например, [194].
17.2.1 Векторные выходные данные
Несложно обобщить приведенную выше структуру для векторных выходных данных y. Используя отдельный весовой вектор wi для каждого компонента выходных данных yi, мы получаем
Математика выполняется аналогично предыдущему, и мы можем определить ошибку обучения для каждого выходного сигнала следующим образом
Поскольку ошибка обучения разбивается на отдельные члены, по одному для каждого вывода, веса для каждого вывода могут быть обработаны отдельно. Другими словами, задача разбивается на набор независимых скалярных проблем\ задач\ с выводом. В случае, если параметры w связаны или распределены между выходными данными, обучение по-прежнему
остается простым, поскольку целевая функция остается линейной по параметрам, и это остается упражнением для заинтересованного читателя.
17.2.2 Регуляризация
В большинстве случаев наш интерес заключается не только в том, чтобы найти функцию, которая наилучшим образом соответствует обучающим данным, но и в том, чтобы ее можно было хорошо обобщить. Чтобы контролировать сложность подобранной функции, мы можем добавить дополнительную "регуляризирующую" функцию. (или ‘штрафной’) термин для обозначения ошибки обучения, чтобы компенсировать быстрые изменения в выходных данных. Например, регуляризация членом, который может быть добавлен к уравнению (17.2.3), является
Коэффициент [y(xn ) ; y(xn )]2 приводит к большим различиям в выходных данных, соответствующих двум входам. То коэффициент exp(;; (xn ;xn` )2) приводит к увеличению веса членов, для которых два входных вектора xn и xn` расположены близко друг к другу; ; является параметром фиксированной длины, а ; определяет общую силу регуляризующего члена.
314 ЧЕРНОВИК от 9 марта 2010 г. Модели линейных параметров для регрессии
Рисунок 17.5: Набор радиальных базисных функций фиксированной ширины (; = 1), exp(- 1/ 2 (x;m)2), с равномерно расположенными центрами mi. Используя линейную комбинацию- 0,6 0,5 На основе этих функций мы можем сформировать гибкий класс функций.
Поскольку y = wT ;(x), выражение (17.2.13) можно записать в виде
, где
Тогда упорядоченная ошибка поезда \состава, тренировки\ равна
Дифференцируя систематизированную ошибку обучения и приравнивая ее к нулю, мы находим, что оптимальное значение w равно
На практике обычно используется регуляризатор, который уменьшает суммарную квадратичную длину весов
, что соответствует установке R = ;I. Регулирующие параметры, такие как ;, ;, могут быть определены с помощью набора для проверки, раздел(13.2.3).
17.2.3 Радиальные базисные функции
Популярный LPM задается нелинейной функцией ;(x) с компонентами
Эти базисные функции имеют форму выпуклости, при этом центр выпуклости i задается через mi, а ширина - через ;. На рис. 17.5 приведен пример, на котором несколько RBF отображены с разными центрами. В LPM -регрессии мы можем затем использовать линейную комбинацию этих "неровностей,\ вмятин" для подгонки данных.
Тот же подход можно применить, используя векторные входные данные. Для вектора x и центра m радиальная базисная функция зависит от расстояния между x и центром m, что создает "выпуклость" во входном пространстве, рис.17.8.
Пример 79 (настройка ;). Рассмотрим возможность равномерной подгонки данных на рис. 17.6 с использованием 16 радиальных базисных функций распределенный по входному пространству, с параметром ширины ; и регуляризующим членом ;wТw. Эффективность обобщения тестовых данных в значительной степени зависит от ширины и регуляризующего параметра ;. Чтобы найти приемлемые значения для этих параметров, мы можем использовать набор для проверки. Для простоты мы устанавливаем параметр регуляризации равным ; = 0,0001 и используем набор проверки для определения подходящего значения ;. На рис.17.7 мы показываем зависимость ошибки проверки от ;. Основываясь на этом графике, мы можем найти наилучшее значение ;, которое минимизирует ошибку проверки. Прогнозы также приведены на рис.17.6.
ПРОЕКТ от 9 марта 2010 г. 315двойное представление и ядра
Рисунок 17.6: Символы ; - это точки обучения, а + - точки проверки. Сплошная линия - это правильная базовая функция sin(10x), которая искажена небольшим количеством дополнительного шума для формирования данных о поездах \тренировках. Пунктирная линия - это наилучший предсказатель, основанный на наборе проверки.
Проклятие размерности
Если данные имеют нетривиальное поведение в некоторой области в x, то нам нужно охватить область пространства x довольно много функций типа "выпуклости". В приведенном выше примере мы использовали 16 базисных функций для этого одномерного пространства. Если мы хотим охватить каждое измерение с одинаковым уровнем дискретизации в двух измерениях, нам потребуется 162 = 256 базисных функций. Аналогично, для 10 измерений нам потребовалось бы 1610 ; 1012 функций. Для соответствия такому LPM потребовалось бы решить линейную систему с более чем 1012 переменными. Этот резкий рост числа базисных функций с размерностью ввода является "проклятием размерности’.
Возможное решение состоит в том, чтобы сделать базовые функции очень широкими, чтобы каждая из них охватывала большую часть пространства больших размеров. Однако это будет означать отсутствие гибкости встроенной функции, поскольку она должна быть гладкой. Другой подход заключается в размещении базисных функций в центре точек входных данных для обучения и добавлении еще нескольких базисных функций, случайно расположенных рядом с входными данными для обучения. Рациональность этого заключается в том, что, когда мы приступим к прогнозированию, мы, скорее всего, увидим новые x, которые находятся близко к точкам обучения – мы делаем не нужно делать "точные" прогнозы по всему пространству. Другой подход заключается в том, чтобы сделать позиции базовых функций адаптивными, позволяя перемещать их в пространстве, чтобы минимизировать ошибку. Этот подход мотивирует модели нейронных сетей[41]. Альтернативой является повторное выражение проблемы подбора LPM путем повторной настройки параметров, как описано ниже.
17.3 Двойственное Представление и Ядра
Рассмотрим набор обучающих данных с входными данными X = {xn , n = 1, . . . , N } и соответствующими выходными данными yn , n =1, . . . , N . Для LPM вида
наш интерес состоит в том, чтобы найти "наилучшие подходящие" параметры w. Мы предполагаем, что нашли оптимальный параметр w; . Нулевым пространством X являются те x; , которые ортогональны всем входным данным в X . То есть,
для всех n. Если мы затем рассмотрим вектор w; с дополнительной составляющей в направлении, ортогональном пространству, охватываемому X ,
ошибка проверки
Рисунок 17.7: Зависимость ошибки валидации от ширины базовой функции для данных валидации на рисунке(17.6) и RBFS на рисунке(17.5). Исходя из ошибки валидации, оптимальная настройка параметра ширины базовой функции равна ; = 0,25.
316 ПРОЕКТ от 9 марта 2010 г. Двойное представление и ядра
Рисунок 17.8: (a): Результат RBF функции exp(; 1/2 (x ; m1)2 /;2 ). Здесь m1 = (0, 0,3)T и ; = 0,25. (b): Суммарный выходной сигнал для двух RBF с m1, как указано выше, и m2 = (0,5, -0,5)T .
Это означает, что добавление вклада в w; за пределами пространства, охватываемого X, никак не влияет на предсказания на основе данных о поездах. Если критерий обучения зависит только от того, насколько хорошо LPM предсказывает данные о поездах, то, следовательно, нет необходимости учитывать влияние на w факторов, не относящихся к X. То есть, без потери общности, мы можем рассмотреть представление
Параметры a = (a1 , ... , aN ) называются двойственными параметрами. Затем мы можем записать выходные данные LPM непосредственно в терминах двойственных параметров,
В более общем плане, для векторной функции ; (x) решение будет лежать в пространстве, охватываемом ;(x1), . . . , ;(xN ),
, и мы можем записать
, где мы определили функцию ядра
В матричной форме выходные данные LPM на обучающем входе x тогда равны
где kn - n-й столбец матрицы Грама K.
17.3.1 Регрессия в двойственном пространстве
Для обычной регрессии методом наименьших квадратов, используя уравнение (17.3.9), мы получаем ошибку поезда \тренировки
Уравнение (17.3.10) аналогично стандартному уравнению регрессии (17.2.3) при замене a на w и kn на ;(xn). Аналогично, термин регуляризации может быть выражен как
ПРОЕКТ от 9 марта 2010 г. 317 Двойное представление и ядра
Таким образом, по прямой аналогии оптимальным решением для a является
Мы можем более удобно выразить приведенное выше решение, записав сначала
Поскольку kn ; это n-й столбец из K, то K-1 kn - это n-й столбец единичной матрицы. Немного
подумав, мы можем переписать уравнение (17.3.13) более просто в виде
где y - вектор с компонентами, сформированными из обучающих входных данных y 1 , . . . , yN .
Используя это, прогноз для нового входного сигнала x; определяется как
где вектор k; имеет компоненты
Это двойственное пространственное решение показывает, что предсказания могут быть выражены исключительно в терминах ядра K (x, x` ). Это означает, что мы можем обойтись без определения векторных функций ;(x) и непосредственно определить функцию ядра. Этот подход также используется в гауссовских процессах, глава (19), и позволяет нам эффективно использовать очень большие (даже бесконечные) размерные векторы ; без необходимости их вычисления в явном виде. Обратите внимание, что Матрица Грама K имеет размерность N ; N, что означает, что вычислительная сложность выполнения инверсии матрицы в уравнении (17.3.16) равна O( N 3) . Для средних и больших значений N (более 5000) это приведет к быть непомерно дорогим, и требуются численные аппроксимации. Это в отличие от вычислительной сложности решения нормальных уравнений с точки зрения исходного весового пространства равна O( dim (;)3 ).
В какой–то степени двойная параметризация помогает нам справиться с проклятием размерности, поскольку сложность обучения при двойной параметризации кубически зависит от количества точек обучения, а не от кубической размерности вектора ;.
17.3.2 Положительно определенные ядра (ковариационные функции)
Ядро K (x, x` ) в (17.3.8) было определено как скалярное произведение двух векторов ;(x) и ;(x` ). Для любого набора точек x1 , . . . , xM результирующая матрица
положительно полуопределено, поскольку для любого z
Вместо задания многомерных векторов ;(x) мы можем задать функцию K(x, x`), которая выдает положительно определенную матрицу K для любых входных данных x, x`. Такая функция называется ковариационной функцией, или положительное ядро. Например, популярным вариантом является
При ; = 2 это обычно называется квадратичным экспоненциальным ядром. Для ; = 1 это называется ядром Орнштейна-Уленбека. Более подробно ковариационные функции рассматриваются в разделе (19.3).
318 ПРОЕКТ от 9 марта 2010 г. Модели линейных параметров для классификации
Рисунок 17.9: Логистическая сигмовидная функция ;; (x) = 1/(1+e;;x). Параметр ; определяет крутизну сигмоида. То сплошная (синяя) линия обозначает ; = 1, а пунктирная (красная) - ; = 10. При ; ; ; логистическая сигмоида стремится к функции шага Хевисайда. Пунктирная кривая (пурпурная) - это функция ошибки (probit). 0,5 (1 + erf(;x)) для ; = ;;/4, что близко соответствует стандартной логистической сигмоиде с ; = 1.
17.4 Модели Линейных Параметров для Классификации
В задаче бинарной классификации нам даны некоторые обучающие данные, D = {(xn , cn ), n = 1 . . . , N }, где целевые значения c ; {0, 1}. Вдохновленные регрессионной моделью LPM, мы можем определить вероятность того, что новый входной сигнал x относится к классу 1, используя
где 0 ; f (x) ; 1. В литературе по статистике f (x) называется функцией среднего значения, а обратная функция f -1 (x) – функцией связи \связки.
Двумя популярными вариантами для функции f (x) являются функции и функции пробита. Логит определяется как
который также называется логистической сигмоидой и записывается как ;(x), рис.17.9. Масштабированная версия определяется как
;; (x) = ;(;x) (17.4.3)
Тесно связанной моделью является пробит-регрессия, которая использует вместо логистической сигмоиды функцию ошибки, кумулятивное распределение стандартного нормального распределения
Это также может быть записано в терминах стандартной функции ошибки,
Форма пробит-функции и логистической функции при масштабировании аналогична, см. рис. 17.9. Ниже мы сосредоточимся на логит-функции. Аналогичные выводы простым образом применимы к любой монотонной функции среднего значения.
17.4.1 Логистическая регрессия
Логистическая регрессия соответствует модели
где b - скаляр, а w - вектор. С увеличением аргумента b + xT w сигмовидной функции вероятность принадлежности x к классу 1 возрастает.
Граница принятия решения
Граница принятия решения определяется как множество x, для которого p(c = 1|x) = p(c = 0|x) = 0,5. Это задается гиперплоскостью
ЧЕРНОВИК от 9 марта 2010 г. 319 Линейные модели параметров для классификации
Рисунок 17.10: Граница принятия решения p(c = 1|x) = 0,5 (сплошная линия). Для двумерных данных границей принятия решения является прямая. Если все обучающие данные для класса 1 (заполненные круги) лежат на одной стороне линии, а для класса 0 (открытые круги), с другой стороны, данные считаются линейно разделяемыми.
На той стороне гиперплоскости, для которой b + xTw > 0, входные данные x классифицируются как 1, а на другой стороне - как 0. Параметр "смещение" b просто сдвигает границу принятия решения на постоянную величину. Ориентация границы решения определяется нормалью w к гиперплоскости, см. рис. 17.10.
Чтобы пояснить геометрическую интерпретацию, пусть x - точка на границе решения и рассмотрим новую точку x; = x + w; , где w; - вектор, перпендикулярный w, так что wT w; = 0. Затем
Таким образом, если x находится на границе принятия решения, то и x плюс любой вектор, перпендикулярный w. В измерениях D пространство векторов, перпендикулярных w, занимает гиперплоскость размером D ; 1. Например, если данные двумерные, границей принятия решения является одномерная гиперплоскость, линия, как показано на рис. 17.10.
Линейная разделимость и линейная независимость
Определение 90 (Линейная разделимость). Если все обучающие данные для класса 1 лежат на одной стороне гиперплоскости, а для класса 0 - на другой, то считается, что данные являются линейно разделяемыми.
Для D-мерных данных, при условии, что существует не более D обучающих точек, они линейно разделены при условии, что они линейно независимы. Чтобы убедиться в этом, пусть cn = +1, если xn относится к классу 1, и cn = -1 , если xn относится к классу 0. Чтобы данные были линейно разделены, нам требуется
где ; - сколь угодно малая положительная константа. В приведенных выше уравнениях указано, что каждый вход является правильной стороной границы принятия решения. Если имеется N = D точек данных, это можно записать в матричной форме как
где X - квадратная матрица, n-й столбец которой содержит xn . При условии, что X обратимо, решение равно
Смещение b может быть задано произвольно. Это показывает, что при условии, что xn линейно независимы, мы всегда можем найти гиперплоскость, которая линейно разделяет данные. При условии, что данные не являются коллинеарными (все они занимают область то же подпространство размером D ; 1) смещение может быть использовано для улучшения этого, чтобы обеспечить линейное разделение точек с произвольной маркировкой D + 1 в D измерениях.
Набор данных, который не является линейно разделяемым, представлен следующими четырьмя точками обучения и метками классов
{([0, 0], 0), ([0, 1], 1), ([1, 0], 1), ([1, 1], 0)}
320 ПРОЕКТ от 9 марта 2010 г. Модели линейных параметров для классификации
Рисунок 17.11: Задача Исключающего-ИЛИ. Это не поддается линейному разделению.
Эти данные представляют функцию исключения и представлены на рисунке (17.11). Эта функция не является линейно разделяемой поскольку ни одна прямая линия не содержит все входные данные из одного класса с одной стороны и из другого класса с другой.
Классификация данных, которые нельзя разделить линейным способом, может быть выполнена только с использованием нелинейной границы принятия решения. Возможно, данные являются нелинейно разделяемыми в исходном пространстве данных. Однако, отображая на более высокую размерность с помощью нелинейной векторной функции, мы генерируем набор нелинейно зависимых многомерных векторов, которые затем могут быть разделены с помощью многомерной гиперплоскости. Мы обсудим это в разделе (17.5).
Персептрон
Персептрон относит x к классу 1, если b + wT x ; 0, и к классу 0 в противном случае. То есть
где пошаговая функция определяется как
Если мы рассмотрим модель логистической регрессии
и возьмем предел ; ; ;, получим классификатор, подобный персептрону
Единственное различие между этим "вероятностным персептроном" и стандартным персептроном заключается в техническом определении значения ступенчатой функции, равного 0. Таким образом, персептрон, по сути, можно рассматривать как предельный случай логистической регрессии.
17.4.2 Тренировка с максимальным правдоподобием
Учитывая набор данных D, как мы можем узнать веса, чтобы получить хорошую классификацию? Вероятностно, если мы предположим, что каждая точка данных была получена независимо от того же распределения, которое генерирует данные (стандартное допущение i.i.d.), то вероятность наблюдаемых данных равна (явно записывая условная зависимость от параметров b, w)
где мы использовали тот факт, что cn ; {0, 1}. Для этой дискриминантной модели мы не моделируем распределение входных данных p(x), чтобы мы могли эквивалентно учитывать логарифмическую вероятность переменных выходного класса, зависящих от входных данных обучения: для логистической регрессии это дает
ЧЕРНОВИК от 9 марта 2010 г. 321 Линейные модели параметров для классификации
Градиентный подъем
Не существует замкнутого решения для максимизации L(w, b), которое необходимо выполнять численно. Одним из простейших методов является градиентный подъем, для которого градиент задается как
Здесь мы использовали производное соотношение
для логистической сигмоиды. Производная по смещению равна
В этом случае процедура подъема по градиенту соответствует обновлению весовых коэффициентов и смещения с использованием
где ;, скорость обучения - это скаляр, выбранный достаточно малым для обеспечения сходимости. Применение приведенного выше правила приведет к постепенному увеличению логарифмической вероятности.
Пакетное обучение
Запись обновлений (17.4.22) явно дает
Это называется пакетным обновлением, поскольку параметры w и b обновляются только после прохождения всего пакета обучающих данных. Эта пакетная версия "сходится" во всех случаях, так как поверхность ошибки является плоской сформированный (см. ниже). Однако для линейно разделяемых данных оптимальной настройкой является бесконечно большое значение весов, поскольку в этом случае логистические сигмоиды будут насыщаться до 1 или 0 (см. ниже). Поэтому для остановки процедуры оптимизации требуется критерий остановки, основанный либо на минимальных изменениях логарифмической вероятности, либо на параметрах. Для нелинейно разделяемых данных вероятность имеет максимум при конечном значении w, поэтому алгоритм сходится. Однако прогнозы будут менее точными, что отражается в широком доверительном интервале – см. рис.17.12.
При групповом обучении критерием нулевого градиента является
В случае, когда входные данные xn , n = 1, . . . , N линейно независимы, у нас сразу возникает требование, что для нулевого градиента cn = ; (wT xn + b ), что означает, что веса должны стремиться к бесконечности, чтобы это условие выполнялось.
Для линейно разделяемых данных мы также можем показать, что веса должны становиться бесконечными при сходимости. Используя скалярное произведение уравнения (17.4.24) на w, мы получаем требование нулевого градиента
где ; n ; ; (wT xn + b) . Для простоты предположим, что b = 0. Для линейно разделяемых данных мы имеем
322 ПРОЕКТ от 9 марта 2010 г. Модели линейных параметров для классификации
Рисунок 17.12: Граница принятия решения p(c = 1|x) = 0,5 (сплошная линия) и доверительные границы p(c =1|x) = 0,9 и p(c = 1|x) = 0,1 и 10000 итераций последовательного подъема по градиенту с ; = 0,1. (a): Линейно разделяемые данные. (b): Нелинейно разделенные- точные данные. Обратите внимание, насколько широким остается доверительный интервал, см. demoLogReg.m.
Затем, используя тот факт, что 0 ; ;n ; 1, мы получаем
Каждый член (cn ; ;n ) wT xn неотрицателен, и условие нулевого градиента требует, чтобы сумма этих членов была равна нулю. Это может произойти только в том случае, если все слагаемые равны нулю, что означает, что cn = ;n, что требует насыщения сигмовидной кишки, для чего веса должны быть бесконечными.
Онлайн-обучение
На практике принято обновлять параметры после рассмотрения каждого обучающего примера:
Преимущество онлайн-обучения заключается в том, что нет необходимости сохранять набор данных, поскольку требуется только производительность при текущем вводе данных. При условии, что данные линейно разделены, описанная выше онлайн-процедура сходится (при условии, что ; не слишком велико). Однако, если данные не являются линейно разделяемыми, онлайн-версия не будет сходиться, поскольку метки противоположных классов будут постоянно смещать значения в одну сторону, а затем в другую, поскольку каждый конфликтующий пример используется для формирования обновления. Для предельного случая персептрона (заменяя ;(x) на ;(x)) и линейно разделяемых данных, оперативное обновление сходится за конечное число шагов[212, 41], но не сходится для нелинейно разделяемых данных.
Геометрия поверхности ошибки
Гессиан логарифмического правдоподобия L(w) представляет собой матрицу с элементами 2
Это отрицательно (полуопределенно), поскольку для любого z
Это означает, что поверхность ошибки является вогнутой (перевернутая чаша), и градиентный подъем гарантированно приведет к оптимальному решению при условии, что скорость обучения ; достаточно мала.
Пример 80 (Классификация Написанных от руки Цифр). Мы применяем логистическую регрессию к 600 написанным от руки цифрам из примера (67), в котором в данных о поезде содержится 300 единиц и 300 семерок. Используя градиентный подъем при обучении с использованием надлежащим образом выбранного критерия остановки количество ошибок, допущенных в 600 тестовых точках, составляет 12, по сравнению с 14 ошибками, допущенными при использовании методов Ближайшего Соседа. Наглядное представление об
усвоенном w приведено на рис. 17.13.
2Для простоты мы игнорируем смещение b. С этим можно легко справиться, расширив x до вектора x измерения D + 1 с 1 в компоненте D + 1. Тогда для D + 1 -мерного ;w = (w, wD+1 ) мы имеем ;wT x = wT x + wD+1 .
ЧЕРНОВИК от 9 марта 2010 г. 323 Трюк ядра с классификацией
Рисунок 17.13: Логистическая регрессия для классификации написанных от руки цифр 1 и 7.
Показана диаграмма Хинтона для 784 изученных весовых векторов w, построенная в виде изображения размером 28 ; 28 для визуальной интерпретации. Зеленый цвет является положительным, и входные данные x с (положительным) значением в этом компоненте будут иметь тенденцию к увеличению вероятности того, что входные данные будут классифицированы как 7. Аналогично, входные данные с положительным вкладом в красных областях имеют тенденцию к увеличению вероятности того, что они будут классифицированы как 1 цифра. Обратите внимание, что элементы каждого входного значения x являются либо положительными, либо нулевыми.
17.4.3 За пределами подъема по градиенту первого порядка
Поскольку поверхность имеет единственный оптимум, Ньютоновское обновление
где H - матрица Гесса, как указано выше, и 0 < ; < 1, обычно сходятся намного быстрее, чем при подъеме по градиенту. Для крупномасштабных задач инверсия Гессиана требует больших вычислительных затрат, и BFG с ограниченной памятью или методы сопряженного градиента могут рассматриваться как более практичные альтернативы, см. раздел (A.5).
17.4.4 Избегание излишне самоуверенной классификации
При условии, что данные линейно разделены, весовые коэффициенты будут продолжать увеличиваться, и классификации станут экстремальными. Это нежелательно, поскольку классификации будут слишком точными. Этого можно избежать путем добавления штрафного члена к целевой функции
Скалярная константа ; > 0 способствует уменьшению значения w (помните, что мы хотим максимизировать логарифмическую вероятность). Подходящее значение для ; можно определить, используя данные проверки.
17.4.5 Несколько классов
Для более чем двух классов можно использовать функцию softmax
где C - количество классов. Когда C = 2, это сводится к логистической сигмоиде. Можно показать, что вероятность для этого случая также является вогнутой, см. упражнение(176) и [297].
17.5 Основной \Ядерный принцип классификации
Недостатком логистической регрессии, описанной выше, является простота поверхности принятия решений – гиперплоскости. Один из способов распространить метод на более сложные нелинейные границы принятия решений — рассмотреть возможность нелинейного преобразования входных данных x в ;(x):
Например, одномерный входной сигнал x может быть преобразован в двумерный вектор (x2 , sin(x)). Отображение в пространство более высокой размерности облегчает поиск разделяющей гиперплоскости, поскольку любой набор точек которые линейно независимы, могут быть линейно разделены при условии, что у нас есть столько измерений, сколько точек данных.
324 ЧЕРНОВИК от 9 марта 2010 г. Поддержка векторных машин
Рисунок 17.14: Логистическая регрессия p(c = 1|x) = ;(wT ;(x)) с использованием квадратичной функции ;(x) = (1, x1 , x2 , x21 , x22 , x1 x2 )T . 1000 повторные тренировки по подъему по градиенту проводились с использованием скорости обучения ; = 0,1. На графике представлены точки данных для двух классов (красный крестик) и (синий кружок) и контуры с равной вероятностью. Границей принятия решения является контур с вероятностью 0,5. Смотрите demoLogRegNonLinear.m.
Для критерия Максимального Правдоподобия мы можем использовать точно такой же алгоритм, как и раньше, заменив x на ;(x). На рис. 17.14 приведена демонстрация с использованием квадратичной функции.
Поскольку значение имеет только скалярное произведение векторов ;, можно использовать двойственное представление, в котором мы предполагаем, что вес может быть выражен в виде
Затем мы находим решение в терминах двойственных параметров ;n . Это потенциально выгодно, поскольку точек обучения может быть меньше, чем размерностей ;. Классификатор зависит только от скалярных произведений, которые могут быть записаны в терминах положительно определенного ядра,
Для удобства мы можем записать это как
где N-мерный вектор k(x) содержит элементы [k(x)]n = K(x, xn). Тогда приведенное выше описание имеет точно такую же форму, как и исходная спецификация логистической регрессии, а именно как функция линейной комбинации векторов. Следовательно, для максимизации вероятности можно использовать тот же алгоритм обучения, просто заменив xn на k(xn ). Подробности оставлены на усмотрение заинтересованного читателя, и внимательно следите за рассмотрением гауссовских процессов для классификации, раздел (19.5).
17.6 Вычисление Опорных Векторов \ Поддержка Векторных Машин, Машины Вектора Поддержки
Как и логистическая регрессия ядра, SVM - это разновидность линейного классификатора ядра. Однако SVM использует цель, которая более явно поощряет высокую производительность обобщения. SVM с трудом укладываются в вероятностные рамки, и поэтому мы описываем их здесь лишь вкратце, отсылая читателя к обилию отличной литературы по этой теме3. Приведенное здесь описание в значительной степени основано на [71].
17.6.1 Линейный классификатор с максимальным запасом
В литературе по SVM принято использовать +1 и -1 для обозначения двух классов. Для гиперплоскости, определенной по весу w и смещению b линейный дискриминант определяется как
3http://www.support-vector.net
ЧЕРНОВИК от 9 марта 2010 г. 325 Поддерживаемых векторных машин \ Машина Вектора Опоры
исходная точка w
Рисунок 17.15: SVM-классификация данных по двум классам (открытые круги и закрашенные окружности). Граница принятия решения wT x + b = 0 (сплошная линия). Для линейно разделяемых данных максимальная граница гиперплоскости равноудалена от ближайших противоположных точек класса. Эти опорные векторы выделены синим цветом, а
граница - красным. Расстояние от границы принятия решения расстояние от начала координат равно ;b/ ;(w T w), а расстояние от общей точки x до начала координат по направлению w равно xT w/ ;(wT w).
Для точки x, которая находится близко к границе принятия решения при wT x + b = 0, небольшое изменение x может привести к изменению классификации. Поэтому, чтобы сделать классификатор более надежным, мы требуем, чтобы, по крайней мере, для обучающих данных граница принятия решения была отделена от данных некоторым конечным пределом (предполагая в первую очередь, что данные линейно разделимы):
Поскольку w, b и ; 2 могут быть произвольно изменены, нам нужно зафиксировать масштаб, указанный выше, чтобы нарушить эту инвариантность. Удобно установить ; = 1, чтобы точка x + из класса + 1, ближайшая к границе принятия решения, удовлетворяла
и точка x; из класса -1, которая находится ближе всего к границе принятия решения, удовлетворяет
Согласно векторной алгебре, рис.17.15, расстояние от начала координат вдоль направления w до точки x определяется через
Таким образом, граница между гиперплоскостями для двух классов представляет собой разницу между двумя расстояниями вдоль направления w, которая является
Чтобы расстояние между двумя гиперплоскостями было максимальным, нам нужно минимизировать длину wТw. Учитывая, что для каждого xn у нас есть соответствующая метка yn ; {+1, -1}, чтобы правильно классифицировать обучающие метки и максимизировать запас, задача оптимизации, таким образом, эквивалентна:
при условии, что y n вес xn + b ; 1,
минимизировать вес w
Это задача квадратичного программирования. Обратите внимание, что коэффициент 0,5 используется только для удобства.
Чтобы учесть потенциально неправильно помеченные точки обучения (или данные, которые нельзя разделить линейным способом), мы ослабляем ограничение точной классификации и используем вместо этого
где ; n ; 0. Здесь каждое ; n измеряет, насколько далеко xn находится от правильной границы. При 0 < ;n < 1 точка данных xn находится на правильной стороне границы принятия решения. Однако при ;n > 1 точке данных присваивается класс, противоположный ее обучающей метке. В идеале мы хотим ограничить размер этих "нарушений" ;n . Здесь мы кратко опишем два стандартных подхода.
326 ЧЕРНОВИК от 9 марта 2010 г. Машины Вектора Поддержки
исходная точка
Рисунок 17.16: Спад Предела.\ На рисунке 17.16 показана поддержка векторных вычислений. Параметр ; n определяет, насколько далеко переменная находится от неправильной границы для своего класса. Если ; n > 1, то точка будет неправильно классифицирована, т.е. будет рассматриваться как выброс.
2-норма мягкого-предела\ поля
Цель 2-нормы мягкого-предела
- минимизировать
при условии, что yn = xn + b ; 1 ; ; n , n = 1, . . . , N (17.6.11)
где C определяет количество неправильных обозначений обучающих данных. Константа C должна быть определена эмпирически с использованием набора для проверки. Задача оптимизации, выраженная в (17.6.11), может быть сформулирована с использованием функции Лагранжа
, которое должно быть минимизировано относительно x, b, ; и максимизировано относительно ;.
Для точек xn на "правильной" стороне границы принятия решения yn (wT xn + b) ; 1 + ; n > 0 таково, что максимизировать L относительно ; требует, чтобы соответствующее значение ;n было равно нулю. Только точки обучения, которые являются опорными векторами, лежащими на границе принятия решения, будут иметь ненулевое значение ;n.
Дифференцируя Лагранжиан и приравнивая его нулю, мы получаем условия
Из этого мы видим, что решение для w задается формулой
Поскольку только опорные векторы имеют ненулевое значение ;n, решение для w обычно будет зависеть только от небольшого количества обучающих данных. Используя эти условия и возвращаясь к исходной задаче, цель эквивалентна минимизации
при условии
Если мы определим
ПРОЕКТ от 9 марта 2010 327 машины вектора поддержки
Рисунок 17.17: Обучение SVM. Сплошные красные и сплошные синие круги представляют данные обучения из разных классов. Опорные векторы выделены зеленым цветом. Для незаполненных тестовых точек класс, присвоенный им SVM, определяется цветом. Смотрите демонстрацию demoSVM.m
Задача оптимизации заключается
в максимизации
при условии, что
Оптимизация этой задачи обсуждается в разделе (17.6.3).
1-норматив \норма мягкого поля \мягкого-предела, плавной границы\ (ограничение на поле\ бокса)
В версии с 1-нормой мягкого поля используется штраф в размерности 1 нормы
для постановки задачи оптимизации:
минимизировать
при условии, что
где C - это эмпирически определенный штрафной коэффициент, который определяет количество неправильных обозначений обучающих данных. Для переформулировки задачи оптимизации мы используем функцию Лагранжа
Переменные rn вводятся для того, чтобы дать нетривиальное решение (в противном случае ;n = C). Следуя аналогичному аргументу для случая с двумя нормами, дифференцируя Лагранжиан и приравнивая его нулю, мы приходим к задаче оптимизации
максимизирующей
при условии выполнения ;
, что тесно связано с задачей о 2-х нормах, за исключением того, что теперь у нас есть прямоугольное ограничение 0 ; ;n ; C.
17.6.2 Использование ядер
Конечные задачи (17.6.19) и (17.6.17) зависят от входных данных xn только через скалярное произведение (xn )T xn. Если мы преобразуем x в векторную функцию от x, то мы можем записать
Это означает, что мы можем использовать любое положительно (полу) определенное ядро K и создать нелинейный классификатор. Смотрите раздел (19.3).
328 ДРАФТ от 9 марта 2010 года: Ноль потерь при одном поражении из-за повышенной надежности
17.6.3 Выполнение оптимизации
Обе вышеперечисленные проблемы оптимизации SVM с плавным ограничением \софт-маржин\ (17.6.19) и (17.6.17) являются квадратичными программами для которых точные вычислительные затраты равны O(N3). Хотя они могут быть решены с помощью процедур общего назначения, на практике предпочтение отдается специально разработанным процедурам, которые используют структуру задачи. Особый практический интерес представляют методы "разбиения на блоки", которые оптимизируют подмножество ;. В пределе обновления только двух компонентов ; это может быть достигнуто аналитически, что приводит к Последовательному алгоритму Минимальной Оптимизации[224], практическая производительность которого обычно составляет O(N2) или выше. Вариант этого алгоритма [92] представлен в SVMtrain.m.
Как только оптимальное решение ;; найдено, решающая функция для новой точки x равна
> 0 присвоить классу 1
< 0 присвоить классу -1
Оптимальное значение b; определяется с использованием условия максимального запаса, уравнения(17.6.5,17.6.6):
минимум w x ; максимум
17.6.4 Вероятностная интерпретация
Базовая \Ядерная логистическая регрессия обладает некоторыми характеристиками SVM, но не отражает требования к большой марже. Кроме того, использование разреженных данных в SVM аналогично использованию Машины \Механизм Вектора Релевантности, которое мы обсуждаем в разделе (18.2.4). Однако построение вероятностной модели, назначение МАР \карты которой в точности соответствует SVM, затруднено требованием нормализации распределения вероятностей. Хотя, возможно, полностью удовлетворительного прямого соответствия между SVM и соответствующей вероятностной моделью достигнуто не было, были получены приблизительные совпадения[255].
17.7 Минимальные потери при равенстве нулю и единице для повышения надежности\ Плавные Потери Значения (Информации) Нуль-Единица для Живучего Выброса
Как метод машины опорных векторов, так и логистическая регрессия потенциально могут вводить в заблуждение из-за выбросов. Для SVM, неправильно помеченная точка данных, которая находится далеко от правильной границы принятия решения, потребовала бы большого провала ;. Однако, поскольку именно такие большие ; не приветствуются, маловероятно, что SVM допустит такое решение. Для логистической регрессии вероятность получения точки с неправильной маркировкой, расположенной далеко от правильной границы принятия решения, настолько экспоненциально мала, что на практике этого никогда не произойдет. Это означает, что модель, обученная с максимальной вероятностью, никогда не предоставит такого решения. В обоих случаях таким образом, неправильно обозначенные точки (или выбросы) оказывают существенное влияние на местоположение границы принятия решения.
Надежный метод борьбы с выбросами заключается в использовании нулевого коэффициента потерь \потерю значения- информации нуль-единица\, при котором неправильно обозначенная точка приводит лишь к относительно небольшим потерям. Мягкие варианты этого можно получить, используя задачу
, которое должно быть минимизировано по отношению к w и b. При ; ; ; первое слагаемое, приведенное выше, приводит к потере значения ноль-один. Второе слагаемое представляет собой ограничение на длину w и предотвращает переобучение. Расширения ядра из-за этого потери в виде нуля и единицы очевидны.
К сожалению, задача\ фокус\ (17.7.1) сильно невыпукла, и найти оптимальные значения w, b сложно с точки зрения вычислений. Простая схема состоит в том, чтобы зафиксировать все компоненты w, кроме одного, wi, а затем выполнить численную одномерную оптимизацию по этому единственному параметру wi . На следующем шаге выбирается другой параметр wi , и процедура повторяется до достижения сходимости. Как обычно, ; можно задать с помощью проверки. Практические трудности минимизации невыпуклых целевых функций большой размерности означают, что эти подходы редко используются на практике. Обсуждение практических попыток в этой области приведено в [286].
ЧЕРНОВИК от 9 марта 2010 г. 329 Упражнения
Рисунок 17.18: Граница принятия решения о минимальных потерях (сплошная линия) в сравнении с логической регрессией (пунктирная линия). Количество неправильно классифицированных точек обучения с использованием метода минимальных потерь (нулевая единица) равно 2, по сравнению с 3 для логистической регрессии. Штрафной коэффициент ; = 0,01 был использован для "мягких" потерь при ; = 10. Для логистической регрессии штрафной коэффициент не использовался. Выбросы оказывают существенное влияние на границу принятия решения для логистической регрессии, в то время как при минимальном коэффициенте потерь ноль-один \потере методом мягкого значения нуль-единица\ они практически не учитываются и соответствуют классификатору с большим запасом между оставшимися точками. Смотрите демонстрацию demoSoftloss.m.
Иллюстрация разницы между логистической регрессией и этим методом потери записи нуль-единица приведена на рисунке (17.18), который демонстрирует, как на логистическую регрессию влияет масса точек данных, в то время как метод с нулевыми потерями пытается минимизировать количество неправильных классификаций, сохраняя при этом большой запас.
17.8 Записи \Заметки
Персептрон имеет долгую историю в области искусственного интеллекта и машинного обучения. Розенблатт рассматривал персептрон как модель обучения человека, утверждая, что его распределенный характер ("шаблоны" ввода-вывода хранятся в весовом векторе) тесно связан с типом хранения информации, который, как полагают, присутствует в биологических системах[234]. Чтобы справиться с нелинейными границами принятия решений, основное направление исследований в последующем в сообществе нейронных сетей было сосредоточено на использовании многослойных структур, в которых выходные данные персептронов используются в качестве входных данных для других персептронов, что приводит к потенциально сильно нелинейным дискриминантным функциям. Это направление исследований было в значительной степени вдохновлено аналогиями с биологической информацией обработка, в которой преобладают многослойные структуры. Такие многослойные искусственные нейронные сети завораживают и после обучения чрезвычайно быстро принимают решения. Однако надежное обучение этих систем является чрезвычайно сложной задачей, и вероятностные обобщения, при которых параметры имеют приоритетное значение, приводят к вычислительным трудностям. Хотя, возможно, менее вдохновляющий с биологической точки зрения альтернативный способ использования трюка с ядром для повышения мощности линейного классификатора имеет преимущество простоты обучения и обобщения на вероятностные варианты. Однако в последнее время наблюдается возрождение интереса к многослойным системам с новыми эвристическими методами, направленными на устранение трудностей в обучении, см., например, [135].
17.9 Код
demoCubicPoly.m: Демонстрация подбора кубического полинома
demoLogReg.m: Демонстрация логистической регрессии
LogReg.m: Тренировка подъема по градиенту логистической регрессии
demoLogRegNonLinear.m: Демонстрация логистической регрессии с нелинейным коэффициентом ;(x)
SVMtrain.m: обучение SVM с использованием алгоритма SMO
demoSVM.m: демонстрация SVM
demoSoftLoss.m: демонстрация softloss
softloss.m: функция плавного стирания softloss
17.10 Упражнения
Упражнение 174.
1. Приведите пример двумерного набора данных, для которого данные линейно разделены, но не линейно независимы.
2. Можете ли вы найти набор данных, который был бы линейно независимым, но не разделимым линейным образом?
330 ЧЕРНОВИК от 9 марта 2010 г. Упражнения
Упражнение 175. Покажите, что как для обычной, так и для ортогональной регрессии методом наименьших квадратов данные {(xn , yn ), n = 1, согласованные линии проходят через точку ;n=1 N(xn , yn )/N .
Упражнение 176. Рассмотрим функцию softmax для отнесения входного вектора x к одному из классов c = 1, . . . , C с использованием
Набор примеров входных классов представлен в виде D = {(xn , cn ), n = 1, . . . , N }.
1. Запишите логарифмическую вероятность L классов, зависящую от входных данных, предполагая, что данные являются i.i.d.
2. Вычислите Гессиан с элементами
, где w - это сложенный вектор
и покажите, что гессиан положительно полуопределен, то есть zT Hz ; 0 для любого z.
Упражнение 177. Выведите из уравнения (17.6.11) уравнение задачи двойной оптимизации (17.6.17).
Упражнение 178. Точка данных x проецируется на вектор `x меньшей размерности с использованием
где M - жировая матрица. Для набора данных xn , n = 1, . . . , N и соответствующих двоичных меток классов yn ; {0, 1}, использование логистической регрессии для прогнозируемых точек данных `xn соответствует форме ограниченной логистической регрессии в исходном пространстве с большей размерностью x. Объясните, разумно ли использовать алгоритм, такой как PCA, для уменьшения размерности данных перед использованием логистической регрессии.
Упражнение 179. Логистическая сигмовидная функция определяется как ;(x) = ex /(1+ex). Что такое обратная функция, ; -1 (x)?
Упражнение 180. Учитывая набор данных D = {(xn , cn ), n = 1, . . . , N }, где cn ; {0, 1}, логистическая регрессия использует модель p(c = 1|x) = ;(wT x + b). Предполагая, что данные получены независимо и идентично, покажите, что производная логарифмической вероятности L по отношению к w равна
Упражнение 181. Рассмотрим набор данных D = {(xn , cn ), n = 1, ... , N }, где cn ; {0, 1}, а x - вектор измерения D.
1. Покажите, что если обучающие данные линейно разделены гиперплоскостью wT x + b, то данные также являются разделимы с помощью гиперплоскости ~wT x + b, где ~w= ;w, ~b = ;b для любого скалярного параметра ; > 0.
2. Какое значение имеет приведенный выше результат для обучения с максимальным правдоподобием линейно разделяемых данных?
Упражнение 182. Рассмотрим набор данных D = {(xn , cn ), n = 1, . . . , N }, где cn ; {0, 1}, а x - это N- мерный вектор. (Следовательно, у нас есть N точек данных в N-мерном пространстве). В тексте мы показали, что можем найти гиперплоскость (параметризованную как (w, b)), которая линейно разделяет нужные нам данные для каждой точки данных xn , wT x n + b = ;n, где ;n > 0 для cn = 1 и ;n < 0 для cn = 0. Прокомментируйте связь между тренировкой с максимальным правдоподобием и алгоритмом, предложенным выше.
ЧЕРНОВИК от 9 марта 2010 г. 331 Упражнения
Упражнение 183. Учитывая обучающие данные D = {(xn , yn ), n = 1, . . . , N }, вы решаете применить регрессионную модель y = mx + c к этим данным. Выведите выражение для m и c через D, используя критерий минимальной квадратичной ошибки.
Упражнение 184. Учитывая обучающие данные D = {(x, cn ), n = 1, . . . , N }, cn ; {0, 1}, где x - векторные входные данные, дискриминантная модель представляет собой
где g(x) = exp(-0,5x2 ). и ;(x) = ex /(1 + ex ) (это нейронная сеть[41] с одним скрытым слоем
и двумя скрытыми блоками).
1. Запишите логарифмическую вероятность для класса, обусловленную входными данными, основываясь на обычном расчетном предположении.
2. Вычислите производные логарифмического правдоподобия в зависимости от параметров сети w1, w2, b1 , b2 , v, b0
3. Прокомментируйте взаимосвязь между этой моделью и логистической регрессией.
4. Прокомментируйте границы принятия решения в этой модели.
332 ЧЕРНОВИК от 9 марта 2010 г. ГЛАВА
ГЛАВА18
Байесовские линейные модели
18.1 Регрессия с аддитивным гауссовым шумом
Линейные модели, описанные в главе (17), были обучены с учетом Максимального Правдоподобия и не учитывают проблему, заключающуюся в том, что с вероятностной точки зрения оценки параметров по своей сути являются неопределенными из-за ограниченности доступных обучающих данных. Регрессия относится к построению отображения на основе наблюдаемых данных D = {(xn , yn ), n = 1, . . . , N }, где (xn , yn ) представляет собой пару входов-выходов. Здесь мы обсуждаем случай скалярного вывода (и векторных входных данных x) с простым расширением до случая векторного вывода y. Мы предположим, что каждый (чистый) выходной сигнал генерируется из модели f (x; w), где параметры w функции f неизвестны. Выходной сигнал y генерируется путем добавления шума ; к выходному сигналу чистой модели,
Если шум распределен по Гауссу, ; ~ N( ;|0, ;2), модель генерирует выходные данные y для входных данных x с вероятностью
Если мы предположим, что каждая пара ввода-вывода данных генерируется одинаково и независимо, то вероятность того, что модель сгенерирует данные, равна
Мы можем использовать предварительное распределение веса p(w) для количественной оценки нашей априорной уверенности в пригодности каждой настройки параметра. Записав D = {Dx , Dy }, апостериорное распределение веса затем задается как
Используя допущение о Гауссовском шуме и для удобства определяя ; = 1/;2 , получаем
Обратите внимание на сходство между уравнением (18.1.5) и уравнением ошибки упорядоченного обучения (17.2.16). В рамках вероятностной структуры мы определяем выбор квадратичной ошибки суммы с допущением аддитивности Гауссовского шума. Аналогично, регуляризующий член определяется как log p(w).
333 Регрессия с аддитивным гауссовым шумом
Рисунок 18.1: Сети Убеждений представление Байесовской Модели регрессии в соответствии с предположением о распределении данных по i.i.d.. Гиперпараметр ; действует как своего рода регуляризатор, контролирующий гибкость априорных значений весов w. Гиперпараметр ; контролирует уровень шума в наблюдениях.
18.1.1 Байесовские модели линейных параметров
Модели линейных параметров, рассмотренные в главе(17), имеют вид
где параметры wi также называются "весами", а dim w = B. Такие модели имеют линейную зависимость от параметров, но могут представлять собой нелинейное отображение ввода-вывода, если базисные функции ;i (x) нелинейны по x.
Поскольку выходные данные линейно изменяются в зависимости от w, мы можем предотвратить появление экстремальных выходных значений, ограничив их большими значениями веса. Таким образом, естественный вес равен
где точность ; - это обратная дисперсия. Если ; велика, то общая квадратичная длина весового вектора w должна быть небольшой. В предположении Гауссовского шума апостериорное распределение равно
, где ; = {;, ;} представляет набор гиперпараметров. Параметры, которые определяют функции ;, также могут быть включены в набор гиперпараметров.
Используя LPM в уравнении (18.1.5) с Гауссовым априорным уравнением (18.1.7) и завершая квадратичное сечение (8.6.2), весовое апостериорное значение представляет собой Гауссово распределение,
, где ковариация и среднее значение задаются формулой
Тогда среднее значение прогноза для входных данных x определяется как
Аналогично, дисперсия базовой расчетной функции чистоты равна
Выходная дисперсия var(f (x)) зависит только от входных переменных, а не от результатов обучения y. Поскольку аддитивный шум ; не коррелирует с выходными данными модели, прогнозируемая дисперсия \варианс равна
и представляет собой дисперсию "зашумленного" выходного сигнала для входного сигнала x.
334 ЧЕРНОВИК от 9 марта 2010 г. Регрессиия с аддитивным гауссовым шумом
Рисунок 18.2: По горизонтальной оси откладываем входные данные x, а по вертикальной - выходные данные t. (а): Исходные данные обучения вводу-выводу. (b) Прогнозирование с использованием упорядоченного обучения и фиксированных гиперпараметров. (c): Прогнозирование с использованием оптимизированных гиперпараметров ML-II. Также показаны стандартные столбцы ошибок для чистой базовой функции, ;var(f (x)).
Пример 81. На рис. (18.2b) мы показываем среднее предсказание по данным на рис. (18.2а) с использованием 15 базисных функций Гаусса
с шириной ; = 0,032 и центрами ci, равномерно распределенными по одномерному входному пространству от -2 до 2. Мы вручную устанавливаем другие гиперпараметры на ; = 100 и ; = 1. Прогноз сильно искажает данные, что является результатом неправильного выбора настроек гиперпараметра. Это устраняется на рис.18.2, в) с использованием параметров ML-II , как описано ниже.
18.1.2 Определение гиперпараметров: ML-II
Апостериорное распределение гиперпараметров равно
Простое обобщение апостериорных данных дается с помощью назначения MAP, которая использует единственную "оптимальную" настройку:
Если предварительная уверенность\убеждение\ в гиперпараметрах слаба (p(;) ; const.), это эквивалентно использованию ;, которое максимизирует предельную вероятность
Такой подход к установлению гиперпараметров называется "ML-II" [33] или Процедурой Доказательства[181].
В случае Байесовских моделей с Линейными Параметрами при вычислении Гауссовского аддитивного шума уравнение предельного правдоподобия (18.1.17) включает только интегрирование по Гауссу. Прямой подход к получению выражения для предельного правдоподобия заключается в рассмотрении
ЧЕРНОВИК от 9 марта 2010 года 335 Регрессия с аддитивным гауссовым шумом
Путем сопоставления членов в w (завершение квадрата, раздел (8.6.2)), приведенное выше значение представляет собой гауссово значение в w с дополнительными коэффициентами. После интегрирования по этому Гауссову закону мы получаем
где
Смотрите упражнение(186) для получения альтернативного выражения.
Пример 82. Использование гиперпараметров ;, ;, ;, оптимизирующих выражение (18.1.19), дает результаты в рис.18.2, в), на котором мы показываем как средние значения прогнозов, так и стандартные значения ошибок прогнозирования. Это показывает, что приемлемая настройка гиперпараметров может быть получена путем максимизации предельной вероятности.
18.1.3 Изучение гиперпараметров с помощью EM
Мы можем задать гиперпараметры, такие как ; и ;, путем максимизации уравнения предельного правдоподобия (18.1.17). Удобной вычислительной процедурой для достижения этой цели является интерпретация w как скрытых переменных и применение алгоритма EM, раздел (11.2). В этом случае энергетический член равен
Согласно общей процедуре EM, нам нужно максимизировать энергетический член. Для гиперпараметра ; производная от энергии задается формулой
Для байесовского LPM с Гауссовым распределением веса и шума мы получаем
Решение для нулевых производных приводит к обновлению с M -шагом
где ;S - эмпирическая ковариация векторов базисной функции ;(xn ), n = 1, . . . , N .
Аналогично, для ;,
который, приравниваясь к нулю, дает обновленную
где S и m заданы в уравнении (18.1.10). Альтернативная процедура с фиксированной точкой, которая часто сходится быстрее, чем EM, приведена в уравнении (18.1.36). Обновления закрытой формы для других гиперпараметров, таких как ширина базовых функций, как правило, недоступны, и соответствующий энергетический член необходимо оптимизировать численно.
336 ЧЕРНОВИК от 9 марта 2010 г. Регрессии c добавлением гауссовского шума
Рисунок 18.3: Прогнозы для RBF для различной ширины ;. Для каждого ; оптимальные ;, ; для ML-II получены путем выполнения процедуры EM для сходимости и впоследствии используются для формирования прогнозов. На каждой панели точками обозначены точки обучения, где x - по горизонтали, а y - по вертикали. Показаны средние значения прогнозов, а также столбцы ошибок прогнозирования, равные одному стандартному отклонению. Согласно ML-II, наилучшая модель соответствует ; = 0,37, см. рис.18.4. Меньшие значения ; соответствуют полученным данным, что приводит к слишком "грубым" функциям. Наибольшие значения ; не соответствуют друг другу, что приводит к слишком "гладким" функциям. Смотрите demoBayesLinReg.m.
18.1.4 Оптимизация гиперпараметров: использование градиента
Гиперпараметры, такие как ;, могут быть установлены путем максимизации предельной вероятности
Чтобы найти оптимальное значение ;, мы ищем нулевую производную от log p(D|;). Из уравнения (18.2.18) мы можем использовать общее тождество производной, чтобы получить
Поскольку
логарифмировать предельную вероятность
лямбда-сигнала
Рисунок 18.4: Логарифм предельного правдоподобия p(D|;, ;; (;), ;; (;) после нахождения оптимальных значений гиперпараметров ; и ; с помощью ML-II. Эти оптимальные значения зависят от ;. Согласно ML-II, наилучшая модель соответствует ; = 0,37.
ЧЕРНОВИК от 9 марта 2010 г. 337 Регрессия с аддитивным гауссовым шумом
, мы получаем
Устанавливая производную равной нулю, оптимальное значение ; удовлетворяет
Теперь можно заново составить уравнение с фиксированной точкой
что на самом деле является повторным выводом процедуры EM для этой модели. Для Гауссовой апостериорной функции p(w| ;, D) = N (w| m, S),
Итерация с фиксированной точкой Галла-МакКея
Из уравнения (18.1.31) мы имеем
таким образом, альтернативное уравнение с фиксированной точкой[123, 180] является
На практике это обновление сходится быстрее, чем уравнение (18.1.34).
Пример 83 (Обучение ширины базисной функции). На рисунке(18.3) мы строим график обучающих данных для задачи регрессии с использованием Байесовского LPM. Используется набор из 10 Радиальных Базисных Функций,
при ci , i = 1, . . . , 10 распределяются равномерно между -2 и 2. Гиперпараметры ; и ; обучаются ML-II при обновлении EM. Затем для фиксированной ширины ; мы представляем прогнозы, каждый раз находя оптимальные значения ; и ; для этой ширины. Оптимальная совместная настройка гиперпараметров ;, ;, ; получается, как описано на рис. (18.4) , где показана предельная логарифмическая вероятность для диапазона ширин.
18.1.5 Вероятность проверки
Гиперпараметры, найденные с помощью ML-II, - это те, которые лучше всего объясняют данные обучения. В принципе, это отличается от тех, которые лучше всего подходят для прогнозирования, и поэтому на практике целесообразно устанавливать гиперпараметры также с помощью методов проверки. Одним из таких методов является установка гиперпараметров с минимальной ошибкой прогнозирования в наборе проверки. Другим распространенным методом является установка гиперпараметров ; по их вероятности в наборе проверки {Xval , Yval } ; {(xm val , ymval ), m = 1, . . . , М }:
338 ЧЕРНОВИК от 9 марта 2010 г. Регрессии с аддитивным гауссовым шумом
, из которого мы получаем (см. упражнение(187))
где yval = [yval1, . . . , yvalM]T
и расчетная матрица
Затем оптимальные гиперпараметры ;; могут быть найдены путем максимизации (18.1.39) относительно ;.
18.1.6 Предсказание
Предсказатель средней функции, основанный на гиперпараметрах ; и весовых коэффициентах w, задается формулой
Термин, заключенный в фигурные скобки, является средним предиктором для фиксированных гиперпараметров. Уравнение(18.1.42) затем взвешивает каждый предсказатель имеет среднее значение по апостериорной вероятности гиперпараметра p(;|D). Это общий рецепт комбинирования предсказаний моделей, где каждая модель взвешивается по апостериорной вероятности. Однако вычисление интеграла по заднему гиперпараметру является сложной численной задачей, и обычно требуются аппроксимации. При условии, что гиперпараметры хорошо определяются данными, мы можем вместо этого аппроксимировать вышеуказанный интеграл по гиперпараметру, найдя гиперпараметры MAP и используя
18.1.7 Векторный Aнализ Релевантности
Вычисление Векторов Значимости предполагает, что только небольшое количество компонентов вектора базисной функции имеет значение при определении решения для w. Для предиктора
часто бывает так, что некоторые базовые функции оказываются избыточными в том смысле, что линейная комбинация других базовых функций может воспроизводить результаты обучения с незначительной потерей точности. Чтобы использовать этот эффект и найти экономичное решение, мы можем использовать более совершенный подход, который позволяет каждому wi быть небольшим по размеру:
где значение для каждого отдельного веса определяется как
Необходимые изменения в описании раздела(18.1.1) заключаются в замене S на
Тогда предельная вероятность определяется как
Обновление EM для ; не изменилось, а обновление EM для каждого ;i равно
Проект от 9 марта 2010 339 Классификация
Алгоритм 18. Процедура подтверждения для байесовской логистической регрессии
1: Инициализируем значения w и ;.
2: пока они не сходятся, делаем
3:Находим оптимальное значение w;, повторяя уравнение (18.2.16), уравнение (18.2.15) до сходимости. . E-шаг
4:Обновите ; в соответствии с уравнением (18.2.9). . M-Шаг
5: завершите, пока
18.2 Классификация
Для модели логистической регрессии
метод Максимального Правдоподобия возвращает только одно оптимальное значение w. Чтобы справиться с неизбежной неопределенностью при оценке w, нам необходимо определить апостериорное распределение весовых коэффициентов w. Для этого мы сначала определяем предварительная информация о весах p(w), для которых удобным выбором является Гауссово значение:
где ; - обратная дисперсия (также называемая точностью). Для заданного набора данных меток входных классов D = {(xn , cn ) , n = 1, . . . , N } параметр постериор равен
К сожалению, это распределение не имеет какой-либо стандартной формы, и точный вывод статистических данных, таких как среднее значение или наиболее вероятное значение, формально не поддается вычислению.
18.2.1 Оптимизация гиперпараметров
Гиперпараметры, такие как ;, могут быть установлены путем максимизации предельной вероятности
Существует несколько подходов, которые можно было бы использовать для приближения к этому, и ниже мы обсудим метод Лапласа и вариационный метод. Общим для всех подходов, однако, является форма градиента, отличающаяся только статистикой при аппроксимации к апостериорной. По этой причине мы выводим первые общие формулы обновления гиперпараметров, которые применяются при всех аппроксимациях.
Чтобы найти оптимальное значение ;, мы ищем нулевую производную от log p(D|;). Это эквивалентно случаю линейной регрессии, и мы сразу получаем
Если установить производную равной нулю, то точное уравнение таково, что оптимальное значение ; удовлетворяет
Теперь можно заново составить уравнение с фиксированной точкой
340 ПРЕДВАРИТЕЛЬНЫЙ вариант от 9 марта 2010 г. Классификация
Средние значения в приведенном выше выражении не могут быть точно вычислены и заменены средними значениями с учитывайте аппроксимацию апостериорного q (w| ;, D). Обратите внимание, что, поскольку у нас есть только аппроксимация апостериорного q и, следовательно, статистика среднего значения и ковариации, мы не можем гарантировать, что вероятность всегда будет увеличиваться.
Для Гауссовой аппроксимации апостериора q (w| ;, D) = N (w |m, S)
В этом случае альтернативное уравнение Гулла-Маккея с фиксированной точкой[123, 180]
Обновления гиперпараметров (18.2.9) и (18.2.10) имеют ту же форму, что и для регрессионной модели. Однако среднее значение m и ковариация S апостериорного значения в регрессионном и классификационном случаях различаются. В случае классификации нам необходимо аппроксимировать среднее значение и ковариацию, как описано ниже.
18.2.2 Аппроксимация Лапласа
Апостериорный вес задается формулой
где
Аппроксимируя E (w) квадратичной функцией в w, мы получаем гауссово приближение q (w| D, ;) к p(w|D, ;). Для этого мы сначала находим минимум E(w). Дифференцируя, получаем
Для нахождения оптимума удобно использовать метод Ньютона. Матрица Гесса с элементами
задается формулой
Обратите внимание, что гессиан положительно полуопределен (см. упражнение (188)), так что функция E (w) выпуклая (в форме чаши), и найти минимум E (w) численно несложно. Тогда ньютоновское обновление равно
Учитывая сходящееся значение w, апостериорное приближение задается формулой
где m = w; - сходящаяся оценка минимальной точки E(w), а H - гессиан E(w) в этой точке.
ЧЕРНОВИК от 9 марта 2010 г. 341 Классификация
Приближенная оценка предельной вероятности
Предельная вероятность задается через
Для получения оптимального значения m = w; мы аппроксимируем предельную вероятность, используя (см. раздел(28.2))
Учитывая это приближение L(;) к предельной вероятности, альтернативной стратегией оптимизации гиперпараметров является оптимизация L(;) относительно ;. Непосредственно дифференцируя L(;), читатель может показать, что результирующие изменения фактически эквивалентны использованию уравнения общего состояния (18.2.6) при aппроксимации Лапласа к апостериорной статистике.
18.2.3 Составление прогнозов
В конечном счете, наш интерес заключается в классификации в новых ситуациях, усреднении с учетом неопределенности апостериорного веса
Интегралы B-размерности по w не могут быть вычислены аналитически, и требуется численная аппроксимация. В данном конкретном случае относительно мягкий характер апостериорной функции (логарифмическая задняя часть вогнута, см. ниже) позволяет предположить, что может быть достаточно простой аппроксимации по Лапласу (вариационную аппроксимацию см. в [142]). Чтобы предсказать класс для нового входного значения x, мы используем
Чтобы вычислить предсказания, нам, по-видимому, нужно вычислить интеграл в B измерениях.Однако, поскольку член ;(xTw) зависит от w через скалярное произведение xTw, нам требуется интеграл только по одномерной проекции (см. упражнение(189)).
, так что
В приближении Лапласа w является гауссовым, p (w| D, ;; ) ; N (w| m, S). Поскольку h является проекцией w, h также распределено по Гауссу
Затем предсказания могут быть сделаны путем численного вычисления одномерного интеграла по Гауссову распределению в h, уравнение (18.2.22).
Аппроксимация среднего Гауссова значения логистической сигмоиды
Предсказания в соответствии с гауссовым апостериорным приближением требуют вычисления
342 ЧЕРНОВИК от 9 марта 2010 года Классификация
Рисунок 18.5: Байесовская Логистическая Регрессия с использованием RBF exp(;;(x;m)2) , помещающий базисные функции в центр подмножества точек обучения. Зеленые точки - это данные обучения из класса 1, а красные точки - данные обучения из класса 0. Контуры обозначают вероятность попадания в класс 1. Оптимальное значение ;, найденное с помощью процедуры подтверждения, в данном случае равно 0,45 (; вручную установлено равным 2). Смотрите demoBayesLogRegression.m
где µ = xT µ, ;2 = xT ;x. Гауссова квадратура - очевидный числовой вариант[227]. Альтернативный состоит в замене логистической сигмоиды соответствующим образом преобразованной функцией erf[181], причина в том, что гауссово среднее значение функции erf является другой функцией erf. Используя один erf, приближение равно 1
Эти две функции совпадают при ;;, 0, ;. Разумным критерием является то, что производные от этих двух функций должны совпадать при x = 0, поскольку тогда они локально имеют одинаковый наклон вокруг начала координат и глобально схожую форму. Используя ;(0) = 0,5 и что производная равна ;(0)(1 ; ;(0)), для этого требуется
Более точное приближение можно найти, рассмотрев
, где ;i ui = 1. Подходящие значения для ui и vi приведены в приложении logsigapp.m, которое использует линейную комбинацию из 11 функций erf для аппроксимации логистической сигмоиды. Для вычисления приблизительного среднего значения ;(x) по гауссовым, то можно использовать полученный результат
Поскольку
у нас есть
Дальнейшая приблизительная статистика может быть получена с использованием результатов, полученных в работе [22].
1Обратите внимание, что используемое здесь определение функции erf согласуется с MATLAB, а именно, что erf(x) ; 2/;;;0 x exp(-t 2 ) dt. Другие авторы определяют его как функцию кумулятивной плотности стандартного Гауссова уравнения, 2/;;;-; x exp(-1/2 t 2 ) dt.
ЧЕРНОВИК от 9 марта 2010 г. 343 Классификация
Рисунок 18.6: Классификация с использованием RVM с коэффициентом RBF exp(;;(x;m)2), при которой базисная функция применяется к подмножеству точек обучающих данных. Зеленые точки - это тренировочные данные из класса 1, а красные точки — тренировочные данные из класса 0. Контуры обозначают вероятность попадания в класс 1. (а): Тренировочные точки. (b): Баллы за обучение взвешиваются по их значению значимости, равному 1/;n . Почти все баллы имеют настолько малое значение, что фактически равны нулю. Смотрите demoBayesLogRegRVM.m
18.2.4 Машина вектора значимости \RVM для классификации
Применяя RVM для классификации, мы рекомендуем, чтобы индивидуальные веса были небольшими
где
Единственными изменениями в предыдущей процедуре доказывания являются
Они, как и прежде, используются в формуле обновления Ньютона. Уравнение обновления EM для ; задается как
где ; = H;1 . Аналогично, обновление Галла-МакКея задается как
Выполняя эту процедуру, обычно обнаруживается, что многие значения ; стремятся к бесконечности, и соответствующие веса удаляются из системы. Остальные веса, как правило, соответствуют базисным функциям (в случае RBF) в центрах масс кластеров точек данных одного класса, см. рис.18.6. Сравните это с ситуацией в SVMs, когда сохраняемые точки данных, как правило, находятся на границах принятия решений. Количество точек обучения, сохраняемых RVM, как правило, очень мало – на самом деле меньше, чем количество, сохраняемое в рамках SVM. Хотя RVM не поддерживает большие поля и, следовательно, может быть менее надежным классификатором, он сохраняет преимущества вероятностной структуры[276]. Потенциальная критика RVM в сочетании с процедурой ML-II для обучения ;i заключается в том, что она чрезмерно агрессивна с точки зрения обрезка. Действительно, как можно убедиться, запустив demoBayesLogRegRVM.m, часто можно найти пример задачи, для которой существует такой набор ;i, что обучающие данные могут быть идеально классифицированы; однако после использования ML-II так много ;i обнуляется, что обучающие данные не могут быть классифицированы/ больше не могут быть классифицированы идеально.
344 ЧЕРНОВИК от 9 марта 2010 года Упражнения
18.2.5 Многоклассовый случай
Мы кратко отмечаем, что многоклассовый случай может быть обработан с помощью функции softmax в соответствии со схемой кодирования одного из m классов. Вероятности класса равны
который автоматически применяет ограничение ;mp(c = m) = 1. Наивно было бы предположить, что для классов C стоимость аппроксимации Лапласа равна O(C3 N3). Однако при тщательном внедрении можно показать, что затраты могут быть снижены всего до 3%, что аналогично экономии средств, возможной в модель классификации Гауссовских процессов [297, 230].
18.3 Код
demoBayesLinReg.m: Демонстрация байесовской линейной регрессии
BayesLinReg.m: Демонстрация байесовской линейной регрессии
demoBayesLogRegRVM.m: Демонстрация байесовской логистической регрессии (RVM)
BayesLogRegressionRVM.m: Байесовская логистическая регрессия (RVM)
avsigmaGauss.m: Аппроксимация среднего значения по Гауссу логистической сигмоиды
logsigapp.m: Аппроксимация логистической сигмоиды с использованием смеси erf
18.4 Упражнения
Упражнение 185. Упражнение касается байесовской регрессии.
1. Покажите, что для
и p(w) ~N (w|0, ;), что p (f |x) распределено по Гауссу. Кроме того, найдите среднее значение и ковариацию этого Гауссова.
2. Рассмотрим целевую точку t = f + ;, где ; ~ N (;| 0, ; 2). Что такое p(f |t, x)?
Упражнение 186. Байесовская модель Линейной Регрессии Параметров задается
формулой
В векторной записи y = (y 1 , . . . , y N)T это можно записать
где ;T = [;(x1 ), . . . , ; (xN ) ]и ; - Гауссовский распределенный вектор с нулевым средним значением и ковариацией ; -1 I. Выражение для предельной вероятности набора данных приведено в уравнении (18.1.19). Более компактное выражение можно получить, рассмотрев
Поскольку yn линейно связано с xn через w. Тогда y распределено по Гауссу со средним значением
и ковариационной матрицей
Для
ЧЕРНОВИК от 9 марта 2010 г. 345 Упражнения
1. Покажите, что ковариационная матрица может быть выражена в виде
2. Следовательно, покажите, что логарифмическая предельная вероятность может быть записана в виде
Упражнение 187. Используя упражнение (186) в качестве основы, выведите выражение (18.1.39) для логарифмической вероятности в наборе данных проверки.
Упражнение 188. Рассмотрим функцию E(w), определенную в уравнении (18.2.12).
1. Вычислите матрицу Гесса, которая содержит элементы,
2. Покажите, что гессиан положительно полуопределен
Упражнение 189. Покажем, что для любой функции f (·)
где p(h) - распределение скалярной величины xТw. Значимость этого результата заключается в том, что любой многомерный интеграл вышеуказанного вида может быть сведен к одномерному интегралу по распределению ‘поля’ h[22].
Упражнение 190. Это упражнение касается Байесовской Логистической Регрессии. Мы хотели вывести формулу для оптимального параметра регуляризации ;, основанную на приближении Лапласа к предельному логарифмическому правдоподобию, заданному формулой
Процедура Лапласа сначала находит оптимальное значение w;, которое минимизирует ;wT w/2; ;n log ;( wT hn) , как в уравнении (18.2.12), которое будет зависеть от значения ;. Официально, поэтому, в поиске ;, что оптимизирует L(;) мы должны пользоваться полной производной по формуле Лагранжа
Однако, при вычислении при w = w; , ;L/;w = 0. Это означает, что для вычисления производной по ; нам нужно рассматривать только члены с явной зависимостью от ;. Приравнивая производную к нулю и используя
покажите, что оптимальное значение ; заново удовлетворяет уравнению неподвижной точки
346 ЧЕРНОВИК от 9 марта 2010 года главa
Глава 19
Гауссовы процессы
19.1 Непараметрическое Прогнозирование
Гауссовские процессы - это гибкие Байесовские модели, которые хорошо вписываются в рамки вероятностного моделирования. При разработке GPS полезно сначала сделать шаг назад и посмотреть, какая информация нам нужна для формирования предиктора. Задан набор обучающих данных
где xn - входные данные для точки данных n, а yn - соответствующие выходные данные (непрерывная переменная в регрессионный случай и дискретная переменная в случае классификации), наша цель состоит в том, чтобы сделать прогноз y; для новых входных данных x;. В рамках дискриминационной структуры не предполагается никакой модели входных данных x, а моделируются только выходные данные, обусловленные входными данными. Учитывая совместную модель
впоследствии мы можем использовать обусловливание для формирования предиктора p(y ; |x; , D). В предыдущих главах мы широко использовали предположение о том, что каждая точка данных независимо выбирается из одного и того же генерирующего распределения. В данном контексте может показаться, что это наводит на предположение
однако от этого явно мало пользы, поскольку прогнозирующее условие - это просто p(y ; |D, x; ) = p(y ; |X , x; ) , которое означает, что в прогнозах не используются результаты обучения. Таким образом, для нетривиального предиктора нам необходимо указать совместное нефакторизованное распределение по результатам.
19.1.1 От параметрического к непараметрическому
Если мы вернемся к нашим исходным предположениям для параметрических моделей, мы использовали параметр ; для построения модели распределения затрат и выпуска p(y|x, ;). Для параметрической модели прогнозы формируются с использованием
В предположении, что при заданном ; данные являются i.i.d., мы получаем
, где
347параметрическое предсказание
Рисунок 19.1: (а): Параметрическая модель для прогнозирования, предполагающая ввод данных. (b): Форма модели после интегрирования параметров ;. Наша непараметрическая модель будет иметь такую структуру.
После интегрирования по параметрам ; общее распределение данных определяется как
, которые, как правило, не преобразуются в отдельные элементы данных, см. рис.19.1. Идея непараметрического подхода заключается в определении формы этих зависимостей без привязки к явным параметрическим данным модели. Один из путей к непараметрической модели - начать с параметрической модели и интегрировать параметры. Чтобы сделать это понятным, мы используем простой линейный предиктор параметров с гауссовым параметром перед ним. Для регрессии это приводит к выражениям замкнутой формы, хотя для случая классификации потребуется численная аппроксимация.
19.1.2 От Байесовских линейных моделей к Гауссовым процессам
Для разработки GP мы кратко вернемся к Байесовской модели линейных параметров из раздела(18.1.1). Для параметров w и базисных функций ;i (x) выходные данные задаются как (при условии нулевого выходного шума)
Если мы сложим все y1 , . . . , yN в вектор y, то
, где ; = [;(x1 ), . . . , ;(xN ) ]T- матрица проектирования. Предполагая, что Гауссовский вес предшествовал
и поскольку y линейно выражено в w, совместный выходной сигнал y 1 , . . . , y N распределен по Гауссу. Гауссово значение, предшествующее w, индуцирует Гауссово значение для соединения y со средним значением
и ковариацией
Из этого мы видим, что ;w может быть поглощен в ; с помощью его разложения по Холецкому. Другими словами, без потери общности мы можем предположить, что ;w = I. После интегрирования весовых коэффициентов Байесовская модель линейной регрессии индуцирует Гауссово распределение для любого набора выходных данных y как
где ковариационная матрица K зависит только от входных данных обучения с помощью
Поскольку матрица K формируется как скалярное произведение векторов, она по своей конструкции является положительно полуопределенной, как мы видели в разделе (17.3.2). После интегрирования весов остается единственное, от чего напрямую зависит модель
348
ЧЕРНОВИК от 9 марта 2010 г. Непараметрическое предсказание
на основе ковариационной матрицы K. В Гауссовом процессе мы напрямую задаем совместную выходную ковариацию K как функцию двух входных данных. В частности, нам нужно определить элемент n, n` ковариационной матрицы для любых двух входных данных xn и xn` . Это достигается с помощью ковариационной функции k(xn , xn` ).
Требуемая форма функции k(xn , xn` ) очень специфична – когда она применяется для создания элементов матрица K должна давать положительно определенную матрицу. Мы обсудим, как создавать такие ковариационные функции в разделе (19.3). Одна из явно выраженных и простых конструкций заключается в формировании ковариационной функции из скалярного произведения базисного вектора ;(xn ) и ; (xn` ). Для конечномерного ; это называется конечномерным Гауссовым процессом. Для любой ковариационной функции мы всегда можем найти соответствующее базисное векторное представление – то есть для любого GP мы всегда можем связать это с параметрическим Байесовским представлением LPM. Однако для многих широко используемых ковариационных функций базисные функции соответствуют бесконечномерным векторам. Именно в таких случаях преимущества использования GP-фреймворка особенно очевидны, поскольку мы не смогли бы эффективно выполнять вычисления с помощью соответствующей бесконечномерной параметрической модели.
19.1.3 Немного о функциях \ Приор о функциях
Природа многих приложений машинного обучения такова, что знания об истинном механизме, лежащем в основе процесса генерации данных, ограничены. Вместо этого мы полагаемся на общие предположения о "гладкости" в том виде, что для двух близких входных данных x и x` соответствующие выходные данные y и y` должны быть одинаковыми. Многие общие методы машинного обучения можно рассматривать как различные характеристики гладкости. Преимущество фреймворка GP в этом отношении заключается в том, что математическая гладкость свойства функций хорошо понятны, что придает уверенности в процедуре.
Для заданной ковариационной матрицы K уравнение (19.1.13) определяет распределение по функциям1 в следующем смысле: мы задаем набор входных точек x = (x1 , . . . , xN) и ковариационную матрицу K N ; N. Затем мы строим вектор y из гауссовой функции, определенной уравнением (19.1.13). Затем мы можем построить график выбранной "функции" в конечном наборе точек (xn , yn ), n = 1, . . . , N . Каким функциям соответствует врач общей практики? Считать два скалярных входа, xi и xj, разделенные расстоянием |xi ; xj |. Соответствующие дискретизированные выходные данные yi и yj изменяются при построении различных функций. Для ковариационной функции, которая имеет низкое значение для малого разделения |xi ; xj |, мы ожидаем, что yi и yj будут очень похожи, поскольку они сильно коррелируют. И наоборот, для ковариационной функции, которая имеет низкое значение при заданном малом разделении |xi ; xj |, мы ожидаем, что yi и yj будут эффективно независимы2. В целом, мы ожидали бы, что корреляция между yi и yj будет уменьшаться по мере удаления xi и xj друг от друга.
На рис. 19.2, а) мы показываем три выборочные функции, построенные на основе квадратичной экспоненциальной ковариационной функции, определенной в более чем 500 точках, равномерно распределенных от -2 до 3. Каждая выборочная функция выглядит достаточно гладкой. И наоборот, для ковариационной функции Орнштейна-Уленбека выбранные функции (рис.19.2, в) выглядят локально грубыми. Эти свойства гладкости связаны с формой ковариационной функции, как обсуждалось в разделе (19.4.1).
Предположение о нулевом среднем означает, что если бы мы нарисовали большое количество таких "функций", среднее значение по всем этим функциям в данной точке x стремится к нулю. Аналогично, для любых двух точек x и x`, если мы вычислим выборочную ковариацию между соответствующими y и y` для всех таких выборочных функций, это приведет к значению функции ковариации k(x, x` ). Предположение о нулевом среднем можно легко ослабить, определив функцию среднего значения m(x), чтобы получить значение p(y|x) = N (y|m, K). Во многих практических ситуациях обычно приходится иметь дело с данными, в которых такие средние тренды уже были удалены. По этой причине большая часть разработка GPs в литературе по машинному обучению относится к случаю нулевого среднего.
1 Термин "функция" потенциально сбивает с толку, поскольку у нас нет явной функциональной формы для отображения входных данных на выходе. Для любого конечного набора входных данных x1 , . . . , xN значения "функции" задаются выходными данными в этих точках y1 , . . . , yN .
2 Для периодических функций, однако, можно ожидать высокой корреляции на разделяющих расстояниях, соответствующих периоду функции.
ЧЕРНОВИК от 9 марта 2010 г. 349 Предсказание процесса Гаусса
19.2 Предсказание гауссовского процесса
Для набора данных D и новых входных данных x; GP с нулевым средним создает Гауссову модель совместных выходных данных y1 , . . . , yn , y; с учетом совместных входных данных x1 , . . . , xN , x; . Для удобства запишем это как
где 0N +1 - это N + 1-мерный нулевой вектор. Ковариационная матрица K+ представляет собой блочную матрицу с элементами
где Kx,x - ковариационная матрица обучающих входных данных x = {x1 , . . . , xN}– то есть
Вектор Kx,x; размера N ; 1 содержит элементы
Kx; ,x - это транспонирование указанного выше вектора. Скалярная ковариация задается формулой
Прогнозируемое распределение p(y ; |y, D) получается путем гауссовского кондиционирования с использованием результатов в определении(78), что дает гауссово распределение
Для фиксированных гиперпараметров GP-регрессия является точным методом, и нет никаких проблем с локальными минимумами. Кроме того, GPS привлекательны тем, что они автоматически моделируют неопределенность в прогнозах. Однако, вычислительная сложность прогнозирования O(N3 ) невелика из-за необходимости выполнения матричной инверсии (или решения соответствующей линейной системы методом исключения по Гауссу). Это может быть непомерно дорого для больших наборов данных, и существует большое количество исследований по эффективным приближениям. Обсуждение этих методов выходит за рамки данной книги, и читатель может обратиться к [230].
19.2.1 Регрессия с зашумленными результатами обучения
Чтобы предотвратить переобучение зашумленным данным, полезно предположить, что обучающий вывод yn является результатом некоторого чистого процесса fn, искаженного аддитивным гауссовым шумом,
В этом случае наш интерес состоит в том, чтобы предсказать чистый сигнал f; для нового входного сигнала x;. Тогда распределение p (y, f ; |x, x;) является Гауссовым с нулевым средним значением с блочной ковариационной матрицей
, так что Kx,x заменяется на Kx,x + ;2I при формировании прогноза в уравнении (19.2.5).
350 ПРОЕКТ от 9 марта 2010 г. Функции соответствия
Пример 84. Обучающие данные из одномерных входных данных x и одномерных выходных данных y представлены на рисунке (19.2b, d), а также среднее соответствие функции регрессии, основанное на двух различных функциях ковариации. Обратите внимание, как плавность априора приводит к плавности прогнозирования. Гладкость априора функционального пространства является следствием выбора ковариационной функции. Наивно полагать, что мы можем частично понять это по поведению ковариационной функции в начале координат, раздел (19.4.1). См. demoGPreg.m
Обучение предельной вероятности и гиперпараметров
Для набора из N одномерных обучающих входных данных, представленных N ; 1-мерным вектором y и ковариационной матрицей K, определенной на входных данных x1 , . . . , xN , логарифмическая предельная вероятность равна
Можно узнать любые свободные параметры ковариационной функции, максимизируя предельную вероятность. Например, квадратичная экспоненциальная ковариационная функция может иметь параметры ;, v0 :
Параметр ; в уравнении (19.2.12) определяет соответствующую шкалу длин входных сигналов, а параметр v0 - дисперсия функции. Зависимость предельного \граничного правдоподобия (19.2.8) от параметров обычно сложна, и не существует замкнутого выражения для оптимума максимального правдоподобия; в этом случае on прибегает к численным методам оптимизации, таким как сопряженные градиенты.
Векторные входные данные
Для регрессии с векторными входными данными и скалярными выходными данными нам нужно определить ковариацию как функцию двух векторов, k(x,x`). Используя мультипликативное свойство ковариационных функций, определение(93), простой способ сделать это - определить
Например, для квадратичной экспоненциальной функции ковариации это дает
хотя возможны и "коррелированные" формы, смотрите упражнение(195). Мы можем обобщить вышесказанное, используя параметры:
, где xl - это l-я составляющая x , а ; = (v0 , ;1 , . . . , ;D ) - параметры. ;l в уравнении (19.2.12) позволяет использовать различную шкалу длины для каждого входного измерения, и ее можно обучить, численно максимизируя предельную вероятность. Для нерелевантных входных данных соответствующее значение ;l станет малым, и модель будет игнорировать l-е входное измерение. Это тесно связано с автоматическим определением релевантности [181].
19.3 Ковариационные функции
Ковариационные функции k(x,x`) отличаются тем, что они определяют элементы положительно определенной матрицы. Эти функции также называются "ядрами", особенно в литературе по машинному обучению.
ЧЕРНОВИК от 9 марта 2010 г. 351 Ковариационные функции
Рисунок 19.2: Поле ввода от -2 до 3 равномерно разбито на 1000 точек x1 , ... , x1000 . (a): Три выборки из предыдущего GP с квадратичной экспоненциальной (SE) ковариационной функцией, ; = 2. Ковариационная матрица K размером 1000 ; 1000 определяется с использованием ядра SE, из которого выборки извлекаются с использованием mvrandn(zeros(1000,1),K,3). (b): Прогнозирование на основе обучения точек. На графике показана апостериорная прогнозируемая функция, основанная на ковариации SE. Центральная линия - это среднее значение прогноза со стандартным столбики ошибок с обеих сторон. Логарифмическая предельная вероятность равна ; 70. (c): Три выборки из теста Орнштейна-Уленбека, предшествующего тестированию с ; = 2. (d): Апостериорный прогноз для ковариации OU. Логарифмическая предельная вероятность равна ; 3, что означает, что ковариация SE в гораздо большей степени подтверждается данными, чем более грубая ковариация OU.
Определение 91 (функция ковариации). Для любого набора точек x1 , . . . , xM ковариационная функция k (xi , xj ) определяет элементы матрицы M ; M
, так что C является положительно полуопределенным.
19.3.1 Создание новых ковариационных функций из старых
Следующие правила (которые все могут быть доказаны непосредственно) генерируют новые ковариационные функции из существующих ковариационных функций k1, k2 [182],[230].
Определение 92 (Сумма).
352 ЧЕРНОВИК от 9 марта 2010 г.
Определение 93 (Продукт \Произведение).
Определение 94 (Продуктовые пространства). Для z =
и
Определение 95 (Изменение Масштаба по Вертикали).
для любой функции a(x).
Определение 96 (Деформирование и Встраивание).
для любого отображения x ; u(x), где отображение u(x) имеет произвольную размерность.
Ниже приведен небольшой набор ковариационных функций, обычно используемых в машинном обучении. Мы отсылаем читателя к [230] и [107] для получения более популярных функций ковариации.
19.3.2 Стационарные ковариационные функции
Определение 97 (Стационарное Ядро). Ядро k(x, x` ) является стационарным, если оно зависит только от разделения x ; x` . То есть
Следуя обозначению в [230], для стационарной ковариационной функции мы можем записать
где d = x ; x` . Это означает, что для функций, полученных из GP, в среднем, они зависят только от расстояния между входными данными, а не от абсолютного положения входных данных. Другими словами, функции в среднем не зависят от преобразования.
Для изотропных ковариационных функций ковариация определяется как функция расстояния k(|d|).
ПРОЕКТ от 9 марта 2010 г. 353 Ковариационные функции
Определение 98 (Экспонента Квадрата).
Квадратичная Экспонента - одна из наиболее распространенных ковариационных функций. Существует множество способов показать, что это ковариационная функция. Элементарный метод - рассмотреть
Первые два множителя образуют ядро вида ;(xn );(xn ). В конечном слагаемом k1 (xn , xn` ) = (xn )T xn`- линейное ядро. Взяв экспоненту и записав разложение экспоненты в степенной ряд, мы получим
это может быть выражено в виде ряда целых степеней k1 с положительными коэффициентами. Согласно описанным выше правилам произведения (с самим собой) и суммы, это также является ядром. Затем мы используем тот факт, что уравнение (19.3.10) является произведением двух ядер и, следовательно, также является ядром.
Определение 99 (;-Экспоненциальный).
Когда ; = 2, мы получаем экспоненциальную ковариационную функцию в квадрате. Когда ; = 1, это ковариационная функция Орнштейна- Уленбека.
Определение 100 (Mat;rn).
где Kv - модифицированная функция Бесселя, ; > 0.
Определение 101 (Рационально-Квадратичное).
Определение 102 (Периодический). Для одномерных x и x` стационарную (и изотропную) ковариационную функцию можно получить, сначала преобразовав x в двумерный вектор u(x) = (cos(x), sin(x)), а затем используя ковариацию SE exp(;(u(x);u(x` ))2)
См. [182] и [230].
354 ПРОЕКТ от 9 марта 2010 г. Функции соответствия
Рисунок 19.3: (а): Графики гамма-экспоненциальной ковариации exp(;|x|2) в зависимости от x. Случай ; = 2 соответствует функции ковариации SE. Падение ковариации происходит гораздо быстрее в зависимости от расстояния x для малого ;, что позволяет предположить, что функции, соответствующие меньшему ;, будут локально грубыми (хотя и обладают относительно более высокой дальнодействующей корреляцией). (b): Как и для (a), но увеличенный в направлении начала координат. Для случая SE, ; = 2, производная ковариационной функции равна нулю, тогда как ковариационная функция OU ; = 1 вносит вклад первого порядка в снижение ковариации, предполагая, что локально выбранные функции будут намного более грубыми, чем функции SE.
19.3.3 Нестационарные ковариационные функции
Определение 103 (Линейное).
Определение 104 (Нейронная Сеть).
Функции, определяемые этой ковариацией, всегда проходят через начало координат. Чтобы изменить это, можно использовать вложение x ; (1, x), где 1 имеет эффект "смещения" от начала координат. Чтобы изменить масштаб вклады смещения и непредвзятости можно использовать в качестве дополнительных параметров x ; (b, ;x). Ковариационная функция NN может быть получена как предельный случай нейронной сети с бесконечным количеством скрытых элементов [296] и с использованием точных интегральных результатов в [21].
Определение 105 (Гиббс).
для функций ri (x) > 0.
ПРОЕКТ от 9 марта 2010 г. 355 Анализ ковариационных функций
Рисунок 19.4: Образцы из GP, полученные ранее для 500 точек, равномерно расположенных в диапазоне от -20 до 20. (а): Отобранные образцы из периодической ковариационной функции exp -2 sin2 0,5(x ; x`). (b): Ковариационная функция нейронной сети со смещением b = 5 и ; = 1.
19.4 Анализ ковариационных функций
19.4.1 Плавность выполнения функций
Мы исследуем локальную гладкость для ядра, инвариантного к трансляции, k (x, x` ) = k(x ; x`). Для двух одномерных точек x и x`, разделенных небольшой величиной ; «1, x` = x + ;, ковариация между выходными данными y и y`, согласно разложению Тейлора, равна,
, так что в изменении ковариации на локальном уровне преобладает первая производная функции ковариации. Для ковариации SE k(x) = exp(;x 2),
равно нулю при x = 0. Это означает, что для функции ковариации SE изменение первого порядка в ковариации равно нулю, и вносят вклад только члены ;2 более высокого порядка.
Для ковариации Орнштейна-Уленбека k (x) = e;|x| , правая производная в начале координат равна
где этот результат получен с использованием правила Лопиталя. Следовательно, для функции ковариации OU наблюдается отрицательное изменение ковариации первого порядка; таким образом, на локальном уровне это снижение ковариации происходит гораздо быстрее, чем для ковариации SE, см. рис.(19.3). Поскольку низкая ковариация подразумевает низкую зависимость (в Гауссовы распределения), локально функции, сгенерированные в процессе OU, являются грубыми, тогда как в случае SE они гладкие. Более формальную трактовку стационарного случая можно получить, изучив график зависимости собственных значений от частоты ковариационной функции (спектральной плотности), раздел (19.4.3). Для грубых функций плотность собственных значений для высокочастотных составляющих выше, чем для гладких функций.
19.4.2 Ядра Мерсера
Рассмотрим функцию
, где ;(x) - вектор с составляющими функциями ;1 (x), ;2 (x), ... , ;B (x). Затем для множества точек x1 , . . . , xP , мы строим матрицу K с элементами
356 ЧЕРНОВИК от 9 марта 2010 г. Анализ ковариационных функций
Мы утверждаем, что построенная таким образом матрица K является положительно полуопределенной и, следовательно, допустимой ковариационной матрицей. Напомним, что матрица является положительно полуопределенной, если для любого ненулевого вектора z, zT Kz ; 0. Используя приведенное выше определение K, мы имеем
Следовательно, любая функция из уравнения вида (19.4.4) является ковариационной функцией. Мы можем обобщить ядро Мерсера на комплексные функции ; (x), используя
где † обозначает комплексное сопряжение. Тогда матрица K, сформированная из входных данных xi , i = 1, . . . , P, является положительно полуопределенной, поскольку для любого вещественного вектора z
где мы использовали общий результат для комплексной переменной xx† = |x|2 . Дальнейшее обобщение состоит в том, чтобы записать
для f (s) ; 0 и скалярных комплексных функций ;(x, s). Затем, заменив суммирование интегрированием (и предположив, что мы можем заменить сумму по компонентам z интегралом по s), получим
Спектральное разложение
Уравнение (19.4.9) является обобщением спектрального разложения ядра k (x, x`), поскольку, если мы запишем f (s) как сумму дельта-функций Дирака,
и используя ;(x, k) = ;k (x) для собственной функции ;k (x) , индексированной через k с собственным значением ;k , мы получаем спектральное разложение
Если все собственные значения ядра неотрицательны, то ядро является ковариационной функцией.
Рассмотрим, например, следующую функцию
Мы утверждаем, что это ковариационная функция. Это действительно допустимая ковариационная функция в том смысле, что для любого набора точек x1 , . . . , xd , матрица d ; d, образованная элементами k (xd , xd ) , является положительно определенной, как обсуждалось после определения (98). Решение, приведенное в упражнении(193), показывает, что действительно существуют вещественнозначные векторы, которые можно представить как
где векторы бесконечномерны. Это демонстрирует обобщение конечномерной точки зрения "весового пространства" GP на потенциально неявное бесконечномерное представление.
ЧЕРНОВИК от 9 марта 2010 г.
357 Гауссовых процессов для классификации
Рисунок 19.5: Классификация GP. GP индуцирует гауссово распределение на скрытые активации y1 , . . . , yN , y; , учитывая наблюдаемые значения c1 , . . . , cN . Классификация нового входного сигнала x; затем определяется с помощью корреляции , вызванной точками обучения для скрытой активации y; .
19.4.3 Анализ Фурье для стационарных ядер
Для функции g(x) с преобразованием Фурье ~g(s) мы можем использовать обратное преобразование Фурье, чтобы записать
где i ;; -1. Таким образом, для стационарного ядра k(x) с преобразованием Фурье ~k(s) мы можем записать
которое имеет ту же форму, что и уравнение (19.4.9), где преобразование Фурье ~k(s) отождествляется с f (s) и ;(x, s) = e;isx . Следовательно, при условии, что преобразование Фурье k(s) положительно, ядро k(x ; x`), инвариантное к трансляции, является ковариационной функцией. Теорема Бохнера [230] утверждает обратное, что любая инвариантная к трансляции ковариационная функция должна иметь такое представление Фурье.
Применение к квадратичному экспоненциальному ядру
Для инвариантного к трансляции экспоненциального ядра в квадрате, k (x) = exp(; 1/2 x2) , его преобразование Фурье равно
Следовательно, преобразование Фурье ядра SE является Гауссовым. Поскольку оно положительное, ядро SE является ковариационной функцией.
19.5 Гауссовские Процессы Плассификации
Адаптация структуры GP к классификации требует замены гауссовского регрессионного термина p(y|x) на соответствующий классификационный термин p(c|x) для дискретной метки c. Для этого мы будем использовать GP для определения скрытого непрерывного пространства, которое затем будет сопоставлено классу вероятности с использованием
Учитывая входные данные обучающих данных X ={ x1 , . . . , xN }, соответствующие метки классов C = {c1 , . . . , cN} и новые входные данные x; , тогда
где
Гауссовский процесс
сопоставление классов
358 ПРОЕКТ от 9 марта 2010 г. Гауссовские процессы классификации
Графическая структура этой модели изображена на рис.19.5. Затем формируется задний \ постериор скрытый y; из стандартного регрессионного члена Гауссовского Процесса, умноженного на набор неГауссовских отображений скрытых активаций на вероятности классов. Мы можем переформулировать задачу прогнозирования более удобно следующим образом:
где
В уравнении (19.5.4) термин p(y; |Y, x; , X ) не содержит никакой информации о метке класса и является просто условный гауссовский. Преимущество приведенного выше описания заключается в том, что мы можем, таким образом, сформировать приближение к p (Y|C, X) и затем повторно использовать это приближение в прогнозировании для множества различных x; без необходимости повторного запуска приближения [297, 230].
19.5.1 Бинарная классификация
Для случая бинарного класса мы будем использовать соглашение о том, что c ; {1, 0}. Поэтому нам нужно указать p(c = 1|y) для действительной активации y. Удобным выбором является логистическая передаточная функция3
Затем
является допустимым распределением, поскольку ;(;x) = 1 ; ; (x), гарантируя, что сумма по состояниям класса равна 1. Трудность заключается в том, что нелинейный член отображения класса затрудняет вычисление уравнения апостериорного распределения (19.5.3), поскольку интегралы по y1 , . , , ,yN не может быть выполнено аналитически. Существует множество приближенных методов, которые можно было бы применить в этом случае, включая вариационные методы, аналогичные описанному в разделе (??). Ниже мы опишем простой метод Лапласа, оставив более сложные методы для дальнейшего обучения[230].
19.5.2 Аппроксимация Лапласа
В методе Лапласа мы аппроксимируем неГауссово распределение (19.5.5) Гауссовым уравнением 4 q(Y|C, X ),
Предсказания могут быть сформированы на основе совместного Гауссова
Для компактности мы определяем вектор меток классов и выводим
и в виде записи отбросим (всегда присутствующее) ограничение на входные данные x. Также для удобства мы определяем
3Мы также будем называть это "сигмовидной функцией". Более строго сигмовидной функцией называется любая функция в форме буквы "s" (от греческого "s").
4Некоторые авторы используют термин "аппроксимация Лапласа" исключительно для аппроксимации интеграла. Здесь мы используем этот термин для обозначения Гауссовой аппроксимации неГауссова распределения.
ПРОЕКТ от 9 марта 2010 г. 359 Гауссовых процессов для классификации
Определение режима
Приближение Лапласа, раздел (28.2), соответствует разложению второго порядка по типу распределения. Таким образом, наша задача состоит в том, чтобы найти максимум
где
Максимум необходимо найти численно, и для этого удобно использовать метод Ньютона [120, 297, 230].
Дифференцируя уравнение 19.5.13 относительно y, мы получаем градиент и Гессиан
где матрица "шума" задается формулой
Используя эти выражения в обновлении Ньютона, (19.5.14) получаем
Чтобы избежать ненужных инверсий, можно записать это в виде
Делать прогнозы
Учитывая сходящееся решение ; , мы нашли Гауссову аппроксимацию
Теперь у нас есть Гауссианы для p(y ; |y) и q (y|X , x; , C) в уравнении (19.5.9). Затем делаются прогнозы с использованием
где, согласно условию раздела(8.6.1),
Мы также можем записать это в виде линейной системы
где ; ~N (;|0, Kx; ,x; ; Kx; ,x K;1x,x Kx,x;) . Используя уравнение (19.5.23) и уравнение (19.5.20) и
усреднение по y и шуму ;, получаем
Аналогично, дисперсия скрытого прогноза равна
360 ПРОЕКТ от 9 марта 2010 г. Гауссовские процессы классификации
Рисунок 19.6: Классификация Процессов по Гауссу. По оси x отложены исходные данные, а по оси y - класс. Зеленые точки - это точки обучения для класса 1, а красные - для класса 0. Точки - это предсказания p (c = 1|x; ) для случайного числа точек x;. (а): Квадратичная экспоненциальная ковариация (; = 2). (b): ПОЛНАЯ\ OU ковариация (; = 1). Смотрите demoGPclass1D.m.
, где последняя строка получена с использованием леммы об обращении матрицы, определение(132).
Предсказание класса для нового входного сигнала x; затем задается через
Чтобы вычислить интеграл Гаусса по логистической сигмовидной функции, мы используем аппроксимацию сигмовидной функции, основанную на функции ошибки erf(x), см. раздел(18.2.3) и avsigmaGausss.m.
Пример 85. Пример бинарной классификации приведен на рисунке (19.6), в котором одномерные входные данные обучающие данные с бинарными метками классов отображаются на графике вместе с прогнозами вероятности классов для диапазона входных точек. В обоих случаях функция ковариации имеет вид 2exp(|xi ;xj | ;) + 0,001;ij . Квадратичная экспоненциальная ковариация дает более плавный прогноз по классу, чем ковариационная функция Орнштейна-Уленбека. Смотрите demoGPclass1D.m и demoGPclass.m.
Предельная вероятность
Предельная вероятность задается
В соответствии с приближением Лапласа предельная вероятность аппроксимируется формулой
где A = ;. Интегрирование по y дает
где
, где ~ y- сходящаяся итерация уравнения 19.5.18. Можно также упростить приведенное выше уравнение, используя, что при сходимости K;1 x,x ; = c ; ;(y).
ПРОЕКТ от 9 марта 2010 г. Код 361
19.5.3 Оптимизация гиперпараметров
Приблизительная предельная вероятность может быть использована для оценки гиперпараметров ; ядра. Немного заботы требуется при вычислении производных от приближенного предельного правдоподобия, поскольку оптимум ; зависит от ;. Мы используем формулу полной производной [25]
, который может быть вычислен с использованием стандартных результатов для производной от матричного определителя и обратной величины. Поскольку производная от ; равна нулю в точке ; и учитывая, что D явно зависит от ;,
Неявная производная получается из использования того факта, что при сходимости
чтобы дать
Эти результаты подставляются в уравнение (19.5.34), чтобы найти явное выражение для производной.
19.5.4 Несколько классов
Расширение предыдущей структуры на несколько классов, по сути, является простым и может быть достигнуто с помощью функции softmax
который автоматически применяет ограничение ;mp(c = m) = 1. Наивно может показаться, что для классов C стоимость реализации аппроксимации Лапласа для многоклассового случая составляет O(C3 N 3) . Однако при тщательном внедрении можно показать, что стоимость составляет всего около O(CN 3), и мы отсылаем читателя к [297, 230] для получения подробной информации.
19.6 Дальнейшее Чтение
В последние годы в сообществе машинного обучения активно разрабатываются Гауссовские процессы, для которых эффективные аппроксимации как для регрессии, так и для классификации остаются актуальной темой исследований. Мы отсылаем заинтересованного читателя к [245] и [230] для дальнейшего обсуждения.
19.7 Код
GPreg.m: Демонстрация регрессии гауссовского процесса
demoGPreg.m: Демонстрация регрессии GP
covfnGE.m: Гамма-экспоненциальная ковариационная функция
GPclass.m: Классификации процессов по Гауссу
demoGPclass.m: Демонстрация классификации процессов по Гауссу
362 ЧЕРНОВИК от 9 марта 2010 года Упражнения
19.8 Упражнения
Упражнение 191. Покажите, что выборочная ковариационная матрица с элементами Sij =
; Nn =1 xi nxjn/N ; ;xi ;xj является положительно полуопределенной, где ;xi =;Nn =1 xi n/N.
Упражнение 192. Покажите, что
является ковариационной функцией.
Упражнение 193. Рассмотрим функцию
для одномерных входных данных xi . Показывать что
Разложив ряд Тейлора центральный член, покажите, что exp(;1/ 2 (xi ;xj )2) является ядром, и найдите явное представление ядра f (xi , xj ) как скалярного произведения двух бесконечномерных векторов.
Упражнение 194. Покажем, что для ковариационной функции k1 (x, x` ) тогда
также является ковариационной функцией для любого многочлена f (x) с положительными коэффициентами. Покажите, таким образом, что exp(k1 (x, x` ) ) и tan (k1 (x, x`)) являются ковариационными функциями.
Упражнение 195. Для ковариационной функции
покажем, что
также является допустимой ковариационной функцией для положительно определенной симметричной матрицы A.
Упражнение 196 (Ядро строки). Пусть x и x` - две строки символов, а ;s (x) - количество раз, когда подстрока s появляется в строке x. Тогда
- это функция ковариации (ядро строки), при условии, что вес каждой подстроки ws положителен.
1. Учитывая набор строк о политике и другой набор строк о спорте, объясните, как сформировать классификатор GP, использующий ядро строка\string.
2. Объясните, как можно скорректировать веса ws, чтобы улучшить соответствие классификатора данным, и приведите явную формулу для производной по отношению к ws логарифмического предельного правдоподобия в приближении Лапласа.
Упражнение 197 (Векторная регрессия). Рассмотрим прогнозирование выходного вектора y по данным обучения X U Y ={xn , yn , n = 1, . . . , n}. Чтобы создать предсказатель GP
p(y; |x; , X , Y)
нам нужна Гауссова модель
В этом случае для GP требуется спецификация ковариации c(yim , yjn |xn , xm ) компонентов выходных данных для двух разных входных векторов. Покажите, что в предположении о независимости измерений
, где ci (yim , yin |xn , xm ) является ковариационной функцией для i-го измерения, отдельные предсказатели GP могут быть построены независимо, по одному для каждого выходного измерения i.
ЧЕРНОВИК от 9 марта 2010 г. 363 Упражнения
Упражнение 198. Рассмотрим Марковскую модификацию линейной динамической системы, раздел(24.1),
где A - заданная матрица, а ; t - нулевой средний гауссовский шум с ковариацией <ni,t nj,t> = ;2 ;ij ;t,t` . Кроме того, p(x1 ) = N (x1|0, ;).
1. Покажите, что x1 , . . . , xt распределены по Гауссу.
2. Покажите, что ковариационная матрица x1 , . . . , xt имеет элементы
и объясните, почему линейная динамическая система является (ограниченным) Гауссовым Процессом.
3. Рассмотрим
где ;t - нулевой средний Гауссовский шум с ковариацией <;i,t ;j,t`> = ;2 ;ij ;t,t` . Векторами ; являются не коррелирует с векторами ;. Покажите, что последовательность векторов y1 , . . . , yt является Гауссовым Процессом с соответствующим образом определенной функцией ковариации.
Упражнение 199. Форма анализа независимых компонентов, раздел(21.6), одномерного сигнала y1 , . . . , yT получена из совместной модели
при
где ;2 - заданная дисперсия шума. Сигнал y1:T можно рассматривать как линейную комбинацию двух независимые Гауссовы Процессы. Ковариационные матрицы двух процессов содержат элементы из стационарного ядра,
1. Запишите электронный алгоритм для определения параметров микширования w1, w2 при заданной последовательности наблюдений y1:T .
2. Рассмотрим расширение приведенной выше модели на случай двух выходных сигналов:
при
Покажите, что при T > 1 вероятность
не является инвариантным относительно ортогонального вращения W` = WR при RRT = I и объясняет значение этого для идентификации независимых компонентов.
364
ЧЕРНОВИК главы от 9 марта 2010 г.
Свидетельство о публикации №125110906787