1-5Байесовские рассуждения смыслы и машинное обуче

Джон Темплтон

Байесовские рассуждения \смыслы\ и машинное обучение
Дэвид Барбер c 2007,2008,2009,2010
Список обозначений
; Каллиграфический символ a обычно обозначает набор случайных величин . . . . . . . . 3
dom(x) Область переменной . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
x=x Переменная x находится в состоянии x . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 3
p(x = tr) вероятность того, что событие/переменная x находится в состоянии true . . . . . . . . . . . . . . . . . . . 3
p(x = fa) вероятность того, что событие/переменная x находится в состоянии false . . . . . . . . . . . . . . . . . . . 3
p(x, y) вероятность того, что x и y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
p(x; y)вероятность совпадения x и y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 4
p(x U y)вероятность x или y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
p(x|y) - вероятность x, обусловленная y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
; xf (x)dx Для непрерывных переменных это сокращение от ;f (x)dx, а для дискретных переменных означает суммирование по состояниям x, ;xf (x) . . . . . . . . . . . . . . . . . . . 7
; [x = y] Индикатор : имеет значение 1, если x = y, 0 в противном случае . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
pa (x) - родительский элемент узла x. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
ch (x) Дочерние элементы узла x. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
ne (x) Соседи узла x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
X ; Y| Z Переменные X независимы от переменных Y и обусловлены переменными Z. 33
X ;Y| Z Переменные X зависят от переменных Y, обусловленных переменными Z. . . . . . 33
dim x Для дискретной переменной x это обозначает количество состояний, которые может принимать x . . . . 43
<f (x)>p(x) - среднее значение функции f (x) относительно распределения p(x). 139
;(a, b) Дельта-функция. Для дискретных a, b это дельта Кронекера ;a,b, а для
непрерывных a, b ; дельта-функция Дирака ;(a - b) . . . . . . . . . . . . . . . . . . . . . . 142
dim x Размерность вектора/матрицы x. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150
# (x = s, y = t) Количество раз, когда переменная x находилась в состоянии s, а переменная y - в состоянии t одновременно….172
D Набор данных. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
n Индекс текущих данных . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
N Количество точек обучения набора данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
#x y- количество раз, когда переменная x находится в состоянии y . . . . . . .. . . . . . . . . . . . . . 265
S Примерная ковариационная матрица . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
;(x) Логистическая сигмоида 1/(1 + exp(;x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
erf(x) (Гауссова) функция ошибок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
i~j Множество уникальных соседних ребер на графе . . . . . . . . . . . . . . . . . . . . . . 529
Im Это идентификационная матрица m ; m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546
II
ЧЕРНОВИК от 9 марта 2010 г.
Пролог
Машинное обучение
В последнее десятилетие наблюдается значительный рост интереса к искусственному интеллекту и машинному обучению. В самом широком смысле эти области направлены на то, чтобы "узнать что-то полезное" об окружающей среде, в которой функционирует организм. То, как обрабатывается собранная информация, приводит к разработке алгоритмов – как обрабатывать многомерные данные и справляться с неопределенностью. На ранних стадиях исследований в области машиного обучения и смежных областях аналогичные методы были обнаружены в относительно изолированных исследовательских сообществах. Хотя не все методы имеют естественное описание в терминах теории вероятностей, многие из них имеют его, и именно структура графических моделей (сочетание графов и теории вероятностей) позволила понять и перенести идеи из статистической физики, статистики, машинного обучения и теории информации. В этой связи разумно ожидать, что исследователи в области машинного обучения знакомы с основами методов статистического моделирования.
Эта книга посвящена вероятностным аспектам обработки информации и машинного обучения. Уверено не делается никаких заявлений о правильности или о том, что это единственный полезный подход. На самом деле, можно возразить, что в этом нет необходимости, поскольку “биологические организмы не используют теорию вероятностей”. Так это или нет, но нельзя отрицать, что использование графических моделей и теории вероятностей способствовало появлению новых алгоритмов и моделей в сообществе машинного обучения. Следует также понимать, что байесовская точка зрения - не единственный способ описания машинного обучения и обработки информации. Байесовские и вероятностные методы действительно вступают в свои права в областях, где необходимо учитывать неопределенность.
Структура книги
Одна из целей первой части книги - привлечь студентов, изучающих информатику, к исследованию этой области. Особой трудностью, с которой сталкиваются многие современные студенты, является ограниченная формальная подготовка в области вычислений и линейной алгебры, а это означает, что они могут вырубиться от тонкостей непрерывных и многомерных распределений. Начиная с теории вероятностей как формы логической системы, мы надеемся показать читателю, как идеи, вытекающие из логического вывода и динамического программирования, с которыми они, возможно, более знакомы, имеют естественные параллели в вероятностном контексте. В частности, студенты, обученные информатикой, знакомы с концепцией алгоритмов как ядра. Однако в машинном обучении чаще всего модель рассматривается как ядро, а то, как это реализуется, имеет второстепенное значение. С этой точки зрения, понимание того, как преобразовать математическую модель в фрагмент компьютерного кода, имеет центральное значение.
Часть II знакомит со статистическими данными, необходимыми для понимания непрерывных распределений, и с тем, как машинное обучение можно рассматривать с точки зрения вероятностных подходов. В части III рассматриваются темы машинного обучения. Конечно, некоторые читатели удивленно поднимут брови, увидев, что их любимая тема статистики указана в разделе машинное обучение. Разница между статистикой и машинным обучением заключается в том, какие системы мы в конечном итоге получим
III
для конструирования (машин, способных выполнять задачи по обработке информации о человеке/биологических объектах), а не в некоторых методах. Таким образом, я считаю, что этот раздел книги будет полезен для тех, кто обучает машины.
В части IV рассматриваются динамические модели, в которых явно учитывается время. В частности, фильтр Калмана рассматривается как форма графической модели, которая помогает подчеркнуть, что собой представляет модель, а не фокусироваться на ней как на "фильтре", как это более традиционно принято в инженерной литературе.
Часть V содержит краткое введение в методы приближенного вывода, включая как стохастические (методом Монте-Карло) и детерминистические (вариационные) методы.
Ссылки в книге, как правило, не предназначены для того, чтобы приписывать авторам идеи, да и не всегда они являются таковыми, или на наиболее авторитетные работы. В основном, ссылки даются на работы, которые в достаточной степени соответствуют книге и которые легко доступны.
Для кого предназначена эта книга
Моей основной целью было написать книгу для студентов последнего курса и выпускников выпускных курсов, не имеющих значительного опыта в математическом анализе, которая открыла бы путь к машинному обучению, большая часть которого в настоящее время описывается в терминах вероятностей и многовариантных распределений. Цель состояла в том, чтобы побудить студентов к тому, чтобы на первый взгляд неинтересные статистические концепции на самом деле очень важны для исследований по созданию интеллектуальных систем, которые естественным образом взаимодействуют с людьми. Такая исследовательская программа неизбежно требует работы с многомерными данными, временными рядами, сетями, логическими рассуждениями, моделированием и неопределенностью.
Другие книги в этой области
Хотя в этой области есть несколько отличных учебников, ни один из них в настоящее время не отвечает требованиям, которые лично мне необходимы для преподавания, а именно содержит демонстрационный код и ненавязчиво вводит теорию вероятности и статистики, прежде чем перейти к более сложным темам машинного обучения. Это побудило меня использовать материалы лекций, прочитанных на курсах в Астоне, Эдинбурге, EPFL и Калифорнийском университете, и значительно расширить демонстрационное программное обеспечение. Книга должна быть опубликована издательством Cambridge University Press в 2010 году.
Литература по машинному обучению обширна, так как она частично совпадает с соответствующими областями статистики, инженерии и других физических наук. В этом отношении трудно выделить какие-то конкретные области, и эта книга представляет собой предпринята попытка объединить некоторые разделы литературы по машинному обучению и статистике. Книга написана в неформальном стиле в ущерб строгости и подробным доказательствам. В качестве вводного учебника темы , естественно, освещаются на несколько поверхностном уровне, и читателя отсылают к более специализированным книгам для более глубокого чтения. Среди моих любимых есть:
• Графические модели
– Графические модели С. Лауритцена, издательство Оксфордского университета, 1996.
– Байесовские сети и графы принятия решений Ф. Дженсена и Т. Д. Нильсена, Springer Verlag, 2007.
– Вероятностные сети и экспертные системы Р. Г. Коуэлла, А. П. Давида, С. Л. Лауритцена и Д. Дж. Шпигельхальтера, Springer Verlag, 1999.
– Вероятностные рассуждения в интеллектуальных системах, Дж. Перл, Морган Кауфман, 1988.
– Графические модели в прикладной многомерной статистике, Дж. Уиттакер, Уайли, 1990.
– Вероятностные графические модели: принципы и методы, Д. Коллер и Н. Фридман, Массачусетский технологический институт
Издательство, 2009.
• Машинное обучение и обработка информации
– Теория информации, алгоритмы логического вывода и обучения, Ди Джей Си Маккей,
издательство Кембриджского университета, 2003.

ПРОЕКТ IV от 9 марта 2010 г.
– "Распознавание образов и машинное обучение", К. М. Бишоп, издательство Springer Verlag, 2006 г.
– "Введение в методы опорных векторов", Н. Кристианини и Дж. Шоу-Тейлор, Кембридж.
University Press, 2000.
– Гауссовские процессы для машинного обучения, К. Э. Расмуссен и К. К. И. Уильямс,
издательство Массачусетского технологического института, 2006.
Как пользоваться этой книгой
Первая часть подойдет для вводного курса по графическим моделям с акцентом на логический вывод. Часть II содержит достаточно материала для краткого курса лекций по обучению на вероятностных моделях. Часть III достаточно самостоятельна и могла бы подойти для курса по машинному обучению с вероятностной точки зрения, особенно в сочетании с материалами по динамическим моделям из части IV. Часть V могла бы подойти для краткого курса по приблизительному выводу.
Прилагаемый код
Код MATLAB предоставлен для того, чтобы помочь читателям увидеть, как математические модели преобразуются в реальный код. Этот код предназначен не для использования в промышленных исследованиях, а скорее как достаточно легкий инструментарий, позволяющий читателю поиграться с концепциями теории графов, теории вероятностей и машинного обучения. В попытке сохранить удобочитаемость, не была включена подробная обработка ошибок и/или исключений. На данный момент код содержит базовые процедуры для управления распределениями дискретных переменных, а также с набором процедур, которые в большей степени связаны с машинным обучением с непрерывными переменными. В принципе, можно было бы значительно расширить часть кода "графические модели" для поддержки непрерывных переменных. В настоящее время обеспечивается ограниченная поддержка непрерывных переменных, так что, например, логический вывод в линейной динамической системе может быть записан в виде операций над гауссовыми потенциалами. Однако, как правило, потенциалами непрерывных переменных необходимо управлять с осторожностью, и часто для обеспечения числовой стабильности требуются специальные процедуры.
Признание
Многие люди помогали мне в написании этой книги либо в плане чтения, обратной связи, общего понимания, позволяя мне представить их работу, либо просто мотивируя. Среди них я хотел бы поблагодарить Массимилиано Понтила, Марка Хербстера, Джона Шоу-Тейлора, Владимира Колмогорова, Юрия Бойкова, Тома Минку, Саймона Принс, Сильвия Чьяппа, Бертран Месо, Роберт Коуэлл, Али Тайлан Джемгил, Дэвид Блей, Джефф Билмес, Дэвид Кон, Дэвид Пейдж, Питер Соллич, Крис Уильямс, Марк Туссен, Амос Сторки, Закрия Хуссейн, Серафин Мораль, Милан Студени, Тристан Флетчер, Том Фермстон, Эд Чаллис и Крис Брейсгедл. Я также хотел бы поблагодарить многих студентов, которые помогали улучшать материал во время лекций на протяжении многих лет. Я особенно благодарен Тому Минке за то, что он разрешил использовать части своего набора инструментов Lightspeed в комплекте с
BRMLtoolbox, и я также в долгу перед Тейланом Джемгилом за его пакет GraphLayout.
И последнее спасибо моей семье и друзьям.
Вебсайт
Код вместе с электронной версией книги можно получить на сайте <url>.
http://www.cs.ucl.ac.uk/staff/D.Barber/brml
Инструкторы, которые ищут решения для упражнений, могут найти информацию на веб-сайте вместе с дополнительными учебными материалами. Веб-сайт также содержит форму обратной связи и список исправлений.
ЧЕРНОВИК от 9 марта 2010 г.
VVI
ЧЕРНОВИК от 9 марта 2010 г.
I
Логические выводы в вероятностных моделях 1
1
1. Вероятностные рассуждения 3
1.1 Повышение вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3
1.1.1 Таблицы вероятностей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6
1.1.2 Интерпретация условной вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . .7
1.2 Вероятностные рассуждения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
1.3 Предварительные, вероятностные и последующие результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
1.3.1 Две игральные кости: каковы были индивидуальные результаты? . . . . . . . . . . . . . . . . .10
1.4 Дополнительные проработанные примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11
1.5 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15
1.5.1 Базовый вероятностный код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15
1.5.2 Общие инструменты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
1.5.3 Пример . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17
1.6 Примечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17
1.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

2 Основные понятия о графах 19
2.1 Графы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
2.1.1 Связующее дерево . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
2.2 Численное кодирование графов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
2.2.1 Список границ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
2.2.2 Матрица смежности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
2.2.3 Матрица клик . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22
2.3 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23
2.3.1 Служебные процедуры \Приёмы нструментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23
2.4 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23
3 Сети убеждений \уверений\ 25
3.1 Вероятностный вывод в структурированных распределениях . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Графическое представление распределений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
3.2.1 Построение простой сети убеждений : мокрая трава . . . . . . . . . . . . . . . . . . . .26
3.2.2 Неопределенные доказательства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .29
3.3 Сети убеждений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
3.3.1 Условная независимость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33
3.3.2 Последствия столкновений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .34
3.3.3 d-Разделение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35
3.3.4 d-Связь и зависимость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.5 Марковская эквивалентность в сетях убеждений . . . . . . . . . . . . . . . . . . . . . . . . . .37
3.3.6 Сети убеждений обладают ограниченной выразительностью . . . . . . . . . . . . . . . . . . . . . 39
VII
КОНТЕНТЫ СОДЕРЖАНИЕ
3.4 Причинно-следственная связь . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39
3.4.1 Парадокс Симпсона . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .40
3.4.2 Диаграммы влияния и расчет эффективности . . . . . . . . . . . . . . . . . . . . . . . . . .42
3.4.3 Изучение направления стрелок . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43
3.5.Параметризация сетей убеждений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43
3.6.Дальнейшее чтение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44
3.7.Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44
3.7.1 Демонстрация наивного вывода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44
3.7.2 Демонстрация условной независимости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44
3.7.3 Служебные процедуры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44

4 Графические модели 49
4.1 Графические модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49
4.2 Сети Маркова . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49
4.2.1 Марковские свойства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .50
4.2.2 Сети Гиббса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51
4.2.3 Марковские случайные поля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53
4.2.4 Условная независимость с использованием марковских сетей . . . . . . . . . . . . . . . . . . .53
4.2.5 Решетчатые модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54
4.3 Графические модели цепочек . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55
4.4 Выразительность графических моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .56
4.5 Факторные графы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .58
4.5.1 Условная независимость в факторных графах . . . . . . . . . . . . . . . . . . . . . . . .59
4.6 Примечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59
4.7 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59
4.8 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59

5 Эффективный логический вывод в виде деревьев 63
5.1 Предельный вывод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .63
5.1.1 Устранение переменных в цепи Маркова и передача сообщений . . . . . . . . . . . . . .63
5.1.2 Алгоритм вычисления суммарного произведения на факторных графах . . . . . . . . . . . . .66
5.1.3 Вычисление предельной вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . .69
5.1.4 Проблема с циклами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71
5.2 Другие формы вывода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71
5.2.1 Максимальный продукт . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71
5.2.2 Нахождение N наиболее вероятных состояний . . . . . . . . . . . . . . . . . . . . . . . . . . .73
5.2.3 Наиболее вероятный путь и кратчайший маршрут . . . . . . . . . . . . . . . . . . . . . . . . . .75
5.2.4 Смешанный вывод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .77
5.3 Вывод в многосвязных графах . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
5.3.1 Удаление ковша . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
5.3.2 Кондиционирование с петлевым разрезом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.4 Передача сообщений для непрерывных рассылок . . . . . . . . . . . . . . . . . . . . . . . . . .80
5.5 Примечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .80
5.6 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81
5.6.1 Примеры факторных графов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81
5.6.2 Наиболее вероятный и кратчайший путь . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81
5.6.3 Удаление ковша . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81
5.6.4 Передача сообщений по гауссианам . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82
5.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82

VIII
ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ от 9 марта 2010 г.
Cодержание
6 Алгоритм построения дерева соединений \мусорных\ 85
6.1 Переменные кластеризации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.1 Повторная параметризация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.2 Графы кликов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2.1 Поглощение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2.2 График поглощения на деревьях кликов . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.3 Соединительные деревья . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.3.1 Свойство бегущего перекрестка . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.4 Построение дерева соединений для односвязных распределений . . . . . . . . . . . . . . . 92
6.4.1 Морализаторство . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.4.2 Формирование графа клик . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.4.3 Формирование дерева соединений из графа клик . . . . . . . . . . . . . . . . . . . . . . . 92
6.4.4 Распределение потенциалов по группам . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.5 Деревья соединений для многосвязных распределений . . . . . . . . . . . . . . . . . . . . . . 93
6.5.1 Алгоритмы триангуляции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.6 Алгоритм построения дерева соединений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.6.1 Замечания по JTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.6.2 Вычисление константы нормализации распределения . . . . . . . . . . . . . . . . 99
6.6.3 Предельная вероятность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.7 Определение наиболее вероятного состояния . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.8 Повторное поглощение: Преобразование дерева соединений в направленную сеть . . . . . . . . . . . . . . 102
6.9 Необходимость В Приближениях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.9.1 Деревья-перекрестки ограниченной ширины . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.10 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.10.1 Служебные процедуры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.11 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7 Принятие решений 107
7.1 Ожидаемая полезность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.1.1 Полезность денег . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.2 Схемы принятия решений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.3 Расширение байесовских сетей для принятия решений . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.3.1 Синтаксис диаграмм влияния . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.4 Построение диаграмм влияния . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.4.1 Эффективный вывод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.4.2 Использование дерева соединений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
7.5 Марковские процессы принятия решений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.5.1 Максимизация ожидаемой полезности путем передачи сообщений . . . . . . . . . . . . . . . 120
7.5.2 Уравнение Беллмана . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.6 Временно неограниченные MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.6.1 Повторение значений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.6.2 Повторение политики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.6.3 Проклятие размерности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.7 Вероятностный вывод и планирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.7.1 Нестационарный марковский процесс принятия решений . . . . . . . . . . . . . . . . . . . . . . . 124
7.7.2 Нестационарный планировщик вероятностных выводов . . . . . . . . . . . . . . . . . . . . . . 125
7.7.3 Стационарный планировщик . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.7.4 Утилиты на каждом временном шаге . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.8 Дополнительные темы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.8.1 Частично наблюдаемые MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.8.2 Ограниченные функциональные возможности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.8.3 Обучение с подкреплением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.9 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.9.1 Сумма/Максимум при частичном заказе . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.9.2 Деревья пересечений для диаграмм влияния . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
ПРОЕКТ от 9 марта 2010 г.
Содержание
7.9.3 Пример с другом по вечеринке . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.9.4 Клиника грудной клетки с решениями . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.9.5 Марковские процессы принятия решений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.10 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
II Обучение в вероятностных моделях 137
8 Статистика для машинного обучения: 139
8.1 Распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.2 Обобщение распределений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.2.1 Погрешность оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
8.3 Дискретные распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.4 Непрерывные распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
8.4.1 Ограниченные распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
8.4.2 Неограниченные распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.5 Многомерные распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.6 Многомерный гауссовский . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
8.6.1 Кондиционирование как реверсирование системы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .151
8.6.2 Завершение квадрата . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.6.3 Гауссово распространение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
8.6.4 Отбеливание и центрирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
8.6.5 Обучение с максимальной вероятностью . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
8.6.6 Байесовский вывод среднего значения и дисперсии . . . . . . . . . . . . . . . . . . . . . . 153
8.6.7 Гамма-распределение по Гауссу . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.7 Экспоненциальное семейство . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.7.1 Сопряженные прецеденты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.8 Дивергенция Кульбака-Лейблера KL(q|p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.8.1 Энтропия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.9 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.10 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
9 Обучение как вывод 165
9.1 Обучение как вывод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
9.1.1 Изучение смещения монеты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
9.1.2 Принятие решений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.1.3 Совокупность параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.1.4 Решения, основанные на непрерывных интервалах . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.2 Максимальное апостериорное значение и максимальная вероятность . . . . . . . . . . . . . . . . . . . . . . . . 169
9.2.1 Подведение итогов последующего . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.2.2 Максимальное правдоподобие и эмпирическое распределение . . . . . . . . . . . . . . . . . . . 170
9.2.3 Тренировка сетей убеждений с максимальной вероятностью . . . . . . . . . . . . . . . . . . . . . 171
9.3 Обучение байесовской сети убеждений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
9.3.1 Независимость от глобальных и локальных параметров . . . . . . . . . . . . . . . . . . . . . . . . 174
9.3.2 Изучение таблиц бинарных переменных с использованием бета-версии, предшествующей . . . . . . . . . . . . . . . . . . . 176
9.3.3 Изучение многомерных дискретных таблиц с использованием априорного метода Дирихле . . . . . . . . . . . . . . 178
9.3.4 Родители . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
9.3.5 Изучение структуры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
9.3.6 Эмпирическая независимость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
9.3.7 Сетевая оценка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.4 Максимальное правдоподобие для ненаправленных моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
9.4.1 Градиент вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.4.2 Разложимые марковские сети . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
9.4.3 Неразложимые марковские сети . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
9.4.4 Ограниченно разлагаемые марковские сети . . . . . . . . . . . . . . . . . . . . . . 189
X ЧЕРНОВИК от 9 марта 2010 года
СОДЕРЖАНИЕ
9.4.5 Итеративное масштабирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
9.4.6 Условные случайные поля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
9.4.7 Псевдовероятность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
9.4.8 Изучение структуры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Свойства максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
9.5.1 Обучение при условии правильного класса модели . . . . . . . . . . . . . . . . . . . . . . . . 196
9.5.2 Обучение, когда предполагаемая модель неверна . . . . . . . . . . . . . . . . . . . . . . 197
9.6. Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
9.6.1 Компьютерный алгоритм с использованием оракула . . . . . . . . . . . . . . . . . . . . . . . . . . . .197
9.6.2 Демонстрация эмпирической условной независимости . . . . . . . . . . . . . . . . . . . . . . . 197
9.6.3 Изучение структуры Байеса-Дирихле . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
9.7.Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
10 Наивный байесовский подход 203
10.1 Наивный Байесовский подход и условная независимость . . . . . . . . . . . . . . . . . . . . . . . . 203
10.2 Оценка с использованием максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . 204
10.2.1 Двоичные атрибуты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
10.2.2 Переменные с несколькими состояниями . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
10.2.3 Классификация текста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
10.3 Байесиан наивного Байесовского . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
10.4 Дерево, дополненное наивным Байесом . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
10.4.1 Деревья Чоу-Лю . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
10.4.2 Дерево обучения, дополненное наивными байесовскими сетями . . . . . . . . . . . . . . . . .212
10.5 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
10.6 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
11 Обучение со скрытыми переменными 217
11.1 Скрытые переменные и отсутствующие данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
11.1.1 Почему скрытые/отсутствующие переменные могут усложнить процедуру . . . . . . . .217
11.1.2 Допущение о случайном отсутствии . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
11.1.3 Максимальная вероятность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
11.1.4 Проблемы с возможностью идентификации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
11.2 Максимизация ожиданий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
11.2.1 Вариационный ЭМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
11.2.2 Классический ЭМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
11.2.3 Применение к сетям убеждений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
11.2.4 Применение к марковским сетям . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
11.2.5 Конвергенция . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
11.3 Расширения EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
11.3.1 Частичный шаг в М . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
11.3.2 Частичный E этап . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
11.4 Случай сбоя в работе EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
11.5 Вариационный метод Байеса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
11.5.1 EM является частным случаем вариационного Байеса . . . . . . . . . . . . . . . . . . . . . . . . . 233
11.5.2 Разложение параметра posterior на множители . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
11.6 Байесовские методы и ML-II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
11.7 Оптимизация вероятности с помощью градиентных методов . . . . . . . . . . . . . . . . . . . . . . . . 236
11.7.1 Управляемые модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
11.7.2 Неориентированные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
11.8 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
11.9 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
ПРОЕКТ от 9 марта 2010 г.
СОДЕРЖАНИЕ содержание
12 Выбор байесовской модели 241
12.1 Сравнение байесовских моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
12.2 Иллюстрации : подбрасывание монеты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
12.2.1 Дискретное пространство параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
12.2.2 Непрерывное пространство параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
12.3 Бритва Оккама и байесовские штрафы за сложность . . . . . . . . . . . . . . . . . . . . . 244
12.4 Подробный пример: подгонка кривой . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
12.5 Аппроксимация вероятности модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
12.5.1 Метод Лапласа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
12.5.2 Информационный критерий Байеса (BIC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
12.6 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
III Машинное обучение 249
13 Концепции машинного обучения 251
13.1 Стили обучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
13.1.1 Обучение под наблюдением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
13.1.2 Обучение без присмотра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
13.1.3 Обнаружение аномалий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
13.1.4 Онлайн (последовательное) обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
13.1.5 Взаимодействие с окружающей средой . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
13.1.6 Обучение под непосредственным наблюдением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .254
13.2 Обучение под наблюдением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
13.2.1 Польза \инструменты \ и убытки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
13.2.2 В чем подвох? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
13.2.3 Использование эмпирического распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
13.2.4 Байесовский подход к принятию решений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
13.2.5 Изучение низкоразмерных представлений в процессе обучения под наблюдением . . . . . . . . . . . . . . . . . 261
13.2.6 Функции и предварительная обработка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
13.3 Байесовские против эмпирических решения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
13.4 Представление данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
13.4.1 Категорический . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
13.4.2 Порядковый номер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
13.4.3 Численные показатели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
13.5 Проверка байесовской гипотезы для анализа результатов . . . . . . . . . . . . . . . . . . . . . . . 263
13.5.1 Анализ результатов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
13.5.2 Hdiff: правдоподобность модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
13.5.3 Hsame: правдоподобность модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
13.5.4 Анализ зависимых результатов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
13.5.5 Является ли классификатор A лучше, чем классификатор B? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
13.6 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
13.7 Примечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
13.8 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
14 Классификация ближайших соседей 273
14.1 Поступай Так, Как Поступает Твой Сосед . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
14.2 K-Ближайшие соседи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
14.3 Вероятностная интерпретация ближайших соседей . . . . . . . . . . . . . . . . . . . . . . 275
14.3.1 Когда ваш ближайший сосед находится далеко . . . . . . . . . . . . . . . . . . . . . . . . 277
14.4 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
14.4.1 Служебные процедуры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
14.4.2 Демонстрация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
14.5 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
XII ЧЕРНОВИК от 9 марта 2010 года
Содержание содержание
15 Неконтролируемое уменьшение линейных размеров 279
15.1 Многомерные пространства – многообразия низкой размерности . . . . . . . . . . . . . . . . . . . . 279
15.2 Анализ основных компонентов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
15.2.1 Получение оптимальной линейной реконструкции . . . . . . . . . . . . . . . . . . . . . . . . 280
15.2.2 Критерий максимальной дисперсии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
15.2.3 Алгоритм PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
15.2.4 СПС \РСА \ и ближайшие соседи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
15.2.5 Комментарии к СПС /РСА/. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
15.3 Высокого расширения данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
15.3.1 Собственное разложение для N < D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
15.3.2 PCA с помощью разложения по сингулярным значениям . . . . . . . . . . . . . . . . . . . . . . . . . . 286
15.4 Латентный семантический анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
15.4.1 LSA для поиска информации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
15.5 PCA С отсутствующими данными . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
15.5.1 Определение основных направлений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
15.5.2 Совместная фильтрация с использованием PCA при отсутствии данных . . . . . . . . . . . . . . . . . . 291
15.6 Методы матричной декомпозиции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
15.6.1 Вероятностный латентный семантический анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
15.6.2 Расширения и вариации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
15.6.3 Применение PLSA/NMF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
15.7 PCA ядра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
15.8 Канонический корреляционный анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
15.8.1 Формулировка SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
15.9 Примечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
15.10 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
15.11 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
16 Контролируемое уменьшение линейных размеров 303
16.1 Контролируемые линейные проекции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
16.2 Линейный дискриминант Фишера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
16.3 Канонические вариации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
16.3.1 Работа с нулевым пространством . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
16.4 Использование негауссовых распределений данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
16.5 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
16.6 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
17 Линейных моделей 311
17.1 Введение: Построение прямой линии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
17.2 Модели линейных параметров для регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
17.2.1 Векторные выходные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
17.2.2 Регуляризация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
17.2.3 Радиальные базисные функции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
17.3 Двойственное представление и ядра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
17.3.1 Регрессия в двойственном пространстве . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
17.3.2 Положительно определенные ядра (ковариационные функции) . . . . . . . . . . . . . . . . . . . . . 318
17.4 Модели линейных параметров для классификации . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
17.4.1 Логистическая регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
17.4.2 Обучение с максимальной вероятностью . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
17.4.3 Подъем по градиенту за пределами первого порядка . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
17.4.4 Как избежать излишне самоуверенной классификации . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
17.4.5 Несколько классов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
17.5 Основной трюк для классификации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
17.6 Вычисление опорных векторов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
17.6.1 Линейный классификатор максимальной маржи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
17.6.2 Использование ядер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
ПРОЕКТ от 9 марта 2010 г. XIII
СОДЕРЖАНИЕ содержание
17.6.3 Выполнение оптимизации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
17.6.4 Вероятностная интерпретация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
17.7 Плавная потеря "Ноль-один" для повышения надежности . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
17.8 Примечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
17.9 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
17.10 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
18 Байесиан линейных моделей 333
18.1 Регрессия с аддитивным Гауссовым шумом . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
18.1.1 Байесовские модели линейных параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
18.1.2 Определение гиперпараметров: ML-II . . . . . . . . . . . . . . . . . . . . . . . . . . 335
18.1.3 Изучение гиперпараметров с использованием ЕМ . . . . . . . . . . . . . . . . . . . . . . . . . 336
18.1.4 Оптимизация гиперпараметров: использование градиента . . . . . . . . . . . . . . . . . . . 337
18.1.5 Правдоподобность подтверждения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
18.1.6 Прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
18.1.7 Векторный анализ релевантности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
18.2 Классификация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
18.2.1 Оптимизация гиперпараметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
18.2.2 Аппроксимация Лапласа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
18.2.3 Составление прогнозов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
18.2.4 Векторный анализ релевантности для классификации . . . . . . . . . . . . . . . . . . . . . . . . 344
18.2.5 Многоклассовый случай . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
18.3 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
18.4 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
19 Гауссовы процессы 347
19.1 Непараметрическое прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
19.1.1 От параметрического к непараметрическому . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
19.1.2 От байесовских линейных моделей к гауссовым процессам . . . . . . . . . . . . . . . . . . . 348
19.1.3 Предварительная информация о функциях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
19.2 Прогнозирование гауссовского процесса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
19.2.1 Регрессия с зашумленными результатами обучения . . . . . . . . . . . . . . . . . . . . . . . . . . 350
19.3 Ковариационные функции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
19.3.1 Создание новых ковариационных функций на основе старых . . . . . . . . . . . . . . . . . . . . . . . . 352
19.3.2 Стационарные ковариационные функции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
19.3.3 Нестационарные ковариационные функции . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
19.4 Анализ ковариационных функций . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
19.4.1 Плавность выполнения функций . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
19.4.2 Ядра мерсера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
19.4.3 Анализ Фурье для стационарных ядер . . . . . . . . . . . . . . . . . . . . . . . . . . 358
19.5 Гауссовские процессы классификации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
19.5.1 Бинарная классификация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
19.5.2 Приближение Лапласа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
19.5.3 Оптимизация гиперпараметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
19.5.4 Несколько классов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
19.6 Дальнейшее чтение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
19.7 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
19.8 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
20 Модели микстур 365
20.1 Оценка плотности с использованием смесей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
20.2 Максимизация математических ожиданий для моделей смешивания . . . . . . . . . . . . . . . . . . . . . . . . . 366
20.2.1 Неограниченные дискретные таблицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
20.2.2 Смесь произведений распределений Бернулли . . . . . . . . . . . . . . . . . . . . . . 368
20.3 Модель гауссовой смеси . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
XIV ЧЕРНОВИК от 9 марта 2010 г.
СОДЕРЖАНИЕ содержание
20.3.1 Алгоритм ЭМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
20.3.2 Практические вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
20.3.3 Классификация с использованием моделей гауссовой смеси . . . . . . . . . . . . . . . . . . . . . . 373
20.3.4 Оценка Парцена . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
20.3.5 K-Означает . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
20.3.6 Байесовские смешанные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
20.3.7 Обучение под наблюдением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
20.4 Состав экспертов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
20.5 Модели индикаторов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
20.5.1 Подход к совместному показателю: предварительный анализ с учетом факторов . . . . . . . . . . . . . . . . . . . . . . . . 378
20.5.2 Подход к совместным показателям : приор Поля . . . . . . . . . . . . . . . . . . . . . . . . . . 378
20.6 Смешанные модели членства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
20.6.1 Скрытое распределение Дирихле . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
20.6.2 Представление данных на основе графиков . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
20.6.3 Двоичные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
20.6.4 Монадические данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
20.6.5 Клики и матрицы смежности для монадических двоичных данных . . . . . . . . . . . . . . . . 383
20.7 Дальнейшее чтение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
20.8 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
20.9 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
21 Скрытая линейная модель 389
21.1 Факторный анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
21.1.1 Поиск оптимального смещения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
21.2 Факторный анализ: Максимальная вероятность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
21.2.1 Прямая оптимизация вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
21.2.2 Максимизация ожиданий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
21.3 Интерлюдия: Моделирование лиц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
21.4 Вероятностный анализ основных компонентов . . . . . . . . . . . . . . . . . . . . . . . . . . 397
21.5 Канонический корреляционный анализ и факторный анализ . . . . . . . . . . . . . . . . . . . . . . 398
21.6 Независимый анализ компонентов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
21.7 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
21.8 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
22 Модели скрытых способностей 403
22.1 Модель Раша . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
22.1.1 Обучение с максимальной вероятностью . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
22.1.2 Байесовские модели Раша . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
22.2 Модели конкуренции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
22.2.1 Модель Брэдли-Терри-Люса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
22.2.2 Модель ранжирования Elo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
22.2.3 Гликко и TrueSkill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
22.3 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
22.4 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
IV Динамические модели 409
23 Марковские модели с дискретным состоянием 411
23.1 Марковские модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
23.1.1 Равновесное и стационарное распределение марковской цепи . . . . . . . . . . . . . . . 412
23.1.2 Подгонка марковских моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
23.1.3 Сочетание марковских моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
23.2 Скрытые марковские модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
23.2.1 Классические задачи логического вывода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
ПРОЕКТ от 9 марта 2010 г. XV
СОДЕРЖАНИЕ содержание
23.2.2 Фильтрация p(ht |v1:t ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
23.2.3 Параллельное сглаживание p(ht |v1:t ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
23.2.4 Сглаживание коррекции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
23.2.5 Наиболее вероятное совместное состояние . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
23.2.6 Самолокация и похищенные роботы . . . . . . . . . . . . . . . . . . . . . . . . . . 421
23.2.7 Модели естественного языка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
23.3 Обучение HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
23.3.1 Алгоритм ЕМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
23.3.2 Выброс смеси . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
23.3.3 НММ-GММ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
23.3.4 Дискриминационное обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
23.4 Связанные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
23.4.1 Явная модель продолжительности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
23.4.2 Ввод-вывод НММ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
23.4.3 Линейные цепные ОФД \CRF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
23.4.4 Динамические байесовские сети . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
23.5 Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
23.5.1 Отслеживание объектов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
23.5.2 Автоматическое распознавание речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
23.5.3 Биоинформатика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
23.5.4 Выделение фрагментов речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
23.6 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
23.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
24 Марковские модели с непрерывным состоянием 437
24.1 Наблюдаемые линейные динамические системы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
24.1.1 Стационарное распределение с шумом . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
24.2 Авторегрессивные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
24.2.1 Обучение модели дополненной реальности \AR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
24.2.2 Модель дополненной реальности как ОЛДС \OLDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
24.2.3 Изменяющаяся во времени модель дополненной реальности \AR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
24.3 Скрытые линейные динамические системы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
24.4 Логический вывод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
24.4.1 Фильтрация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
24.4.2 Сглаживание: метод коррекции Рауха-Тунга-Штрибеля . . . . . . . . . . . . . . . . . . 446
24.4.3 Правдоподобность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
24.4.4 Наиболее вероятное состояние . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
24.4.5 Независимость от времени и уравнения Риккати . . . . . . . . . . . . . . . . . . . . . . . . 448
24.5 Обучение линейных динамических систем . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
24.5.1 Проблемы с возможностью идентификации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
24.5.2 Алгоритм ЕМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
24.5.3 Методы подпространства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
24.5.4 Структурированные СПД\LDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
24.5.5 Байесовская СПДШ \LDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
24.6 Переключение авторегрессивных моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
24.6.1 Вывод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
24.6.2 Обучение с максимальной вероятностью с использованием EМ . . . . . . . . . . . . . . . . . . . . . . . . 453
24.7 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
24.7.1 Модели авторегрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
24.8 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
XVI ЧЕРНОВИК от 9 марта 2010 года
содержание содержаниe
25 Переключение линейных динамических систем 457
25.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
25.2 Переключение LDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
25.2.1 Точный вывод является трудноразрешимым с точки зрения вычислений . . . . . . . . . . . . . . . . . . . . . . 458
25.3 Фильтрация по гауссовой сумме . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
25.3.1 Непрерывная фильтрация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
25.3.2 Дискретная фильтрация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
25.3.3 Вероятность p(v1:t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
25.3.4 Коллапсирующие гауссовы уравнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
25.3.5 Связь с другими методами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
25.4 Сглаживание суммы по Гауссу . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
25.4.1 Непрерывное сглаживание . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
25.4.2 Дискретное сглаживание . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
25.4.3 Измельчение смеси . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
25.4.4 Использование смесей для выравнивания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
25.4.5 Связь с другими методами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
25.5 Сброс моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
25.5.1 Модель пуассоновского сброса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
25.5.2 HMM-сброс настроек . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
25.6 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
25.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
26 Распределенные вычисления 475
26.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
26.2 Стохастические сети Хопфилда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
26.3 Последовательность обучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
26.3.1 Единая последовательность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
26.3.2 Множественные последовательности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
26.3.3 Логические сети . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
26.3.4 Устранение неоднозначности последовательности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
26.4 Управляемые модели непрерывных скрытых переменных . . . . . . . . . . . . . . . . . . . . . . . . . . 482
26.4.1 Детерминированные скрытые переменные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
26.4.2 Расширенная сеть Хопфилда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
26.5 Нейронные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
26.5.1 Стохастически активируемые нейроны . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
26.5.2 Мембранный потенциал Хопфилда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
26.5.3 Динамические синапсы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
26.5.4 Модели негерметичной интеграции и возгорания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
26.6 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
26.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
V Приблизительный логический вывод 489
27 Отбор проб 491
27.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
27.1.1 Одномерная выборка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492
27.1.2 Многовариантная выборка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493
27.2 Выборка предков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
27.2.1 Работа с доказательствами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
27.2.2 Идеальная выборка для сети Маркова . . . . . . . . . . . . . . . . . . . . . . . . . 495
27.3 Отбор проб по Гиббсу . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
27.3.1 Выборка Гиббса в виде цепи Маркова . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
27.3.2 Структурированная выборка Гиббса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
27.3.3 Замечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
ПРОЕКТ от 9 марта 2010 г. XVII
СОДЕРЖАНИЕ содержание
27.4 Цепь Маркова Монте-Карло (MCMC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
27.4.1 Цепи Маркова . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
27.4.2 Отбор проб в Метрополии-Гастингсе . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
27.5 Методы определения вспомогательных переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
27.5.1 Гибридный Монте-Карло . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502
27.5.2 Свендсон-Ванг . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
27.5.3 Отбор проб срезов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
27.6 Выборка по важности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
27.6.1 Последовательная выборка по важности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508
27.6.2 Фильтрация частиц в качестве приблизительного прямого прохода . . . . . . . . . . . . . . . . . . . . 509
27.7 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
27.8 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
28 Детерминированный приблизительный логический вывод 515
28.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
28.2 Приближение Лапласа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
28.3 Свойства вариационного вывода Кульбака-Лейблера . . . . . . . . . . . . . . . . . . . . . . 516
28.3.1 Ограничение константы нормализации . . . . . . . . . . . . . . . . . . . . . . . . . . . 516
28.3.2 Ограничение предельной вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
28.3.3 Гауссовы аппроксимации с использованием KL-дивергенции . . . . . . . . . . . . . . . . . . . . . 517
28.3.4 Свойства согласования моментов при минимизации KL(p|q) . . . . . . . . . . . . . . . . . . 518
28.4 Вариационное ограничение с использованием KL(q|p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
28.4.1 Попарное марковское случайное поле . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
28.4.2 Общие уравнения среднего поля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
28.4.3 Асинхронное обновление гарантирует улучшение аппроксимации . . . . . . . . . . . 522
28.4.4 Неразрешимая энергетическая проблема . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
28.4.5 Структурированная вариационная аппроксимация . . . . . . . . . . . . . . . . . . . . . . . . . . . 524
28.5 Максимизация взаимной информации: Вариационный подход KL . . . . . . . . . . . . . . . 524
28.5.1 Алгоритм максимизации информации . . . . . . . . . . . . . . . . . . . . . . . . 525
28.5.2 Линейный гауссовский декодер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
28.6 Зацикленное распространение убеждений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
28.6.1 Классическая БП на неориентированном графе . . . . . . . . . . . . . . . . . . . . . . . . . . . 527
28.6.2 Циклическое повышение АД как вариационная процедура . . . . . . . . . . . . . . . . . . . . . . . . . . . 527
28.7 Распространение ожиданий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
28.8 КАРТА для MRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533
28.8.1 Назначение КАРТЫ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533
28.8.2 Привлекательные бинарные MRFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
28.8.3 Модель Поттса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536
28.9 Для дальнейшего чтения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538
28.10 Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538
28.11 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538
А Основы математики 543
A.1 Линейная алгебра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
A.1.1 Векторная алгебра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
A.1.2 Скалярное произведение как проекция . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544
A.1.3 линии в пространстве . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544
A.1.4 Плоскости и гиперплоскости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
A.1.5 Матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
A.1.6 Линейных преобразований . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546
A.1.7 Определяющих факторов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
A.1.8 Инверсия матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
A.1.9 Вычисление обратной матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
A.1.10 Собственных значений и векторов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
A.1.11 матричных разложений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550
XVIII ЧЕРНОВИК от 9 марта 2010 г.
СОДЕРЖАНИЕ содержание
A.2 Матричные тождества . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
A.3 Многомерное исчисление . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
A.3.1 Интерпретация вектора градиента . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
A.3.2 Высшие производные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
A.3.Правило цепочки из 3 пунктов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553
A.3.4 Матричное исчисление . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553
A.4 Неравенство . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
A.4.1 Выпуклость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
A.4.2 Неравенство Дженсена . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
A.5 Оптимизация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555
A.5.1 Критические точки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555
A.6 Градиентный спуск . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555
A.6.1 Градиентный спуск с фиксированным размером шага . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
A.6.2 Градиентный спуск с импульсом . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
A.6.3 Градиентный спуск с линейным поиском . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557
A.6.4 Точное условие поиска строки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557
A.7 Многомерная минимизация: квадратичные функции . . . . . . . . . . . . . . . . . . . . . . . . . 557
A.7.1 Минимизация квадратичных функций с помощью линейного поиска . . . . . . . . . . . . . . . . . . . . 557
A.7.2 Построение сопряженных векторов по Граму-Шмидту . . . . . . . . . . . . . . . . . . . . 558
A.7.3 Алгоритм сопряженных векторов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559
A.7.4 Алгоритм сопряженных градиентов . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560
A.7.5 Метод Ньютона . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561
A.7.6 Квазиньютоновских методов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561
A.7. Ограниченная оптимизация с использованием множителей Лагранжа . . . . . . . . . . . . . . . . . . . . . . 562
ПРОЕКТ от 9 марта 2010 г. XIX
СОДЕРЖАНИЕ содержание
XX
ЧЕРНОВИК от 9 марта 2010 г.
Часть I
Логический вывод в вероятностных моделях
1
ГЛАВА 1
Вероятностные рассуждения
1.1 Обзор теории вероятностей
Переменные, состояния и краткие обозначения
Переменные будут обозначаться либо прописными буквами X, либо строчными x, а набор переменных обычно будет обозначаться каллиграфическим символом, например, ; = {a, B, c}.
Область действия переменной x записывается как dom(x) и обозначает состояния, которые может принимать x. Состояния обычно отображаются шрифтом без засечек. Например, для монеты c мы могли бы использовать dom(c) = {орел, решка} и p(c = heads) представляет вероятность того, что переменная c находится в состоянии heads.

Значение p(состояние) часто бывает ясным без конкретной ссылки на переменную. Например, если мы обсуждаем эксперимент с монетой c, значение p (орел \хеад, голова) ясно из контекста, поскольку P — сокращение от p(c = орел). При суммировании (или выполнении какой- либо другой операции) над переменной ;x f (x) интерпретация заключается в том, что включаются все состояния x, т.е.
Для наших целей события - это выражения о случайных величинах, таких как два орла при 6 подбрасываниях монеты. Два события являются взаимоисключающими, если они не могут произойти одновременно. Например, события Монета выпадает орлом, а монета выпадает решкой\тейл, хвост\ являются взаимоисключающими. Можно подумать об определении новой переменной, названной событием, чтобы, например, p(Монета - решка) можно было интерпретировать как p(Монета - решка = истина). Мы используем p(x = tr) для определения вероятности того, что событие/переменная x находится в состоянии true, и p(x = fa) для определения вероятности того, что событие/переменная x находится в состоянии false.
Правила вероятности
Определение 1 (Правила вероятности (дискретные переменные)).
Вероятность наступления события x представлена значением от 0 до 1.
p(x) = 1 означает, что мы уверены в том, что событие действительно произойдет.
И наоборот, p(x) = 0 означает, что мы уверены в том, что событие не произойдет.
Сумма вероятностей по всем состояниям равна 1:
;xp(x = x) = 1 (1.1.1)
3 Обновление вероятности
Такие вероятности являются нормализованными. Обычно нам удобнее записывать
;xp(x ) = 1.
Два события x и y могут взаимодействовать через
p(x или y) = p(x) + p(y) ; p(x и y). (1.1.2)
Мы будем использовать сокращение p(x, y) для обозначения p(x и y). Обратите внимание, что p(y, x) = p(x, y) и p(x или y) = p(y или x).
Определение 2 (Набор обозначений). Альтернативным обозначением в терминах теории множеств является запись
p(x или y) ; p(x Uy), p(x, y) ; p(x ; y) (1.1.3)
Определение 3 (маргиналы). При заданном совместном распределении p(x, y) распределение одной переменной определяется как
p(x) = ;yp(x, y) (1.1.4)
Здесь p(x) называется предельным значением \ маргинал \ совместного распределения вероятностей p(x, y). Процесс вычисления предельного значения на основе совместного распределения называется маргинализацией. В более общем случае можно иметь
Важным определением, которое будет играть центральную роль в этой книге, является условная вероятность.
Определение 4 (Условная вероятность / правило Байеса). Вероятность события x, обусловленная знанием события y (или, короче, вероятность x при заданном ), определяется как
Если p(y) = 0, то значение p(x|y) не определено.
Функции плотности вероятности
Определение 5 (Функции плотности вероятности). Для одной непрерывной переменной x плотность вероятности p(x) определяется таким образом, что

4 ПРОЕКТ от 9 марта 2010 г. Вероятность обновления
В качестве сокращения мы иногда записываем ;x=a bp(x), особенно когда хотим, чтобы выражение было корректным как для непрерывных, так и для дискретных переменных. Многомерный случай аналогичен интегрированию по всему реальному пространству, и вероятность того, что x принадлежит области пространства, определяется соответствующим образом.
Для непрерывных переменных, формально говоря, события определяются для переменной, происходящей в пределах определенной области, например
здесь f (x) - функция плотности вероятности (pdf) непрерывной случайной величины x. В отличие от вероятностей, плотности вероятности могут принимать положительные значения, превышающие 1.
Формально говоря, для непрерывной переменной не следует говорить о вероятности того, что x = 0,2, поскольку вероятность единичного значения всегда равна нулю. Однако мы часто будем писать p(x) для непрерывных переменных, таким образом, не проводится различие между значениями вероятностей и функции плотности вероятности. Хотя это может
Если это покажется странным, нервный читатель может просто заменить наше обозначение p(X = x) на ;x; ;f (x)dx, где ; - небольшая область с центром в x. Это хорошо определено в вероятностном смысле, и, поскольку предел ; очень мал, это дало бы приблизительно ;f (x). Если мы будем последовательно использовать одно и то же ; для всех случаев использования pdf-функций, то у нас просто будет общий префактор ; во всех выражениях. Наша стратегия заключается в том, чтобы просто игнорировать эти значения (поскольку в конечном итоге будут иметь значение только относительные вероятности) и запишем p(x). Таким образом, все стандартные правила определения вероятности сохраняются, включая правило Байеса.
Интерпретация условной вероятности
Представьте круглую доску для игры в дартс, разделенную на 20 равных частей, обозначенных от 1 до 20, и Рэнди, метателя дротиков, который случайным образом попадает в любую из 20 частей. Отсюда вероятность того, что если дротик, брошенный Рэнди встречается в любом из 20 регионов, то p(регион i) = 1/20. Друг Рэнди говорит ему, что он не попал в 20-ю область. Какова вероятность того, что Рэнди попал в 5-ю область? Исходя из этой информации, остаются возможными только области с 1 по 19, и, поскольку Рэнди не предпочитает попадать ни в одну из этих областей, вероятность составляет 1/19. Обусловленность означает, что определенные состояния теперь недоступны, и первоначальная вероятность впоследствии распределяется по оставшимся доступным состояниям. Из правил вероятности :

p(область 5|не область 20) =
p(область 5, а не область 20)
p(область 5)
p(не область 20)
p(не область 20)
получаем интуитивно понятный результат. В приведенном выше примере p(область 5, а не область 20) = p(область {5 ; 1 ; 2;, . . . , ;19}) = p(область 5).
Важно уточнить, что p(A = a|B = b) не следует интерпретировать как "Учитывая, что событие B = b произошло, p(A = a|B = b) - это вероятность того, что событие A = a произойдет’. В большинстве контекстов такая явная временная причинно-следственная связь1 не подразумевается, и правильная интерпретация должна быть такой: "p(A = a|B = b) — это вероятность нахождения A в состоянии a при условии, что B находится в состоянии b’. Соотношение между условным p(A = a|B = b) и совместным p(A = a, BP = b) является просто константой нормализации, поскольку p(A = a, B = b) не является распределением в A – InP, другими словами, ;a p(A = a, B = b) ; 1. Чтобы получить это распределение, нам нужно разделить: p (A = a, B = b) / ;a p(A = a, B = b), что при суммировании с a дает в сумме 1. Действительно, это всего лишь определение p (A = a|B = b).
1 Мы обсудим вопросы, связанные с причинно-следственной связью, далее в разделе (3.4).
ПРОЕКТ от 9 марта 2010 г.
5. Обновление Вероятности

Определение 6 (Независимость).
События x и y независимы, если знание об одном событии не дает дополнительной информации о другом событии. Математически это выражается через
p(x, y) = p(x)p(y) (1.1.11)
При условии, что p(x) ; 0 и p(y) ;0 независимость x и y эквивалентна
p(x|y) = p(x) ; p(y|x) = p(y) (1.1.12)
Если p(x|y) = p(x) для всех состояний x и y, то переменные x и y считаются независимыми. Если
p(x, y) = kf (x)g(y) (1.1.13)
то при некоторой константе k и положительных функциях f (·) и g(·) , - x и y независимы.
Детерминированные зависимости
Иногда концепция независимости может показаться немного странной. Рассмотрим следующее: переменные x и y являются двоичными (их области состоят из двух состояний). Мы определяем распределение таким образом, что x и y всегда находятся в определенном совместном состоянии:
p(x = a, y = 1) = 1
p(x = a, y = 2) = 0
p(x = b, y = 2) = 0
p(x = b, y = 1) = 0
Зависят ли x и y друг от друга? Читатель может показать, что p(x = a) = 1, p(x = b) = 0 и p(y = 1) = 1, p(y = 2) = 0. Следовательно, p(x)p(y) = p(x, y) для всех состояний из x и y, и, следовательно, x и y независимы. Это может показаться странным – мы точно знаем связь между x и y, а именно, что они всегда находятся в одном и том же совместном состоянии, но при этом независимы. Поскольку распределение тривиально сосредоточено в одном совместное состояние, знание состояния x не говорит вам ничего такого, чего бы вы в любом случае не знали о состоянии y, и наоборот.
Эта потенциальная путаница возникает из-за использования термина "независимый", который в переводе с английского означает, что между обсуждаемыми объектами нет влияния или взаимосвязи. Лучший способ представить себе статистическую независимость состоит в том, чтобы спросить, говорит ли вам знание состояния переменной y о чем-то большем, чем вы знали раньше о переменной x, где "знали раньше" означает работу с совместным распределением p(x, y), чтобы выяснить, что мы можем знать о x, а именно о p(x).
1.1.1 Таблицы вероятностей
Исходя из численности населения 60776238, 5116900 и 2980700 человек в Англии (E), Шотландии (S) и Уэльсе (W), априорная вероятность того, что случайно выбранный человек из этих трех стран будет жить в Англии, Шотландии или Уэльсе, составит приблизительно 0,88, 0,08 и 0,04 соответственно. Мы можем записать это в виде вектора (или таблицы вероятностей) :
значения компонентов которого в сумме равны 1. Порядок расположения компонентов в этом векторе является произвольным, если он применяется последовательно.
6 ЧЕРНОВИК от 9 марта 2010 г. Обновление возможностей
Для простоты давайте предположим, что существуют только три родных языка: английский (Eng), шотландский (Scot) и валлийский (Wel), с условной вероятностью, учитывая страну проживания, Англию Шотландия (S) и Уэльс (W). Мы пишем (фиктивную) таблицу условных вероятностей
P(Cnt, Mt ) = p(Mt |Cnt)p (Cnt). Это можно записать как матрицу 3x3, в которой (скажем) строки проиндексированы по стране, а столбцы - по родному языку:
Совместное распределение содержит всю информацию о модели этой среды. Суммируя a в этой таблице, мы получаем предельное значение p(Cnt). Суммирование по строке дает предельное значение p (Mt ). Аналогично, из этого совместного распределения можно легко вывести p (Cnt|Mt ) ; p(Cnt|Mt )p (MT ).
Для совместных распределений очень большего числа переменных xi, i = 1,. .. , D, причем каждая переменная xi принимает Ki состояний, таблица, описывающая это совместное распределение,- матрица;Di=1 Ki записей. Поэтому для явных таблиц хранения требуется экспоненциальное пространство по количеству переменных, которое быстро становится непрактичным для большого числа переменных.
Распределение вероятностей назначает значения для совместного состояния переменных. По этой причине, p(T, J, R, S) считается эквивалентным p(J, S, R, T) (или любому подобному изменению порядка переменных), поскольку в каждом из этих случаев переменным присваивается другой индекс. Эта ситуация более понятна в теоретической записи набора p (J ; S ; T ; R). Мы сокращаем это обозначение теоретической записи набора запятыми — однако следует быть осторожными использовать это обозначение типа индексов для функции f (x, y) , которая обычно зависит от порядка переменной. В то время как переменные слева от строки настройки могут быть записаны в любом порядке, и в равной степени переменные, расположенные справа от строки настройки, могут быть записаны в любом порядке, перемещение переменных по строке обычно не эквивалентно, так что p(x1 |x2 ) ; p (x2 |x1 ).
1.1.2 Интерпретация условной вероятности
Совместно с правилами вероятности, условная вероятность позволяет рассуждать рациональным, логичным и последовательным образом. Можно утверждать, что большая часть науки имеет дело с проблемами вида: скажите мне что-либо о параметрах ;, что дают те D данные наблюдений, что я наблюдаю, и должны некоторые знания о подлежащем механизме генерирования данных. С точки зрения моделирования , это требует
Это показывает, как в лоб порождающая модель p(D/;) набора данных и связав с априорным уверованием \уверениями p(;) о том, какие значения параметров являются подходящими, мы можем сделать вывод по апостериорному распределению p(;|D) наблюдаемых данных.
Такое использование генеративной модели хорошо согласуется с физическими моделями мира, которые обычно постулируют, как генерировать наблюдаемые явления, предполагая, что мы знаем правильные параметры модели. Например, как сгенерировать временной ряд перемещений для неизвестных массы, длины и коэффициента демпфирования у качающегося маятника. Используя эту обобщающую модель и учитывая только перемещения, мы могли бы определить неизвестные физические свойства маятника, такие как его масса, длина и коэффициент демпфирования трения.
9 сентября 2010 г. 7 Пробативные рассуждения
Субъективная вероятность
Вероятность обширная тема, мы не хотим увязать в дебатах здесь, кроме того, что не необходимо, спорными являются не столько аксиомы вероятности, которые противоречивы, сколько то, какую интерпретацию мы должны им дать. В некоторых случаях можно предположить потенциальное повторение эксперимента, что имеет смысл использовать "долгосрочное" (или частотное) определение вероятности, в котором вероятности определяются относительно потенциально бесконечного повторения "экспериментов". Например, при подбрасывании монеты вероятность может быть интерпретирована как "если бы я повторил эксперимент с подбрасыванием монеты ("случайным образом"),, предел количества выпадений "орла" по сравнению с количеством бросков определяется как вероятность выпадения "орла".

Вот еще одна проблема, типичная для сценариев, с которыми можно столкнуться в ситуации машинного обучения. Кино энтузиаст присоединяется к новому онлайн-сервису для просмотра фильмов. Основываясь на некоторых фильмах пользовательских лайков «нравится» и "не нравится", онлайн-компания пытается оценить вероятность того, что пользователю понравится каждый из 10000 фильмов в их базе данных. Если бы мы определили вероятность как предельный случай бесконечного повторения одного и того же эксперимента, в данном случае это не имело бы особого смысла, поскольку мы не можем повторить эксперимент. Однако, если мы предположим, что пользователь ведет себя так же, как и другие пользователи, мы должны иметь возможность использовать данные из рейтингов других пользователей, чтобы сделать разумное "предположение" о том, что этот пользователь делает. Этот градус уверований\ доверий\ или Байесовская субъективная интерпретация вероятностных проблем не повторяемых выводов - это просто последовательная структура для манипулирования реальными значениями согласно нашей интуицией о вероятности[145].
1.2 Вероятностные рассуждения
Аксиомы вероятности в сочетании с правилом Байеса создают целостную систему рассуждений, которая включает традиционную дедуктивную логику как частный случай[145].
Отметка 1. Возьмем центральную парадигму вероятностных рассуждений для определения всех подходящих пременных x1 , ... , xN и построим вероятностную модель p(x1,... , xN) их взаимодействия. Затем выполняется рассуждение (логический вывод) путем введения свидетельства2, которое устанавливает переменные в известных состояниях, и последовательно вычисления интересующих вероятностей, обусловленных этим свидетельством.
Пример 1 (Еда \Гамбергеры). Рассмотрим следующую вымышленную научную информацию: Доктора нашли, что человек с болезнью Кройцфельда-Якоба (KJ) почти всегда ел гамбургеры, таким образом, p (любитель гамбургеров|KJ) = 0,9. Вероятность того, что у человека будет KJ, в настоящее время довольно низкая, примерно один к 100 000.
1. Предположим есть блюда с гамбургерами довольно предостаточно, скажем P (любитель гамбургеров) = 0,5 , какова вероятность что поедатель гамбургеров имеет болезнь Кройцфельда-Якоба?
Это может быть
p (КДЖ |Потребитель гамбургеров) = p (Потребитель бургеров, КДЖ )
P (Потребитель гамбургеров |КДЖ )p (КДЖ)
=
p (Потребитель гамбургеров)
п (Любитель гамбургеров)

2. Если доля людей, употребляющих гамбургеры, была довольно мала, p (любитель гамбургеров) = 0,001, какова вероятность того, что обычный любитель гамбургеров заболеет болезнью Кройцфельда-Якоба? Повторяя приведенный выше расчет, получаем, что это значение равно
ЧЕРНОВИК от 9 марта 2010 г. Вероятностные рассуждения
Интуитивно это намного выше, чем в сценарии (1), поскольку здесь мы можем быть более уверены в том, что употребление гамбургеров связано с заболеванием. В данном случае только небольшое количество людей в популяции едят гамбургеры, и большинство из них заболевают.
Пример 2 (инспектор Клюзо). Инспектор Клюзо прибывает на место преступления. Жертва лежит мертвая в комнате, и инспектор быстро находит орудие убийства - нож (К). Дворецкий (В) и Горничные (М ) - его главные подозреваемые. У инспектора есть предварительная уверенность в 0,8, что убийца — дворецкий, и предварительная уверенность в 0,2, что убийца - горничная. Эти вероятности независимы в том смысле , что p(B, M) = p(B)p(M). (Возможно, что и дворецкий, и горничная убили жертву или ни то, ни другое). Предварительные знания инспектора о преступлениях можно сформулировать математически следующим образом:
dom(B) = dom(M) = {убийца, не убивавший} , dom(K) = {использованный нож, но не использованный}
p(использованный нож|B = не убийца,
p(использованный нож|B = убийца,
М = не убийца)
М = убийца)
Какова вероятность того, что дворецкий является убийцей? (Помните, что, возможно, ни тот, ни другой не являются убийцами). Используя b для двух состояний B и m для двух состояний
подставляя значения, мы получаем
p(B = убийца|использованный нож) = 8
Роль p(используемый нож) в примере с инспектором Клузо может вызвать некоторую путаницу. В приведенном выше примере,
вычисляется равным 0,456. Но, конечно, p (используемый нож) = 1, поскольку это указано в вопросе! Обратите внимание, что величина p (использованный нож) относится к априорной вероятности, которую модель присваивает используемому ножу (при отсутствии какой-либо другой информации). Если мы знаем, что нож использовался, то следующая величина

p(использованный нож, использованный нож)
p(использованный нож)
что, естественно, и должно было иметь место.
Другой потенциальной путаницей является выбор
p(B = убийца) = 0,8,
это означает, что p(B = не убийца) = 0,2, p(M = не убийца) = 0,8. Эти события не являются исключительными , и то, что числовые значения выбраны таким образом, - просто "совпадение". Например, мы могли бы также
выбрать
p(B = убийца) = 0,6,
что означает, что p(B = не убийца) = 0,4, p(M = не убийца) = 0,1
ПРОЕКТ от 9 марта 2010 г. 9 Априори, вероятность и последующий результат
1.3Априори, правдоподобность и последующий результат
Предшествующие, правдоподобные и апостериорные значения - это все вероятности. Им присвоены такие названия из-за их роли в правиле Байеса, описанном ниже.
Определение 7. Априорная правдоподобность и апостериор
Для данных D и переменной ; правило Байеса подсказывает нам, как изменить наши предыдущие представления о переменной ; в свете данных на апостериорное представление \уверение:
правдоподобность предшествующей
последующей свидетельство
Свидетельства также называются предельной \выделенной\ правдоподобностью .
Термин "правдоподобие " используется для обозначения вероятности того, что модель генерирует наблюдаемые данные. Более подробно, если мы определим модель M , мы получим
где мы видим роль правдоподобности p(D|;, M ) и предельной правдоподобности p(D|M ).
Предельная правдоподобность также называется правдоподобностью модели.

Наиболее вероятной апостериорной настройкой (MAP ) является та, которая максимизирует апостериорное значение ;;=argmax ; p(;|D, M ).

Правило Байеса подсказывает нам’ как обновить наши предварительные знания с помощью механизма генерации данных. Предыдущее распределение p(;) описывает информацию, которую мы имеем о переменной до того, как увидим какие-либо данные. После получения данных D мы обновляем предыдущее распределение до последующего \постериор p(;|D) ; p(D|;)p(;).
1.3.1 Два кубика: каковы были индивидуальные результаты?
Брошены два честных кубика. Кто-то говорит вам, что сумма двух набранных очков равна 9. Каково распределение вероятности того, что два кубика наберут результат3?
Оценка по шкале a обозначается sa с помощью dom(sa ) = {1, 2, 3, 4, 5, 6} и аналогично для sb. В этом случае используются три переменные: sa , sb и общий балл, t = sa + sb . Модель этих трех переменных, естественно, имеет вид
предварительный
Предыдущее значение p(sa , sb ) - это общая вероятность получения оценки sa и набираем sb, не зная ничего другого. Предполагая отсутствие зависимости в механизме вращения,
p(sa , sb ) = p(sa )p(sb ) (1.3.3)
Поскольку жребий выпал честный, то и p(sa ), и p(sb ) являются одинаковыми распределениями, p(sa =s ) = 1/6.
3 Этот пример - заслуга Тайлана Джемгиля.
ЧЕРНОВИК от 9 марта 2010 г. Дополнительные проработанные примеры
Здесь правдоподобный член равен
p(t|sa , sb ) = I [t = sa + sb ] (1.3.4)
в котором указано, что общий балл определяется по формуле sa + sb . Здесь I [x = y] - это индикаторная функция, определенная как I [x = y] = 1, если x = y, и 0 в противном случае.
Следовательно, наша полная модель такова:
p(t, sa , sb ) = p(t|sa , sb )p(sa )p(sb ) (1.3.5)
где термины справа четко определены.
Тогда наш интерес можно получить, используя правило Байеса,
p(sa , sb |t = 9) = p (t = 9|sa , sb )p(sa )p(sb ) /p(t = 9) (1.3.6)
где

Член p(t = 9) = ;sa , sb p(t = 9|sa , sb )p(sa )p(sb ) = 4 ; 1/36 = 1/9. Следовательно, апостериорная часть задается как равная масса только у 4 ненулевых элементов, как показано на рисунке.
1.4 Дополнительные примеры работы
Пример 3 (Кто в ванной?). Рассмотрим семью из трех человек: Элис, Боба и Сесила. Сесил хочет пойти в ванную, но обнаруживает, что там кто-то есть. Затем он идет в комнату Алисы и видит, что она там. Поскольку Сесил знает, что в ванной комнате могут быть только Алиса или Боб, из этого он делает вывод, что Боб, должно быть, в ванной.
Чтобы прийти к такому же выводу в математической форме, давайте определим следующие события
А = Алиса находится в своей спальне,
Б = Боб находится в своей спальне,
О = Ванная занята
(1.4.1)
Мы можем закодировать информацию о том, что если Элис или Боба нет в своих спальнях, то они должны быть в ванной (они оба могут быть в ванной) как
p(O = tr|A = fa, B) = 1,
p(O = tr|A, B = fa) = 1
(1.4.2)
Первое слагаемое выражает, что ванная комната занята, если Элис нет в своей спальне, где бы ни находился Боб. Аналогично, второе слагаемое выражает занятость ванной комнаты до тех пор, пока Боба нет в своей спальне. Тогда
где
ЧЕРНОВИК от 9 марта 2010 г. Ещё проработанных примеров 11
Используя факт p(O = tr|A = tr, B = fa) = 1 и p(O = tr|A = tr, B = tr) = 0, который кодирует, что если Алиса в своей комнате, а Боб - нет, ванная должна быть занята, и аналогично, если и Алиса, и Боб находятся в своих комнатах, ванная не может быть занята,
Этот пример интересен тем, что в данном случае от нас не требуется создавать полную вероятностную модель из-за ограничивающего характера вероятностей (нам не нужно указывать p(A, B)). Такая ситуация характерна для ситуаций, когда вероятности равны 0 или 1, что соответствует традиционным логическим системам.
Пример 4 (Аристотель: Разрешение). Мы можем представить утверждение "Все яблоки - это фрукты" через p(F = tr|A = tr) = 1. Аналогично, "Все плоды растут на деревьях" может быть представлено как p(T = tr|F = tr) = 1. Дополнительно мы предполагаем, что то, растет что-то на дереве или нет, зависит только от того, является ли это плодом, p(T |A, F ) = P (T |F). Исходя из этого, мы можем вычислить
Другими словами, мы пришли к выводу, что "все яблоки растут на деревьях" - это истинное утверждение, основанное на представленной информации. (Такого рода рассуждения называются разрешением и являются формой транзитивности : из утверждений A ; F и F ; T, мы можем вывести A ; T).
Пример 5 (Аристотель: Обратный способ определения). Согласно логике, из утверждения: "Если A истинно, то B истинно", можно сделать вывод, что "если B ложно, то A ложно". Давайте посмотрим, как это согласуется с вероятностной системой рассуждений. Мы можем выразить утверждение: "Если A истинно, то и B истинно" как p(B = tr|A = tr) = 1. Тогда мы можем сделать вывод, что
Это следует из того, что p(B = fa|A = tr) = 1 ; p(B = tr|A = tr) = 1 ; 1 = 0, что исключает второй член.
Оба приведенных выше примера являются интуитивными выражениями дедуктивной логики. Таким образом, стандартные правила аристотелевской логики рассматриваются как ограниченные случаи вероятностных рассуждений.
Пример 6 (логический элемент Soft XOR \программный исключающее или).
Стандартный логический элемент XOR приведен в таблице справа. Если мы заметим, что выходные данные элемента XOR равны 0, что мы можем сказать о A и B? В этом случае либо A и B были равны 0, либо A и B были равны 1. Это означает, что мы не знаем, в каком состоянии находился A – это может быть с равной вероятностью могло быть 1 или 0.

A исключающий или B
12 ЧЕРНОВИК от 9 марта 2010 г. Дополнительные проработанные примеры
Рассмотрим "мягкую" версию логического вывода XOR, приведенную справа, с дополнительным значением p(A = 1) = 0,65, p(B = 1) = 0,77. Что такое p(A = 1|C = 0)?
Тогда
Пример 7 (Ларри). Ларри обычно опаздывает в школу. Если Ларри опаздывает, мы обозначаем это через L = late\ опаздывает, в противном случае L = not late\ не опаздывает. Когда его мать спрашивает, опаздывал ли он в школу, он никогда не признается, что опаздывал. Ответ, который Ларри дает RL, представлен следующим образом
p(RL = не поздно|L = не поздно) = 1,
Оставшиеся два значения определяются путем нормализации и равны
p(RL = не поздно|L = поздно) = 1
Учитывая, что RL = не опоздал, какова вероятность того, что Ларри опоздал, т.е. p (L = опоздал|RL = не опоздал)?
Используя байесовское уравнение, получаем

p (L = опоздал, RL = не опоздал).
p(RL = не опаздывает)

В приведенном выше
p(L = поздно, RL = не поздно) = p(RL = не поздно|L = поздно) p(L = поздно)
(L = не опаздывает, RL = не опаздывает) = p(RL = не опаздывает|L = не опаздывает) p(L = не опаздывает)
и
Следовательно
p(L = поздно|RL = не поздно) =
ПРОЕКТ от 9 марта 2010 г. 13 Других проработанных примеров
Где мы использовали нормализацию на последнем шаге, p(L = поздно) + p(L = не поздно) = 1. Этот результат интуитивно понятен – Мать Ларри знает, что он никогда не признается в том, что опаздывает, поэтому ее мнение о том, действительно ли он опаздывал, остается неизменным, независимо от того, что на самом деле говорит Ларри.
Пример 8 (Ларри и Сью). Продолжая приведенный выше пример, сестра Ларри Сью всегда говорит своей матери правду о том, опаздывал Ларри в школу или нет.
p(RS = не поздно|L = не поздно) = 1,
Остальные два значения определяются путем нормализации и равны
p(RS = поздно|L = не поздно) = 0,
Мы также предполагаем, что p(RS , RL |L) = p(RS |L)p(RL |L). Тогда мы можем записать
Учитывая, что RS = поздно, какова вероятность того, что Ларри опоздал?
Используя правило Байеса, мы имеем
p(L = поздно|RL = не поздно, RS = поздно) =
, где нормализация Z задается
p(RS = поздно|L = поздно)p(RL = не поздно|L = поздно)p(L = поздно)
+ p(RS = поздно|L = не поздно)p(RL = не поздно|L = не поздно)p(L = не поздно)
Следовательно
, p(L = поздно|RL = не поздно, RS = поздно) =
Этот результат также интуитивно понятен, поскольку мать Ларри знает, что Сью всегда говорит правду, несмотря ни на что Ларри говорит, что она знает, что он опоздал.
Пример 9 (Люк). Люку сказали, что ему повезло и он выиграл приз в лотерею. Всего доступно 5 ценных призов ;10, ;100, ;1000, ;10000, ;1000000. Предварительные вероятности выигрыша этих 5 призов равны p1, p2, p3, p4, p5, причем p0 - это предварительная вероятность того, что я не выиграю приз. Люк нетерпеливо спрашивает: "Я выиграл ;1000000?!’. ‘Боюсь, что нет, сэр", - таков ответ телефонного оператора лотереи. "Я выиграл 10000 фунтов стерлингов?" — спрашивает Люк. "И снова, боюсь, что нет, сэр". Какова вероятность того, что Люк выиграл 1000 фунтов стерлингов?"
Сначала отметим, что p0 + p1 + p2 + p3 + p4 + p5 = 1. Обозначим W = 1 для первого приза в размере 10 фунтов стерлингов, W = 2, ... , 5 для остальных призов и W = 0 для отсутствия приза. Нам нужно вычислить выражение
14 ПРОЕКТ от 9 марта 2010 года Код
, в котором слагаемое в знаменателе вычисляется с учетом того факта, что события W являются взаимоисключающими (можно выиграть только один приз). Этот результат имеет интуитивный смысл: как только мы уберем невозможное в случае W вероятность того, что Люк выиграет приз, пропорциональна предшествующей вероятности этого приза, при этом нормализация представляет собой просто общий набор оставшихся возможных вероятностей.
1.5 Код
Код BRMLtoolbox, прилагаемый к этой книге, предназначен для того, чтобы дать читателю некоторое представление о представлении таблиц дискретных вероятностей и выполнении простых логических выводов. Код MATLAB написан с минимальным отслеживанием ошибок, чтобы сохранить его как можно более коротким и, надеюсь, достаточно удобочитаемым4.
1.5.1 Базовый вероятностный код
На самом простом уровне нам нужны только две базовые процедуры. Одна из них предназначена для умножения таблиц вероятностей (в коде они называются потенциалами), а другая - для суммирования таблицы вероятностей. Потенциалы представлены с помощью структуры. Например, в коде, соответствующем примеру инспектора Клузо demoClouseau.m, мы определяем таблицу вероятностей как
переменные: [1 3 2]
таблица:
Это говорит о том, что потенциал зависит от переменных 1, 3, 2 и записи хранятся в заданном массиве по полю таблицы. Размер массива определяет, сколько состояний принимает каждая переменная в порядке, заданном переменными. Порядок, в котором переменные определены в потенциале, не имеет значения при условии, что массив последовательно индексируется. Процедура, которая может помочь с настройкой записей таблицы, - это setstate.m. Например,
>> pot(1) = setstate(pot(1),[2 1 3],[2 1 1],0.3)
означает, что для потенциала 1 записи таблицы для переменной 2, находящейся в состоянии 2, переменной 1, находящейся в состоянии 1, и переменной 3, находящейся в состоянии 1, должно быть присвоено значение 0.3.
Философия кода заключается в том, чтобы свести к минимуму информацию, необходимую для выполнения вычислений. Дополнительная информация о метках переменных и их доменах может быть полезна для проверки результатов, но на самом деле не требуется для выполнения вычислений. Можно также указать имя и домен каждой переменной, например
>>переменная(3)
домен: _BOS_ ’убийца’
имя: "дворецкий"
, "не убийца".}
Имя переменной и информация о домене в примере Clouseau хранятся в структурной переменной, которая может быть полезна для отображения потенциальной таблицы:

>> disptable(pot(1),переменная);
нож использованный
нож горничной
неиспользованный нож
горничной
номера
= убийцу
= убийцу
= не убийца
дворецкий
, душегубка, душегубка-не убийца
, не душегубка-не душегубка-не душегубка
4На момент написания этой статьи в некоторых версиях MATLAB были обнаружены серьезные ошибки в индексировании памяти, некоторые из которых могут проявляться в структурах массивов, используемых в предоставленном коде. Чтобы устранить это, отключите JIT-ускоритель, введя команду feature accel off.
ПРОЕКТ от 9 марта 2010 г. 15 Код
Умножение \множество\ потенциалов
Для умножения потенциалов (как для массивов) таблицы каждого потенциала должны быть согласованы по размерам – то есть количество состояний переменной i в потенциале 1 должно совпадать с количеством состояний переменной i в любом другом потенциале. Это можно проверить с помощью potvariables.m. Такая согласованность также требуется для других базовых операций, таких как суммирование потенциалов.
multpots.m: Умножение двух или более потенциалов,
divpots.m: Деление одного потенциала на другой.
Суммирование потенциала
sumpot.m: Суммирование (маргинализация) потенциала по набору переменных
sumpots.m: Суммирование набора потенциалов вместе
Создание условного потенциала
condpot.m: Создание потенциала, обусловленного переменными
Установка потенциального значения
setpot.m: Установка переменных в потенциале в заданные состояния
setevpot.m: Устанавливает переменные в потенциале в заданные состояния и возвращает также идентификационный потенциал для заданных состояний
Философия BRMLtoolbox заключается в том, что вся информация о переменных является локальной и считывается из потенциал. Использование setevpot.m позволяет устанавливать переменные в состоянии, сохраняя при этом информацию о количестве состояний переменной.
Максимизация потенциала
maxpot.m: Максимизация потенциала для набора переменных
Смотрите также maxNarray.m и maxNpot.m, которые возвращают N самых высоких значений и связанных с ними состояний.
Другие потенциальные утилиты
setstate.m: Устанавливает потенциальное состояние в таблицу с заданным значением
table.m: Возвращает таблицу из потенциального
whichpot.m: Возвращает потенциалы, которые содержат набор переменных
potvariables.m: Переменные и их количество состояний в наборе потенциалов
orderpotfields.m: Упорядочивает поля потенциальной структуры
uniquepots.m: Объединяет избыточные потенциалы и возвращает только уникальные
numstates.m: Количество состояний переменной в домене
squeezepots.m: Удаляет избыточные потенциалы путем объединения
normpot.m: Нормализует потенциал для формирования распределения
1.5.2 Общие утилиты
condp.m: Возвращает таблицу p(x|y) из p(x, y)
condexp.m: Формирует условное распределение из логарифмического значения
logsumexp.m: Вычисляет логарифм суммы экспонент численно точным способом
normp.m: Возвращает нормализованную таблицу из ненормализованная таблица
16 ЧЕРНОВИК от 9 марта 2010 года Упражнения
assign.m: Присваивает значения нескольким переменным
maxarray.m: Максимизирует многомерный массив по подмножеству
1.5.3 Пример
В следующем коде показано использование описанных выше процедур при решении задачи инспектора Клюзо, пример (2).
demoClouseau.m: Решение примера с инспектором Клюзо

1.6 Примечания к разделу
Интерпретация вероятности является спорной, и мы отсылаем читателя к [145, 183, 179] для подробного обсуждения. Полезный веб-сайт, посвященный пониманию теории вероятностей и байесовских рассуждений, называется understandinguncer
1.7 Упражнения
Упражнение 1. Докажите, что
p(x, y|z) = p(x|z)p(y|x, z) (1.7.1)
а также
p(x|y, z) = p(y|x, z)p(x|z)/p(y|z) (1.7.2)
Упражнение 2. Докажите неравенство Бонферрони
p(a, b) ; p(a) + p(b) ; 1 (1.7.3)
Упражнение 3 (Адаптировано из [167]). Здесь есть две ячейки. В ячейке 1 находятся три красных и пять белых шара, а в ячейке 2 - два красных и пять белых. Ячейка выбирается случайным образом, p(ячейка = 1) = p(ячейка = 2) = 0.5, и шарик, выбранный случайным образом из этой ячейки, оказывается красным. Какова апостериорная вероятность того, что красный шар попал в ячейку 1?
Упражнение 4 (адаптировано из [167]). Два шара помещаются в ячейку следующим образом: бросается честная монета, а красный шар белый шар опускается в коробку, если выпадает орел, в противном случае в коробку кладется красный шар. Монета подбрасывается еще раз, и в случае выпадения решки в коробку кладется красный шар, в противном случае в коробку кладется белый шар. Шары извлекаются из ящика три раза подряд (всегда с возвращением вытащенного шара обратно в ящик). Установлено, что во всех трех случаях был извлечен красный шар. Какова вероятность того, что оба шара в ящике красные?
Упражнение 5 (от Дэвида Шпигельхальтера understandinguncertainty.org). Секретное правительственное учреждение компания разработала сканер, который определяет, является ли человек террористом. Сканер достаточно надежен; 95% всех проверенных террористов идентифицируются как террористы, и 95% всех добропорядочных граждан идентифицируются как таковые. Информатор сообщает агентству, что ровно один пассажир из 100 на борту самолета, в котором вы находитесь, является террористом. Агентство решает просканировать каждого пассажира, и мужчина с бегающими глазами, сидящий рядом с вами, является первым, у кого положительный результат теста. Какова вероятность того, что этот человек - террорист?
Упражнение 6 (Задача Монти Холла). В игровом шоу есть три двери. За одной из дверей находится приз. Ведущий игрового шоу просит вас выбрать дверь. Затем он открывает другую дверь, отличную от той, которую вы выбрали, и показывает, что за ней нет приза. Что лучше - придерживаться своего первоначального предположения о том, где находится приз, или передумать?
Упражнение 7. Рассмотрим три распределения переменных, которые допускают разложениена множители
p(a, b, c) = p(a|b)p(b|c)p(c) (1.7.4)
где все переменные являются двоичными. Сколько параметров необходимо для определения распределений в этой форме?
ЧЕРНОВИК от 9 марта 2010 г. 17 Упражнения
Упражнение 8. Повторите сценарий инспектора Клюзо, пример(2), но с тем ограничением, что убийцей является либо горничная, либо дворецкий, но не они оба. В явном виде вероятность того, что горничная была убита, а не Дворецкий, равна 0,04, вероятность того, что Дворецкий был убит, а не Горничная, равна 0,64. Измените demoClouseau.m, чтобы реализовать это.
Упражнение 9. Докажите, что
p(a, (b или c)) = p(a, b) + p(a, c) ; p(a, b, c) (1.7.5)
Упражнение 10. Доказать
Упражнение 11. В 1969 году, будучи молодым человеком, мистер Готт посетил Берлин. Он удивлен, что не может пересечь границу Восточный Берлин, так как существует стена, разделяющая две половины города. Ему сказали, что стена была возведена 8 лет назад. Он рассуждает так: у стены будет конечный срок службы; его невежество означает, что он прибывает равномерно, случайным образом, в какой-то момент времени существования стены. Поскольку только в 5% случаев кто-то прибывает в первые или последние 2,5% срока службы стены, он утверждает, что с 95%-ной уверенностью стена будет прослужит от 8/0.975 ; 8,2 до 8/0.025 = 320 лет. В 1989 году профессор Готт, ныне профессор медицины, с удовлетворением обнаружил, что его предсказание оказалось верным, и продвигает свой метод прогнозирования в элитных журналах. Этот метод "дельта-т" широко распространен и используется для составления прогнозов по целому ряду сценариев, о которых исследователи "совершенно ничего не знают’. Вы бы ‘купили’ предсказание у проф. Готта? Тщательно объясните свои доводы.
Упражнение 12. Реализуйте программный алгоритм исключения, пример(6), используя BRMLtoolbox. Вы можете найти подходящий вариант.
Упражнение 13. Реализуйте приготовление гамбургеров, пример(1) (оба сценария), используя BRMLtoolbox. Для этого вам нужно будет определить общее распределение p(гамбургеры, КJ), в котором dom(гамбургеры) = dom(КJ) ={tr, fa}.
Упражнение 14. Реализуйте пример с двумя игральными костями, раздел(1.3.1), используя BRMLtoolbox.
Упражнение 15. Лотерея с перераспределением предполагает выбор правильных четырех чисел от 1 до 9 (без замены, поэтому, например, 3,4,4,1 невозможно). Порядок выбранных чисел не имеет значения. Каждую неделю в эту игру играют миллион человек, каждый из которых платит по 1 фунту стерлингов за участие, причем наиболее популярный набор чисел — 3,5,7,9 (1 из каждых 100 человек выбирает эти цифры). Учитывая, что призовой фонд в миллион фунтов делится поровну между победителями и что любые четыре (разные) цифры выпадают случайным образом, какова ожидаемая сумма денег, которую каждый из игроков, выбравших 3,5,7,9, будет выигрывать каждую неделю? Наименее популярный набор чисел - 1,2,3,4, и только 1 из 10 000 человек выбирает его. Сколько они получают прибыли в среднем за неделю? Как вы думаете, есть ли какой-то "навык" в игре в эту лотерею?
Упражнение 16. В ходе "психометрического теста" медиуму передаются ключи от машин и наручные часы от 5 человек. Затем медиум пытается сопоставить наручные часы с ключами от машины каждого человека. Каково ожидаемое количество правильных совпадений, которые может получить медиум (случайно)? Какова вероятность того, что медиум получит хотя бы 1 правильное совпадение?
18 ЧЕРНОВИК от 9 марта 2010 года
Раздел 2
Основные понятия о графах
2.1 Графы
Определение 8 (Graph). Граф G состоит из вершин (узлов) и ребер (связей) между вершинами. Ребра могут быть направленными (они обозначены стрелкой в одном направлении) или ненаправленными. Граф со всеми ребрами направленный граф называется ориентированным, а граф, у которого все ребра неориентированы, называется неориентированным графом.
Определение 9 (Путь, предки, потомки). Путь A; B от узла A к узлу B представляет собой последовательность вершин A0 = A, A1 , . . . , An;1 , An = B, с (An , An+1 ) ребром в графе, соединяющим A с B. Для ориентированного графа это означает что путь - это последовательность узлов, которая, когда мы следуем направлению стрелок, ведет нас из пункта А в пункт B .
Вершины A, такие, что A ; B и B ;; A, являются предками B. Вершины B, такие, что A ; B
и B ;; A, являются потомками A[168].
Определение 10 (Ориентированный ациклический граф (DAG)). DAG - это граф G с направленными ребрами (стрелками на каждом звене) между вершинами (узлами), так что, следуя по пути из вершин от одного узла к другому вдоль направления каждого ребра, ни один путь не приведет к повторному посещению вершины. В DAG предками B являются те узлы, у которых направленный путь заканчивается в B. И наоборот, потомками A являются те узлы, у которых направленный путь начинается в A.
Определение 11 (Взаимосвязи в DAG).
Родительскими элементами x4 являются pa (x4 ) = {x1 , x2 , x3 }. Дочерними элементами
x4 являются ch (x4 ) = {x5 , x6 }.
Семейство узла - это он сам и его родители. Марковский бланк узла - это он сам, его родители, дочерние элементы и родители его дочерних элементов. В этом случае марковское множество \бланк \ x4 равно x1 , x2 , . . . , x7 .
19 Графы

Рисунок 2.1: (а) Односвязный граф.
(b) Многосвязный граф.
Определение 12 (Неориентированный граф).

Неориентированный граф G состоит из неориентированных ребер между вершинами.
Определение 13 (Соседние). Для неориентированного графа G соседями x, ne (x) являются те узлы, которые непосредственно связаны с x.
Определение 14 (Связный граф). Неориентированный граф считается связным, если между каждым набором вершин существует путь (т.е. нет изолированных островков). Для графа, который не является связным, связными компонентами являются те подграфы, которые связаны.
Определение 15 (Клика).
Учитывая неориентированный граф, клика - это максимально связное подмножество вершин. Все члены клики связаны друг с другом; более того, нет более крупной клики, которую можно было бы создать из одной клики. Например, этот график имеет две клики: C1 = {A, B, C, D} и C2 = {B, C, E}. В то время как A, B, C полносвязны, это немаксимальная клика, поскольку существует большее полносвязное множество A, B, C, D, содержащее это. Немаксимальную клику иногда называют cliquo \клико.
Определение 16 (Односвязный граф). Граф считается односвязным, если существует только один путь из вершины a в другую вершину b. В противном случае граф является многосвязным. Это определение применимо независимо от того, направлены ребра графа или нет. Альтернативное название односвязного графа - дерево. Многосвязный граф также называется петлевым.
20 ЧЕРНОВИК от 9 марта 2010 года Цифровое кодирование графиков
2.1.1 Связующее дерево
Определение 17 (Связующее дерево).
Остовное \связующее\ дерево неориентированного графа G - это односвязное подмножество существующих ребер, такое, что результирующий односвязный граф покрывает все вершины G. Справа показан граф и связанное с ним остовное дерево. Связующее дерево с максимальным весом - это такое связующее дерево, у которого сумма всех весов по краям дерева больше, чем у любого другого связующего дерева из G.
Нахождение связующего дерева с максимальным весом
Простой алгоритм поиска связующего дерева с максимальным весом заключается в следующем: начните с выбора ребра с наибольшим весом и добавьте его к набору ребер. Затем выберите следующее ребро–кандидат, которое имеет наибольший вес, и добавьте его к набору ребер - если в результате получится ребро с циклами, то отклоните ребро-кандидат и найдите следующее по величине ребро с наибольшим весом. Обратите внимание, что может быть несколько связующих деревьев с максимальным весом.
2.2 Численное кодирование графов
Чтобы выразить структуру GMS, нам нужно численно закодировать связи на графиках. Для построения графика из N вершин, мы можем описать структуру графа различными эквивалентными способами.
2.2.1 Список ребер
Как следует из названия, список ребер просто перечисляет, какие пары вершин находятся в графе. На рисунке (2.2, а) список ребер имеет вид L = {(1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2), (2, 4), (4, 2), (3, 4), (4, 3)} где неориентированное ребро представлено двунаправленным ребром.
2.2.2 Матрица смежности
Альтернативой является использование матрицы смежности
где Aij = 1, если в графе есть ребро от переменной i до j, и 0 в противном случае. Некоторые авторы включают в это определение самосвязи. Неориентированный граф имеет симметричную матрицу смежности.
При условии, что вершины помечены в порядке наследования (родители всегда предшествуют дочерним), ориентированный граф, рис.2.2, б, может быть представлен в виде треугольной матрицы смежности:
ПРОЕКТ от 9 марта 2010 21 Числовое кодирование графов
Рисунок 2.2: (а): Неориентированный граф может быть представлен в виде симметричной матрицы смежности. (b): Ориентированный граф с вершинами, помеченными в порядке наследования, соответствует треугольной матрице смежности.
Степени матрицы смежности
Для матрицы смежности A N ; N степени матрицы смежности [Ak] ij определяют, сколько существует путей от узла i к узлу j за k граничных переходов.
Если мы включим 1 на диагонали A, то [AN] ij будет отличным от нуля, если на графике есть путь, соединяющий j с i. Если A соответствует DAG, то ненулевые записи j-й строки [AN] соответствуют потомкам узла j.
2.2.3 Матрица клик
Для неориентированного графа с N вершинами и максимальными кликами C1 , . . . , CK матрица клик - это матрица n ; K , в которой каждый столбец ck имеет нули, ожидаемые от единиц в записях, описывающих клику. Матрица кликов ослабляет ограничение на то, что количество кликов должно быть максимальном 1 . Например
- это матрица кликов на рис. 2.2, а. Матрица кликов, содержащая только двумерные максимальные клики, называется матрицей инцидентности. Например
- это матрица инцидентности для рисунка (2.2б).
Несложно показать, что Cinc CT inc равна матрице смежности, за исключением того, что диагонали теперь содержат степень\ порядок\ каждой вершины (количество ребер, которых она касается). Аналогично, для любой матрицы кликов диагональная запись [CCT ]ii выражает количество кликов (столбцов), в которых находится вершина i. Недиагональные элементы [CCT ]ij содержат количество кликов, которые совместно занимают вершины i и j.
Замечание 2 (Путаница в графах). Графы широко используются, но заметно отличаются по тому, что они представляют. Ниже описаны две потенциальные ловушки.
Диаграммы перехода состояний Такие графические представления широко распространены в цепях Маркова и автоматах с конечным состоянием. Набор состояний записывается как набор узлов (вершин) графа, и направленное ребро между узлами i и j (с соответствующим весом pij ) означает, что переход из состояния i в состояние j может произойти с вероятностью pij. С точки зрения графических моделей, мы бы просто записали ориентированный граф x(t) ; x(t + 1), чтобы представить эту марковскую цепочку. Диаграмма состояний-переходов просто предоставляет графическое описание таблицы условных вероятностей p(x(t + 1)|x(t)).
1Термин "клика’, обозначающий немаксимальную клику, приписывается Джулиану Бесагу.
ЧЕРНОВИК от 9 марта 2010 г. 22 Упражнения
Нейронные сети Нейронные сети также имеют вершины и ребра. Однако в целом нейронные сети представляют собой графические представления функций, тогда как графические модели представляют собой представления распределений (более богатый формализм). Нейронные сети (или любое другое параметрическое описание) могут использоваться для представления таблиц условной вероятности, как в сигмовидных сетях доверия[204].
2.3 Код
2.3.1 Служебные процедуры
ancestors.m: Поиск предков узла в DAG.
edges.m: Список ребер из матрицы смежности
ancestralorder.m: Порядок предков из DAG
connectedComponents.m: Подключенные компоненты
parents.m: Родители узла, которому задана матрица смежности
children.m: Дочерние элементы узла, которому задана матрица смежности
neigh.m: Соседи узла, которому задана матрица смежности матрица
Связный граф является деревом, если число ребер плюс 1 равно числу вершин. Однако для
графа, который может быть не связан, это не так. Приведенный ниже код описывает случай, когда граф может быть не связан. Процедура основана на наблюдении, что любой односвязный граф всегда должен иметь простую вершину (конечный узел), которую можно удалить, чтобы получить меньший односвязный граф.
istree.m: Если граф односвязный, верните 1 и последовательность исключения
spantree.m: Верните связующее дерево из упорядоченного списка ребер
singleparenttree.m: Найдите направленное дерево, имеющее не более одного родительского элемента, из неориентированного дерева
Дополнительные процедуры для основных манипуляций с графиками приведены в конце главы(6).
2.4 Упражнения
Упражнение 17. Рассмотрим матрицу смежности A с элементами [A]ij = 1, если можно достичь состояния i из состояния j за один временной интервал и 0 в противном случае. Покажите, что матрица [Ak ]ij представляет количество путей, ведущих из состояния j в i за k временных шагов. Следовательно, выведите алгоритм, который найдет минимальное количество шагов для перехода из состояния j в состояние i.
Упражнение 18. Для N ; N симметричной матрицы смежности A опишите алгоритм поиска связанных компонентов. Возможно, вы захотите изучить\ проверить\ connectedComponents.m.
Упражнение 19. Покажите, что для связного графа, который является односвязным, число ребер E должно быть равно числу вершин минус 1, E = V - 1. Приведите пример графа с E = V ; 1, который не является односвязным.
ДРАФТ от 9 марта 2010 года 23 Упражнения
24
ЧЕРНОВИК главы от 9 марта 2010 года
ГЛАВА 3
Сети убеждений \доверия
3.1 Вероятностный вывод в структурированных распределениях
Рассмотрим среду, состоящую из N переменных, с соответствующим распределением p(x1 , . . . , xN ). Запишем E как набор доказательных переменных и используем evidence = {xe = xe , e ; E} для обозначения всех доступных доказательств, тогда логический вывод и обоснование могут быть выполнены автоматически методом "грубой силы"1
Если все переменные являются двоичными (принимают два состояния), то для их суммирования требуется O(2N ;|E| ) операций. Такие показательные вычисления непрактичны, и методы, которые снижают эту нагрузку за счет использования любой структуры в общей таблице вероятностей, являются темой наших обсуждений эффективного логического вывода.
Простое указание всех элементов таблицы p(x1 , . . . , xN ) по двоичным переменным xi занимает O(2N ) места. Нам придется иметь дело с большим количеством переменных в машинном обучении и смежных областях применения, с распределениями по потенциально сотням, если не миллионам переменных. Единственный способ справиться с такими большими распределениями - это каким-то образом ограничить природу взаимодействия переменных, чтобы сделать спецификацию и, в конечном счете, логический вывод в таких системах приемлемыми. Ключевая идея состоит в том, чтобы указать, какие переменные независимы от других, что приводит к структурированной факторизации совместного распределения вероятностей. Веры \доверия\ Сети являются удобной основой для представления таких факторизаций в виде локальных условных распределений. Мы обсудим сети убеждений \доверия\ более формально в разделе (3.3), сначала обсудив их естественные графические представления распределений.
Определение 18 (Сеть убеждений \доверия, уверений\). Сеть убеждений - это распределение вида
где pa (xi ) представляют собой родительские переменные переменной xi . Записанная в виде ориентированного графа со стрелкой, указывающей от родительской переменной к дочерней, сеть убеждений представляет собой ориентированный ациклический граф (DAG), i-я вершина которого соответствует коэффициенту p(xi |pa (xi )).
1 Переход к непрерывным переменным прост и позволяет заменить суммирование интегрированием в PDF-файлах; мы отложим рассмотрение этого вопроса до последующих глав, поскольку наша цель - более подробно изложить интуитивные идеи, не прибегая к интегрированию многомерных распределений.
25 Графическое представление распределений
3.2 Графическое представление распределений
Сети уверений (также называемые сетями Байеса или байесовскими сетями убеждений) - это способ отображения предположений о независимости, сделанных в распределении [148, 168]. Область их применения широко распространена и включает в себя от поиска неисправностей[50] и экспертных заключений в условиях неопределенности до машинного обучения. Прежде чем мы дадим более формальное определение BN, приведем пример, который поможет мотивировать развитие2.
3.2.1 Построение простой сети убеждений\ уверений\ : мокрая трава
Однажды утром Трейси выходит из дома и обнаруживает, что трава у нее мокрая. Это из-за ночного дождя или она забыла выключить разбрызгиватель вчера вечером? Затем она замечает, что трава у ее соседа Джека тоже мокрая. Это объясняет вон \прочь\ некоторое расширение возможности того, что ее разбрызгиватель был оставлен включенным, и поэтому она приходит к выводу, что, вероятно, шел дождь.
Построение модели
Мы можем смоделировать описанную выше ситуацию с использованием вероятности, следуя общему подходу к моделированию. Сначала мы определяем переменные, которые хотим включить в нашу модель. В описанной выше ситуации естественными переменными являются
R ; {0, 1} (R = 1 означает, что шел дождь, и 0 в противном случае).
S ; {0, 1} (S = 1 означает, что Трейси забыла выключить разбрызгиватель, и 0 в противном случае).
J ; {0, 1} (J = 1 означает, что трава у Джека мокрая, и 0 в противном случае).
T ; {0, 1} (T = 1 означает, что трава у Трейси мокрая, и 0 в противном случае).
Таким образом, модель мира Трейси соответствует распределению вероятностей по общему набору интересующих переменных p (T, J, R, S) (порядок переменных не имеет значения).
Поскольку каждая из переменных в этом примере может принимать одно из двух состояний, может показаться, что мы наивно должны указать значения для каждого из 24 = 16 состояний, например, p(T = 1, J = 0, R = 1, S = 1) = 0,7 и т. д. Однако, поскольку существуют условия нормализации вероятностей, нам не нужно указывать все состояния вероятности. Чтобы увидеть, сколько состояний необходимо указать, рассмотрим следующую декомпозицию. Без
потери общности (wlog) и многократного использования правила Байеса мы можем записать
То есть мы можем записать совместное распределение как произведение условных распределений. Первый член p(T |J, R, S) требует, чтобы мы указали 23 = 8 значений – нам нужно p(T = 1|J, R, S) для 8 совместных состояний J, R, S. Другое значение p(T = 0|J, R, S) задается путем нормализации : p(T = 0|J, R, S) = 1 ; p(T = 1|J, R, S). Аналогично, нам нужны 4 + 2 + 1 значения для других факторов, всего 15 значений. В общем, для распределения по n двоичным переменным нам нужно указать 2n ; 1 значений в диапазоне [0, 1]. Важным моментом здесь является то, что количество значений, которые необходимо указать в общем случае, экспоненциально увеличивается в зависимости от количества переменных в модели – в целом это непрактично и приводит к упрощениям.
Условная независимость
Разработчику модели часто известны ограничения в системе. Например, в приведенном выше сценарии мы можем предположить, что влажность травы у Трейси напрямую зависит только от того, шел дождь или нет и был ли включен ее разбрызгиватель. То есть мы делаем предположение об условной независимости
p(T |J, R, S) = p(T |R, S) (3.2.4)
2Сценарий адаптирован по [219].
26 ЧЕРНОВИК от 9 марта 2010 г., Графически представленные распределения
Рисунок 3.1: (a): Структура сети убеждений \ доверия, уверений\ для примера ‘мокрая трава’. Каждый узел на графике представляет собой переменную в совместном распределении, а переменные, которые передаются (родительские) в другую переменную, представляют переменные, расположенные справа от панели условий. (b): BN для модели взломщика.
Точно так же, поскольку на то, влажная трава у Джека или нет, напрямую влияет только то, был ли дождь, мы пишем
p (J|R, S) = p (J / R) (3.2.5)
и поскольку разбрызгиватель напрямую не влияет на дождь,
p (R|S) = p (R) (3.2.6)
это означает, что наша модель теперь становится :
p(T, J, R, S) = p (T |R, S) p (J/R) p (R) p (S) (3.2.7)
Мы можем представить эти условные зависимости графически, как показано на рис. 3.1 а. Это сокращает количество значений, которые нам нужно указать, до 4 + 2 + 1 + 1 = 8, для сохранения по сравнению с предыдущими 15 значениями в случае, когда не предполагалось никакой условной независимости.
Для завершения построения модели нам необходимо численно указать значения каждой таблицы условных вероятностей (CPT). Пусть предыдущие вероятности для R и S равны p(R = 1) = 0,2 и p (S = 1) = 0,1. Мы устанавливаем остальные вероятности равными p(J = 1 / R = 1) = 1, p (J = 1|R = 0) = 0,2 (иногда трава у Джека мокрая из-за неизвестных причин, кроме дождя), p (T = 1 / R = 1, S) = 1, p (T = 1|R = 0, S = 1) = 0,9 (есть небольшая вероятность, что разбрызгиватель был включен, трава заметно не намокла), p (T = 1 / R = 0, S = 0) = 0.
Вывод логический
Теперь, когда мы создали модель окружающей среды, мы можем сделать вывод. Давайте вычислим вероятность того, что разбрызгиватель работал всю ночь, учитывая, что трава у Трейси мокрая: p (S = 1 / T = 1).
Для этого мы используем правило Байеса:
таким образом, вероятность того, что разбрызгиватель включен, превышает предыдущую вероятность, равную 0,1, из-за того, что трава влажная.
Давайте теперь вычислим вероятность того, что разбрызгиватель у Трейси был включен всю ночь, учитывая, что трава у нее мокрая и что трава у Джека тоже мокрая, p (S = 1 / T = 1, J = 1).. Мы снова используем байесовское правило:
Проект март 9, 2010 27 Графическое представление распределений

Вероятность того, что разбрызгиватель был включен, учитывая дополнительные свидетельства того, что трава у Джека мокрая, ниже, чем вероятность того, что трава мокрая, оказывается, что трава только у Трейси мокрая. То есть то, что трава мокрая из-за разбрызгивателя, (частично) опровергается тем фактом, что трава Джека тоже мокрая - это увеличивает вероятность того, что дождь сыграл свою роль в том, что трава Трейси стала влажной.
Естественно, мы не хотим постоянно выполнять такие логические вычисления вручную. Общего назначения для этого существуют алгоритмы, такие как алгоритм дерева соединений, и мы представим их в следующих разделах.
Пример 10 (был ли это грабитель?). Вот еще один пример с использованием двоичных переменных, адаптированный из [219]. Салли приходит домой и обнаруживает, что сработала охранная сигнализация (A = 1). Была ли она ограблена (B = 1) или сигнализация сработала из-за землетрясения (E = 1)? Она включает радио в машине, чтобы послушать новости о землетрясениях, и обнаруживает, что радио передает сообщение о землетрясении (R = 1).
Используя правило Байеса, мы можем записать, не теряя общности,
p (B, E, A, R) = p (A/ B, E, R) p (B, E, R) (3.2.16)
Мы можем повторить это для p (B, E, R) и продолжить
p(B, E, A, R) = p (A|B, E, R) p (R/ B, E) p (E / B) p (B) (3.2.17)
Однако на сигнал тревоги, безусловно, не оказывает прямого влияния какое-либо сообщение по радио, то есть p(A/ B, E, R) = p(A/ B, E). Аналогично, мы можем сделать другие предположения об условной независимости, такие как
p (B, E, A, R) = p (A/ B, E) p (R / E) p (E) p (B) (3.2.18)
Задание таблиц условных вероятностей
Сигнализация = 1 Взлом Землетрясение
Радио = 1 Землетрясение
В остальных таблицах p(B = 1) = 0,01 и p (E = 1) = 0,000001. Таблицы и графическая структура полностью описывают распределение. Теперь рассмотрим, что происходит, когда мы наблюдаем доказательства.
Первоначальные доказательства: звучит сигнал тревоги

28 ЧЕРНОВИК от 9 марта 2010 года, Графически представляющий дистрибутивы
Дополнительное доказательство: По радио передают предупреждение о землетрясении: Аналогичный расчет дает значение p(B = 1|A = 1, R = 1) ; 0,01. Таким образом, первоначально, из-за звукового сигнала тревоги, Салли думает, что ее ограбили. Однако эта вероятность резко снижается, когда она слышит, что произошло землетрясение. То есть землетрясение в какой-то степени "объясняет" тот факт, что сработала сигнализация. См. demoBurglar.m.
3.2.2 Неопределенные доказательства
В случае слабых или неопределенных данных \свидетельств\, переменная находится в нескольких состояниях, причем сила нашего убеждения \уверения\ относительно каждого состояния определяется вероятностями. Например, если x имеет состояния dom(x) = {red, blue, green} , то вектор (0.6, 0.1, 0.3) представляет вероятности соответствующих состояний. Напротив, для получения убедительных свидельств мы уверены, что переменная находится в определенном состоянии. В этом случае вся масса вероятности находится в одной из компонент вектора, например (0, 0, 1).
Выполнение логического вывода с использованием мягких доказательств является простым и может быть достигнуто с помощью правила Байеса. Пишем мягкое свидетельство в виде ~y, мы имеем
, где p(y = i|~y) представляет вероятность того, что y находится в состоянии i в соответствии с программным доказательством \мягким свидетельством. Это обобщение неопровержимых доказательств того, что вектор p(y|~y) имеет все нулевые значения компонентов, за исключением всех компонентов, кроме одного.
Обратите внимание, что неявное свидетельство p(y = i|~y) не соответствует предельному значению p(y = i) в исходном совместном распределении p(x, y). Процедура формирования совместного распределения, известная как правило Джеффри, заключается в том, чтобы начать с исходного распределения p1 (x, y), из которого мы можем определить
Используя мягкое свидетельство p (y|~у), мы затем определяем новое совместное распределение
В BN мы используем пунктирную окружность, чтобы обозначить, что переменная находится в состоянии "мягких доказательств \свидетельств".
Пример 11 ("мягкие доказательства"). Возвращаясь к сценарию землетрясения, пример (10), представьте, что нам кажется, что мы слышим звук охранной сигнализации, но мы не уверены, в частности, мы только на 70% уверены, что слышали сигнал тревоги. Для этого случая с бинарной переменной мы представляем это мягкое свидетельство для состояний (1, 0) в виде G = (0.7, 0.3). Какова вероятность взлома при этом мягком свидетельстве?
Вероятности p(B = 1|A = 1) ; 0,99 и p(B = 1|A = 0) ; 0,0001 вычисляются с использованием правила Байеса, как и ранее, чтобы получить значение
Неопределенные данные в сравнении с ненадежным моделированием
Интересный пример неопределенных данных приведен Перлом[219]:
ЧЕРНОВИК от 9 марта 2010 г. 29 Графическое представление распределений
Рисунок 3.2: (а): Опасения мистера Холмса по поводу кражи со взломом, приведенные в [219]: (Б) урглар, (А) Ларм, (Ж) Атсон, миссис (Гиббон). (б): Виртуальные свидетельства могут быть представлены пунктирной линией. (в): Модифицированная задача. Миссис Гиббон не пьет, но немного глуховата; мы обозначаем такие неопределенные (неявные доказательства) кружком. (г): Холмс получает дополнительную информацию от своей соседки миссис (Н)оси и осведомителя Доджи (Дж)о.
Мистеру Холмсу звонит его сосед доктор Ватсон, который сообщает, что слышит звук охранной сигнализации, доносящийся со стороны дома мистера Холмса. Собираясь спешить домой, мистер Холмс вспоминает, что доктор Ватсон известен как безвкусный шутник, и он сначала он решает позвонить другой соседке, миссис Гиббон, которая, несмотря на периодические проблемы с алкоголем, гораздо надежнее.

Когда мистер Холмс звонит миссис Гиббон, он вскоре понимает, что она немного навеселе. Вместо того чтобы прямо ответить на его вопрос, она продолжает рассказывать о своей последней операции на спине и о том, каким ужасно шумным и криминальным стал этот район. Когда мистер Холмс наконец вешает трубку, все, что он может извлечь из разговора, - это то, что вероятность того, что миссис Гиббон действительно услышала звук сигнализации из своего окна, составляет 80%.

BN для этого сценария показан на рис. 3.2, а, который имеет дело с четырьмя бинарными переменными: Хаус (В) вызван, (А) прозвучал сигнал тревоги, (Ж) Атсон слышит сигнал тревоги, а миссис (Г)Иббон слышит сигнал тревоги 3 :
Холмса интересует вероятность того, что его дом был ограблен. Наивно было бы предположить, что Холмс мог бы вычислить4
Однако, узнав о состоянии миссис Гиббон, мистер Холмс больше не считает вышеприведенную модель надежной. Он хочет проигнорировать влияние показаний миссис Гиббон на его вывод и заменить их своими собственными уверениями в то, что наблюдала миссис Гиббон. Мистер Холмс может добиться этого, заменив термин p(G = tr|A) на
так называемый термин виртуальной улики
где
Здесь состояние H является произвольным и фиксированным. Это используется для изменения совместного распределения на
смотрите рис. 3.2, б). Когда мы затем вычислим значение p(B = tr|W = tr, H), результат суждения мистера Холмса будет в 4 раза больше свидетельствовать в пользу срабатывания сигнализации, чем в пользу ее отсутствия. Значения, указанные в таблице не имеют значения до нормализации, поскольку любые константы могут быть включены в константу пропорциональности. Также обратите внимание, что p(H|A) не является распределением в A, и, следовательно, нормализация не требуется. Эта форма свидетельства также называется свидетельством правдоподобности.
Поворот в сценарии Перл заключается в том, что миссис Гиббон не пила. Однако она немного глуховата и сама не может быть уверена, что слышала сигнал тревоги. Она на 80% уверена, что слышала его. В этом случае Холмс бы
3Может возникнуть соблазн включить дополнительную переменную (T)ipsy в качестве родительской для G. Тогда нам потребуется указать совместное распределение p(G|T, A) для 4 родительских совместных состояний T и A. Здесь мы предполагаем, что у нас нет доступа к такой информации.
4Обозначение tr эквивалентно 1, а fa - 0 из примера(10).
30 ЧЕРНОВИК от 9 марта 2010 года, Графически представляющий дистрибутивы

доверяйте модели, однако само наблюдение теперь является неопределенным, рис.3.2,в). С этим можно справиться, используя метод мягких доказательств. Исходя из правила Джеффри, для вычисления используется исходное модельное уравнение (3.2.26).
, а затем использует мягкие свидетельства
чтобы вычислить
Читатель может показать, что альтернативный способ представить неопределенное наблюдение, например, что миссис Гиббон не навеселе, но плохо слышит, приведенный выше, - это использовать виртуальное свидетельство ребенка из G.
Неопределенное доказательство в ненадежной модели
Чтобы подчеркнуть неопределенность доказательств в ненадежной модели, мы вводим двух дополнительных персонажей. Миссис Любопытная \ Нози\ живет по соседству с мистером Холмсом и абсолютно глуха, но, тем не менее, она неисправимая любительница подглядывать за происходящим, которая, кажется, замечает почти все. К сожалению, она также склонна к фантазированию. Основываясь на беседах с ней, мистер Холмс считает, что ее рассказ в 3-х случаях свидетельствует в пользу того, что ограбления не было, и в пользу того, что это было ограбление со взломом, и поэтому использует термин "виртуальное свидетельство"
p(Любопытный|B) =
Мистер Холмс также звонит изворотливому \Доджи\ Джо, своему связному в криминальном мире, чтобы узнать, не слышал ли тот о планируемом ограблении дома мистера Холмса. Он обобщает эту информацию, используя термин "виртуальная улика"
p(Joe|B) =
Если сложить всю эту информацию воедино, то можно сделать вывод, что миссис Гиббон не навеселе, но немного туговата на слух, миссис Любопытная, и, Изворотливый Джо, мы впервые разберемся с ненадежной моделью
из которого мы можем вычислить
Наконец, мы выполняем логический вывод с помощью мягкого свидетельства
Любопытная, Джо
Важным соображением, приведенным выше, является то, что виртуальное свидетельство не заменяет предыдущее распределение p(B) другим предыдущим распределением – скорее, условия виртуальной улики изменяют предыдущее распределение путем включения дополнительных факторов. Обычно предполагается, что каждое виртуальное доказательство действует независимо, хотя при необходимости можно рассмотреть и зависимые сценарии.
ПРОЕКТ от 9 марта 2010 г.
31 Сеть доверия \уверений
Рисунок 3.3: Два столбца для распределения с четырьмя переменными. Оба графика (a) и (b) представляют одно и то же распределение p(x1 , x2 , x3 , x4). Строго говоря, они представляют собой одни и те же допущения (отсутствие) независимости – графики ничего не говорят о содержании CPT. Распространение этого ‘каскада’ на многие переменные очевидно и всегда приводит к получению направленного ациклического графика.
3.3 Сети убеждений\ уверений
В примерах с Мокрой травой и Взломщиком у нас был выбор относительно того, как рекурсивно использовать правило Байеса. В общем случае с 4 переменными мы могли бы выбрать факторизацию,
В равной степени правильным выбором является (см. рис. 3.3)
В общем, два разных графа могут представлять одни и те же предположения о независимости, что мы обсудим далее в разделе 3.3.1. Если кто-то хочет сделать предположения о независимости, то выбор факторизации становится значительным.
Наблюдение о том, что любое распределение может быть записано в виде каскада, на рис.3.3 дает алгоритм построения BN для переменных x1 , . . . , xn: запишите каскадный график с n переменными; назначьте узлам любой порядок переменных; затем вы можете удалить любой из них. направленные соединения. Более формально это соответствует упорядочению переменных, которое без потери общности мы можем записать как x1 , . . . , xn . Тогда, исходя из правила Байеса, мы имеемn
Таким образом, представление любого BN является ориентированным ациклическим графом (DAG).

Каждое распределение вероятностей может быть записано в виде BN, даже если оно может соответствовать полностью подключенному "каскадному" DAG. Особая роль BN заключается в том, что структура DAG соответствует набору предположений об условной независимости, а именно, какие родительские переменные достаточны для определения каждой из них. таблица условных вероятностей. Обратите внимание, что это не означает, что переменные, не связанные с родителями, не оказывают влияния. Например, для распределения p(x1 |x2 )p(x2 |x3 )p(x3 ) с DAG x1 ; x2 ; x3 это не означает, что p(x2 |x1 , x3 ) = p(x2 |x3 ). DAG определяет утверждения об условной независимости переменных от их предков, а именно, какие предки являются "причинами" для переменной.
DAG соответствует утверждению об условной независимости в модели. Чтобы завершить спецификацию BN, нам необходимо определить все элементы таблиц условных вероятностей p(xi |pa (xi )). Однажды определена графическая структура, могут быть выражены элементы таблиц условных вероятностей (CPT) p(xi |pa (xi )). Для каждого возможного состояния родительских переменных pa (xi ) необходимо указать значение для каждого из состояний xi (кроме одного, поскольку оно определяется путем нормализации). Для большого числа родителей составление таблицы значений является сложной задачей, и таблицы, как правило, параметризуются малоразмерным образом. Это будет центральной темой нашего обсуждения применения BNs в машинном обучении.
32 ПРОЕКТ от 9 марта 2010 года "Сети доверия"
3.3.1 Условная независимость
Хотя BN соответствует набору предположений об условной независимости, из DAG не всегда сразу становится ясно, является ли набор переменных условно независимым от набора других переменных. Например, на рисунке (3.4) являются ли x1 и x2 независимыми, учитывая состояние x4? Ответ - да, поскольку у нас есть
Сейчас
Объединив два приведенных выше результата, мы получим
таким образом, x1 и x2 действительно независимы и зависят от x4.
Определение 19 (Условная независимость).
означает, что два набора переменных X и Y независимы друг от друга при условии, что мы знаем состояние набора переменных Z. Для полной условной независимости X и Y должны быть независимыми при всех состояниях Z. Формально это означает, что
для всех состояний X , Y, Z. В случае, если набор условий пуст, мы также можем записать X ; Y для X ; Y| ;, и в этом случае X (безусловно) не зависит от Y.

Если X и Y не являются условно независимыми, они являются условно зависимыми. Это записывается
Чтобы развить интуицию относительно условной независимости, рассмотрим распределение p с тремя переменными (x1 , x2 , x3 ). Мы можем записать это любым из 6 способов
где (i1 , i2 , i3 ) - это любая из 6 перестановок (1, 2, 3). Хотя все они разные, они представляют одно и то же распределение, а именно то, которое не содержит заявлений об условной независимости.
Чтобы сделать вывод о независимости, нам нужно удалить одну из ссылок. В результате на рис. 3.5 представлены 4 графических объекта. Являются ли какие-либо из этих графов эквивалентными в том смысле, что они представляют одно и то же распределение?
Рисунок 3.4: p(x1 , x2 , x3 , x4 ) = p(x1 |x4 )p(x2 |x3 , x4 )p(x3 )p(x4 ).
ПРОЕКТ от 9 марта 2010 года
33 Сети доверия
Рисунок 3.5: Отбросив, скажем, связь между переменными x1 и x2, мы сократим 6 возможных графов BN для трех переменных до 4. (6 полностью связанных "каскадных" графиков соответствуют (а) с x1 ; x2, (а) с x2 ; x1 , (б) с x1 ; x2 , (в) с x2 ; x1 , (в) с x1 ; x3 и (г) с x2 ; x1. Любые другие графы были бы циклическими и, следовательно, не были бы распределениями).
Рисунок 3.6: На графиках (а) и (b) переменная z не является коллайдером. (в): Переменная z является коллайдером. Графики (a) и (b) представляют условную независимость x ; y/ z. На графиках (c) и (d) x и y "графически" условно зависят от заданной переменной z.

Применение правила Байеса дает :
граф(c)
таким образом, чтобы DAGs (b),(c) и (d) представляли одни и те же предположения CI, а именно, что при заданном состоянии переменной x3 переменные x1 и x2 независимы, x1 ; x2| x3 .
Однако график (a) представляет собой нечто принципиально иное, а именно: p(x1 , x2 ) = p(x1 )p(x2 ). Невозможно преобразовать распределение p(x3 |x1 , x2 )p(x1 )p(x2 ) в любое другое.
Примечание 3 (Графическая зависимость). Сети убеждений \уверений\ хороши для кодирования условной независимости, но не очень хорошо подходят для описания зависимости. Например, рассмотрим тривиальную сеть p(a, b) = p(b|a)p(a), который имеет представление DAG a ; b. Может показаться, что это означает, что a и b зависят друг от друга. Однако, безусловно, бывают случаи, когда это не так. Например, это может пусть условие таково, что p(b|a) = p(b), так что p(a, b) = p(a)p(b). В этом случае, хотя в целом может показаться, что существует "графическая" зависимость от DAG, могут быть экземпляры распределений, для которых зависимость не соблюдается. То же самое справедливо и для сетей Маркова, раздел (4.2), в котором p(a, b) = ;(a, b). Хотя это предполагает "графическую" зависимость между a и b, для ;(a, b) = ;(a);(b) переменные независимы.
3.3.2 Последствия \удар\ столкновений
В общем случае, как мы могли бы проверить, действительно ли x ;y | z? На рис. 3.6 (а, б) x и y независимы, если они зависят от z. На рис. 3.6(в) они зависимы; в этой ситуации переменная z называется коллайдером – стрелки ее
34 9 марта 2010 г. Сети доверия
Рисунок 3.7: Переменная d представляет собой коллайдер, движущийся по траектории a-b-d-c, но не по траектории a-b-d-e. Является ли a ; e| b? a и b не связаны d-связью, поскольку на единственном пути между a и e нет коллайдеров, и поскольку существует не-коллайдер b, который находится в наборе условий. Следовательно, a и b разделены d, т. е. a;e | b.

соседи указывают на это. А как насчет рисунка (3.6)(d)? В (d), когда мы ставим условие на z, x и y будут "графически" зависимы, поскольку
- интуитивно понятно, что переменная w становится зависимой от значения z, а поскольку x и y условно зависят от w, они также условно зависят от z.

Грубо говоря, если существует неколлайдер z, который обусловлен на пути между x и y (как на рис.3.6 (а, б)), то этот путь не делает x и y зависимыми. Аналогично, если существует путь между x и y, который содержит коллайдер, при условии, что этот коллайдер отсутствует в наборе условий (и ни один из них не является любой из его потомков), то этот путь не делает x и y зависимыми. Если существует путь между x и y, который не содержит коллайдеров и переменных, определяющих условия, то этот путь "d -соединяет" x и y.

Обратите внимание, что коллайдер определяется относительно пути. На рис. 3.7 переменная d представляет собой коллайдер, расположенный вдоль траектории a-b-d-c, но не вдоль траектории a-b-d-e (поскольку относительно этой траектории две стрелки не указывают внутрь точки d).
Рассмотрим BN: A ; B ;C. Здесь A и C (безусловно) независимы. Однако, обусловливая значение B делает их "графически" зависимыми. Интуитивно, хотя мы считаем, что первопричины независимы, учитывая ценность наблюдения, это говорит нам кое-что о состоянии обеих причин, связывая их и делая (в целом) зависимыми.
3.3.3 D-разделение
Концепции d-разделения и d-соединения в DAG являются ключевыми для определения условной независимости в любом BN со структурой, заданной DAG[284].
Определение 20 (d-соединение, d-разделение). Если G - ориентированный граф, в котором X, Y и Z не пересекаются множества вершин, то X и Y d-соединены Z в G тогда и только тогда, когда существует неориентированный путь U между некоторой вершиной в X и некоторой вершиной в Y, так что для каждого коллайдера C на U либо C, либо потомок C находится в Z, и ни один не-коллайдер на U не находится в Z.

X и Y d-разделены узлом Z в G тогда и только тогда, когда они не d-связаны точкой\ узлом\ Z в G.

Это также можно сформулировать следующим образом. Для каждой переменной x ; X и y ;Y, проверьте каждый путь U между x и y. Путь U считается заблокированным, если на U есть узел w, такой, что либо
1. w - это коллайдер, и ни w, ни кто-либо из его потомков не находится в Z.
2. w не является коллайдером на U, а w находится в Z.
Проект март 9, 2010 35 Сети доверия
Если все такие пути заблокированы, то X и Y d-разделены точкой \узлом Z.
Если наборы переменных X и Y разделены точкой Z, они независимы от Z во всех распределениях вероятностей, которые может представить такой граф.
Алгоритм Байеса Болла [241] предоставляет алгоритм линейной временной сложности, который при заданном наборе узлов X и Z определяет набор узлов Y таким образом, что X; Y |Z. Y называется набором узлов для X полученных из Z.
3.3.4 d-Связь и зависимость
Учитывая DAG, мы можем с уверенностью предположить, что две переменные (условно) независимы, при условии, что они d-разделены \параметрами. Можем ли мы сделать вывод, что они зависимы, при условии, что они D-связаны \параметрами? Рассмотрим следующую ситуацию
, для которого мы отмечаем, что a и b связаны d-связью с помощью c. Для конкретности мы предполагаем, что c является бинарным с состояниями 1,2. Вопрос в том, зависят ли a и b, обусловленые с помощью c, a;b|c. Чтобы ответить на этот вопрос, рассмотрим
В общем, первый член p (c = 1 / a, b) не обязательно должен быть разложен на множители функцией от a и b, и поэтому a и b условно "графически" зависят друг от друга. Однако мы можем построить случаи, когда это не так. Например, пусть
где ; (a) и ;(b) - произвольные потенциалы от 0 до 1. Тогда
, который показывает, что p (a, b / c = 1) является произведением функции в a и функции в b, так что a и b независимы, обусловленны значением c = 1.
Второй пример приведен в виде распределения
, в котором a и c d-связаны через b. Вопрос в том, являются ли a и c зависимыми, a;c|; Для простоты мой параметр b принимает два состояния 1.2. Тогда
Для задания p (b = 1 / a) = ;, для некоторой постоянной ; для всех состояний a, тогда
который является произведением функции от a и функции от c. Следовательно, a и c независимы.
36 9 марта 2010 г. Сети доверия
Рисунок 3.8: Примеры d -разделения на точки\ узлы. (а): b- точка, d-отделяющая a от e. Переменные соединения {b, d} d-соединяют a и e. (b): c и e (безусловно) d-связаны. b d-соединяет a и e.
Рисунок 3.9: (а): t и f d -cоединены с помощью g. (b): b и f d -разделены точкой с помощью u.

Мораль этой истории в том, что d -разделение на точки обязательно подразумевает независимость. Однако общая d-связь не обязательно подразумевает зависимость. Возможно, существуют числовые параметры, для которых переменные независимы, даже если они связаны общей d-связью. По этой причине мы используем термин "графическая \графа" зависимость - когда на графе можно предположить, что переменные зависимы, даже если могут быть числовые примеры, когда зависимость не выполняется, смотрите определение (21).
Пример 12. Рассмотрим рис.3.8а. Является ли a ; e | b? Если мы суммируем переменную d, то увидим, что a и e независимы от \следуя, по\ b, поскольку переменная e будет выглядеть как изолированный фактор, независимый от всех других переменных, следовательно, действительно a ; e| b. Хотя b - это коллайдер, который находится в наборе условий, нам нужно, чтобы все коллайдеры на пути были в наборе условий (или их потомках) для обеспечения d-связности.
На рис. 3.8, б), если мы суммируем переменные d, то c и e становятся неразрывно связанными, и p (a, b, c, e) не будет преобразоваться в функцию a, умноженную на функцию e – следовательно, они зависимы.
Пример 13. Рассмотрим граф на рис. 3.9, а.
1. Являются ли переменные t и f безусловно независимыми, т.е. t ; f |;? Здесь есть два коллайдера, а именно g и s, однако их нет в наборе условий (который пуст), и, следовательно, они d -разделены и, следовательно, безусловно независимы.
2. Что насчет t ; f| g? На пути между t и f находится коллайдер, который входит в набор условий. Следовательно, t и f связаны через g, и, следовательно, t и f не зависят от g.
3. Что насчет b; f| s? Поскольку в наборе условий есть коллайдер s на пути между t и f, то b и f "графически \ по графу" зависят от условий, заданных s.
Пример 14. Является ли {b, f } ;u| ;? на рис. 3.9, b. Поскольку набор условий пуст и каждый путь от b или f до u содержит коллайдер, то b, f безусловно независимы от u.
3.3.5 Марковская эквивалентность в сетях убеждений\ уверений
ПРОЕКТ от 9 марта 2010 г. 37 Сетей веры\доверия, уверений\
Определение 21 (Некоторые свойства сетей веры).

A и B (безусловно) независимы: p(A, B) = p(A)p(B).
A и B условно зависят от C : p(A, B|C) 6= p(A|C)p(B|C).
Привязка к \Маргинализация по сравнению с\ C делает A и B (графически \по графу) зависимыми.
Отступление от \согласно \ C приводит к появлению A и B (графически)
зависимыми.
A и B являются (безусловно) зависимыми: p(A, B) 6= p(A)p(B).
A и B условно независимы от C: p(A, B|C) = p(A|C)p(B|C).
Маргинализация по сравнению с C делает A и B (по графу) зависимыми.
Отступление от C приводит к появлению A и B независимыми.
Зависимость от \согласно\ C делает A и B независимыми.
Определение 22 (Марковская эквивалентность). Два графа эквивалентны по Маркову, если они оба представляют один и тот же набор утверждений об условной независимости.

Определите структуру \скелетон\ графа, удалив направления стрелок. Определите аморальность в DAG как конфигурацию из трех узлов, A, B, C, так что C является дочерним элементом как A, так и B, причем A и B не связаны напрямую. Два DAG представляют один и тот же набор предположений о независимости (они эквивалентны по Маркову). тогда и только тогда, когда они имеют одинаковую структуру и одинаковый набор аморальных свойств [74].
Используя это правило, мы видим, что на рис. 3.5, BN (b, c, d) имеют одинаковую структуру без каких-либо аморальных свойств и, следовательно, эквивалентны. Однако BN (a) обладает аморальностью и поэтому не эквивалентен DAGS (b, c, d).
38 ЧЕРНОВИК от 9 марта 2010 г. Причинно-следственная связь
3.3.6 Сети убеждений \уверений\ обладают ограниченной выразительностью
Рисунок 3.10: (а): Два метода лечения \манипуляций\ t1, t2 и соответствующие результаты y1, y2. Состояние здоровья пациента обозначается буквой h. Этот DAG отражает условную независимость утверждения t1 ; t2 , y2 | ;, t2 ;t1 , y1 | ;, а именно, что методы лечения\ манипуляций\ не влияют друг на друга. (b): Можно представить изолированную \выделенную\ скрытую переменную, используя двунаправленный край.

Рассмотрим DAG на рис. 3.10a, (из [232]). Эта диаграмма DAG может быть использована для представления двух последовательных экспериментов, где t1 и t2 - это два метода лечения, а y1 и y2 - два представляющих интерес результата; h - основное состояние здоровья пациента; следовательно, первое лечение не влияет на второй результат, границы \ребра\ между y1 и y2 нет. Теперь рассмотрим предполагаемые зависимости в предельном распределении p(t1 , t2 , y1 , y2 ), полученные путем маргинализации полного распределения по h. Не существует DAG, содержащего только вершины t1, y1 , t2 , y2, которые представляют отношения независимости и не подразумевают также какое-либо другое отношение независимости, которое не подразумевается на рисунке (3.10а). Следовательно, любой DAG для вершин t1 , y1 , t2 , y2 сам по себе либо не будет представлять отношение независимости p(t1 , t2 , y1 , y2 ), либо будет накладывать некоторые дополнительные ограничение независимости, которое не подразумевается в DAG. В приведенном выше примере
, как правило, не может быть выражено как произведение функций, определенных для ограниченного набора переменных. Однако это есть тот случай, когда условия условной независимости t1 ;t2 , y2| ;, t2 ; t1 , y1| ; выполняются в p(t1 , t2 , y1 , y2 ) – они там есть, закодированные в виде таблиц условной вероятности. Просто мы не можем ‘увидеть" эту независимость, поскольку она отсутствует в структуре маргинализованного графа (хотя, естественно, можно сделать вывод об этом на более крупном графе p (t1 , t2 , y1 , y2 , h)).

Этот пример демонстрирует, что BNs не может выразить все утверждения об условной независимости, которые могут быть сделаны для этого набора переменных (однако набор утверждений об условной независимости может быть увеличен за счет учета дополнительных скрытых переменных). Эта ситуация является довольно общей в том смысле, что любая графическая модель имеет ограниченную выразимость в терминах утверждений о независимости[265]. Это стоит иметь в виду что сети убеждений не всегда могут быть наиболее подходящей основой для выражения чьих-либо предположений о независимости и интуитивных предположений.
Естественным соображением является использование двунаправленной стрелки, когда скрытая переменная остается на обочине\ маргинализуется, выделена\. На рис.3.10а можно изобразить предельное распределение, используя двунаправленное ребро, рис.3.10б. Аналогично, a BN со скрытой обусловленной переменной можно представить, используя ненаправленное ребро. Обсуждение этих и смежных вопросов приведено в [232].
3.4 Причинно-следственная связь
Причинно-следственная связь является спорной темой, и цель этого раздела - ознакомить читателя с некоторыми подводными камнями это может произойти и привести к ошибочным выводам. Для получения более подробной информации обратитесь к [220] и [74]
.
Слово "причинно-следственный" является спорным, особенно в тех случаях, когда модель данных не содержит явной временной \темповой, такта, шага\ информации, так что формально можно сделать вывод только о корреляциях или зависимостях. Для распределения p(a, b) мы могли бы записать это как (i) p(a|b)p(b) или (ii) p(b|a)p(a). В (i) мы могли бы подумать, что b "вызывает" a, а в (ii) a "вызывает" b. Очевидно, что это не очень осмысленно, поскольку они оба представляют собой точно такое же распределение. Формально сети убеждений делают заявления только о независимости, а не о причинно-следственных связях. Тем не менее, при построении BNS может быть полезно подумать о зависимостях с точки зрения причинно-следственной связи ПРОЕКТ от 9 марта 2010 г.
39 Причинно-следственная связь

Рисунок 3.11: Как (a), так и (b) представляют одно и то же распределение p(a, b) = p(a|b)p(b) = p(b|a)p(a). (c): Граф представляет собой p(дождь, мокрый снег) = p(мокрый снег|дождь)p(дождь). (d): Мы могли бы также написать p (дождь|мокрый снег)p (мокрый снег), хотя причинно-следственная связь в этом случае кажется бессмысленной.
Рисунок 3.12: (а): DAG связи между полом (G), лекарственным средством (D) и восстановлением (R), см.таблицу (3.1). (b): Диаграмма влияния. Для G не требуется никакой решающей переменной, поскольку у G нет родителей.

поскольку наше интуитивное понимание обычно основано на том, как одна переменная "влияет" на другую. Сначала мы обсудим классическую головоломку, которая выявляет потенциальные ловушки, которые могут возникнуть.
3.4.1 Парадокс Симпсона
‘Парадокс Симпсона’ - это поучительная история о причинно-следственных связях в BNs. Рассмотрим медицинское исследование, в ходе которого были восстановлены результаты лечения пациентов. Было проведено два исследования, в одном из которых приняли участие 40 женщин, а в другом - 40 мужчин. Полученные данные обобщены в таблице (3.1). Возникает вопрос: вызывает ли препарат повышенное выздоровление? Согласно таблице для мужчин, ответ отрицательный, поскольку больше мужчин выздоровело, когда им не давали препарат, чем когда им его давали. Аналогичным образом, больше женщин выздоровело, когда им не давали препарат, чем когда им его давали. Напрашивается вывод, что препарат не может быть полезным, поскольку он не помогает ни одной из групп населения.

Однако, игнорируя информацию о гендере и сопоставляя данные о мужчинах и женщинах в одной сводной таблице, мы обнаруживаем, что при приеме препарата выздоравливало больше людей, чем при его отсутствии. Следовательно, несмотря на то, что препарат препарат, похоже, не подходит ни мужчинам, ни женщинам, но, похоже, он работает в целом! Поэтому следует ли рекомендовать препарат или нет?
Разрешение парадокса
‘Парадокс’ возникает, поскольку мы задаем причинно-следственный (или интервенционный) вопрос. Интуитивно мы задаемся вопросом: что произойдет, если мы дадим кому-то лекарство? Однако расчеты, которые мы выполнили выше, были всего лишь наблюдательными расчетами. На самом деле мы хотим сначала вмешаться, установив
Мужчины
Данное лекарственное средство
Нет лекарственного средства
7 Не восстановлен
Восстановления Ставка
Женщины
Комбинированный
Таблица 3.1: Таблица для парадокса Симпсона (из [220])
40 СОСТАВЬТЕ 9 марта 2010 года причинно-следственную связь
состояния, связанные с приемом препарата, а затем понаблюдав, как это влияет на выздоровление. Перл[220] описывает это как разницу между "исходя из того, что мы видим" (данные наблюдений) и "исходя из того, что мы делаем" (данные вмешательства).

Модель данных о гендере, лекарствах и восстановлении (которая не предполагает условной независимости). является

Наблюдательный расчет связан с вычислением p(R|G, D) и p(R|D). Однако в каузальной \причинной\ интерпретации, если мы вмешиваемся и даем лекарство, то член p(D|G) в уравнении (3.4.1) не должен играть никакой роли в эксперименте (в противном случае модели распределения, в которых с учетом пола мы выбираем лекарство с вероятностью p(D|G), которая не тот случай – мы сами решаем, давать препарат или нет, независимо от пола). В каузальном случае мы моделируем каузальный эксперимент; в этом случае термин \член\ p(D|G) необходимо заменить термином, что отражает постановку эксперимента. При атомарном вмешательстве одна переменная устанавливается в определенное состояние5. В нашем атомарном каузальном вмешательстве в настройку D мы имеем дело с модифицированным распределением

где члены в правой части этого уравнения взяты из исходного BN данных. Для обозначения вмешательства мы используем ||:
(Здесь также можно рассматривать G как интервенционный – в данном случае это не имеет значения, поскольку тот факт, что переменная G не имеет родительских значений, что означает, что для любого распределения, зависящего от G, предшествующий фактор p(G) присутствовать не будет). Используя уравнение (3.4.3), можно сделать вывод, что у мужчин, получавших препарат, выздоровление составило 60%, по сравнению с 70% , когда препарат не принимался. У женщин, получавших препарат, выздоровление составило 20%, по сравнению с 30%, когда препарат не принимался.

Аналогично,
Используя приведенное выше распределение после вмешательства, мы получаем
p (восстановление|лекарство) = 0.6 ; 0.5 + 0.2 ; 0.5 = 0.4(3.4.5)
и
p(восстановление|отсутствие лекарств) = 0.7 ; 0.5 + 0.3 ; 0.5 = 0.5(3.4.6)

Следовательно, мы правильно заключаем, что препарат в целом не является полезным, как мы интуитивно ожидаем, и согласуется с результатами, полученными в обеих подгруппах.

Здесь p(R||D) означает, что мы сначала случайным образом выбираем пациента мужского или женского пола, а затем даем ему лекарство или нет, в зависимости от состояния D. Дело в том, что мы не случайно решаем, давать лекарство или нет, отсюда и отсутствие термина p(D|G) в совместном распределении. Один из способов осмысления таких моделей - рассмотреть, как составить выборку из совместного распределения случайных величин – в большинстве случаев это должно прояснить роль причинно-следственной связи в эксперименте.

В отличие от интервенционных расчетов, расчеты, основанные на наблюдении, не предполагают условной независимости. Это означает, что, например, член p(D|G) играет определенную роль в вычислении (читатель, возможно, пожелает убедиться, что результат, приведенный в сводных данных в таблице (3.1), эквивалентен выводу с использованием полного уравнения распределения (3.4.1)).
5Более общие условия эксперимента можно смоделировать, заменив p(D|G) распределением вмешательства ;(D|G)
ЧЕРНОВИК от 9 марта 2010 г. 41причинность
Определение 23 (оператор Do Перла).
В каузальном выводе, в котором должен быть определен эффект заданных переменных Xc1 , ... , XcK , ck ; C в состояниях xc1 , ... , xcK , это эквивалентно стандартному доказательному выводу в распределении после вмешательства:
где любые родительские состояния pa (Xj ) из Xj задаются в их фактических состояниях. Альтернативным обозначением является p(X||xc1 , . . . , xcK ).
Другими словами, для тех переменных, для которых мы причинно-следственно вмешиваемся и устанавливаем определенное состояние, соответствующие термины p(Xci |pa (Xci )) удаляются из исходной сети убеждений. Для переменных, которые являются доказательными, но не являются причинными, соответствующие факторы не удаляются из распределения. Интерпретация заключается в том, что распределение после вмешательства соответствует эксперименту, в котором сначала устанавливаются причинные переменные, а затем наблюдаются непричинные переменные.
3.4.2 Диаграммы влияния и расчет do
Делая причинно-следственные выводы, мы должны скорректировать модель таким образом, чтобы она отражала любые причинно-следственные экспериментальные условия. Устанавливая для любой переменной определенное состояние, мы должны хирургическим путем удалить все родительские связи с этой переменной. Перл называет это оператором do и противопоставляет наблюдательный ("видеть") вывод p (x| y) причинному (‘делать’ или ‘do’) выводу p (x|do(y)).
Полезным альтернативным представлением является добавление переменных X, в отношении которых, возможно, может быть произведено вмешательство, к переменной родительского решения FX [74]. Например, 6
где
для D = d и 0 в противном случае
Следовательно, если решающая переменная FD установлена в пустое состояние, переменная D определяется стандартным наблюдательным термином p(D|pa (D)). Если переменной принятия решения присвоено значение D, то переменная переводит всю свою вероятность в это единственное состояние D = d. Это приводит к замене условной вероятности на единичный коэффициент и любых значений D, установленных для переменной в ее интервенционном состоянии7 .
Потенциальное преимущество подхода с использованием диаграмм влияния перед методом do-calculus заключается в том, что получение условных заявления о независимости могут быть сделаны на основе стандартных методов для расширенного BN. Кроме того, для изучения параметров применяются стандартные методы, при которых переменные принятия решения устанавливаются в соответствии с условиями, при которых была собрана каждая выборка данных (причинная или непричинная выборка).
Пример 15 (Водители и несчастные случаи: причинно-следственная сеть убеждений).
6 Здесь диаграмма влияния представляет собой распределение по переменным, включая переменные принятия решений, в отличие от применения ID в главе (7).
7 Можно рассмотреть более общие случаи, в которых переменные помещаются в распределение состояний [74].
42 ПРОЕКТ от 9 марта 2010 г., Параметры сетей убеждений
Рисунок 3.13: (а): Если все переменные являются двоичными, то для задания p(y|x1 , . . . , x5) требуется 25 = 32 состояния. (b): Здесь требуется только 16 состояний. (c): Зашумленные логические элементы.
Рассмотрим следующие значения CPT: p(D = bad \плохой) = 0,3, p(A = tr|D = bad \плохой) = 0,9. Если мы вмешаемся и используем плохого водителя, какова вероятность аварии?

p(A = tr|D = плохой, FD = плохой, FA = ;) = p(A = tr|D = плохой) = 0,9 (3.4.9)

С другой стороны, если мы вмешаемся и устроим аварию, какова вероятность того, что водитель окажется плохим? Это

p(D = плохой||A = tr, FD = ;, FA = tr) = p(D = плохой) = 0,3
3.4.3 Обучение направления стрелок
В отсутствие данных, полученных в результате каузальных экспериментов, следует с полным основанием скептически относиться к обучению "каузальных" сетей. Тем не менее, можно предпочесть определенное направление связи, основанное на предположениях о "простоте" CPT. Это предпочтение может исходить из "физической интуиции", которая, в то время как первопричины могут в случае неопределенности связь между причиной и следствием очевидна. В этом смысле требуется мера сложности CPT, такая как энтропия. Такие эвристические методы могут быть численно закодированы, а "направления" обучены на ином эквивалентном марковском графе.
3.5 Параметризация сетей убеждений
Рассмотрим переменную y со многими родительскими переменными x1 , ... , xn, рис.3.13а. Формально структура графа ничего не говорит о форме параметризации таблицы p(y|x1 , . . . , xn ). Если у каждого родительского элемента xi есть dim (x i ) состояния, и для таблицы нет ограничений, тогда таблица p(y|x1 , . . . , xn ) содержит (dim (y) ; 1) ;i dim (xi ) записи. Если бы данные хранились явно для каждого состояния, это потребовало бы потенциально огромного объема памяти. Альтернативой является ограничение таблицы, чтобы она имела более простую параметрическую форму. Например, можно было бы написать декомпозицию, в которой требуется только ограниченное количество родительских взаимодействий ( в [148] это называется "развод родителей"). Например, на рис. 3.13b, предполагая, что все переменные являются двоичными, число состояний, требующих уточнения, равно 23 + 22 + 22 = 16, по сравнению с 25 = 32 состояниями в неограниченном случае. Распределение
можно сохранить, используя только 16 независимых параметров.
ЧЕРНОВИК от 9 марта 2010 г. 43 упражнения
Логические элементы \гейты, вентиля\
Другой метод ограничения CPT использует простые классы условных таблиц. Например, на рис. 3.13с можно использовать логический элемент OR в двоичном zi, скажем
если хотя бы один из zi находится в состоянии 1
в противном случае
Затем мы можем составить CPT p (y|x1 , ... , x5 ), включив дополнительные члены p(zi = 1|xi ). Когда каждый xi является двоичным, в общей сложности получается только 2 + 2 + 2 + 2 + 2 = 10 величины, необходимые для определения p(y|x). В этом случае рисунок (3.13c) может быть использован для представления любого логического элемента с шумом, такого как зашумленное OR или зашумленное AND, где количество параметров, необходимых для задания зашумленного элемента, линейно зависит от числа родительских элементов x.

Зашумленные - ИЛИ особенно часто встречающиеся при сети заболеваний -симптомов, в которых многие заболевания x могут давать появление того же симптома y – при условии, что присутствует хотя бы одно из заболеваний, вероятность того, что этот симптом будет присутствовать, высока.
3.6 Читать далее
Введение в байесовские сети и графические модели в экспертных системах можно найти в [258], где также рассматриваются общие методы вывода, которые будут рассмотрены в последующих главах.
3.7Код
3.7.1Наивный вывод демо-версия
demoBurglar.m: Это был грабитель демо
demoChestClinic.m: Наивный вывод о клинике грудной клетки
3.7.2 Демонстрация условной независимости
В следующей демонстрации определяется, соответствует ли X; Y | Z для сети клиник грудной клетки, и проверяется результат численно. Тест на независимость основан на методе Маркова, описанном в разделе(4.2.4). Этот метод предпочтительнее метода d-разделения, поскольку он, возможно, проще в кодировании, а также более общий в том смысле, что он также имеет дело с условной независимостью в сетях Маркова, а также в сетях убеждений.

При выполнении демонстрационного кода, приведенного ниже, может случиться так, что числовая зависимость будет очень низкой – то есть
даже если X ;Y| Z. Это подчеркивает разницу между "структурной" и "численной" независимостью.
condindepPot.m: Численная мера условной независимости
demoCondindep.m: Демонстрация условной независимости (с использованием метода Маркова).
3.7.3 Вспомогательные процедуры\приёмы
dag.m: Найдите структуру DAG для сети убеждений

3.8 Упражнения
Упражнение 20 ("Тусовщик"). Задача "Тусовщик" соответствует сети на рис. 3.14. Начальник зол, а у работника болит голова – какова вероятность того, что работник был на вечеринке?
8Код для (структурной) условной независимости приведен в главе(4).
44 ЧЕРНОВИК от 9 марта 2010 г. Упражнения
Рис.3.14: Участник вечеринки. Здесь все переменные являются двоичными. Если задано значение 1, то утверждения верны: P = Был на вечеринке, H = У него разболелась голова, D = На работе нет мотивации, U = На работе плохо работают, A = Начальник сердит. В истинном состоянии наблюдаются заштрихованные переменные.
x = Положительный рентгеновский снимок
d = Одышка (затрудненное дыхание)
e = Либо туберкулез, либо рак легких
t = Туберкулез
l = Рак легких
b = Бронхит.
a = Посещал Азию
s = Курит.
Рисунок 3.15: Структура сети убеждений на примере клиники грудной клетки Chest Clinic.

Заполнить спецификации, и вероятности будут указаны следующим образом:
Упражнение 21. Рассмотрим распределение p(a, b, c) = p(c|a, b)p(a)p(b). (i) Является ли a ; b| ;?. (ii) Является ли a ;b|c?
Упражнение 22. Сеть клиник грудной клетки [170] занимается диагностикой заболеваний легких (туберкулеза, рака легких, или обоих, или ни того, ни другого). В этой модели предполагается, что посещение Азии увеличивает вероятность появления туберкулёза. Состояния, если имеются следующие условные независимые отношения - правда или ложь
1. туберкулез;курящий| одышка,
2. рак легких ; бронхит| курение,
3. визит в Азию; рак легких | курение
4. визит в Азию ;курение| рак легких, одышка.
Упражнение 23 ([128]). Рассмотрим схему на рис. 3.16, которая описывает вероятность запуска автомобиля.

p(b = плохо) = 0,02
p(g = пусто|b = хорошо, f = не пусто) = 0,04

Вычислите P (f = пустой|s = нет), вероятность того, что топливный бак пуст, исходя из того, что автомобиль не заводится.
Упражнение 24. Рассмотрим байесовскую сеть клиники грудной клетки на рис.3.15 [170]. Рассчитайте вручную значениядля p(D), p(D|S = tr), p(D|S = fa). Значения в таблице следующие:
p(e = tr|t, l) = 0, только если оба t и l равны fa, в противном случае - 1.
ДРАФТ от 9 марта 2010 г. 45 Упражнения
Батарея
Топливо
Калибр
поворачивать
Начать
Рисунок 3.16: Система убеждений в том, что автомобиль не заводится[128], см. упражнение(23).

Упражнение 25. Если мы интерпретируем упражнение сети клиник грудной клетки (24) причинно-следственно, как мы можем помочь врачу ответить на вопрос: "Если бы я мог вылечить своих пациентов от бронхита, как бы это повлияло на вероятность возникновения у них одышки?". Как это соотносится с p(d = tr|b = fa) в непричинной интерпретации и что это означает?
Упражнение 26. Существует синергетическая взаимосвязь между воздействием асбеста (А), курением (Я) и раком (В). Модель, описывающая эту взаимосвязь, задается формулой
1. Является ли A ; S |;?
2. Является ли A; S/ C?
3. Как вы могли бы скорректировать модель, чтобы учесть тот факт, что люди, работающие в строительной отрасли у вас больше шансов стать курильщиками, а также подвергнуться воздействию асбеста?
Упражнение 27. Рассмотрим распределение трех переменных:
где все переменные являются двоичными. Сколько параметров необходимо для задания распределений такого вида?
Упражнение 28.
Рассмотрим сеть убеждений справа, которая отражает опасения мистера
Холмса по поводу краж со взломом, как показано на рис. 3.2, а: (B) Взломщик,
(А) Сигнализация, (W) Ватсон, миссис (G Гиббон).
Все переменные принимают два состояния {tr, fa}. В таблице указаны значения
1. Вычислите ‘вручную’ (т.е. покажите свою работу) :
(a) p(B = tr|W = tr)
(b) p(B = tr|W = tr, G = fa)
2. Рассмотрим ту же ситуацию, что и выше, за исключением того, что теперь свидетельства являются неопределенными. Миссис Гиббон считает , что состояние G = fa с вероятностью 0,9. Аналогично, доктор Уотсон верит в состояние W = fa со значением 0,7. Вычислите "вручную" значения, соответствующие этим неопределенным (неявным) свидетельствам:
(a) p(B = tr|W)
(b) p(B = tr|W , G)
Упражнение 29. Врач назначает пациенту (D) лекарство (с лекарством или без лекарства) в зависимости от его (А) возраста (старый или молодой). и (G) пола (мужчина или женщина). Выздоровеет (R) пациент или нет, зависит от всех D, A, G. Кроме того, A ; G| ;.
1. Запишите систему убеждений для описанной выше ситуации.
46
ЧЕРНОВИК от 9 марта 2010 г. Упражнения
2. Объясните, как вычислить p(восстановление|прием лекарств).
3. Объясните, как вычислить p (восстановление|прием лекарств, молодой).
Упражнение 30. Реализуйте сценарий с мокрой травой численно, используя BRMLtoolbox.
Упражнение 31 (Взломщик ЛА). Рассмотрим сценарий взломщика, пример(10). Теперь мы хотим смоделировать тот факт, что в Лос-Анджелесе вероятность ограбления возрастает в случае землетрясения. Объясните, как включить этот эффект в модель.
Упражнение 32. Для двух сетей убеждений, представленных в виде DAG со связанными матрицами смежности A и B, напишите функцию MATLAB MarkovEquiv(A,B).m, которая возвращает 1, если A и B эквивалентны по Маркову, и ноль в противном случае.
Упражнение 33. Матрицы смежности двух сетей уверений приведены ниже (см. Abmatrices.mat). Укажите, эквивалентны ли они по Маркову.
Упражнение 34. Есть три компьютера, проиндексированных как i ; {1, 2, 3}. Компьютер i может отправить сообщение на компьютер j за один временной интервал, если Cij = 1, в противном случае Cij = 0. В сети произошел сбой, и задача состоит в том, чтобы найдите некоторую информацию о коммуникационной матрице C (C не обязательно симметрична). Для этого инженер Томас проведет несколько тестов, которые покажут, может ли компьютер i отправить сообщение компьютеру j за t временных интервалов, t ; {1, 2}. Это выражается как Cij (t), где Cij (1) ; Cij . Например, он может знать, что C13 (2) = 1, что означает, что, согласно его тесту, сообщение, отправленное с компьютера 1 , достигнет компьютера 3 не более чем за 2 временных интервала. Обратите внимание, что это сообщение может передаваться разными путями – это может переходить непосредственно от 1 к 3 за один временной интервал, или косвенно от 1 к 2, а затем от 2 к 3, или и то, и другое вместе. Вы можете предположить, что Cii = 1. Априори Томас считает, что существует 10%-ная вероятность того, что Cij = 1. Учитывая тестовую информацию C = {C12 (2) = 1, C23 (2) = 0}, вычислите апостериорный вектор вероятности
Упражнение 35. Сеть уверений моделирует взаимосвязь между переменными oil, inf, eh, bp, rt, которые обозначают цена на нефть, уровень инфляции, состояние экономики, цена акций British Petroleum, цена акций розничной торговли. Каждая переменная принимает значения низкий, высокий, за исключением bp, у которой есть значения низкий, высокий, нормальный. Модель сети убеждений для этих переменных содержит таблицы
p(eh=низкий)=0,2
p (bp=низкое|масло= низкое)=0,9
1. Нарисуйте сеть убеждений для этого распределения.
2. Учитывая, что цена акций BP нормальная, а цена акций розничной торговли высокая, какова вероятность того, что инфляция высока?
Упражнение 36. Существует набор потенциалов C, потенциал c которых определяется на основе подмножества переменных Xc. Если Затем может объединить (умножить) потенциалы c и d, поскольку c содержится внутри d. С ссылкой на подходящие графовые структуры опишите эффективный алгоритм объединения набора потенциалов, чтобы для нового набора потенциалов, ни один из них не содержался в другом.
ЧЕРНОВИК от 9 марта 2010 г. 47 Упражнения
48
ЧЕРНОВИК главы от 9 марта 2010 года Графические модели
Глава 4
Графические модели
4.1Графические модели
Графические модели (ГМ) представляют собой описания отношений независимости/зависимостей для распределений. Каждая форма ГМ представляет собой конкретное объединение графических и вероятностных конструкций и детализирует форму представленных предположений о независимости. GM полезны, поскольку они обеспечивают основу для обучения широкого класса вероятностных моделей и связанных с ними алгоритмов. В частности, они помогают уточнить допущения при моделировании и обеспечивают единую структуру, в соответствии с которой алгоритмы логического вывода могут быть связаны между собой в разных сообществах.
Необходимо подчеркнуть, что все формы ГМ обладают ограниченной способностью графически выражать утверждения об условной (не)зависимости[265]. Как мы видели, сети уверений полезны для моделирования наследственной условной независимости. В этой главе мы познакомим вас с другими типами GM, которые больше подходят для представления различных предположений. Например, сети Маркова особенно подходят для моделирования предельной зависимости и условной независимости. Здесь мы сосредоточимся на сетях Маркова, цепных графах (которые объединяют \женят\ сети уверений и Маркова) и факторные графы. В зоопарке графических моделей гораздо больше обитателей, см. [70, 293].

Общая точка зрения, которой мы придерживаемся, заключается в описании проблемной среды с использованием вероятностной модели, после чего рассуждения соответствуют выполнению вероятностного вывода. Таким образом, этот процесс состоит из двух частей :
Моделирование После определения всех потенциально значимых переменных проблемной среды наша задача состоит в том, чтобы описать, как эти переменные могут взаимодействовать. Это достигается с помощью структурных допущений относительно формы совместного распределения вероятностей всех переменных, обычно соответствующая предположениям о независимости переменных. Каждый класс графической модели соответствует свойству факторизации совместного распределения.
Логический Вывод После того, как сформированы основные предположения о том, как переменные взаимодействуют друг с другом (т. е. построена вероятностная модель), ответы на все интересующие вопросы можно получить, выполнив логический вывод о распределении. Это может быть нетривиальным с точки зрения вычислений шагом, позволяющим связать GMS с точными алгоритмами логического вывода, который играет ключевую роль в успешном графическом моделировании.
Несмотря на отсутствие строгого разделения, GM, как правило, делятся на два больших класса – те, которые полезны для моделирования, и те, которые полезны для представления алгоритмов логического вывода. Для моделирования сети доверия, сети Маркова, цепочки Графов и диаграммы влияния являются одними из самых популярных. Для логического вывода модель обычно "компилируется" в подходящую GM, для которой легко может быть применен алгоритм. Такие GM для логического вывода включают в себя Факторные графы, деревья пересечений и региональные графы
Сети маркова 49

Рисунок 4.1: (a): pa = ;(x1 , x2 );(x2 , x3);(x3 , x4);(x4 , x1 )/Za .
(b): pb = ;(x1 , x2 , x3 , x4 )/Zb .
(c): pc = ;(x1 , x2 , x4 );(x2 , x3 , x4 );(x3 , x5 );(x3 , x6 )/Zc .
4.2 Марковские сети
Сети верований соответствуют особому виду факторизации совместного распределения вероятностей, в котором каждый из факторов сам по себе является распределением. Альтернативной факторизацией является, например,
, где ;(a, b) и ;(b, c) - потенциалы, а Z - константа, обеспечивающая нормализацию, называемая статистической суммой
Обычно мы используем соглашение о том, что порядок переменных в потенциале не имеет значения (как для распределения) – объединенные переменные просто индексируют элемент таблицы потенциалов. Сети Маркова определяются как произведения неотрицательных функций, определенных на максимальных кликах неориентированного графа — см. рис. (4.1).
Определение 24 (Потенциал). Потенциал ;(x) является неотрицательной функцией переменной x, ;(x) ; 0. Совместный потенциал ;(x1 , ... , xn ) является неотрицательной функцией множества переменных. Распределение является частным случаем потенциала, удовлетворяющего нормализации, ;x ;(x) = 1. Аналогично это справедливо для непрерывных переменных, где суммирование заменяется интегрированием.
Определение 25 (Сеть Маркова). Для набора переменных X = {x1 , . . . , xn } марковская сеть определяется как произведение потенциалов на подмножествах переменных :
Графически это представлено неориентированным графом G, где Xc , c = 1, . . . , C - максимальные клики G. Константа Z обеспечивает нормализацию распределения. Считается, что граф удовлетворяет свойству факторизации. В частном случае, когда граф содержит клики только размером 2, распределение называется попарной сетью Маркова, в которой потенциалы определены на каждом звене между двумя переменными.

Для случая, когда потенциалы клик строго положительны, это называется распределением Гиббса.
Замечание 4 (Попарная сеть Маркова). Хотя формально сеть Маркова определяется на максимальных кликах, на практике авторы часто используют этот термин для обозначения немаксимальных клик. Например, на графике справа максимальными кликами являются x1 , x2 ,x3 и x2 , x3 , x4 , так что график описывает распределение p(x2 , x2 , x3 , x4 ) = ;(x1 , x2 , x3 );(x2 , x3 , x4 )/Z. Однако в парной сети предполагается, что потенциалы превышают два клика, что дает p(x2 , x2 , x3 , x4 ) = ;(x1 , x2 );(x1 , x3 );(x2 , x3 );(x2 , x4 );(x3 , x4 )/Z.

50 ПРОЕКТ от 9 марта 2010 Mарковские сети
Определение 26 (Свойства сетей Маркова).
A и B безусловно зависят : p(A, B) 6= p(A)p(B).
A и B условно независимы от C : p(A, B|C) = p(A|C)p(B|C).
Отступление от C приводит к появлению A и B (графически) зависимыми.
Зависимость от C делает A и B независимыми.
4.2.1 Марковские свойства
Здесь мы приводим некоторые из наиболее полезных результатов. Для получения доказательств и более подробного обсуждения читатель может обратиться к [168]. Рассмотрим марковскую сеть на рис. 4.2,а). Здесь мы используем сокращение p(1) ; p(x1), ;(1, 2, 3) ; ;(x1 , x2 , x3 ) и т.д. Мы будем использовать этот неориентированный граф для демонстрации свойств условной независимости.
Локальное марковское свойство
Определение 27 (Локальное марковское свойство).
Будучи зависимым от своих соседей, x не зависит от остальных переменных графа.
Условное распределение p(4/1, 2, 3, 5, 6, 7) равно
Последняя строка выше следует за этим, поскольку переменная x4 появляется только в кликах, граничащих с x4 . Обобщение приведенного выше примера ясно: MN с положительными кликовыми потенциалами ;, определенными относительно неориентированного графа G, влечет за собой 1 p(xi |x\ i ) = p(xi |ne (xi )).
Попарное марковское свойство
Определение 28 (Попарное марковское свойство). Для любых несмежных вершин x и y
1Обозначение x\i является сокращением для множества всех переменных X, за исключением переменной xi , а именно X \xi в обозначении множества.
ПРОЕКТ от 9 марта 2010 г. 51 Марковские сети
Рисунок 4.2: (а): ;(1, 2, 3);(2, 3, 4);(4, 5, 6);(5, 6, 7). (b): По глобальному свойству Маркова, поскольку каждый путь от 1 до 7 проходит через 4, то 1;7/4.
где следует последняя строка, поскольку для фиксированных 2, 3, 5, 6, 7, функция ;(1, 2, 3);(2, 3, 4);(4, 5, 6) является произведением функции на 1 и функции на 4, что подразумевает независимость.
Глобальное марковское свойство
Определение 29 (разделение). Подмножество S отделяет подмножество A от подмножества B, если каждый путь от любого элемента A к любому элементу B проходит через S.
Определение 30 (Глобальное марковское свойство). Для непересекающегося подмножества переменных (A, B, S), где S отделяет A от B в G, тогда A ; B| S.
Это означает, что p(1, 7/4) = p(1/4)p(7/4).
Пример 16 (машина Больцмана). Машина Больцмана - это MN для двоичных переменных dom(xi) = {0, 1} вида
где взаимодействия wij являются "весами", а bi - смещениями. Эта модель была обучена в сообществе машинного обучения как базовая модель распределенной памяти и вычислений[2]. Графический модель BM представляет собой неориентированный граф со связью между узлами i и j для wij ; 0. Следовательно, для всех W, кроме специально ограниченных, граф многосвязен, и логический вывод, как правило, будет затруднительным.
4.2.2 Сети Гиббса
Для простоты мы предполагаем, что потенциалы строго положительны, и в этом случае MN также называются гиббсовскими Сетями. В этом случае GN удовлетворяет следующим соотношениям независимости:
52 ПРОЕКТ от 9 марта 2010 Марковские сети
Рисунок 4.3: (a-d): Локальные распределения. (e): Сеть Маркова, соответствующая локальным распределениям. Если локальные распределения положительны, то, согласно теореме Хаммерсли-Клиффорда, единственным совместным распределением, которое может быть согласовано с локальными распределениями, должно быть распределение Гиббса со структурой, заданной (e).
4.2.3 Марковские случайные поля
Определение 31 (Случайное поле Маркова). MRF определяется набором распределений p(xi |ne (xi )), где i ; {1, . . . , n} индексирует распределения, а ne (xi ) - соседние значения переменной xi , а именно это подмножество из переменных x1 , . . . , xn , от которых зависит распределение переменной xi. Термин "Марковский" указывает на то, что это правильное подмножество переменных.
Распределение является MRF относительно неориентированного графа G, если
где ne (xi) - соседние переменные переменной xi, согласно неориентированному графу G.
Теорема Хаммерсли-Клиффорда
Теорема Хаммерсли-Клиффорда помогает решить вопросы о том, когда набор положительных локальных распределений p(xi |ne (xi )) может когда-либо сформировать согласованное совместное распределение p(x1 , . . . , xn ). Локальные распределения p(xi |ne (xi )) может образовывать согласованное совместное распределение тогда и только тогда, когда p(x1 , . . . , xn ) умножается в соответствии с
, где сумма равна сумме по всем кликам, а Vc (Xc ) - это вещественная функция, определенная для переменных в клике, индексируемом c. Уравнение (4.2.15) эквивалентно ;c ;(Xc ), а именно MN для положительных потенциалов клик.
Граф, на котором определены клики, является неориентированным графом со связью между xi и xj, если
То есть, если xj влияет на условное распределение xi , то добавьте ненаправленную связь между xi и xj . Затем это повторяется для всех переменных xi [35, 203], см. рис.4.3. Обратите внимание, что теорема HC не означает, что при заданном наборе условных распределений мы всегда можем сформировать из них согласованное совместное распределение – скорее, оно указывает, какая функциональная форма совместного распределения должна соответствовать условным распределениям, см. Упражнение (45).
4.2.4 Условная независимость с использованием марковских сетей
Поскольку X ,Y, Z являются наборами переменных, в разделе(3.3.3) мы обсудили алгоритм определения X; Y| Z. Альтернативный и более общий метод (поскольку он обрабатывает ориентированные и неориентированные графики) использует следующие шаги: (см. [74, 169])
ЧЕРНОВИК от 9 марта 2010 г.
53марковские сети

Рисунок 4.4: (а): Сеть убеждений, для которой нас интересует проверка условной независимости a ; b| {d, i}. (b): Наследственный морализированный граф для a ; b | {d, i}. Каждый путь от красного к зеленому узлу проходит через желтый узел, поэтому a и b независимы при заданных значениях d, i. В качестве альтернативы, если мы рассмотрим a ;b | i, переменная d не будет окрашена, и мы можем перейти от красного к зеленому, не встречая желтого узла (используя путь e ; f). В этом случае a зависит от b, обусловленного i.

Граф предков Удаляет из DAG любой узел, который не находится ни в X ; Y ; Z, ни в предке узла в этом наборе, вместе с любыми ребрами, входящими в такие узлы или выходящими из них.
Морализация Добавьте линию между любыми двумя оставшимися узлами, которые имеют общий дочерний узел, но еще не соединены стрелкой. Затем удалите оставшиеся наконечники стрелок.
Разделение В построенном таким образом неориентированном графе найдите путь, который соединяет узел в X с узлом в Y, но не пересекает Z. Если такого пути нет, сделайте вывод, что X ; Y| Z.
Для сетей Маркова необходимо применять только конечный критерий разделения. Пример приведен на рис. 4.4.
4.2.5 Решетчатые модели
Неориентированные модели имеют долгую историю в различных областях науки, особенно в статистической механике решеток, а в последнее время - в качестве моделей визуальной обработки, в которых модели поощряют соседние переменные находиться в одних и тех же состояниях [35, 36, 106].
Рассмотрим модель, в которой мы хотим, чтобы состояния двоичных переменных x1 , ... , x9, расположенных на решетке (справа), предпочитали, чтобы их соседние переменные находились в одном и том же состоянии
, где i ~ j обозначает набор индексов, где i и j являются соседями в неориентированном графе.
Модель Изинга
Набор потенциалов для уравнения (4.2.17), который приводит соседние переменные к одинаковому состоянию, представляет собой
Это соответствует хорошо известной модели физики магнитных систем, называемой моделью Изинга, которая состоит из "мини-магнитов", которые предпочитают находиться в одном и том же состоянии в зависимости от температуры
Рисунок 4.5: Намагничивание по методу Онсагара. Когда температура T снижается до критической температуры Tc, происходит фазовый переход, при котором большая часть переменных выравнивается в одном и том же состоянии.
ЧЕРНОВИК от 9 марта 2010 г. Графические модели цепочки
Рисунок 4.6: Диаграммы цепочек. Компоненты цепочки идентифицируются путем удаления направленных ребер и определения оставшихся связанных компонентов. (a): Компонентами цепочки являются (a), (b), (c, d), которые могут быть записывается как BN для переменных кластера в (b). (c): Компонентами цепочки являются (a, e, d, f), (b, g), (c), которые имеют кластерное представление BN (d). (Из [168])
T . При высоком T переменные ведут себя независимо, так что глобальное намагничивание не возникает. При низком T соседние мини-магниты выравниваются, создавая сильный макромагнит. Примечательно, что можно показать, что в очень большой двумерной решетке, ниже так называемой температуры Кюри, Tc ; 2,269 (для переменных ±1), система допускает фазовый переход, при котором большая часть из переменных становятся выровненными – выше Tc, в среднем, переменные не выровнены. Это показано на рисунке(4.5), где M = | ;N i=1 xi |/N - среднее выравнивание переменных. То, что этот фазовый переход происходит при ненулевой температуре, послужило поводом для проведения значительных исследований в этой и смежных областях[40]. Подобные эффекты глобальной согласованности, возникающие из-за слабых локальных ограничений, присутствуют в системах, которые допускают нестандартное поведение. Подобные локальные ограничения популярны в алгоритмах восстановления изображений для устранения шума при предполагается, что шум не будет демонстрировать никакой локальной пространственной когерентности, в то время как "сигнал" будет. Пример приведен в разделе (28.8), где мы обсуждаем алгоритмы вывода при особых ограничениях на MRF.
4.3 Цепные графические модели
Определение 32 (Компонент цепочки). Компоненты цепочки графа G получены путем :
1. Формирования графа G` с направленными ребрами, удаленными из G.
2. Тогда каждый связанный компонент в G` образует компонент цепочки.
Цепные графы (CG) содержат как направленные, так и ненаправленные связи. Чтобы развить интуицию, рассмотрим рис.4.6а. Единственные термины, которые мы можем однозначно указать на этом рисунке, - это p(a) и p(b), поскольку в вершинах a и b нет смешанного взаимодействия направленных и ненаправленных ребер. Следовательно, по вероятности, мы должны иметь
p(a, b, c, d) = p(a)p(b)p(c, d|a, b) (4.3.1)
Глядя на граф, мы могли бы ожидать, что интерпретация будет такой:
p(c, d|a, b) = ;(c, d)p(c|a)p(d|b) (4.3.2)
Однако, чтобы обеспечить нормализацию, а также сохранить общность, мы интерпретируем этот компонент цепочки как
Это приводит к интерпретации CG как DAG для компонентов цепочки. Каждый компонент цепочки представляет собой распределение по переменным компонента, обусловленное родительскими компонентами. Условное распределение само по себе является результатом распределения по группам неориентированного компонента и морализированных родительских компонентов, включая также фактор, обеспечивающий нормализацию по компоненту цепочки.
ЧЕРНОВИК от 9 марта 2010 г. 55 Выражаемость графических моделей
Определение 33 (Распределение в цепном графе). Распределение, связанное с цепным графом G, определяется путем предварительной идентификации компонентов цепочки, ; . Затем
и
где Ct обозначает объединение клик в компоненте ; вместе с морализированными родительскими компонентами ; , где ; - это связанные функции, определенные для каждой клики. Коэффициент пропорциональности неявно определяется ограничением, согласно которому распределение суммируется с 1.
BNS - это CG, в которых связными компонентами являются синглтоны. MNs - это CG, в которых компоненты цепочки являются просто связными компонентами неориентированного графа.
CG могут быть полезны, поскольку они лучше выражают утверждения CI, чем только сети убеждений или Марковские сети. Для получения более подробной информации читатель может обратиться к [168] и [99].
Пример 17 (Цепные графы более выразительны, чем сети уверений или Маркова). Рассмотрим граф цепочки на рис. 4.7а, который имеет разложение компонентов цепочки
p(a, b, c, d, e, f) = p(a)p(b)p(c, d, e, f |a, b) (4.3.6)
где
p(c, d, e, f |a, b) = ;(a, c);(c, e);(e, f);(d, f);(d, b);(a, b)
с учетом требований нормализации
Предельное значение p(c, d, e, f ) определяется как
Поскольку предельное распределение p(c, d, e, f ) является ненаправленным 4-циклом, ни один DAG не может выразить утверждения CI, содержащиеся в предельном p(c, d, e, f ). Аналогично, никакое неориентированное распределение на том же каркасе, что и на рис.4.7а, не могло бы показать, что a и b независимы (безусловно), т.е. p(a, b) = p(a)p(b).
4.4 Выразительность графических моделей
Очевидно, что направленные распределения могут быть представлены как неориентированные распределения, поскольку каждый (нормализованный) фактор в направленном распределении можно связать с потенциалом. Например, распределение p(a|b)p(b|c)p(c) может быть учтено как ;(a, b);(b, c), где ;(a, b) = p(a|b) и ;(b, c) = p(b|c)p(c), с Z = 1. Следовательно, каждая сеть убеждений может быть представлена в виде некоторого числа MN путем простой идентификации факторов в распределениях. Однако, в общем случае, связанный неориентированный граф (который соответствует
56
ЧЕРНОВИК от 9 марта 2010 г. Наглядность графических моделей
Рисунок 4.7: CG (a) выражает a; b | ; и d ; e |(c, f ). Ни один ориентированный граф не смог бы выразить оба этих условия, поскольку предельное распределение- функция p(c, d, e, f) представляет собой неориентированный четырехцикл, (b). Любая DAG в четырехцикле должна содержать коллайдер, как в (c) , и, следовательно, выражать набор операторов \утверждений CI , отличный от (b). Аналогично, ни одна подключенная сеть Маркова не может выражать безусловную независимость, и, следовательно, (a) выражает утверждения CI, которые не могут быть выражены ни сетью убеждений, ни сетью Маркова в отдельности.

морализированный ориентированный граф) будет содержать дополнительные ссылки, и информация о независимости может быть потеряна. Например, MN из p(c|a, b)p(a)p(b), если существует единственная клика ;(a, b, c), из которой нельзя графически вывести, что a ; b |;.

Возникает обратный вопрос: может ли каждая неориентированная модель быть представлена в виде BN с легко выводимой структурой связей? Рассмотрим пример на рис. 4.8. В этом случае не существует направленной модели с такой же структурой связей, которая могла бы выражать зависимости (в) в неориентированном графе. Естественно, каждое распределение вероятностей может быть представлено некоторым числом BN, хотя оно не обязательно может иметь простую структуру и быть просто "полностью связанным" графом в стиле каскада. В этом смысле DAG не может графически представлять отношения независимости/зависимости, существующие в распределении.
Определение 34 (Карты независимости). График - это карта независимости (I-map) данного распределения P, если каждое утверждение об условной независимости, которое можно вывести из графика G, верно для данного распределения P. То есть
для всех непересекающихся множеств \наборов\ X,Y, Z.
Аналогично, граф является картой зависимости (D-map) данного распределения P, если каждое утверждение об условной независимости, которое можно вывести из P, истинно в графе G. То есть
для всех непересекающихся множеств X,Y, Z.
Граф G, который является как I-отображением, так и D-отображением для P, называется идеальным отображением и
для всех непересекающихся множеств X,Y, Z. В этом случае набор всех утверждений об условной независимости и зависимости, выражаемых на графе G, согласуется с P и наоборот.
Из-за обратного способа определения, пример (5), отображение зависимости эквивалентно X
хотя это менее полезно, поскольку стандартные представления графической модели не могут выразить зависимость.
Обратите внимание, что приведенные выше определения не зависят от того, является ли график направленным или ненаправленным. Действительно, некоторые распределения могут иметь идеальную направленную карту, но не иметь идеальной ненаправленной карты. Например,
p(x, y, z) = p(z|x, y)p(x)p(y) (4.4.5)
ЧЕРНОВИК от 9 марта 2010 г. 57 Факторные графы
Рисунок 4.8: (a): Неориентированная модель, для которой мы хотим найти направленный эквивалент. (b): В каждом DAG с такой же структурой, как и в неориентированной модели, должна быть ситуация, когда две стрелки будут указывать на узел, такой как узел d. Суммирование по состояниям переменной d оставит DAG для переменных a, b, c без связи между a и c. Это не может представлять неориентированную модель, поскольку, когда один из полей находится над d в неориентированной модели, это добавляет связь между a и c.
имеет направленное идеальное отображение x ; z ;y (при условии, что p(z|x, y);;x (x);y (y)), но нет идеальной неориентированной карты.
Пример 18. Рассмотрим распределение, определенное для переменных t1 , t2 , y1 , y2 [232]:
Значение BN
является I-отображением для распределения (4.4.6), поскольку каждое утверждение о независимости в BN верно для соответствующего графа. Однако это не D-ОТОБРАЖЕНИЕ\МАП\, поскольку t1 ; t2 | y2 не может быть выведено из BN. Аналогично, ни один неориентированный граф не может представлять все утверждения о независимости, верные в (4.4.6). В этом случае никакая идеальная КАРТА\МАП\ (BN или MN) не может представлять (4.4.6).
4.5 Факторные графы
Факторные графы (ФГ FG) в основном используются как часть алгоритмов логического вывода2.
Определение 35 (Факторный граф). Задана функция
В FG есть узел (обозначенный квадратом) для каждого фактора ;i и переменный узел (обозначенный кружком) для каждой переменной xj . Для каждого xj ; Xi устанавливается ненаправленная связь между фактором ;i и переменной xj .

Для фактора ;i (X i ), который является условным распределением p(xi |pa (xi )), мы можем использовать направленные ссылки от родительского узла к факторному узлу и направленную ссылку от факторного узла к дочернему. Это имеет ту же структуру, что и (неориентированный) FG, но сохраняет информацию о том, что факторы являются распределениями.

Факторные графики полезны, поскольку они могут сохранить больше информации о форме распределения, чем это может сделать сеть убеждений или сеть Маркова (или цепной граф) в одиночку.
Рассмотрим распределение
p(a, b, c) = ;(a, b);(a, c);(b, c) (4.5.2)
2Формально FG - это альтернативное графическое изображение гиперграфа[81], в котором вершины представляют переменные, а гиперребро - множитель как функцию переменных, связанных с гиперребром. Таким образом, FG - это гиперграф с дополнительной интерпретацией, согласно которой граф представляет функцию, определенную как произведение на соответствующие гиперграницы \ребра\. Большое спасибо Роберту Коуэллу за это наблюдение.
58 ЧЕРНОВИК от 9 марта 2010 г. Упражнения
Рисунок 4.9: (a): ;(a, b, c). (b): ;(a, b);(b, c);(c, a). (c): ;(a, b, c). И (a), и (b) имеют одну и ту же неориентированную графическую модель (c). (e): Направленная FG из BN в (d). (a) - неориентированная FG из (d). Преимущество (e) перед (a) заключается в том, что информация о предельной независимости переменных b и c очевидна из графа (e), в то время как убедиться в этом можно только путем изучения числовых значений факторов на графе (a). (f): частично направленный FG из p(a|b, c);(d, c);(b, d). Не направленный, ненаправленный или цепной граф может представлять как условные, так и предельные утверждения о независимости, выражаемые этим графом, а также факторизованную структуру неориентированных членов.
Представление MN приведено на рис. 4.9, в). Однако рисунок (4.9c) в равной степени может представлять некоторый неучтенный потенциал клики ;(a, b, c). В этом смысле представление FG на рис. 4.9, б) более точно передает форму уравнения распределения (4.5.2). Неучтенный потенциал клики ;(a, b, c) представлен на рисунке FG(4.9a). Следовательно, разные FG могут иметь одинаковое значение MN, поскольку информация о структуре потенциал клики теряется во МН.
4.5.1 Условная независимость в факторных графах
Правило, которое работает как с направленными, так и с ненаправленными (и частично направленными) FG, заключается в следующем[96]. Чтобы определить, являются ли две переменные независимыми при заданном наборе условных переменных, рассмотрите все пути, соединяющие эти две переменные. Если все пути заблокированы, переменные являются условно независимыми.
Путь блокируется, если выполняется одно или несколько из следующих условий:
• Одна из переменных в пути находится в наборе условий.
• У одной из переменных или факторов в пути есть два входящих ребра, которые являются частью пути, и ни эта переменная, ни фактор, ни какие-либо из их потомков не входят в набор условий.

4.6 Примечания к разделу
Подробное обсуждение аксиоматической и логической основы условной независимости приведено в [45] и [264].
4.7 Кодовое
condindep.m: Тест на условную независимость p(X, Y |Z) = p(X|Z)p(Y |Z)?
4.8 Упражнения
Упражнение 37. 1. Рассмотрим попарную марковскую сеть,
p(x) = ;(x1 , x2);(x2 , x3 );(x3 , x4 );(x4 , x1 ) (4.8.1)
Выразите в терминах ; следующее:
p(x1 |x2 , x4 ), p(x2 |x1 , x3 ), p(x3 |x2 , x4 ), p(x4 |x1 , x3 ) (4.8.2)
ЧЕРНОВИК от 9 марта 2010 г. 59 Упражнения
2. Для набора локальных распределений, определенных как
всегда ли возможно найти совместное распределение p (x1, x2, x3, x4 ), соответствующее этим локальным условным распределениям?
Упражнение 38. Рассмотрим марковскую сеть
Формально, при суммировании по b переменные a и c являются зависимыми. Для бинарного b объясните ситуацию, в которой это не так, так что в некотором смысле a и c независимы.
Упражнение 39. Покажите, что для машины Больцмана
можно предположить, не теряя общности, что W = WT .
Упражнение 40. Ограниченная машина Больцмана (или фисгармония \гармониум\[253]) - это специально ограниченная машина Больцмана на двудольном графе, состоящем из слоя видимых переменных v = (v1 , ... , vV ) и скрытых переменных h = (h1 , ... , hH ):

Все переменные являются двоичными и принимают значения 0, 1.
1. Покажите, что распределение скрытых единиц измерения, зависящее от видимых единиц измерения, умножается на
,где ;(x) = ex /(1 + ex ).
2. Используя аргументы симметрии, запишите форму условного p(v|h).
3. Является ли p(h) разложимым на множители?
4. Можно ли эффективно вычислить статистическую функцию Z(W, a, b) для RBM?
Упражнение 41. Рассмотрим

Возможно ли эффективно вычислить argmaxx1,…,x100 p(x)?
Упражнение 42. Вам задано, что
Выведите наиболее общую форму распределения вероятностей p (x, y, z, u) в соответствии с этими утверждениями. Имеет ли это распределение простую графическую модель?
60 ЧЕРНОВИК от 9 марта 2010 г. Упражнения
Упражнение 43. Неориентированный граф представляет собой марковскую сеть с узлами x1 , x2 , x3 , x4 , x5, расположенными по часовой стрелке вокруг пятиугольника с потенциалами ;(xi , x1+mod(i,5)).

Покажите, что совместное распределение может быть записано в виде
и выразите таблицы предельных вероятностей в явном виде как функции потенциалов ;(xi , xj ).
Упражнение 44. Рассмотрим сеть убеждений справа.

1. Запишите марковскую сеть из p (x1 , x2 , x3 ).
2. Является ли ваша сеть Маркова идеальным отображением p (x1 , x2 , x3 )?
Упражнение 45. Две исследовательские лаборатории независимо друг от друга изучают взаимосвязь между дискретными переменными x и y. Лаборатория A с гордостью сообщает, что они определили распределение pA (x|y) на основе данных. Лаборатория B с гордостью сообщает, что они определили pB (y|x) на основе данных.
1. Всегда ли возможно найти совместное распределение p(x, y), соответствующее результатам обеих лабораторий?
2. Возможно ли определить согласованные маргиналы p(x) и p(y) в том смысле, что p(x) = y pA (x|y)p(y) и p(y) = x pB (y|x)p(x)? Если да, объясните, как найти такие маргиналы. Если нет, объясните, почему нет.
Упражнение 46. Исследовательская лаборатория A представляет свои выводы о наборе переменных x1 , . . . , xn в виде списка LA утверждений об условной независимости. Лаборатория B аналогичным образом предоставляет список утверждений об условной независимости LB .
1. Возможно ли найти распределение, которое согласуется с LA и LB?
2. Если списки также содержат утверждения о зависимости, как можно попытаться найти распределение, которое согласуется с обоими списками?
Упражнение 47.
Рассмотрим распределение
p(x, y, w, z) = p(z|w)p(w|x, y)p(x)p(y) (4.8.11)
1. Запишите p(x|z), используя формулу, включающую (все или часть) p(z|w), p(w|x, y), p(x), p(y).
2. Запишите p(y|z), используя формулу, включающую (все или часть) p(z|w), p(w|x, y), p(x), p(y).
3. Используя приведенные выше результаты, выведите явное условие для x ; y| z и объясните, выполняется ли оно для данного распределения.
Упражнение 48. Рассмотрим распределение
1. Нарисуйте сеть убеждений для этого распределения.
2. Может ли распределение
быть записанным как (‘неполная’) Сеть убеждений?
3. Покажите, что для p(t1 , t2 , y1 , y2 ), как определено выше, t1 ; y2|;.
ЧЕРНОВИК от 9 марта 2010 г. 61 Упражнения
Упражнение 49. Рассмотрим распределение
где ; - это потенциалы.
1. Нарисуйте марковскую сеть для этого распределения.
2. Объясните, можно ли представить распределение в виде ("неполной") Сети убеждений.
3. Выведите явно, если a ; c| ;.
Упражнение 50. Покажите, как для любой односвязной марковской сети можно построить марковский эквивалент Сети убеждений.
Упражнение 51.
Рассмотрим попарную бинарную марковскую сеть, определенную по переменным si ; {0, 1}, i = 1, . . . , N , с p(s) = ;ij;E ;ij (si , sj ), где E - заданный набор ребер, а потенциалы ;ij произвольны. Объясните, как преобразовать такую марковскую сеть в машину Больцмана.
62 ЧЕРНОВИК от 9 марта 2010 г.
Глава 5
Эффективный вывод в виде деревьев
5.1. Предельный вывод
При заданном распределении p(x1 , . . . , xn) логический вывод - это процесс вычисления функций распределения. Для примера, вычисление предельного значения, обусловленного тем, что подмножество переменных находится в определенном состоянии, было бы задачей логического вывода. Аналогично, вычисление среднего значения переменной можно рассматривать как задачу логического вывода. Основное внимание в этой главе уделяется эффективным алгоритмам логического вывода для маргинального вывода в односвязных структурах. Эффективный алгоритм для многосвязных графов будет рассмотрен в главе (6). Предельный логический вывод связан с вычислением распределения подмножества переменных, возможно, обусловленных на другом подмножестве. Например, учитывая совместное распределение p (x1 , x2 , x3 , x4 , x5 ), предельный вывод, полученный при вычислении доказательств, равен
Предельный вывод для дискретных моделей предполагает суммирование и будет в центре нашего внимания. В принципе, алгоритмы переносятся на модели с непрерывными переменными, хотя отсутствие замкнутости большинства непрерывных распределений в условиях маргинализации (гауссово распределение является заметным исключением) может затруднить прямой перенос этих алгоритмов в непрерывную область.
5.1.1 Исключение переменных в цепочке Маркова и передача сообщений
Ключевой концепцией эффективного логического вывода является передача сообщений, при которой информация из графа суммируется с информацией о локальных границах\ ребрах\. Чтобы развить эту идею, рассмотрим цепь Маркова с четырьмя переменными (цепи Маркова более подробно рассматриваются в разделе (23.1)).
p(a, b, c, d) = p(a|b)p(b|c)p(c|d)p(d) (5.1.2)
как показано на рис. 5.1, для которого нашей задачей является вычисление предельного значения p(a). Для простоты предположим, что каждая из переменных имеет область {0, 1}. Затем
Рисунок 5.1: Цепь Маркова имеет вид p(xT ) ;T-1t=1 p(xt |xt+1 ) для некоторого присвоения переменным меток xt . Вывод переменных может быть выполнен за время, линейное по числу переменных в цепочке.
63 Исходный \предельный , маргинальный, выделенный\ вывод
Мы могли бы выполнить это вычисление, просто суммируя каждую из вероятностей для 2 ; 2 ; 2 = 8 состояний переменных b, c и d.
Более эффективный подход заключается в том, чтобы сдвинуть суммирование по d как можно дальше вправо:
где yd (c) - потенциал (двух состояний) . Аналогично, мы можем распределить суммирование по c как можно правильнее\ прямо:
Тогда, наконец,
Распределяя суммы, мы сделали 2 + 2 + 2 = 6 дополнений по сравнению с 8 при наивном подходе. Хотя эта экономия может показаться незначительной, важным моментом является то, что количество вычислений для цепочки длиной T будет линейно увеличиваться с увеличением T, в отличие от экспоненциального роста при наивном подходе.
Эта процедура, естественно, называется устранением переменных, поскольку каждый раз, когда мы суммируем по состояниям переменной, мы исключаем ее из распределения. Мы всегда можем эффективно устранить переменную в цепочке, поскольку существует естественный способ распределения суммирования, начиная с краев\граней, ребер. Обратите внимание, что в приведенном выше случае потенциалы на самом деле всегда являются распределениями – мы просто рекурсивно вычисляем предельное распределение в правом листе цепочки.
Исключение переменной можно рассматривать как передачу сообщения (информации) в соседнюю вершину графа. Мы можем вычислить одномерную границу\предел, маргинал\ любого односвязного графа, начав с лист дерева, устраняя существующую там переменную, а затем продвигаясь внутрь, каждый раз откусывая по листочку от оставшегося дерева. При условии, что мы выполняем исключение из листьев внутрь, тогда структура оставшегося графа является просто поддеревом исходного дерева, хотя записи таблицы условных вероятностей изменены на потенциалы, которые обновляются при рекурсии. Это гарантированно позволит нам вычислить любое предельное значение p(xi), используя ряд сумм, которые линейно масштабируются в зависимости от количества переменных на графе.
Нахождение условных предельных значений для цепочки
Рассмотрим следующую задачу вывода, рис.5.1: Дано
p(a, b, c, d) = p(a|b)p(b|c)p(c|d)p(d), (5.1.7)
найдите p(d|a). Это можно вычислить, используя
Недостающая константа пропорциональности находится путем повторения вычисления для всех состояний переменной d. Поскольку мы знаем, что p(d|a) = kyc (d), где yc (d) - ненормированный результат суммирования, мы можем использовать тот факт, что ;dp(d|a) = 1, чтобы сделать вывод, что k = 1/ ;d yc (d).
64 ПРЕДВАРИТЕЛЬНЫЙ вывод от 9 марта 2010 года
ПРЕДВАРИТЕЛЬНЫЙ вывод от 9 марта 2010 г.
В этом примере потенциальный yb (c) не является распределением в c, как и yc (d). В общем, можно рассматривать устранение переменных как передачу сообщений в виде потенциалов от узлов к их соседям. Для сетей уверений при исключении переменных передаются сообщения, которые являются распределениями при следовании по направлению ребра \грани, и ненормализованные потенциалы при передаче сообщений против направления ребра.
Замечание 5. Исключение переменных в деревьях как матричное умножение
Исключение переменных связано с ассоциативностью умножения матриц. Для уравнения (5.1.2) приведенного выше, мы можем определить матрицы
Тогда можно записать предельное\предварительное значение Ma
поскольку умножение матриц является ассоциативным. Эта матричная формулировка вычисления маргинальных значений называется методом матрицы переноса и особенно популярна в литературе по физике[26].
Пример 19 (Где будет находиться муха?).
Вы живете в доме с тремя комнатами, обозначенными как 1, 2, 3. Между комнатами 1 и 2 есть дверь, а между комнатами 2 и 3 - еще одна. Невозможно пройти между комнатами 1 и 3 напрямую за один временной шаг. Надоедливая муха с жужжанием перелетает из одной комнаты в другую, а в комнате 1 есть немного вонючего сыра, который, кажется, привлекает муху еще больше. Используя xt, определяем, в какой комнате находится муха в момент времени t, с помощью dom(xt ) = {1, 2, 3}, движение мухи может быть описано переходом
где M - матрица переходов
Матрица перехода является стохастической в том смысле, что, как того требует условное распределение вероятностей ;3i=1 Mij = 1. Учитывая, что муха находится в комнате 1 в момент времени 1, какова вероятность того, что комната будет занята в момент времени t = 5? Предположим, что цепь Маркова определяется совместным распределением

Нас просят вычислить p(x5 |x1 = 1), которое задается формулой
Поскольку граф распределения представляет собой цепочку Маркова, мы можем легко распределить суммирование по условиям. Проще всего это сделать, используя метод матрицы переноса, который дает
ЧЕРНОВИК от 9 марта 2010 г. 65. Исходный\ маргинальный вывод
, где v - вектор с компонентами (1, 0, 0)T , отражающий доказательство того, что в момент времени 1 муха находится в комнате 1. Вычисляя это, мы получаем (с точностью до 4 знаков после запятой)
Аналогично, после 5 временных шагов вероятности занятости равны (0,5612, 0,3215, 0,1173). Вероятность занятости помещения приближается к определенному распределению – стационарному распределению цепи Маркова. Можно было бы спросить, где находится муха после бесконечного числа временных шагов. То есть нас интересует поведение
При сходимости p(xt+1 ) = p(xt ). Записывая p для вектора, описывающего стационарное распределение, это означает
p = Mp (5.1.18)
Другими словами, p - это собственный вектор M с собственным значением 1[122]. Вычисляя это численно, получаем стационарное распределение, равное (0,5435, 0,3261, 0,1304). Обратите внимание, что программные пакеты обычно возвращают собственные векторы с eT e = 1 – поэтому единичный собственный вектор обычно требует нормализации, чтобы сделать это вероятным.
5.1.2 Алгоритм суммирования-произведения на факторных графах
Как марковские сети, так и сети убеждений могут быть представлены с помощью факторных графов. По этой причине удобно получить алгоритм маргинального вывода для FG, поскольку это применимо как к марковским, так и к сетям убеждений. Это называется алгоритмом суммирующего произведения, поскольку для вычисления предельных значений нам нужно распределить сумму по переменным состояниям по произведению факторов. В более старых текстах это называется распространением веры\ убеждений, уверений.
Неразветвляющиеся графы: сообщения от переменной к переменной
Рассмотрим распределение
который имеет факторный график, представленный на рис. 5.2, с коэффициентами, определенными в приведенном выше f. Для вычисления предельного значения p(a, b, c), поскольку переменная d встречается только локально, мы используем
Аналогично,
Следовательно
Ясно, как можно повторно использовать это определение сообщений таким образом, чтобы для цепочки переменных длиной n граница первого узла может быть вычислена за линейное время в n. Термин µc;b (b) можно интерпретировать как
66 ПРЕДВАРИТЕЛЬНЫЙ вывод от 9 марта 2010 года
Рисунок 5.2: Для односвязных структур без ответвлений могут быть определены простые сообщения от одной переменной к ее соседней, чтобы сформировать эффективную схему предельного \ маргинального \ вывода.
, несущий краевую \ предельную, маргинальную\ информацию из графа за пределами c.
Для любой односвязной структуры коэффициенты на краю \ребре\ графа могут быть заменены сообщениями которые отражают маргинальную информацию из графа, выходящую за рамки этого фактора. Для простых линейных структур без ветвления достаточно сообщений от переменных к переменным. Однако, как мы увидим ниже, в более общих структурах с ветвлением полезно рассматривать два типа сообщений, а именно сообщения от переменных к факторам и наоборот.
Общие односвязные графы фактора
Немного более сложный пример
p(a|b)p(b|c, d)p(c)p(d)p(e|d) (5.1.23)
имеет факторный граф, рис.5.3.
Если предельный p(a, b) должен быть представлен отрезанным графом с сообщениями по краям, то
В этом случае естественно рассматривать сообщения от факторов к переменным. Аналогично, мы можем разбить сообщение от фактора f2 на сообщения, поступающие из двух ветвей через c и d, а именно
Аналогично, мы можем интерпретировать
Для завершения интерпретации мы определяем µc;f2 (c) ; µf3 ;c (c). В неразветвленной связи можно проще использовать сообщение от переменной к переменной.
Рисунок 5.3: Для ветвящегося односвязного графа полезно определить сообщения как от факторов к переменным, так и от переменных к факторам.
ЧЕРНОВИК от 9 марта 2010 г. 67 Исходный вывод
Чтобы вычислить предельное значение p(a), мы имеем
Для согласованности интерпретации можно также представить вышесказанное как
Удобство этого подхода заключается в том, что сообщения могут быть повторно использованы для оценки других второстепенных выводов. Например, ясно, что p(b) задается формулой
Если мы дополнительно хотим получить p(c), нам нужно определить сообщение от f2 до c,
, где µb;f2 (b) ; µf1 ;b (b). Это демонстрирует повторное использование уже вычисленного сообщения от d до f2 для вычисления предельного значения p(c).
Определение 36 (Расписание сообщений). Расписание сообщений - это определенная последовательность обновлений сообщений. A допустимое расписание означает, что сообщение может быть отправлено с узла только тогда, когда этот узел получил все необходимые сообщения от своих соседей. Как правило, существует несколько допустимых расписаний обновления.
Алгоритм суммирования-произведения
Ниже описан алгоритм суммирования, в котором сообщения обновляются в зависимости от поступающих сообщений. Затем выполняется вычисление сообщений по расписанию, которое позволяет вычислять новое сообщение на основе ранее вычисленных сообщений, до тех пор, пока не будут вычислены все сообщения от всех факторов к переменным и наоборот.
Определение 37 (Сообщения "Сумма-продукт" на графах факторов).
Учитывая распределение, определенное как произведение на подмножества переменных, p (X ) = 1/Z; f ;f (X f ), при условии, что факторный график односвязен, мы можем эффективно выполнять суммирование по переменным.
Сообщения об инициализации от экстремальных (упрощенных) узлов-множителей инициализируются коэффициентом. Сообщенияот экстремальных (упрощенных) узлов-переменных присваиваются единице.
Сообщение от переменной к фактору
68 ПРЕДВАРИТЕЛЬНЫЙ вариант от 9 марта 2010 г. Исходный вывод
Преобразование коэффициента в переменное сообщение
Мы пишем ;y;X f \x, чтобы подчеркнуть, что мы суммируем по всем состояниям в
наборе переменных X f \x.
Маргинал \ значение для вычислений промежуточных\

Для вывода предельных значений важной информацией является относительный размер состояний сообщения, так что мы можем перенормировать сообщения по своему усмотрению. Поскольку предельное значение будет пропорционально входящим сообщениям для этой переменной, константа нормализации, полученная простым способом, используя тот факт, что предельное значение должно быть равно 1. Однако, если мы захотим также вычислить любую константу нормализации, используя эти сообщения, мы не сможем нормализовать сообщения, поскольку в этом случае эта глобальная информация будет потеряна. Чтобы решить эту проблему, можно поработать с лог-сообщениями, чтобы избежать проблем с недостаточным количеством/ переполнением.

Алгоритм суммирования-произведения способен выполнять эффективный предельный вывод как в сетях уверерений, так и в сетях Маркова, поскольку оба они могут быть представлены в виде факторных графов. Это является причиной предпочтительного использования Графа фактора, поскольку для него требуется только один алгоритм, и он не зависит от того, является ли граф локально или глобально нормализованным распределением.
5.1.3 Вычисление предельной правдоподобности
Для распределения, определяемого как произведения на потенциалы ;f (X f)
нормализация задается формулой
Чтобы эффективно вычислить это суммирование, мы берем произведение всех входящих сообщений на произвольно выбранную переменную x и затем суммируем по состояниям этой переменной:
Если факторный граф получен из задания подмножества переменных BN в очевидных состояниях
тогда суммирование по всем неочевидным переменным даст передельное значение для видимых (доказательных) переменных, p(V).

Для работы этого метода требуются абсолютные (а не относительные) значения сообщений, что запрещает перенормировку на каждом этапе процедуры передачи сообщений. Однако без нормализации
проект от 9 марта 2010 г. 69 Основной \дельный вывод
Рисунок 5.4: (a) Факторный граф с петлей. (b) Исключение переменной d добавляет ребро между a и c, демонстрируя, что, в общем случае, в циклических графах невозможно выполнить маргинальный вывод, просто передавая сообщения по существующим ребрам в исходном графе.

числовое значение сообщений может стать очень маленьким, особенно для больших графов, и могут возникнуть проблемы с точностью. В этой ситуации можно работать с логарифмическими сообщениями,
; = log µ (5.1.36)
Для этого переменная должна учитывать сообщения
становится просто
Требуется более тщательное рассмотрение сообщений о коэффициентах к переменным, которые определяются как
Наивно можно написать
Однако возведение в степень логарифмических сообщений может привести к потенциальным проблемам с числовой точностью. Решение этой числовой проблемы достигается путем нахождения наибольшего значения входящих логарифмических сообщений,
Затем
Согласно построению, члены e;y;{ne(f )\x} ;y;f (y);;y;f будут равны ; 1. Это гарантирует точное вычисление основных числовых вкладов в суммирование.
Логарифмические маргиналы легко найти, используя
70 ПРОЕКТ от 9 марта 2010 г. Другие формы вывода
5.1.4 Проблема с циклами
Циклы создают проблему с методами устранения переменных (или передачи сообщений), поскольку после устранения переменной структура "ампутированного" графа в целом изменяется. Например, рассмотрим FG
Предельное \маржи, прибыльное, деловое, дельное\ значение p(a, b, c) определяется
как
который добавляет ссылку ac в ампутированный график, см. рис.(5.4). Это означает, что никто не может объяснить получение информации из переменной d путем простого обновления потенциалов в связях исходного графа – необходимо учитывать тот факт, что структура графа изменяется. Алгоритм дерева соединений, глава (6), является широко используемым методом решения этой проблемы и, по сути, объединяет переменные вместе, чтобы создать новый односвязный граф, для которого структура графа остается односвязной при исключении переменных.
5.2 Другие формы логического вывода.
5.2.1Максимальный продукт
Наиболее вероятным состоянием распределения является общий интерес. Это значение
Чтобы эффективно вычислить это, мы используем любую структуру факторизации распределения, аналогичную алгоритму суммирования. То есть мы стремимся распределить максимизацию таким образом, чтобы требовались только локальные вычисления.
Чтобы разработать алгоритм, рассмотрим функцию, которая может быть представлена в виде неориентированной цепочки,
для которого мы хотим найти совместное состояние x;, которое максимизирует f . Сначала мы вычисляем максимальное значение f . Поскольку потенциалы неотрицательны, мы можем записать
Итоговое уравнение соответствует решению задачи оптимизации по одной переменной и определяет оба оптимальных параметра функции f, а также оптимальное состояние x;1 = argmaxx1 ;(x1 ). При заданном x; 1 оптимальное значение x2 задается через x;2 = argmaxx2 ;(x;1 , x2 );(x2 ), и аналогично x;3 = argmax ;(x;2 , x3 );(x3 ) и так далее. Эта процедура называется обратным отслеживанием. Обратите внимание, что мы могли бы также начать с другого конца цепочки, определив сообщения ;, которые передают информацию от xi к xi+1 .

Цепочечная структура функции гарантирует, что максимальное значение (и его состояние) может быть вычислено за время, которое линейно зависит от количества факторов в функции. Здесь не требуется, чтобы функция f соответствовала распределению вероятностей (хотя коэффициенты должны быть неотрицательными).
ЧЕРНОВИК от 9 марта 2010 г. 71 Другие формы вывода
Пример 20. Рассмотрим распределение, определенное для двоичных переменных:
p(a, b, c) ; p(a|b)p(b|c)p(c) (5.2.3)
, где
Какова наиболее вероятная конфигурация соединения, argmaxa,b,c p(a, b, c)?

Наивно полагать, что мы могли бы оценить p(a, b, c) по всем 8 объединенным состояниям a, b, c и выбрать те состояния, которые имеют наибольшую вероятность. Подход к передаче сообщений заключается в определении
Для состояния b = tr,
Следовательно, ;(b = tr) = 0,75 ; 0,4 = 0,3. Аналогично, для b = fa,
Следовательно, ;(b = fa) = 0,9 ; 0,6 = 0,54.
Теперь рассмотрим
Для a = tr состояние b = tr имеет значение
и состояние b = fa имеет значение
Следовательно, ;(a = tr) = 0,108. Аналогично, для a = fa состояние b = tr имеет значение
и состояние b = fa имеет значение
давая ;(a = fa) = 0,432. Теперь мы можем вычислить оптимальное состояние
Учитывая это оптимальное состояние, мы можем вернуться назад, задав
Обратите внимание, что в процессе обратного отслеживания у нас уже есть вся информация, необходимая для вычисления сообщений ;.
72 ЧЕРНОВИК от 9 марта 2010 г. Другие формы вывода
Использование факторного графа
Факторный граф также можно использовать для вычисления наиболее вероятного совместного состояния. При условии, что был выполнен полное расписание передачи сообщений, произведение сообщений на переменную равно максимальному значению совместной функции по отношению ко всем остальным переменным. Затем можно просто вычислить наиболее вероятное состояние, максимизируя этот локальный потенциал.

Затем выполняется вычисление сообщений по расписанию, которое позволяет вычислять новое сообщение на основе ранее вычисленных сообщений, пока не будут вычислены все сообщения от всех факторов к переменным и наоборот. Обновления сообщений приведены ниже.
Определение 38 (Сообщения о максимальном продукте\ произведении\ на графах факторов).
Учитывая распределение, определенное как произведение на подмножества переменных, p(X) = 1/Z; f ;f (X f ), при условии, что факторный граф односвязен, мы можем эффективно выполнять максимизацию по переменным.
Сообщения инициализации от экстремальных (упрощенных) узлов-множителей инициализируются коэффициентом. Сообщения от экстремальных (упрощенных) узлов-переменных устанавливаются в единице.
Сообщение от переменной к фактору
Сообщение коэффициента к переменной
Максимальное состояние
В более ранней литературе этот алгоритм называется пересмотром уверений\веры.
5.2.2 Нахождение N наиболее вероятных состояний
Часто бывает интересно рассчитать не только наиболее вероятное совместное состояние, но и N наиболее вероятных состояний,N особенно в тех случаях, когда оптимальное состояние лишь немного более вероятно, чем другие состояния. Это интересная проблема сама по себе, и для ее решения можно использовать различные методы. Общая методика приведена Нильсоном [210], которая основана на формализме дерева соединений, глава (6), и на построении списков кандидатов, см., например, [69].
ЧЕРНОВИК от 9 марта 2010 г. 73 Другие формы вывода
Рисунок 5.5: Диаграмма перехода из состояния в состояние (веса не показаны). Кратчайшим (невзвешенным) путем из состояния 1 в состояние 7 является 1 ; 2 ; 7. Рассматриваемый как
цепь Маркова (случайное блуждание), наиболее вероятный путь из состояния 1 в состояние 7 - это 1 ; 8 ; 9 ; 7. Последний путь длиннее, но более вероятен, поскольку для пути 1 ; 2 ; 7 вероятность перехода из состояния 2 в состояние 7 равна 1/5 (при условии, что каждый переход одинаково вероятен). Смотрите демонстрацию demoMostprobablepath.m

Для односвязных структур было разработано несколько подходов. Для скрытой марковской модели, раздела (23.2) простым алгоритмом является подход N -Витерби, который сохраняет N наиболее вероятных сообщений на каждом этапе распространения, см., например, [256]. Частный случай подхода Нильсона доступен для скрытых марковских моделей [211], который особенно эффективен для больших пространств состояний.

Для более общих односвязных графов алгоритм максимального произведения можно расширить до алгоритма максимального произведения N, сохраняя на каждом этапе N наиболее вероятных сообщений, см. ниже. Эти методы требуют N, что должно быть указано априори по сравнению с любыми альтернативами, [298]. Альтернативный подход для односоединенных сетей был разработан в [269]. Особый интерес представляет применение односвязных алгоритмов в качестве аппроксимации, когда, например, подход Нильсона к многосвязному графу является неразрешимым[298].

N -max-произведение

Алгоритм для N -max-product представляет собой простую модификацию стандартных алгоритмов. С точки зрения вычислений, простой способ добиться этого - ввести дополнительную переменную для каждого сообщения, которая используется для индексации наиболее вероятных сообщений. Например, рассмотрим распределение
p(a, b, c, d) = ;(a, b);(b, c);(b, d) (5.2.14)
, для которой мы хотим найти два наиболее вероятных значения. Используя обозначение
для i-го наибольшего значения f (x) максимизация по сравнению с d может быть выражена с помощью сообщения
Используя аналогичное сообщение для максимизации по c, можно вычислить 2 наиболее вероятных состояния p (a, b, c, d), используя
где mc и md указывают наивысшие значения. На заключительном этапе у нас теперь есть таблица с записями dim a ; dim b ; 4, из которых мы вычисляем два наивысших состояния.

Обобщение этого на формализм факторных графов является простым и содержится в maxNprodFG.m. По сути, единственная требуемая модификация заключается в определении расширенных сообщений, которые содержат N наиболее вероятных сообщений, вычисляемых на каждом этапе. В точке пересечения факторного графа все сообщения от соседей вместе с их N -наиболее вероятными таблицами умножаются в большую таблицу. Для сообщения от фактора в переменную сохраняются N наиболее вероятных сообщений, см. maxNprodFG.m. Затем можно считывать N наиболее вероятных состояний для каждой переменной, находя состояние переменной, которое максимизирует количество\ произведение\ входящих расширенных сообщений.
74 ЧЕРНОВИК от 9 марта 2010 г. Другие формы вывода
5.2.3 Наиболее вероятный путь и кратчайший маршрут
Каков наиболее вероятный путь из состояния a в состояние b для цепи Маркова из N состояний? Обратите внимание, что это не обязательно совпадает с кратчайшим путем, как показано на рис. 5.5.
Если предположить, что существует путь длиной T, то это имеет вероятность
Затем можно легко найти наиболее вероятный путь, используя алгоритм максимального произведения (или максимальной суммы для логарифмических переходов) на простом графе последовательных коэффициентов. Чтобы решить проблему, связанную с тем, что мы не знаем оптимального значения T, один из подходов заключается в переопределении вероятностных переходов таким образом, чтобы желаемое состояние b было поглощающим состоянием цепочки (то есть можно войти в это состояние, но не выйти из него). При таком переопределении наиболее вероятное совместное состояние будет соответствовать наиболее вероятному состоянию в произведении N переходов – как только будет достигнуто поглощающее состояние, цепочка останется в этом состоянии, и, следовательно, наиболее вероятный путь может быть считан из последовательности состояний вплоть до первого попадания цепочки в поглощающее состояние. Этот подход продемонстрирован в demoMostProbablePath.m, наряду с более прямыми подходами, описанными ниже.

Альтернативный, более чистый подход заключается в следующем: для цепочки Маркова мы можем обойтись без сообщений типа "переменная-множитель " и "фактор-переменная" и использовать только сообщения типа "переменная-переменная". Если мы хотим найти наиболее вероятный набор состояний a, s2 , . . . , sT -1 , b, который приведет нас туда, тогда это можно вычислить, определив максимальную вероятность прохождения пути E (a ; b, T ), чтобы добраться из a в b за T временных шагов:
Для эффективного вычисления этого параметра мы определяем сообщения
до тех пор, пока не наступит момент
Теперь мы можем перейти к нахождению максимальной вероятности прохождения для временного интервала T + 1. Поскольку сообщения до момента времени T ; 1 будут такими же, как и раньше, нам нужно вычислить только одно дополнительное сообщение, yT -1;T (sT ), из которого
Мы можем продолжать в том же духе, пока не достигнем E (a ; b, N ), где N - количество узлов в графе. Нам не нужно выходить за пределы этого количества шагов, поскольку те, которые выполняются, обязательно должны содержать непростые пути. (Простой путь - это путь, который не включает одно и то же состояние более одного раза.) Тогда оптимальное время t; определяется тем, какое из E (a ; b, 2) , ... , E (a ; b, N ) является максимальным. При заданном t; можно начать обратный путь 1 .
С
мы знаем оптимальное состояние
1Альтернативой нахождению t; является определение самопереходов с вероятностью 1, а затем использование фиксированного времени T = N . Как только при достижении желаемого состояния b самопереход сохраняет цепочку в состоянии b на оставшиеся временные интервалы. Эта процедура используется в mostprobablepathmult.m
ПРОЕКТ от 9 марта 2010 г. 75 Других форм вывода

Затем мы можем продолжить обратный путь:
и так далее. Смотрите mostprobablepath.m.
• В приведенном выше выводе мы не используем никаких свойств вероятности, за исключением того, что p должно быть неотрицательным (в противном случае изменение знака может перевернуть всю последовательность "вероятность", и повторение локального сообщения больше не будет применяться). Можно рассматривать алгоритм как поиск оптимального пути "продукта" из пункта а в пункт b.
• Несложно модифицировать алгоритм для решения задачи о кратчайшем взвешенном пути (с одним источником, с одним приемником). Один из способов сделать это ; заменить вероятности марковского перехода весами ребер exp(;u(st |st;1 )), где u(st |st-1 ) бесконечно, если нет ребра от st;1 до st . Этот подход используется в shortestpath.m, который способен работать как с положительными, так и с отрицательными весами ребер. Таким образом, этот метод является более общим, чем хорошо известный алгоритм Дейкстры [111], который требует чтобы веса были положительными. Если существует цикл с отрицательным ребром, код возвращает кратчайшую взвешенную длину N пути, где N - количество узлов в графе. Смотрите демонстрацию shortestPath.m.
• Приведенный выше алгоритм эффективен для сценария с одним источником и одним приемником, поскольку сообщения содержат только N состояний, что означает, что общий объем хранилища равен O(N2 ).
• В нынешнем виде алгоритм численно непрактичен, поскольку сообщения рекурсивно умножаются на значения, обычно меньшие 1 (по крайней мере, в случае вероятностей). Таким образом, при использовании этого метода можно быстро столкнуться с числовым дефицитом (или, возможно, с переполнением в случае маловероятности).

Чтобы исправить последний пункт, приведенный выше, лучше всего определить логарифм E. Поскольку это монотонное преобразование. таким образом, наиболее вероятный путь, определенный с помощью log E, совпадает с путем, полученным из E. В этом случае
Таким образом, мы можем определить новые сообщения
Затем первый продолжает, как и прежде, поиск наиболее вероятного t;, определенного на L, и возвращается назад.
Замечание 6. Возможная путаница заключается в том, что оптимальные пути могут быть эффективно найдены, "когда граф закольцован". Обратите внимание, что граф на рис. 5.5 представляет собой диаграмму переходов между состояниями, а не графическую модель. Графической моделью, соответствующей этой простой марковской цепи, является сеть убеждений\ уверений\ ;tp (st |st;1), линейная последовательная структура. Следовательно, в основе графической модели лежит простая цепочка, которая объясняет эффективность вычислений.

Наиболее вероятный путь (с несколькими источниками и несколькими приемниками)
Если нам нужен наиболее вероятный путь между всеми состояниями a и b, можно было бы повторно запустить вышеупомянутый алгоритм с одним источником- алгоритм с одним приемником для всех a и b. Более эффективный с точки зрения вычислений подход состоит в том, чтобы заметить, что можно определить сообщение для каждого начального состояния a:
76 ЧЕРНОВИК от 9 марта 2010 г. Другие формы вывода
Алгоритм 1 Вычисляет предельное значение p(x1 |evidence) из распределения p(x) =; f ;f ({x}f ). Предполагается, что неочевидные переменные упорядочены по x1 , . . . , xn .

1: процедура исключения сегмента(p(x) = f ;f ({x}f ).)
2:Инициализируем все потенциалы сегмента равными единице.
. Заполняем сегменты
3: пока в распределении остаются потенциалы, делайте
4:Для каждого потенциала ;f указывается его наибольшая переменная xj (в соответствии с порядком).
5:Умножаем ;f на потенциал в ячейке j и удаляем ;f из распределения.
6:завершаем, пока
7:для i = ячейки n до 1 делаем
. Пустые ячейки
8:Например, я суммирую состояния переменной xi и называю этот потенциал yi
9:Определите наивысшую переменную xh потенциала yi
10:Умножьте существующий потенциал в ячейке h на yi
11:конец для
12:Предельное значение p(x1 |доказательство) пропорционально ;1 .
13:Возвращаем значение p(x1 |доказательство)
. Условное предельное \прибыли, деловое\ значение.
14: завершаем процедуру

и продолжаем, пока не найдем матрицу максимальной вероятности перехода из любого состояния a в любое состояние b за T временных шагов:
Поскольку мы знаем сообщение yT -2;T -1 (sT -1 |a) для всех состояний a, мы можем легко вычислить наиболее вероятный путь от всех начальных состояний a до всех состояний b после T шагов. Для этого требуется передать сообщение ; матрицы N ; N. Затем мы можем перейти к следующему временному интервалу T + 1. Поскольку сообщения до момента времени T ; 1 будут такими же, как и раньше, нам нужно вычислить только одно дополнительное сообщение, yT -1;T (sT ), из которого
Таким образом, можно эффективно вычислить вероятности оптимального пути для любого начального состояния a и конечного состояния b через t временных шагов. Чтобы найти оптимальный соответствующий путь, обратный поиск выполняется так же, как и раньше, см. mostprobablepathmult.m. Тот же алгоритм можно также использовать для решения задачи о кратчайшем пути с несколькими источниками и несколькими приемниками. Этот алгоритм является вариантом алгоритма Флойда-Уоршалла-Роя[111] для нахождения кратчайших взвешенных суммированных путей на ориентированном графе (приведенный выше алгоритм перечисляет через время, в то время как алгоритм FWR выполняет перечисление по состояниям).

5.2.4 Неоднозначный вывод

Часто встречающаяся ситуация заключается в том, чтобы сделать вывод о наиболее вероятном состоянии краевого \маржинального\ соединения, возможно, с учетом некоторых данных. Например, учитывая распределение p(x1 , . . . , xn ), найдите
В общем, даже для древовидной структуры p(x1 , ... , xn) оптимальное предельное\маржинальное\ состояние не может быть эффективно вычислено. Один из способов убедиться в этом заключается в том, что из-за суммирования результирующий присоединенный маржинал не имеет структурированную факторизованную форму в виде произведений более простых функций предельных\маржинальных\ переменных. Нахождение наиболее вероятного присоединенного маржинала \совместной границы\ в этом случае требует выполнить поиск по всем совместным \присоединенным состояниям \границ маржиналов – задача, выражающаяся в m. Приближенное решение предоставляется алгоритмом EM (см. раздел (11.2) и упражнение (57)).
ПРОЕКТ от 9 марта 2010 г. 77 Вывод в многосвязных графах
Рисунок 5.6: Алгоритм исключения сегментов, примененный к графу рис.2.1. На каждом этапе P из графа удаляется по крайней мере один узел. Второй этап исключения c является тривиальным, поскольку ;cp(c|a) = 1, и поэтому был пропущен, поскольку этот сегмент не отправляет никаких сообщений.
5.3 Вывод в многосвязных графах
5.3.1 Исключение сегмента
Здесь мы рассмотрим общий метод исключения условных предельных\маржинальных\ переменных, который работает для любого распределения (включая многосвязные графы). Алгоритм предполагает, что распределение имеет вид
и что задача состоит в том, чтобы вычислить p(x1 |evidence \свидетельства). Например, для
мы могли бы использовать
Наборы переменных здесь следующие: X1 = (x1 , x2 ), X2 = (x2 , x3 ), X3 = (x3 , x4 ). В общем случае построение потенциалов для распределения не является уникальным. Задача вычисления предельного значения \маржинала, в котором набор переменных xn+1 , ... привязан к их доказательным состояниям \свидетельсв равна

p(x1 |доказательства\свидетельства) ; p(x1 , доказательства) =
Алгоритм приведен в алгоритме(11) и может рассматриваться как способ организации распределенного суммирования[79]. Алгоритм лучше всего объясняется на простом примере, приведенном ниже.
Пример 21 (Удаление ведра\ сегмента). Рассмотрим задачу вычисления предельного значения p(f) для
p(a, b, c, d, e, f, g) = p(f |d)p(g|d, e)p(c|a)p(d|a, b)p(a)p(b)p(e), (5.3.5)
см. рис. 2.1.
ЧЕРНОВИК от 9 марта 2010 г. Вывода в многосвязных графах
Мы можем распределить суммирование по различным элементам следующим образом: e, b и c являются конечными узлами, так что мы можем суммировать по их значениям:
Для удобства давайте запишем термины в квадратных скобках как ;bp(d|a, b)p(b) ; yB (a, d), ;ep(g|d, e)p(e) ; yE (d, g). Член ;cp(c|a) равен единице, и поэтому мы исключаем этот узел напрямую. Переставляя члены, мы можем записать
Если представить это графически, то результатом суммирования по b, c, e является эффективное удаление или "элиминация" этих переменных. Теперь мы можем продолжить суммирование по a и g, поскольку это конечные точки нового графа:
Опять же, это определяет новые функции yA (d), yG (d), так что окончательный ответ можно найти из
Мы проиллюстрируем это на рис. 5.6. Сначала мы определяем порядок переменных, начиная с той, для которой мы хотим найти предельное\дельное значение – таким образом, подходящим порядком является f, d, a, g, b, c, e. Затем, начиная с самого высокого сегмента e (в соответствии с нашим порядком f, d, a, g, b, c, e), мы помещаем все функции, которые упоминают e, в сегмент e. Переходя к следующему по старшинству блоку, c, мы помещаем все остальные функции, которые упоминают c, в этот блок c и т.д. Результатом этой процедуры инициализации является то, что термины (условные распределения) в DAG распределяются по сегментам, как показано в крайнем левом столбце на рис.5.6. Исключая самый высокий сегмент e, мы передаем сообщение узлу g. Сразу же мы также можем исключить сегмент c, поскольку он суммирует в единице. В следующем столбце у нас теперь на два сегмента меньше, и мы исключаем самый высокий оставшийся сегмент, на этот раз b, передавая сообщение в сегмент a.
Есть несколько важных замечаний, которые мы можем сделать по поводу исключения сегмента:
1. Чтобы вычислить, скажем, p(x2 |evidence), нам нужно изменить порядок переменных (так, чтобы требуемая переменная \пре\дельного значения помечена как x1 ) и повторить удаление из корзины. Следовательно, каждый запрос (в данном случае вычисление предельного\делового значения) требует повторного запуска алгоритма. Было бы эффективнее повторно использовать сообщения, а не пересчитывать их каждый раз.
2. Как правило, при исключении сегмента от блока к блоку создаются сообщения y с несколькими переменными. Требования к хранилищу для сообщения с несколькими переменными экспоненциально зависят от количества переменных в сообщении.
3. Для деревьев мы всегда можем выбрать порядок переменных, чтобы снизить вычислительную сложность, линейную по числу переменных. Такой порядок называется идеальным, определение (49), и действительно, можно показать, что идеальный порядок всегда можно легко найти для односвязных графов (см. [86]). Однако существуют заказы, для которых исключение сегмента будет крайне неэффективным.
5.3.2 Кондиционирование с петлевым разрезом
Для распределений, которые содержат цикл (существует более одного пути между двумя узлами в графе, когда направления удалены), мы сталкиваемся с некоторыми трудностями с процедурами передачи сообщений, такими как алгоритм вычисления суммы-произведения, который предназначен для работы только с односвязными графами. Один из способов решения
ЧЕРНОВИК от 9 марта 2010 79 Notes
Рис. 5.7: Многосвязный граф (a) преобразован в односвязный граф (b) путем изменения переменной c.

сложностей многосвязных (петлевых) графов заключается в идентификации узлов, удаление которых привело бы к появлению односвязного подграфа[219]. Рассмотрим пример на рис.5.7. Представьте, что мы хотим вычислить предельное значение, скажем, p(d). Затем
где определения p; не обязательно являются распределениями. Для каждого состояния c форма произведений факторов, остающихся в зависимости от a, b, e, f, g, является односвязной, так что для выполнения логического вывода можно использовать стандартную передачу односвязных сообщений. Нам нужно будет выполнить логический вывод для каждого состояния переменной c, причем каждое состояние определяет новый односвязный граф (с той же структурой), но с измененными потенциалами.

В более общем плане мы можем определить набор переменных C, называемый набором прерываний цикла, и выполнить односвязный вывод для каждого состояния соединения в переменные C набора прерываний. Это также может быть использовано для определения наиболее вероятного состояния распределения многосвязных соединений. Следовательно, для расчетного расхода\ цены\ показанного \экспоненциально зависящей от\ по размеру прерывания цикла, мы можем рассчитать предельные \ маржинальные, деловые\ значения (или наиболее вероятное состояние) для многосвязного распределения. Однако определение небольшого набора сокращений\ прерываний\, как правило, затруднительно, и нет никакой гарантии, что оно в любом случае будет небольшим для данного графа. Хотя этот метод способен обрабатывать циклы в общем виде, он не является особенно элегантен, поскольку концепция сообщений теперь применяется только при условии\ согласно\ переменным набора сокращения\ прерываний\, и становится неясным, как повторно использовать сообщения для вывода дополнительных интересующих величин. Мы обсудим альтернативный метод обработки многосвязных распределений в главе (6).
5.4 Передача сообщений для непрерывных распределений
Для параметрических непрерывных распределений p(x|;x) передача сообщений соответствует передаче параметров ; распределений. Для алгоритма суммирования-произведения это требует, чтобы операции умножения и интегрирование по переменным замкнуто относительно семейства распределений. Так обстоит дело, например, с распределением Гаусса – предельное значение (интеграл) \маржинал\ гауссиана является другим гауссианом, а произведение двух гауссианов является гауссианом, см. раздел (8.6). Это означает, что затем мы можем реализовать алгоритм вычисления суммы-произведения, основанный на передаче среднего значения и ковариационных параметров. Для реализации этого требуется некоторая трудоемкая алгебра для вычисления соответствующих обновлений параметров сообщений. На данном этапе сложности при выполнении таких вычислений могут отвлекать внимание, хотя заинтересованный читатель может обратиться к demoSumprodGaussMoment.m, demosumprodgausscanonlds.m и demoSumprodGaussCanonLDS.m, а также к главе(24), где приведены примеры передачи сообщений с использованием гауссиан. Для более общих экспоненциальных семейств распределений, передача сообщений, по сути, проста, хотя, опять же, специфика обновлений может быть утомительной. В тех случаях, когда операции по маргинализации и продуктам не завершены внутри семейства рассылки\ распределения\ должны быть спроецированы обратно на выбранное семейство сообщений. В данном случае актуален раздел "Распространение ожиданий" (28.7).

5.5 Примечания к разделу
Главный вывод из этой главы заключается в том, что (несмешанный) вывод в односвязных структурах обычно поддается вычислительной обработке. Заметными исключениями являются случаи, когда операции передачи сообщений не являются замкнутыми в семействе сообщений или для явного представления сообщений требуется экспоненциальный объем пространства. Это происходит, например, когда распределение может содержать как дискретные, так и непрерывные переменные,
80 Код ПРОЕКТ от 9 марта 2010 г.,
такие как коммутационная линейная динамическая система, которую мы обсуждаем в главе (25).

Вообще говоря, логический вывод в многосвязных структурах является более сложным и может быть неразрешимым. Однако мы не хотим, чтобы у вас сложилось впечатление, что так бывает всегда. Заметными исключениями являются: нахождение состояния MAP в привлекательной парной MRF, раздел (28.8); нахождение состояния MAP и MPM в бинарной плоской MRF с чистыми взаимодействиями, см., например, [115, 243]. Для N переменных в графе наивное использование алгоритма дерева соединений \сбросов\ для этих выводов привело бы к в O(2N) вычислениям, в то время как умные алгоритмы способны возвращать точные результаты за O (N3) операций. Интерес представляет распространение связей\ связок\ [177], которое представляет собой интуитивно понятный метод исключения узлов для получения вывода MPM в моделях Изинга, основанных на чистом взаимодействии.
5.6 Код

Приведенный ниже код реализует передачу сообщений по древовидному факторному графу. FG хранится в виде матрицы смежности, а сообщение между узлами FG i и FG j задается в виде Ai,j .
FactorGraph.m: Возвращает матрицу смежности факторграфа и номера сообщений
sumprodFG.m: Алгоритм суммирования на факторграфе.

В общем, в случае с максимальным продуктом \произведением\ рекомендуется работать в логарифмическом пространстве, особенно для больших графов, поскольку количество сообщений может стать очень маленьким. Приведенный код не работает в логарифмическом пространстве и как таковой, он может не работать на больших графах; написание этого с использованием лог-сообщений является простым, но приводит к менее удобочитаемому коду. Реализация, основанная на лог-сообщениях, оставлена в качестве упражнения для заинтересованного читателя.

maxprodFG.m: Алгоритм максимального произведения на факторном графе
maxNprodFG.m: Алгоритм максимального произведения на факторном графе
5.6.1 Примеры факторных графов
Для распределения, представленного на рис.5.3, следующий код находит маргинальные значения и наиболее вероятные совместные состояния. Количество состояний каждой переменной выбирается случайным образом.
demoSumprod.m: Протестируйте алгоритм суммирования-произведения.
demoMaxprod.m: Протестируйте алгоритм максимального произведения \количества продуктов
demoMaxNprod.m: Протестируйте алгоритм максимального произведения \количества продуктов
5.6.2 Наиболее вероятный и кратчайший путь
mostprobablepath.m: Демонстрация наиболее вероятного пути
mostprobablepath.m: Демонстрация наиболее вероятного и кратчайшего пути
Демонстрация кратчайшего пути работает как для положительных, так и для отрицательных весов ребер. Если существуют циклы с отрицательным весом, код находит наилучшую длину и кратчайший путь.
demoShortestPath.m: Демонстрация кратчайшего пути
mostprobablepathmult.m: Наиболее вероятный путь – с несколькими источниками, с несколькими приемниками
mostprobablepathmult.m: Демонстрация наиболее вероятного пути - с несколькими источниками, с несколькими приемниками
5.6.3 Постепенное устранение
Эффективность постепенного устранения в значительной степени зависит от выбранной последовательности устранения. На приведенной ниже иллюстрации мы находим предельное значение переменной в упражнении "Клиника грудной клетки", используя случайно выбранный порядок устранения. Желаемая предельная переменная указана как последняя, которая должна быть устранена. Для сравнения мы используем последовательность исключения, основанную на прореживании триангулированного графа модели, как описано в разделе (6.5.1), опять же при условии, что последняя переменная, которая должна быть "прореживаема", является предельной \деловой\ переменной
Проект от 9 марта 2010 года 81 Упражнение
интереса. Для более разумного выбора последовательности отсева сложность вычисления этого единственного значения примерно такая же, как и для алгоритма дерева соединений, использующего ту же триангуляцию.
bucketelim.m: Отсев корзины
demoBucketElim.m: Демонстрационный отсев корзины.

5.6.4 Передача сообщений по гауссианам

Следующий код показывает, как передача сообщений может быть реализована для непрерывных распределений. Читатель может ознакомиться с BRMLtoolbox для получения более подробной информации, а также с разделом (8.6) для алгебраических манипуляций, необходимых для выполнения маргинализации и произведения гауссиан. Тот же принцип справедлив для любого семейства распределений, которое закрыто по "произведению \продукты" и по "маргинализации", и читатель, возможно, пожелает реализовать конкретные семейства, следуя методу, описанному для гауссиан.
demosumprodgaussmoment.m: Передача суммарного сообщения на основе параметризации гауссовского момента
5.7 Упражнения
Упражнение 52. Задана попарно-односвязная сеть Маркова вида
объясните, как эффективно вычислить коэффициент нормализации (также называемый статистической функцией) Z как функцию потенциалов ;.
Упражнение 53. Вы работаете в начинающей веб-компании, которая разрабатывает виртуальные среды, в которых игроки могут перемещаться между комнатами. Количество комнат, в которые можно попасть из другой за один временной шаг, задается матрицей M размером 100 ; 100, хранящейся в virtualworlds.mat, где Mij = 1 означает, что между комнатами i и j есть дверь (Mij = Mji ). Mij = 0 означает, что между комнатами i и j нет двери. Mii = 1 это означает, что за один временной шаг можно оставаться в одной и той же комнате. Вы можете визуализировать эту матрицу, набрав imagesc(M).
1. Напишите список комнат, в которые невозможно попасть из комнаты 2 после 10 временных шагов.
2. Менеджер жалуется, что ему требуется не менее 13 временных шагов, чтобы добраться из комнаты 1 в комнату 100. Это правда?
3. Найдите наиболее вероятный путь (последовательность комнат), чтобы добраться из комнаты 1 в комнату 100.
4. Если один игрок будет случайным образом перепрыгивать из одной комнаты в другую (или оставаться в одной и той же комнате), не отдавая предпочтения ни одной комнате, какова вероятность того, что в момент времени t » 1 игрок будет находиться в комнате 1? Предположим, что прошло фактически бесконечное количество времени, и игрок начал игру в комнате 1 в момент t = 1.
5. Если два игрока случайным образом перемещаются из комнаты в комнату (или остаются в одной комнате), объясните, как вычислить вероятность того, что через бесконечное количество времени хотя бы один из них окажется в комнате 1? Предположим, что оба игрока начинают с комнаты 1.
Упражнение 54. Рассмотрим скрытую марковскую модель:
в котором dom(ht ) = {1, . . . , H} и dom(vt ) = {1, . . . , V } для всех t = 1, . . . , T .
1. Нарисуйте сетевое представление вышеприведенного распределения.
2. Нарисуйте факторный граф, представляющий приведенное выше распределение.
82 ЧЕРНОВИК от 9 марта 2010 г. Упражнения
3. Используйте факторный граф, чтобы получить алгоритм вычисления сумм-произведения для вычисления предельных значений p(ht |v1 , . . . , vT ). Объясните порядок следования сообщений, передаваемых на вашем факторном графе.
4. Объясните, как вычислить p(ht , ht+1 |v1 , ... , vT ).
Упражнение 55. Для односвязной марковской сети p(x) = p(x1 , . . . , xn ) вычисление предельного p(xi) может быть выполнено эффективно. Аналогично, наиболее вероятное совместное состояние x; = arg maxx1 ,...,xn p(x) может быть эффективно вычислено. Объясните, когда наиболее вероятное совместное состояние маргинала может быть эффективно вычислено, т.е. при каких обстоятельствах можно эффективно (за O (m) времени) вычислить argmax x1 ,x2 ,...,xm p(x1 , . . . , xm ) для m < n?
Упражнение 56. Рассмотрим Интернет с веб-страницами, обозначенными 1, ... , N . Если веб-страница j содержит ссылку на веб-страницу i, то мы помещаем элемент матрицы Lij = 1, в противном случае Lij = 0. Рассматривая случайный переход от с веб-страницы j на веб-страницу i, которая определяется вероятностью перехода
какова вероятность того, что после бесконечного количества случайных поисков кто-то попадет на веб-страницу i? Как бы вы могли соотнести это с потенциальной "релевантностью" веб-страницы с точки зрения поисковой системы?
Упражнение 57. Специальная однородная по времени скрытая марковская модель задается
формулой
Переменная xt имеет 4 состояния, dom(xt ) = {A, C, G, T} (численно обозначенные как состояния 1,2,3,4). Переменная yt имеет 4 состояния, dom(yt ) = {A, C, G, T}. Скрытая переменная ht имеет 5 состояний, dom(ht ) = {1, . . . , 5}. HMM моделирует следующий (фиктивный) процесс:

У людей белки Z-фактора представляют собой последовательность состояний переменных x1 , x2 , . . . , xT . В бананах также присутствуют белки Z-фактора, но они представлены в другой последовательности y1, y2 , . . . , yT . Приведена последовательность x1 , x2 , . . . , xT от человека, задача состоит в том, чтобы найти соответствующую последовательность y1, y2 , . . . , yT в банановой, сперва найти, наиболее подобную\ похожую\ совместную скрытую последовательность, а затем, наиболее подобная последовательность банана приведена этой оптимальной скрытой последовательностью. То есть, нам требуется
, где
Файл banana.mat содержит распределения выбросов pxgh (p(x|h)), pygh (p(y|h)) и переходные
phtghtm (p(ht |ht;1 )). Исходное скрытое распределение представлено в виде ph1 (p(h1 )). Наблюдаемая последовательность x представлена в виде x.
1. Объясните математически и подробно, как вычислить оптимальную y-последовательность, используя двухэтапную процедуру, описанную выше.
2. Напишите программу MATLAB, которая вычисляет и отображает оптимальную y-последовательность с учетом наблюдаемой x-последовательности. В вашей программе должен использоваться формализм факторных графов.
3. Объясните, возможно ли вычислить параметр
с точки зрения вычислений.
4. Дополнительный вопрос: Рассматривая y1 , ... , yT в качестве параметров, объясните, как можно использовать алгоритм EM для нахождения наиболее вероятных граничных \деловых\ состояний. Реализуйте этот подход с подходящей инициализацией для оптимальных параметров y1 , ... , yT .
ДРАФТ от 9 марта 2010 года 83 Упражнения 84
ЧЕРНОВИК главы от 9 марта 2010 года

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Джон Темплтон

Рецензии

Написать рецензию

Другие произведения автора Джон Темплтон

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.