Bachelor's thesis on generative probabilistic programming (in Russian language, June 2014)

01/26/2016 ∙ by Yura N Perov, et al. ∙ 0

This Bachelor's thesis, written in Russian, is devoted to a relatively new direction in the field of machine learning and artificial intelligence, namely probabilistic programming. The thesis gives a brief overview to the already existing probabilistic programming languages: Church, Venture, and Anglican. It also describes the results of the first experiments on the automatic induction of probabilistic programs. The thesis was submitted, in June 2014, in partial fulfilment of the requirements for the degree of Bachelor of Science in Mathematics in the Department of Mathematics and Computer Science, Siberian Federal University, Krasnoyarsk, Russia. The work, which is described in this thesis, has been performing in 2012-2014 in the Massachusetts Institute of Technology and in the University of Oxford by the colleagues of the author and by himself.

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 1

page 2

page 3

page 4

This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

реферат

РЕФЕРАТ

Выпускная квалификационная бакалаврская работа по теме <<Порождающее вероятностное программирование>> содержит 48 страниц текста, 50 использованных источников, 12 рисунков.

Ключевые слова: ВЕРОЯТНОСТНОЕ ПРОГРАММИРОВАНИЕ, МАШИННОЕ ОБУЧЕНИЕ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, ВЕРОЯТНОСТНЫЕ МОДЕЛИ, АВТОМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ.

Работа посвящена новому направлению в области машинного обучения и компьютерных наук — вероятностному программированию. В работе дается краткое реферативное введение в языки вероятностного программирования Church/Venture/Anglican, а также описываются результаты первых экспериментов по автоматической генерации вероятностных программ.

содержание

Моей любимой Маше и всем

другим моим любимым родным

введение

ВВЕДЕНИЕ

Данная бакалаврская работа посвящена вероятностному программированию [1], новому направлению в областях машинного обучения, искусственного интеллекта и компьютерных наук, а именно реферативному краткому введению в вероятностное программирование, описанию языков вероятностного программирования Church [2], Venture [3] и Anglican [4], описанию подхода порождающего вероятностного программирования для решения задач распознавания образов [5], а также представлению полученных предварительных результатов по автоматизации вывода вероятностных моделей для вероятностного программирования [6].

Описание структуры работы

Первая часть данной работы начинается с общих сведений о вероятностном программировании, а затем в ней кратко описываются результаты, полученные коллегами автора и им самим в работе над научными проектами на протяжении двух лет в Массачусетском технологическом инситуте под руководством профессора Джошуа Тененбаума и доктора Викаша Мансингхи (Кембридж, штат Массачусетс, США) и Оксфордском университете под руководством профессора Френка Вуда (Великобритания, Оксфорд). Эта часть работы, являясь по сути переводом, представляет собой реферативную выдержку о вероятностном программировании и его приложениях на русском языке. Насколько автору известно, литературы о вероятностном программировании на русском языке практически нет, поэтому он надеется, что данная чисто реферативная часть работы принесет существенную пользу русскоговорящему научному сообществу, а особенно заинтересованным студентам и школьникам, которые впервые захотят познакомиться с развивающимся направлением вероятностного программирования.

Во второй части данной работы автор описывает новые результаты в области вероятностного программирования, связанные с автоматизированным или полуавтоматизированным выводом вероятностных моделей для вероятностного программирования, полученные во время стажировки автора в Департаменте технических наук Оксфордского университета в научной лаборатории профессора Френка Вуда и под его руководством. Вторая часть завершается рассуждениями автора об обобщении автоматизированного изучения и вывода компьютером вероятностных моделей в виде вероятностных программ, то есть о возможностях порождающего вероятностного программирования.

Вероятностное программирование

Вероятностное программирование можно определить как компактный, композиционный способ представления порождающих вероятностных моделей и проведения статистического вывода в них с учетом данных с помощью обобщенных алгоритмов.

Вероятностная модель является важным понятием машинного обучения, одного из основных направлений искусственного интеллекта на сегодняшний день. В общем случае в рамках теории машинного обучения перед компьютером ставится задача произвести какое-то действие на основе входных данных , априорных знаний и возможности взаимодействовать со средой. Без ограничений общности целевым действием для компьютера можно считать производство ответа в виде выходных данных, представленных в виде информации. Например, в робототехнике эта информация может являться инструкциями для моторов и механических устройств для выполнения тех или иных физических действий роботом.

При использовании различных подходов в рамках машинного обучения используются модели, которые являются формальным <<описанием компонентов и функций, отображающих существенные свойства моделируемого объема или процесса>> [7]. В рамках машинного обучения используются вероятностные модели, так как свойства, элементы и связи между ними являются не фиксированными, а стохастическими.

Классическим примером одного из подходов в машинном обучении является способ <<обучение с учителем>>, когда существует N прецедентов, то есть пар входных и выходных данных обучающей выборки , и необходимо найти алгоритм описывающий зависимость между и , то есть алгоритм , который позволяет на основе каждого элемента входных данных получать абсолютно или достаточно точный элемент выходных данных , то есть . С помощью данного алгоритма затем для M известных элементов входных данных находятся значения M неизвестных элементов выходных данных . В рамках машинного обучения эта проблема, в том числе, решается с помощью методов регрессионного анализа.

В только что приведенной как пример модели неизвестными (скрытыми) параметрами будет информация о характеристиках модели , которые подлежат выводу при данной обучающей выборке в виде пар .

Приведем простой пример: в линейной регрессии (при независимых переменных) значениями независимых переменных будут , значениями зависимой переменной будут , параметрами модели будут , а алгоритмом будет

(1)

Для простоты без ограничений общности будем считать, что мы можем всегда получить детерминированно, зная и .

В порождающих вероятностных моделях задается совместное распределение вероятностей , обычно сначала путем задания априорного распределения , а затем задания условного распределения . Это и называется моделью.

При заданной модели и известных задачей будет являться поиск апостериорного распределения на , таким образом . Одним из способов поиска данного апостериорного распределения является применение теоремы Байеса:

где теоретически можно найти как , но при решении практических задач это часто невозможно, так как перебор всего пространства T не поддается аналитическому решению или решению с помощью численных методов за разумное время. Поэтому чаще всего при решении задач в рамках Байесовского подхода стоит задача поиска ненормированного значения :

где символ , часто встречающийся в зарубежной литературе, но очень редко встречающийся у нас, означает <<пропорционально>>. Нормировочную константу затем можно найти приближенно, но иногда ее значение даже не вычисляют, так как бывает достаточно найти и работать дальше с наиболее вероятными элементами из апостериорного распределения .

Обычно, особенно при решении практических задач с большим объемом данных и в рамках сложных моделей, апостериорное распределение находят не точно, а с помощью приближенных методов, в том числе с помощью методов Монте-Карло [8], которые позволяют сгенерировать выборку из интересующего нас распределения.

Как отмечалось в самом начале данного подраздела, вероятностное программирование позволяет:

  1. [leftmargin=1.75cm]

  2. Композиционно и компактно записывать порождающую вероятностную модель с помощью задания априорных вероятностей и в виде алгоритма (вероятностной программы) с использованием стохастических функций (например, стохастическая функция ) и вспомогательных детерминированных функций (например, или ).

  3. Снабжать модель данными , таким образом теоретически определяя условное распределение .

  4. Производить статистический вывод для генерации выборки из условного распределения с помощью обобщенных алгоритмов статистического вывода, подходящих для всех или большого множества моделей.

Для ознакомления с машинным обучением и искусственным интеллектом автор рекомендует следующие источники: [9, 10, 11]. Информацию о вероятностных моделях и Байесовских методах на русском языке можно найти в [12].

1 Краткое введение в языки вероятностного программирования Church, Venture и Anglican

Существует более 15 языков вероятностного программирования, перечень с кратким описанием каждого из них можно найти на [13]. В данной работе реферативно будут рассмотрены три языка вероятностного программирования: Church [2], Venture [3] и Anglican [4]. Языки Venture и Anglican являются продолжениями языка Church. Church в свою очередь основан на языке <<обычного>> программирования Lisp и Scheme. Заинтересованному читателю крайне рекомендуется ознакомиться с книгой [14], являющейся одним из лучших способов начать знакомство с языком <<обычного>> программирования Scheme.

1.1 Первое знакомство с Church, Venture, Anglican

На текущий момент любой язык вероятностного программирования напрямую связан с методами статистического вывода, которые используются в нем, поэтому часто язык ассоциируется с платформой вероятностного программирования, то есть с его технической реализацией в виде компьютерной программы.

Рассмотрим задание простой вероятностной модели Байесовской линейной регрессии [10] на языке вероятностного программирования Venture/Anglican [15] в виде вероятностной программы:

1[ASSUME t1 (normal 0 1)]
2[ASSUME t2 (normal 0 1)]
3[ASSUME noise 0.01]
4[ASSUME noisy_x (lambda (time) (normal (+ t1 (* t2 time)) noise))]
5[OBSERVE (noisy_x 1.0) 10.3]
6[OBSERVE (noisy_x 2.0) 11.1]
7[OBSERVE (noisy_x 3.0) 11.9]
8[PREDICT t1]
9[PREDICT t2]
10[PREDICT (noisy_x 4.0)]

Скрытые искомые параметры — значения коэффициентов и линейной функции . У нас есть априорные предположения о данных коэффициентах, а именно мы предполагаем, что они распределены по закону нормального распределения со средним и стандартным отклонением . Таким образом, мы определили в первых двух строках вероятностной программы вероятность , описанную в предыдущем раздел. Инструкцию [ASSUME name expression] можно рассматривать как определение случайной величины с именем name, принимающей значение вычисляемого выражение (программного кода) expression, которое содержит в себе неопределенность.

Вероятностные языки программирования (здесь и далее будут иметься в виду конкретно Church, Venture, Anglican, если не указано иное), как и Lisp/Scheme, являются функциональными языками программирования, и используют польскую нотацию111Venture имеет отдельный дополнительный вид синтаксиса VentureScript, использующий инфиксную нотацию и не требующий обрамления вызова функций скобками, то есть схожий по своей сути с привычными большинству людей языками программирования C, C++, Python и т.д. при записи выражений для вычисления. Это означает, что в выражении вызова функции сначала располагается оператор, а уже только потом аргументы: (+ 1 2), и вызов функции обрамляется круглыми скобками. На других языках программирования, таких как C++ или Python, это будет эквивалентно коду 1 + 2.

В вероятностных языках программирования выражение вызова функции принято разделять на три разных вида:

  1. [leftmargin=1.75cm]

  2. Вызов детерминированных процедур (primitive-procedure arg1 …argN), которые при одних и тех же аргументах всегда возвращают одно и то же значение. К таким процедурам, например, относятся арифметические операции.

  3. Вызов вероятностных (стохастических) процедур (stochastic-procedure arg1 …argN), которые при каждом вызове генерируют случайным образом элемент из соответствующего распределения. Такой вызов определяет новую случайную величину. Например, вызов вероятностной процедуры (normal 1 10) определяет случайную величину, распределенную по закону нормального распределения , и результатом выполнения каждый раз будет какое-то вещественное число.

  4. Вызов составных процедур (compound-procedure arg1 …argN), где compound-procedure — введенная пользователем процедура с помощью специального выражения lambda: (lambda (arg1 …argN) body), где body — тело процедуры, состоящее из выражений. В общем случае составная процедура является стохастической (недетерминированной) составной процедурой, так как ее тело может содержать вызовы вероятностных процедур.

После этого мы хотим задать условную вероятность наблюдаемых переменных при заданных значениях скрытых переменных и параметра .

Перед вводом непосредственно самих наблюдений с помощью выражения [OBSERVE …] мы определяем общий закон для наблюдаемых переменных в рамках нашей модели, а именно мы предполагаем, что данные наблюдаемые случайные величины при заданных и заданном уровне шума распределены по закону нормального распределения со средним и стандартным отклонением . Данная условная вероятность определена на строках 3 и 4 данной вероятностной программы. noisy_x определена как функция, принимающая параметр и возвращающая случайное значение, определенное с помощью вычисления выражение (normal (+ t1 (* t2 time)) noise) и обусловленное значениями случайных величин и и переменной . Отметим, что выражение (normal (+ t1 (* t2 time)) noise) содержит в себе неопределенность, поэтому каждый раз при его вычислении мы будем получать в общем случае разное значение.

На строках 5—7 мы непосредственно вводим известные значения , , . Инструкция вида [OBSERVE expression value] фиксирует наблюдение о том, что случайная величина, принимающая значение согласно выполнению выражения expression, приняла значение value.

Повторим на данном этапе всё, что мы сделали. На строках 1—4 с помощью инструкций вида [ASSUME …] мы задали непосредственно саму вероятностную модель: и . На строках 5—7 мы непосредственно задали известные нам значения наблюдаемых случайных величин с помощью инструкций вида [OBSERVE …].

На строках 8—9 мы запрашиваем у системы вероятностного программирования апостериорное распределение скрытых случайных величин и . Как уже было сказано, при большом объеме данных и достаточно сложных моделях получить точное аналитическое представление невозможно, поэтому инструкции вида [PREDICT …] генерируют выборку значений случайных величин из апостериорного распределения или его приближения. Инструкция вида [PREDICT expression] в общем случае генерирует один элемент выборки из значений случайной величины, принимающей значение согласно выполнению выражения expression. Если перед инструкциями вида [PREDICT …] расположены инструкции вида [OBSERVE ...], то выборка будет из апостериорного распределения222Говоря точнее, конечно, из приближения апостериорного распределения., обусловленного перечисленными ранее введенными наблюдениями.

Отметим, что в завершении мы можем также предсказать значение функции в другой точке, например, при . Под предсказанием в данном случае понимается генерация выборки из апостериорного распределения новой случайной величины при значениях скрытых случайных величин и параметре .

Для генерации выборки из апостериорного распределения в языке программирования Church в качестве основного используется алгоритм Метрополиса-Гастингса, который относится к методам Монте-Карло по схеме Марковских цепей. В следующем подразделе будет произведено подробное описание применения данного алгоритма для обобщенного статистического вывода в вероятностных языках. Под <<обобщенным>> выводом в данном случае понимается то, что алгоритм может быть применен к любым вероятностным программам, написанным на данном вероятностном языке программирования.

1.2 Статистический вывод в вероятностных языках программирования с помощью алгоритма Метрополиса-Гастингса

Описание алгоритма Метрополиса-Гастингса в применении к <<семейству>> вероятностных языков Church впервые опубликовано в [2] и более подробно описано в [16].

Получить выборку из элементов из априорного распределения скрытых параметров , наблюдаемых величин или их совместного распределение какой-либо порождающей вероятностной модели, записанной в виде вероятностной программы, не составляет труда. Для этого достаточно выполнить вероятностную программу раз. Отметим очевидный факт, что в данном случае вероятностная программа будет содержать лишь инструкции вида [ASSUME ...] (задание вероятностной модели) и [PREDICT ...] (перечисление случайных величин, выборку которых мы генерируем).

1.2.1 Метод <<выборки с отклонением>>

При заданных наблюдениях с помощью инструкций вида [OBSERVE expression value] наиболее простым способом получения апостериорного распределения является метод <<выборки с отклонением>> [17]. Для понимания рассмотрим следующую вероятностную программу:

1[ASSUME a (uniform-discrete 1 6)]
2[ASSUME b (uniform-discrete 1 6)]
3[OBSERVE (+ a b) 5]
4[PREDICT (* a b)]

Отметим, что стохастическая процедура (uniform-continuous a b) возвращает значение случайной величины, распределенной по равномерному дискретному закону распределения с носителем .

Текстом задачу, записанную выше с помощью вероятностной программы, можно сформулировать следующим образом: подбрасываются два шестигранных игральных кубика, в сумме выпало 5; каково распределение произведения очков на этих двух кубиках?

Метод <<выборки с отклонением>> заключается в том, чтобы генерировать значения очков на первом и втором кубиках из их априорного распределения (таким образом, два независимых дискретных равномерных распределения) и проверять, равна ли их сумма 5. Если нет, данная попытка отвергается и не учитывается. Если да, то произведение очков на кубиках добавляется во множество элементов выборки. Данная выборка и будет аппроксимацией апостериорного распределения значений произведения очков на двух кубиках, если известно, что сумма очков равна 5.

Данный метод является неэффективным, и при решении более сложных задач просто вычислительно неосуществимым. Также отметим, что он хорошо подходит только для дискретных значений случайных и промежуточных переменных.

1.2.2 Пространство историй выполнений вероятностных программ

При выполнении вероятностной программы каждая случайная величина принимает определенное значение. Например, следующая вероятностная программа содержит три случайных величины, каждая из которых распределена по закону нормального распределения:

1[ASSUME a (normal 0 1)]
2[ASSUME b (normal 0 1)]
3[ASSUME c (normal (+ a b) 1)]
4[PREDICT c]

При выполнении данной вероятностной программы каждая из трех случайных величин примет свое случайное значение. Назовем историей выполнения вероятностной программы отображение, сопоставляющее каждой случайной величине ее значение. Мощность истории выполнения совпадает с количеством случайных величин, которые были созданы при ее выполнении.

Для каждой программы можно определить соответствующее вероятностное пространство, элементарными событиями которого будут являться все истории ее выполнения. Вероятностью каждого элементарного события будет являться произведение вероятностей принятие того или иного значения каждой случайные величины при данной истории выполнения.

Очевидно, что история выполнения однозначным образом определяет выполнение вероятностной программы и принимаемые значения, как случайных, так и зависящих от них детерминированных выражений.

Для примера рассмотрим еще более простую вероятностную программу.

1[ASSUME a (bernoulli 0.7)]
2[ASSUME b (bernoulli 0.7)]
3[PREDICT a]
4[PREDICT b]

В ней обе случайных величины имеют свое название, что облегчает запись историй выполнений (иначе необходимо вводить адресную схему для наименования случайных величин, чтобы однозначно идентифицировать их).

Данная вероятностная программа имеет четыре различных возможных историй выполнений, а именно , , и с вероятностями , , и соответственно.

Отметим также, что количество <<активных>> случайных величин при выполнении одной и той же вероятностной программы может меняться, как, например, в следующей программе:

1[ASSUME geometric
2  (lambda (p) (if (= (bernoulli p) 1) 0 (+ (geometric p) 1)))]
3[PREDICT (geometric 0.5)]

Данная программа генерирует элемент (т.е. одноэлементную выборку) из геометрического распределения с параметром 0.5 с помощью составной процедуры geometric, параметризованной параметром . При выполнении данной вероятностной программы в истории ее выполнения количество <<активных>> случайных величин может быть любым.

1.2.3 Апостериорное распределение историй выполнений программ

При добавлении наблюдений, то есть фиксации значения определенных случайных величин, можно считать, что рассматривается подмножество множества элементарных событий, а именно те элементы, в историях выполнений которых наблюдаемые случайные величины принимают желаемое значение.

Можно описать другое вероятностное пространство, множеством элементарных событий которого будет являться только что описанное подмножество. Вероятностная мера в новом вероятностном пространстве может быть <<индуцирована>> вероятностной мерой из первоначального вероятностного пространства с учетом нормировочной константы.

Только что описанный переход полностью сочетается с теоремой Байеса, которая в нашем случае записывается следующим образом:

где — множество случайных величин, для которых мы знаем фиксированные наблюдаемые значения; — множество случайных величин, ассоциируемых со скрытыми параметрами, апостериорное распределение которых мы заинтересованы получить (грубо говоря, это всё остальные случайные величины); — наблюдаемые значения случайных величин.

Отметим, что часто мы заинтересованы не в апостериорном распределении , а в апостериорном распределении лишь части скрытых параметров или даже функции от них , в общем случае не являющейся биекцией. С другой стороны, так как мы не ставим задачу получить аналитическое представление данных апостериорных распределений, а лишь выборку из них, то это не играет большой роли в нашем случае при решении задач методами Монте-Карло: мы можем генерировать элементы выборки из , и затем использовать только значения нужных нам скрытых случайных величин и/или действовать функцией на них.

1.2.4 Использование методов Монте-Карло по схеме Марковских цепей

Математическо-статистический аппарат методов Монте-Карло по схеме Марковских цепей кратко и <<современно>> изложен в [8].

Интуитивно опишем, что мы собираемся делать. У нас есть вероятностная программа , определяющая множество скрытых и наблюдаемых случайных величин. Вероятностная программа своей записью задает априорное распределение , а значит и совместное распределение . Каждый раз путем выполнения данной программы мы получаем одну из возможных реализаций данной программы, которая биективно описывается соответствующей историей выполнения , где множество — множество всех возможных историй выполнений данной вероятностной программы, которое можно рассматривать как множество элементарных событий. Для каждой истории выполнения определена ее вероятностная мера

У нас также есть <<экспериментальное>> значение каждой наблюдаемой случайной величины , то есть множество . Существует подмножество историй выполнений , в котором наблюдаемые случайные величины принимают желаемое значение. Данное подмножество можно рассматривать как множество элементарных событий другого вероятностного пространства, вероятностную меру на котором можно <<индуцировать>> из предыдущего путем деления на нормирующую постоянную :

Будем обозначать ненормированную вероятностную меру

Рассмотрим цепь Маркова, исходами которой являются истории выполнений . В качестве начального распределения можно выбрать априорное распределение , при котором значения наблюдаемых случайных величин не выбираются случайным образом согласно их распределению, а устанавливаются согласно их значениям. Например, в вероятностной программе

1[ASSUME a (gamma 1 1)]
2[ASSUME b (lambda () (normal a 1))]
3[OBSERVE (b) 5.3]

первая случайная величина , распределенная по закону Гамма-распределения , будет являться скрытой, и будет сгенерирована согласно данному закону распределения. Наблюдаемая же случайная величина, распределенная по нормальному закону , не будет сгенерирована, а будет установлена в соответствии с ее наблюдаемым значением.

Мы хотим установить такие правила перехода по схеме Метрополиса-Гастингса из одного состояния (исхода) цепи Маркова в другое, чтобы стационарное распределение данной цепи Маркова совпадало с распределением . В таком случае для получения аппроксимации искомого апостериорного распределения в виде выборки нам будет достаточно имитировать данную цепь Маркова [8, 18].

В алгоритме Метрополиса-Гастингса вероятностная мера может быть известна с точностью до нормировочной константы, что и происходит в нашем случае. На каждом шаге алгоритма дано текущее состояние и в соответствии с заданным заранее условным распределение предлагается новое состояние . Таким образом, можно назвать распределением предлагаемых переходов. После этого подсчитывается коэффициент <<принятия>> нового состояния:

Состояние принимается в качестве следующего состояния с вероятностью , в противном случае .

Новое состояние предлагается следующим образом:

  1. [leftmargin=1.75cm]

  2. Случайным образом (равномерно) выбирается одна <<активная>> скрытая случайная величина для <<вариации>>.

  3. Предлагается новое значение данной случайной величины . Условная вероятность в данном случае будет локальным для распределением предлагаемых переходов.

  4. Если случайная величина влияет на поток выполнения вероятностной программы, и в результате ее нового значения должны быть исполнены другие ветви выполнения вероятностной программы, они исполняются и в общем случае происходит генерация новых случайных величин, которые прежде были неактивны.

Для примера рассмотрим следующую вероятностную программу:

1[ASSUME a (bernoulli 0.3)]
2[ASSUME b (if (= a 1) (normal 0 1) (gamma 1 1))]
3[PREDICT c]

В данной вероятностной программе три случайных величины, первая распределена по закону Бернулли, вторая по закону нормального распределения, третья по закону Гамма-распределения. можно также называть <<a>> (по имени переменной), хотя переменная <<b>> не является сама по себе случайной величиной, а зависит от значения , определяющей поток выполнения вероятностной программы, и от значения либо , либо . Отметим также, что при каждом выполнении данной вероятностной программы будет существовать только две активных случайных величины.

Предположим, что текущим состоянием вероятностной программы в момент времени была история выполнения . Это означает, что случайная величина приняла значение , и поэтому для задания переменной был сгенерирован элемент из нормального распределения, то есть была <<реализована>> случайная величина . Очевидно, что

Предложим новое состояние :

  1. [leftmargin=1.75cm]

  2. Выберем случайным образом одну из двух <<активных>> случайных величин, пусть это будет .

  3. Предложим случайным образом новое значение данной случайной величины согласно ее априорному распределению (то есть ), пусть это будет .

  4. Так как случайная величина действительно влияет на поток выполнения вероятностной программы и при изменении ее значения в данном случае должна быть выполнена другая ветвь, выполним данную ветвь, генерируя значения <<активирующихся>> случайных величин (в нашем случае только ). Предположим, что стало равным .

Тогда

В общем случае

где — количество активных случайных величин в текущей истории выполнения, — вероятность нового значения варьируемой случайной величины , — совместная вероятность выбора своих значений <<активирующихся>> случайных величин.

При уже фиксированном обратное для коэффициента принятия алгоритма Метрополиса-Гастингса в общем случае может быть посчитано аналогичным образом:

где — совместная вероятность выбора своих значений случайных величин, активных в , но не являющихся активными в .

В только что рассмотренном примере

И тогда с учетом того, что , мы получаем, что

Поэтому в данном конкретном примере в любом случае, то есть с вероятностью один.

Выбор локального для распределения предлагаемых переходов может быть разным. В простейшем случае, если — независимая случайная величина, данное распределение выбирается идентичным априорному распределению для . Если же — перестановочная случайная величина [19], а такие случайные величины поддерживаются рассматриваемыми языками вероятностного программирования, то ее распределение может быть выбрано с учетом уже накопленных значений.

Таким образом, мы описали алгоритм для предложения нового состояния при текущем состоянии и описали его в рамках метода Метрополиса-Гастингса. Чтобы получить выборку из элементов желаемого апостериорного распределения, нам необходимо имитировать данную цепь Маркова согласно описанному выше алгоритму и получить элементов данной цепи. Затем необходимо отсеять первые элементов и из оставшихся выбрать каждый -й элемент. Полученное множество будет являться аппроксимацией искомой выборки [8], а так как любая история выполнений однозначно определяет значение всех случайных величин в вероятностной программе, то и аппроксимацией выборки из .

выбирается больше единицы, чтобы исключить автокорреляцию , которая естественным образом возникает в цепи Маркова. выбирается достаточно больши́м, чтобы независимо от выбора начальной точки цепь успела «забыть» данный первоначальный выбор; это особенно важно, когда начальное априорное распределение очень сильно отличается от апостериорного . Какого-то общего правила для выбора данных величин нет, и обычно они выбираются эмпирически.

1.2.5 Программная реализация статистического вывода

В предыдущем подпункте теоретически был описан алгоритм для обобщенного статистического вывода в вероятностных языках программирования.

Простая программная реализация впервые достаточно подробно была описана в [16]:

  1. [leftmargin=1.75cm]

  2. Для инициализации выбирается случайным образом путем выполнения вероятностной программы и фиксации наблюдаемых случайных величин в соответствии с имеющимися данными. При этом в памяти компьютера сохраняется база данных активных случайных величин вместе с их значениями, а также сохраняется , которое подсчитывается во время первоначального выполнения программы с учетом вероятности наблюдаемых случайных величин принять то значение, которое они приняли. В [16] описывается схема адресации, которая позволяет различать случайные величины между собой.

  3. Затем для выбора последующего каждый раз из базы данных случайным равномерным образом выбирается случайная величина и она случайным образом варьируется в соответствии со своим локальным распределением предлагаемых переходов , которое предварительно задается для всех используемых примитивных (несоставных) случайных величин. Создается копия базы данных, в которой значение случайной величины заменяется на новое.

  4. Вероятностная программа выполняется еще один раз, при этом случайные величины, для которых уже в базе данных имеется запись (согласно схеме адресации), принимают соответствующие старые значения, а принимает свое новое полученное значение.

  5. В общем случае, если влияет на поток выполнения программы, генерируются значения для новых случайных величин, которые становятся активными. Для этих случайных величин прежде в базе данных не было записей.

  6. Также если влияет на поток выполнения программы, то некоторые случайные величины могут перестать быть активными. В данном случае соответствующие им записи в базе данных будут невостребованы.

  7. После выполнения программы второй раз можно считать, что мы получили . Также отметим, что при выполнении программы мы получили и использовали всё необходимые компоненты для подсчета и .

  8. Вероятность обратного перехода может быть получена разными способами. Если в вероятностной программе есть только независимые случайные величины (и нет перестановочных), то первые две компоненты могут быть найдены тривиально, так как мы знаем количество случайных величин в и можем посчитать . Для третьей компоненты нам нужно посчитать произведение вероятностей случайных величин, которые перестали быть активными в , то есть все невостребованные случайные величины в базе данных. В случае наличия и использования перестановочных случайных величин мы можем имитировать ситуацию, что является нашим старым состоянием, а новое состояние мы получаем в точном соответствии с [3].

  9. Имея , , и , мы подсчитываем коэффициент принятия для алгоритма Метрополиса-Гастингса, и либо принимаем с вероятностью , что означает, что в следующий раз мы будем использовать уже новую базу данных случайных величин со значением, соответствующими , либо отклоняем с вероятностью , что означает, что на следующем шаге мы снова будем использовать старую базы данную от .

  10. Алгоритм повторяется с шага № 2.

1.3 Эффективность вывода

При использовании вероятностных языков программирования встает вопрос об эффективности статистического вывода, другими словами о том, как быстро мы генерируем выборку желаемой точности из апостериорного распределения. Описанная в секции 1.2.5 программная реализация статистического вывода является неэффективной, так как происходит перевыполнение всей вероятностной программы, хотя вариация случайной величины обычно имеет только локальный эффект.

Рассмотрим более подробно данную проблему на примере следующей вероятностной программы:

1[ASSUME rainy-season (bernoulli 0.2)]
2[ASSUME cloudy
3  (bernoulli (if rainy-season 0.8 0.3))]
4[ASSUME rain
5  (bernoulli (if cloudy 0.8 0.2))]
6[ASSUME sprinkler
7  (bernoulli (if cloudy 0.1 0.5))]
8[ASSUME wet-grass
9  (bernoulli
10    (if sprinkler (if rain 0.99 0.9)
11                  (if rain 0.9 0.01)))]

Данная вероятностная программа описывает статистически простую упрощенную модель зависимости между сезоном, облачностью, дождем, работой разбрызгивателя и состоянием травы (мокрая или нет) в какой-то день. Значение переменных следующее: rainy-season: входит ли тот день в сезон дождей или нет?, cloudy: облачно в тот день или нет?; rain: был ли дождь в тот день?; sprinkler: работал ли разбрызгиватель в тот день или нет?; wet-grass: была ли трава мокрой в тот день? Данная модель может быть представлена с помощью Байесовской сети доверия (см. рис. 1) и таблицами условных вероятностей. Отметим, что любая Байесовская сеть доверия может быть представлена в виде вероятностной программы на языке Church/Venture/Anglican, но не любая вероятностная программа может быть представлена Байесовской сетью.

Рис. 1: Пример Байесовской сети. Из [20].

В случае, если во время очередной итерации алгоритма Метрополиса-Гастингса в качестве варьируемой случайной величины выбрана случайная величина rain (соответствующий узел на рис. 1 выделен самым темным цветом), для подсчета коэффициента принятия достаточно лишь рассмотреть значения и вероятности при данных значениях узлов <<Дождь>> и <<Трава мокрая>>. Все остальные значения и их вероятности останутся прежними. Иллюстрацию распространения возмущений в связи с вариацией случайной величины <<Дождь>> см. на рис. 2.

Рис. 2: Байесовская сеть в виде <<отпечатка>> выполнения вероятностной программы. Из [20].

В подобном простом примере этот факт не играет большой роли, так как отношение случайных величин, требующих <<переучета>>, к общему количеству активных случайных величин невелико, однако при большом объеме данных это играет решающую роль при выполнении статистического вывода во многих моделях при помощи программных реализаций вероятностных языков программирования. Например, в скрытых марковских моделях [17, 2, 4] или в латентном размещении Дирихле [21, 20].

Например, в простой скрытой Марковской модели есть скрытых и наблюдаемых величин. При реализации статистического вывода алгоритмом, описанным в секции 1.2.5, одна итерация алгоритма Метрополиса-Гастингса имеет сложность (по времени) , хотя желаемая и возможная сложность или по крайней мере .

Для достижения желаемой сложности в каждой истории выполнений необходимо отслеживать зависимости между случайными величинами. Следует отметить, что эти зависимости в общем случае могут изменяться в вероятностных программах. Например, в следующей программе

1[ASSUME a (bernoulli 0.5)]
2[ASSUME b (gamma 1 1)]
3[ASSUME c (normal (if a b 3.0) 1)]

случайная величина c, т.о. (normal …), зависит от случайной величины b, т.о. (gamma …), не всегда, а только если случайная величина a принимает значение <<ИСТИНА>>.

Описание структур данных и алгоритмов, необходимых для отслеживания зависимостей в режиме реального времени, были предварительно приведено в [20] и [22], а затем более обширно и подробно в [3]. При использовании данных структур данных и алгоритмов временная сложность одной итерации алгоритма Метрополиса-Гастингса в простой скрытой Марковской модели равна , при этом если использовать упорядоченный перебор случайных величин, то временная сложность снизиться до , так как логарифмический фактор появляется в связи с необходимостью выбирать случайным образом следующий узел (т.е. случайную величину) для вариации.

В простой скрытой Марковской модели количество <<активных>> случайных величин постоянно и вид зависимости тривиален (от каждой скрытой случайной величины напрямую зависит только одна наблюдаемая случайная величина и только следующая скрытая случайная величина). В более сложных моделях виды зависимостей более изощрены и количество случайных величин меняется от одной истории выполнений к другой. С другой стороны, для большого количества порождающих моделей, используемых в настоящее время в машинном обучении, необходимо, чтобы время на одну итерацию оставалось постоянным или росло хотя бы логарифмически вместе с линейным ростом количества наблюдений, иначе статистический вывод будет невозможен за разумное время.

На рис. 3 показаны результаты применения алгоритмов и структур данных, описанных в [20, 22, 3]. При использовании старого подхода, описанного в [16] (см. секцию 1.2.5) время на итераций алгоритма Метрополиса-Гастингса росло квадратично с линейным ростом размерности модели ( скрытых и наблюдаемых случайных величин), а при использовании предлагаемого подхода время растет квазилинейно.

Рис. 3: Эффективность статистической вывода при его различных реализациях: красный график соответствует простейшему алгоритму, описанному в 1.2.5, при котором каждый раз происходит перевыполнение всей вероятностной программы. Зеленый график соответствует использованию новых алгоритмов и структур данных, что позволяет производить статистический вывод асимптотически более эффективно. Синий и голубой график показывают, что применение предлагаемого подхода также позволяет производить статистический вывод параллельно, по крайней мере приближенно. Рис. из [20].

На этом же рисунке видно, что благодаря локализации выполнения одной итерации Метрополиса-Гастингса стало возможным проводить приближенный статистический вывод параллельно.

Следует отметить, что пространственная сложность алгоритма (объем памяти, необходимый для его применения) равна, грубо говоря, , где — стоимость хранения в памяти зависимостей между случайными величинами. В общем случае эта величина может быть достаточно большой, и в работе [22] описаны возможности более эффективного расходования памяти.

1.4 Порождающее вероятностное программирование в распознавании образов

Как было отмечено в начале, цель вероятностного программирования — облегчить задачу моделирования порождающих вероятностных моделей и проведения вывода в них. Примером иллюстрации успешного предварительного применения вероятностного программирования может служить работа [5], в которой вероятностное программирование используется для моделирования вероятностной модели находящихся на изображении объектов и их взаимодействия между собой. Байесовский подход к интерпретации изображений путем задания априорного распределения на расположение объектов и на связи между ними был предложен задолго до появления рассматриваемых языков программирования, однако именно с их появлением исследование и осуществление данного подхода стало проще, так как вероятностные языки программирования позволяют композиционно и компактно представлять вероятностные порождающие модели и проводить статистический вывод в них.

В работе рассматриваются два примера: проблема графической CAPTCHA [23] — <<компьютерного теста, используемого для определения, кем является пользователь системы: человеком или компьютером>>, знакомого почти что каждому пользователю интернета; и проблема нахождения на изображении с камеры автомобиля дороги, разделительной полосы, и левого и правого оврагов. Полученные результаты по своей эффективности на рассматриваемых простых примерах не уступают другим современным подходам к решению этих задач, однако представление, моделирование и вывод проще осуществляется с помощью вероятностного программирования.

1.5 О различиях между Church, Venture, Anglican

Целью данной главы, очевидно, не было подробное описание этих вероятностных языков, а только краткое введение в них. Заинтересованному читателю мы можем порекомендовать продолжить свое знакомство с вероятностным языком Church с [2, 24, 25, 16], Venture — [3], Anglican — [26, 4, 27].

Хотя многое объединяет эти вероятностные языки, в некоторых принципиальных вещах они различаются. Например, Venture на данный момент больше позиционируется как универсальная платформа, включающая в себя разные виды алгоритмов и методов статистического вывода с запроектированной возможностью добавлять новые с помощью использования базовых компонент и методов. В рамках работы над Anglican развиваются методы обобщенного вывода с использованием методов фильтрации частиц. Church, с другой стороны, позволяет производить статистический запрос внутри другого статистического запроса, что Venture и Anglican пока делать не могут.

2 Автоматическая генерация вероятностных программ

При использовании полных по Тьюрингу вероятностных языков программирования, включающих в себя функции высших порядков333Функциями (процедурами) высших порядков называются функции, аргументами или значениями которых могут быть другие функции., которыми в том числе являются языки Church, Venture и Anglican, вероятностная программа одновременно является и порождающей моделью, и записанной процедурой для генерации элементов выборки из этой модели путем выполнения исходного кода данной процедуры. Любая процедура в вероятностном программировании является формально программным кодом, который описывает процесс генерации элемента выборки при заданных аргументах данной функции. Таким образом, процедуры вероятностных программ являются конструктивным способом описания условных распределений.

Полные по Тьюрингу и допускающие функции высших порядков вероятностные языки программирования открывают возможность проведения вывода исходного текста самих вероятностных программ, если задано априорное распределение на множестве исходного текста, с помощью операторов и . Грубо говоря, необходимо представить вероятностную порождающую мета-модель, которая будет генерировать вероятностные модели в виде исходного кода вероятностных программ.

Данная глава основана на работе [6], которая включает в себя первые предварительные результаты по этой амбициозной задаче вывода самих порождающих вероятностных моделей при наличии какой-либо информации об искомом распределении, которое определяется искомой вероятностной программой. Отметим, что статистический вывод в пространстве исходного кода сложен и нет какого-то простого подхода как к построению вероятностных порождающих моделей исходного кода [28], так и выводу в них [29].

В рамках нашей предварительной работы мы поставили задачу найти с помощью статистического вывода и предлагаемой нами порождающей вероятностной мета-модели такие вероятностные программы, которые будут генерировать выборку элементов, схожую по своим статистическим характеристикам с каким-то заранее заданным распределением.

Эта задача интересна сама по себе, так как нахождение эффективных алгоритмов генерации (моделирования) случайных величин — нетривиальная задача и для людей-ученых, которой они занимаются на протяжении десятков лет [30, 31, 32].

Наши предварительные результаты показывают, что подобный автоматизированный вывод порождающих вероятностных моделей в виде вероятностных программ действительно возможен. В частности, мы приводим результаты успешного эксперимента, в рамках которого мы автоматически нашли обобщенную вероятностную программу, которая подлинно (не приближенно) генерирует случайные величины, распределенные по закону Бернулли с произвольным параметром .

2.1 Обзор литературы

Рассматриваемые нами идеи относятся к разным областям, в том числе к автоматизации процесса программирования [33, 34], индуктивному программированию [33, 35, 36, 37, 38, 39], автоматическому моделированию [40, 41], компьютерному определению и представлению плотности распределений. Подходы к решению проблемы включают статистический вывод, поиск и оптимизацию, в том числе эволюционные алгоритмы и в особенности генетическое программирование.

Идеи и методы использования вероятностного программирования для изучения и автоматизированного представления вероятностных моделей предлагались и ранее [2, 42, 43, 3].

Насколько автору известно, описываемый подход к порождению вероятностных программам мета-вероятностной программой ранее не рассматривался в качестве отдельной проблемы достаточно подробно, хотя первые шаги в исследовании и формулировке проблемы были сделаны в работах [42, 3].

2.2 Описание подхода

Наш подход может быть описан в рамках приближенных Байесовских вычислений [44] с использованием метода Монте-Карло по схеме цепей Маркова с выбором в качестве искомого апостериорного распределения

(2)

где — вероятностная мера, измеряющая расстояние между значения статистик, вычисленных соответственно на выборке из искомого распределения и выборке , полученной путем выполнения исходного кода вероятностной программы-кандидата.

Пусть существует распределение с параметрами , вероятностную программу для генерации элементов выборки из которого мы хотим вывести. Пусть будет выборкой из элементов из распределения при каком-то фиксированном значении параметров . Рассмотрим задачу вывода исходного кода вероятностной программы , которая при ее неоднократном выполнении раз сгенерирует выборку элементов , , статистически близких к распределению при заданных параметрах .

Пусть будет статистикой выборки, и тогда и — значение этой статистики на элементах выборки из и из соответственно. Пусть вероятностная мера , для простоты ненормированная, принимает бо́льшие значения, когда . можно интерпретировать как расстояние или штраф.

Мы используем вероятностное программирование для представления мета-модели, порождающей другие вероятностные программы в виде исходного текста, и для проведения статистического вывода в пространстве искомых вероятностных моделей. Для статистического вывода мы использовали программную реализацию вероятностного языка программирования Anglican, которая поддерживает [4] статистический вывод методом частиц и методом Метрополиса-Гастингса по методу Монте-Карло по схеме цепей Маркова.

Вероятностная мета-модель представлена на рис. 4, где на первой строке мы устанавливаем соответствие между и переменной program-text, которая будет содержать один сгенерированный элемент из распределения на исходный код , определенное априорно через порождающую процедуру production с помощью адаптивной грамматики по типу [45] (см. подробнее в разделе 2.3).

[ASSUME program-text (productions ‘() real)]
[ASSUME program (eval (list lambda ‘() program-text))]
[ASSUME samples (apply-n-times program 10000 ’())]
[OBSERVE (normal (mean samples) noise-level) 0.0]
[OBSERVE (normal (variance samples) noise-level) 1.0]
[OBSERVE (normal (skewness samples) noise-level) 0.0]
[OBSERVE (normal (kurtosis samples) noise-level) 0.0]
[PREDICT program-text]
[PREDICT (apply-n-times  (program))]
Рис. 4: Вероятностная программа для вывода исходного кода вероятностной программы для генерации случайных чисел, распределенных по закону стандартного нормального распределения .

Мы не указываем здесь , так как задача вывода в данном случае найти вероятностную программу, генерирующую элементы из стандартного нормального распределения. Переменная samples на второй строке представляет описанную выше выборку из вероятностной программы-кандидата, и в этом примере .

и вычисляются на следующих четырех строках вероятностной программы, где статистика определяется как четырехмерный вектор, включающий в себя соответственно выборочные среднее, дисперсию, коэффициент асимметрии и коэффициент эксцесса выборки элементов из распределения, определенного вероятностной программой, полученной из распределения . Мера расстояния определяется через плотность многомерного нормального распределения со средними и диагональной ковариационной матрицей . Отметим, что это означает, что мы ищем вероятностные программы, результат выполнения которых определяет распределение со средним равным 0, дисперсией — 1, коэффициентами асимметрии и эксцесса равными 0, и мы «штрафуем» отклонения от этих значений с помощью квадратичной экспоненциальной функции потерь с коэффициентом , где определена как noise-level. Эта функция потерь представляет собой функцию плотности нормального распределения.

Данный пример служит хорошей иллюстрацией основных особенностей нашего подхода. Для поиска в виде вероятностной программы генератора случайных чисел из стандартного нормального распределения мы используем аналитическую информацию о стандартном нормальном распределении при вычислении расстояния между статистиками . Существует по крайней мере три различных ситуации, включая данную, в которых и могут вычисляться различными способами:

  1. [leftmargin=1.75cm]

  2. В рамках первой ситуации мы ищем вероятностную программу, которая эффективно генерирует элементы из аналитически известных распределений. Под эффективностью в данном случае можно понимать вычислительную временную сложность и среднее количество использованной энтропии для генерации элемента выборки в среднем. Практически всегда в этой ситуации и при подобной постановке задачи статистики распределения известны аналитически.

  3. Вторая ситуация возникает, когда мы можем генерировать только элементы выборки из . Например, подобная ситуация возникает, когда мы генерируем элементы из апостериорного распределения с помощью <<дорогостоящего>> (вычислительно) метода Монте-Карло по схеме Марковских цепей, и мы заинтересованы получить другое представление апостериорного распределения в виде вероятностной программы, чье априорное распределение будет точно или хотя бы приблизительно совпадать с искомым апостериорным.

  4. При третьей ситуации нам заранее дана фиксированного размера выборка из , и мы хотим найти вероятностную программу, которая позволит генерировать выборку произвольного размера из в дальнейшем. Мы начали этот раздел с постановки задачи именно в рамках третьей ситуации.

Следует отметить, что возможная польза представления генератора случайных чисел потенциально не только в том, чтобы эффективно и быстро генерировать выборку из желаемого распределения, но и чтобы получить формальное представление желаемого распределения или его приближения в виде исходного кода вероятностной программы, то есть в виде формальной сущности, дальнейшие действия с которой можно производить; в том числе проводить анализ над выведенным исходным кодом и использовать найденные блоки исходного кода для решения других задач.

Рис. 5 иллюстрирует другое важное обобщение решение задачи, сформулированной в самом начале с апостериорным распределением (2).

[ASSUME program-text (productions ‘(real) bool)]
[ASSUME program (eval (list lambda ‘() program-text))]
[ASSUME J 100]
[ASSUME samples-1 (apply-n-times program J ’(0.5))]
[OBSERVE (flip (G-test-p-value
                  samples-1 Bernoulli (list 0.5))) true]
 
[ASSUME samples-N (apply-n-times program J ’(0.7))]
[OBSERVE (flip (G-test-p-value
                  samples-N Bernoulli (list 0.7))) true]
[PREDICT program-text]
[PREDICT (apply-n-times program J ’(0.3))]
Рис. 5: Вероятностная программа для вывода исходного кода вероятностной программы, генерирующей случайные числа, распределенные по закону Бернулли . На предпоследней строчке выводится текст вероятностной программы-кандидата. На последней строчке вероятностная программа-кандидат выполняется J раз для генерации выборки из элементов при параметризации , причем предыдущие (т.о. тренировочные значения параметров) не содержали .

При постановке задачи на вывод генератора случайных чисел, распределенных согласно стандартному нормальному распределению, мы не параметризовали искомое распределение никаким образом, так как у стандартного нормального распределения нет параметров, т.е. . В общем случае распределения, которые мы хотим представить в виде вероятностных программ, имеют нетривиальную параметризацию, и представляют собой по сути семейство распределений. Мы хотим найти вероятностную программу, входные аргументы которой как раз бы и являлись параметрами искомого распределения, таким образом, эта вероятностная программа позволяла бы генерировать случайные величины из всего семейства. Для наглядности рассмотрим алгоритм генерации случайных чисел, распределенных по закону нормального распределения, с помощью преобразования Бокса-Мюллера, представленный в виде вероятностной программы на рис. 6.

[ASSUME box-muller-normal
  (lambda (mean std)
    (+ mean (* std
      (* (cos (* 2 (* 3.14159
      (uniform-continuous 0.0 1.0))))
      (sqrt (* -2
        (log (uniform-continuous 0.0 1.0)
          )))))))]
[ASSUME poisson (lambda (rate)
  (begin (define L (exp (* -1 rate)))
         (define inner-loop (lambda (k p)
         (if (< p L) (dec k)
           (begin (define u
                     (uniform-continuous 0 1))
             (inner-loop (inc k) (* p u))))))
         (inner-loop 1 (uniform-continuous 0 1))))]
Рис. 6: Найденные и записанные людьми исходные коды вероятностных программ для (слева) общего нормального распределения [31] и (справа) распределения Пуассона [46]. Эти исходные коды входят в собранный нами корпус, с помощью которого мы определяем априорные вероятности для наших порождающих правил путем подсчета количества встречающихся констант, процедур разных видов и т.д.

Эта вероятностная процедура параметризована двумя параметрами: средним и стандартным отклонением. Для постановки обобщенной задачи вывода параметризованных вероятностных программам нам необходимо изменить наше искомое апостериорное распределение, включив в него параметр , параметризующий искомое распределение :

(3)

Нам бы хотелось вывести вероятностную программу, которая смогла бы обобщить все возможные значения параметра . С допущением, что если мы выберем конечное число различных параметризаций , мы получим обобщение всего семейства распределений в виде вероятностной программы, мы формулируем нашу задачу в виде следующего приближения с использованием приближенных Байесовских вычислений в рамках метода Монте-Карло по схеме цепей Маркова:

(4)

Вероятностная программа для поиска параметризованной вероятностной программы, генерирующей случайные числа, распределенных по закону Бернулли , представлена на рис. 5, и наглядным образом иллюстрирует применение данного допущения и приближения. При выбранных различных параметризациях параметра распределения Бернулли мы каждый раз генерируем элементов из вероятностной программы-кандидата, аккумулируя расстояние (штраф) между искомым распределением и полученным распределением, представляющим вероятностную программу-кандидата. В каждом конкретном случае для мы высчитываем: 1) расстояние с использованием статистики G-теста (более <<современный>> аналог критерия согласия Пирсона и соответствующей статистики) в виде

где — количество элементов выборки из , принимающих значение ; 2) а также соответствующее -значение с нулевой гипотезой, утверждающей, что элементы выборки являются и элементами выборки из распределения . Так как распределение статистики G-теста приблизительно распределено по закону распределения хи-квадрат, т.е.  в нашем примере, мы можем представить и находить расстояние в данном случае путем вычисления вероятности ложного отклонения нулевой гипотезы . Ложное отклонение нулевой гипотезы эквивалентно успеху в проведении испытания Бернулли с вероятностью успеха равной -значению.

2.3 Грамматика и порождающие правила

С учетом наличия в нашем распоряжении выразительного вероятностного языка программирования, допускающего функции высших порядков и полного по Тьюрингу, наше априорное распределение об исходном коде искомых вероятностных программ также достаточно выразительно. В общих чертах оно схоже с адаптивными грамматиками [45], используемыми в [29], но имеет отличия, в частности связанные с созданием сред с локальными переменными. В виде псевдокода наше априорное распределение может быть представлено следующим образом (символ означает <<может перейти в>>):

  1. [leftmargin=1.75cm]

  2. Выражение в имя переменной, случайно выбираемой из среды переменных с типом .

  3. Выражение в случайную константу типа . Константы различных типов (целочисленные, вещественные и т.д.) генерируются из отдельного для каждого типа процесса Дирихле444Не нужно путать с распределением Дирихле. , где базовое распределение само по себе в общем случае являются смесью нескольких распределений. Например, для констант вещественного типа мы используем смесь нормального распределения (normal 0 10), равномерного непрерывного распределения (uniform-continuous -100 100) и равномерного дискретного распределения из множества .

  4. Выражение , где процедура является случайно выбираемой примитивной детерминированной или стохастической (не составной) процедурой, определенной заранее в глобальной среде, с типом возвращаемого значения .

  5. Выражение , где является составной процедурой, также генерируемой в соответствии с процессом Дирихле , где базовое распределение случайным образом генерирует составную процедуру с типом возвращаемого значения и количеством входных аргументов, распределенным по закону Пуассона, где каждый входной аргумент имеет свой произвольный тип. Тело составной процедуры генерируется также случайным образом согласно этим же порождающим правилам и грамматике, но с учетом введение локальной среды, включающей в себя входные аргументы процедуры.

  6. Выражение , где означает среду, дополненную переменной с именем и со значением, вычисляемым в соответствии с генерируемым случайным образом выражением согласно этих же порождающих правил.

  7. Выражение .

  8. Выражение , таким образом рекурсивный вызов текущей составной процедуры.

Во избежание вычислительных ошибок во время выполнения сгенерированных процедур мы заменяем примитивные функции их <<защищенными>> аналогами, например log(a) заменяется на safe-log(a), причем последний возвращает если ; или например uniform-continuous заменяется safe-uc(a, b), которая в случае если меняет аргументы местами, а также возвращает просто если аргументы равны: .

Множество типов, которые мы использовали в рамках наших экспериментов, включало вещественные и булевы типы, а общее множество примитивных процедур, включенных нами в глобальную среду, включало в себя такие функции как +, , *, safe-div, safe-uc, safe-normal.

2.4 Вероятности использования порождающих правил

Для задания априорных вероятностей порождающих правил, то есть вероятностей, с которой каждое из правил будет применяться в случае возможности его применения, мы вручную составили небольшой корпус вероятностных программ, которые повторяют найденные учеными [32] алгоритмы генераторов случайных чисел. Примеры таких программ представлены на рис. 6. Заметим, что все они требуют наличия только одной стохастической процедуры, а именно uniform-continuous, так что мы включили только ее в глобальную среду с положительной вероятностью для экспериментов, описанных в 2.5.2.

Используя данный корпус, мы вычислили априорные вероятности каждого порождающего правила, при этом при выводе вероятностной программы для генерации случайных величин из искомого распределения (например, распределения Бернулли), мы исключали из корпуса все элементы, которые генерируют случайные величины согласно закону распределения . После этого вероятности использования порождающих правил были <<смягчены>> с помощью распределения Дирихле. В будущем можно использовать более обширные корпусы вероятностных программ, примером зарождающегося подобного корпуса может служить [25].

2.5 Эксперименты

Эксперименты были разработаны таким образом, чтобы проиллюстрировать все три вида возможных ситуаций, описанных ранее. Но в начале мы проиллюстрируем выразительность нашего априорного распределения исходного кода вероятностных программ. После этого мы опишем постановку и результаты экспериментов в рамках использования нашего подхода во всех трех различных ситуациях возможности вычисления расстояния .

2.5.1 Выборки из сгенерированных вероятностных программ

Для иллюстрации выразительности нашего априорного распределения исходных кодов вероятностных программ мы приводим выборки из случайным образом сгенерированных вероятностных программ из их априорного распределения. Эти шесть выборок в виде гистограмм из шести различных автоматически сгенерированных вероятностных программам расположены на рис. 7.

Рис. 7: Гистограммы выборок из некоторых порожденных вероятностных программ из их априорного распределения. По форме распределений видно, что наши порождающие правила достаточно обширны, чтобы соответствующие порождающим вероятностным программам распределения были нетривиальны.

Из рисунка видно, что разные случайным образом сгенерированные вероятностные программы определяют в общем случае достаточно различные структурно распределения. В частности, можно заметить разнообразие в носителе, дисперсии и количестве <<режимов>> (т.е. островков носителя с высокой вероятностью по отношению к очень низковероятностным пространствам между островками).

2.5.2 Вывод вероятностных программ, определяющих распределения, совпадающие или приближающие классические одномерные распределения

Как уже было отмечено, для всех классических одномерных распределений существуют алгоритмы, позволяющие и точно, и приближенно генерировать любое количество элементов из данных параметризованных распределений, и они были аналитически выведены учеными. Эти алгоритмы в том числе, очевидно, могут быть записаны как вероятностные программы в виде их исходного кода.

Мы провели серию экспериментов, чтобы проверить возможность автоматического вывода вероятностных программ, генерирующих выборки из классических одномерных распределений, а именно из распределения Бернулли , распределения Пуассона , Гамма-распределения , Бета-распределения , стандартного нормального распределения , и <<общего>> нормального распределения .

Для каждого семейства распределений мы проводили статистический вывод, выбирая в качестве целевого апостериорного распределения частное распределение , маргинализированное по параметру . Для приближения в каждом случае мы выбирали малое множество значений параметров и определяли апостериорное распределение ограничениями по значению (для распределения Бернулли) и по близости моментам к ожидаемым (для всех других рассматриваемых распределений). Еще раз отметим, что при задании априорного распределения на порождающие правила в каждом конкретном случае из корпуса исключались все вероятностные программы, относящиеся к искомому распределению.

Образцы гистограмм выборок из лучших найденных в результате вывода вероятностных программ представлены на рис. 8, где под лучшими мы понимаем вероятностные программы с наименьшим расстоянием на тренировочных значениях параметров и соответствующих значениях моментов или максимального -значения.

Рис. 8: (Зеленые сплошные линии) Гистограммы выборок из распределений, соответствующих вероятностным программам, имеющим <<высокую>> вероятность в апостериорном распределении при поиске порождающих моделей, соответствующих распределениям (слева направо, сверху вниз): , , , , , . (Синие пунктирные линии) Гистограммы выборок из <<настоящих>> распределений. Параметризация семейства распределений в каждом случае производилась другими значениями параметров, которые не входили в обучающее множество значений . Отметим, что для семейства распределений Бернулли была выведена вероятностная программа, статистически точно генерирующая элементы выборки при любой параметризации (см. рис. 9). С другой стороны, не все распределения получили хорошее приближение найденными вероятностными программами за то время, что мы проводили вывод, как, например, в случае Бета-распределение .

Стоит особенно отметить результат эксперимента с распределением Бернулли, в рамках которого был найден исходный код вероятностной программы, статистически подлинно (точно) генерирующей выборку из всего семейства распределения Бернулли с параметром . Найденная вероятностная программа представлена на рис. 9.

(lambda (par stack-id) (if (< (uniform-continuous 0.0 1.0) par) 1.0 0.0))
(lambda (par stack-id)
  (if (< 1.0 (safe-sqrt (safe-div par (safe-uc par (dec par))))) 1.0 0.0))
(lambda (par stack-id)
  (if (< 1.0 (safe-uc (safe-sqrt par) (+ par (cos par)))) 1.0 0.0))
Рис. 9: (сверху) Написанный человеком исходный код генератора случайных чисел, распределенных по закону Бернулли . (внизу, две программы) Выведенные исходные коды. Первая из двух выведенных вероятностных программ определяет настоящее семейство распределений Бернулли , параметризованное . Вторая программа генерирует распределение, приближенное к распределению Бернулли, параметризованное .

На рис. 10 представлен выведенный исходный текст вероятностной программы для генерации элементов из Гамма-распределения , параметризованного параметром .

(lambda (par stack-id) (* (begin (define sym0 0.0)
    (exp (safe-uc -1.0 (safe-sqrt (safe-uc
    (safe-div (safe-uc 0.0 (safe-uc 0.0 3.14159))
      par) (+ 1.0 (safe-uc (begin (define sym2
      (lambda (var1 var2 stack-id) (dec var2)))
      (sym2 (safe-uc -2.0 (* (safe-uc 0.0 (begin
      (define sym4 (safe-uc sym0 (* (+ (begin
      (define sym5 (lambda (var1 var2 stack-id)
      (safe-div (+ (safe-log (dec 0.0)) -1.0) var1)))
      (sym5 (exp par) 1.0 0)) 1.0) 1.0)))
      (if (< (safe-uc par sym4) 1.0) sym0
      (safe-uc 0.0 -1.0)))) sym0))
      (safe-div sym0 (exp 1.0)) 0)) 0.0))))))) par))
(lambda (stack-id)
  (* 2.0 (* (*
      (* -1.0 (safe-uc 0.0 2.0))
      (safe-uc (safe-uc 4.0
        (+ (safe-log 2.0) -1.0))
        (* (safe-div 2.0
          -55.61617747203855)
          (if (< (safe-uc
            (safe-uc
            27.396810474207317
             (safe-uc -1.0 2.0))
            2.0) 2.0)
            4.0 -1.0)))) -1.0)))
Рис. 10: Исходный код выведенных вероятностных программ для (слева) Гамма-распределения и (справа) для третьей эмпирической выборки индикаторов, используемых для рассмотрения заявок на выдачу кредита. Выборки, сгенерированные с помощью выполнения этих программ, расположены соответственно на рис. 8 и на рис. 11 (последняя гистограмма из трех). Для экономии места исходный код был сокращен, где возможно; например, путем замены (* 1.0 0.0) на 0.0.

2.5.3 Обобщение произвольных эмпирических данных с помощью порождающего вероятностного программирования

Мы также проверили наш метод на выводе порождающих моделей в виде вероятностных программ для объяснения настоящих, не синтетических, данных, аналитическое распределение которых неизвестно.

Для данного эксперимента мы выбрали три набора данных признаков обращающихся в банк клиентов для получения кредита [47, 48], и производили вывод вероятностной программы, используя для сравнения -значения двухвыборочного теста Колмогорова-Смирнова аналогично тому, как мы использовали G-тест для дискретных распределений. Гистограммы выборок из лучших найденных вероятностных программ в сравнении с гистограммами истинных эмпирическими данными признаков клиентов приведены на рис. 11. Пример выведенной вероятностной программы показан на рис. 10 (справа).

Рис. 11: Гистограммы (зеленые сплошные линии) выборок из распределений, определяемых найденными в процессе статистического вывода вероятностными программами для аппроксимации эмпирических данных (синие пунктирные линии) трех вещественных показателей из базы данных, используемой для анализа заявок на выдачу кредита.

2.5.4 <<Компиляция>> вероятностных программ

Генерация выборок из апостериорного распределения методом Монте-Карло по схеме Марковских цепей, особенно в случае Байесовского вывода, обычно достаточно дорогостояща. Под <<компиляцией>> вероятностных программ мы имеем в виду поиск вероятностных программ, априорное распределение которых согласовывалось бы точно или приблизительно с искомым апостериорным распределением.

В вероятностном программировании, где в общем случае генерация выборки из желаемого апостериорного распределения путем использования методом Монте-Карло или аналогичным им является единственным доступным средством за разумное время, эта проблема стоит еще острее.

В качестве самых предварительных результатов мы провели эксперимент, в рамках которого наша априорная модель была моделью бета-биномиального распределения (в несжатой форме) с априорным распределением на скрытый параметр , и использовали алгоритм Метрополиса-Гастингса для получения выборки из апостериорного распределения скрытого параметра с учетом проведения четырех успешных испытаний по схеме Бернулли . Соответствующая вероятностная программа представлена на рис. 12.

[ASSUME theta (beta 1.0 1.0)]
[OBSERVE (flip theta) True]
[OBSERVE (flip theta) True]
[OBSERVE (flip theta) True]
[OBSERVE (flip theta) True]
[PREDICT theta]
[PREDICT (flip theta)]
[ASSUME theta (safe-beta 4.440 1.0)]
[ASSUME theta (safe-sqrt
                 (safe-beta (safe-log 11.602) 1.0))]
[ASSUME theta (safe-beta (safe-sqrt 27.810) 1.0)]
[ASSUME theta (beta 5.0 1.0)]
[PREDICT theta]
Рис. 12: (слева) Вероятностная модель бета-биномиального распределения (в несжатой форме) в виде вероятностной программы. В рамках эксперимента была поставлена задача найти формализацию апостериорного распределения скрытого параметра в виде другой вероятностной программы, чье априорное распределение будет совпадать или приближать данное апостериорное. (справа, сверху) Найденные вероятностные программы (т.е., результат <<компиляции>> вероятностных программ), априорное распределение которых приближает заданное апостериорное распределение. (справа, внизу) Записанный человеком исходный код вероятностной программы, чье априорное распределение совпадает с априорным распределением. В данном конкретном случае данная вероятностная программа может быть просто выведена аналитически, так как Бета-распределение является сопряженным к биномиальному, но в общем случае это нетривиальная задача.

Затем мы использовали наш подход к выводу вероятностных программ, априорное распределение которых будет статистически схожим с полученной выборкой из желаемого апостериорного распределения. Примеры найденных вероятностных программ даны на рис. 12. В данном конкретном случае мы можем аналитически найти и записать в виде вероятностной программы апостериорное распределение, равное . Таким образом, полученные результаты показывают, что мы нашли хорошее приближение апостериорного распределения.

2.6 Обобщение порождающего вероятностного программирования

Как было отмечено ранее, порождающие вероятностные модели определяют совместное распределение , часто задаваемое сначала с помощью распределения , а затем с помощью условного распределения . Порождающие вероятностные модели могут использоваться либо для генерации выборок напрямую из , либо в качестве промежуточног