Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций
Методы исследования. Основными методами исследования в работе являются методы комбинаторной теории надежности обучения по прецедентам, оценки концентрации вероятностной меры, неравенства типа Бонферрони-Галамбоса, используемые для оценивания вероятности равномерного отклонения частот, метод производящих функций перечислительной комбинаторики, используемый для вычисления отдельных слагаемых… Читать ещё >
Содержание
- Введение
- 1. 1. Обозначения
- 1. 2. Вероятность перебучения и обращение оценок
- 1. 3. Гипергеометрическое распределение
- 1. 4. Оценка для одного алгоритма
- 1. 4. 1. Стандартный критерий переобучения
- 1. 4. 2. Квантильный критерий переобучения
- 1. 5. Комбинаторные оценки Вапника-Червоненкиса и «бритвы Оккама»
- 1. 6. Оптимальный набор весов в оценке Occam razor
- 1. 7. Точная оценка вероятности переобучения, но методу Монте-Карло
- 2. Обзор литературы
- 2. 1. Модель обучения
- 2. 2. Теория Вапника-Червоненкиса
- 2. 3. Оценки концентрации меры
- 2. 4. е-покрытия семейства алгоритмов
- 2. 5. Вещественно-значные семейства и fat-размерность
- 2. 6. Радемахеровская сложность
- 2. 7. Оценки с использованием понятия отступа
- 2. 8. PAC-Bayes подход
- 3. Оценки на основе характеристик расслоения семейства
- 3. 1. Профили расслоения семейства алгоритмов
- 3. 2. Обзор работ по теме
- 3. 3. Shell-оценки зависящие от полной выборки
- 3. 4. Shell-оценка, зависящая от обучающей выборки
- 3. 5. Выводы
- 4. Оценки на основе характеристик сходства алгоритмов в семействе
- 4. 1. Мотивация и постановка задачи
- 4. 2. Обзор работ, но теме
- 4. 3. Вычисление слагаемых в оценках типа Бонферрони
- 4. 4. Оценка с учетом связности семейства
- 4. 5. Оценка с учетом распределения полустеиеней связности алгоритмов
- 4. С Оценка с учетом монотонных цепей алгоритмов
- 4. 7. Выводы
- 5. Характеристики связности семейства линейных классификаторов
- 5. 1. Конфигурации гиперплоскостей
- 5. 2. Средняя связность
- 5. 3. Зона гиперплоскости в конфигурации
- 5. 4. Дисперсия связности
- 6. Эксперименты с семейством линейных классификаторов
- 6. 1. Оценки профилей расслоения-связности, но методу Монте-Карло
- 6. 2. Процедура сэмилинга алгоритмов из множества А
- 6. 3. Вычисление оценок
- 6. 3. 1. БЬеИ-оценки
- 6. 3. 2. Оценки с использованием связности
Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций (реферат, курсовая, диплом, контрольная)
Работа посвящена проблеме повышения точности оценок обобщающей способности в задачах обучения по прецедентам.
Актуальность темы
В задаче обучения по прецедентам рассматривается генеральная совокупность объектов на которой задана некоторая целевая функция. Из совокупности случайным образом извлекается обучающая, выборка объектов (прецедентов). Метод обучения получает на вход обучающую выборку со значениями целевой функции на ее объектах и на выходе дает функцию, которая должна аппроксимировать целевую функцию на оставшейся (скрытой) части генеральной совокупности, называемой контрольной выборкой. Функцию, возвращаемую методом, традиционно называют алгоритмом, имея в виду что процедура вычисления значения функции на объектах совокупности должна допускать эффективную компьютерную реализацию. Множество всех алгоритмов, которые может выдать метод обучения, называют семейством алгоритмов.
Задача оценивания обобщающей способности метода обучения состоит в том. чтобы, имея в распоряжении лишь наблюдаемую обучающую выборку, определить, насколько хорошо алгоритм, выданный методом, аппроксимирует целевую зависимость на скрытой части совокупности. Качество алгоритма па множестве объектов обычно характеризуется числом или частотой ошибок аппроксимации. Если частота ошибок на скрытой части (частота на контроле) существенно выше, чем на обучающей выборке (частота на обучении), то говорят, что метод переобучился или что выбранный им алгоритм переобучен.
В предположении, что все обучающие выборки заданного размера равновероятны, ставится задача оценивания вероятности переобучения метода. В англоязычной литературе такая постановка для бесконечной генеральной совокупности носит название РЛС-обучения (Probably Approximately Correct learning, [63, 19]) и является развитием теории Вапника-Червоненкиса [65]. Случай конечной генеральной совокупности рассматривается в теории надежности обучения по прецедентам [5].
Чтобы исключить зависимость от метода обучения, имеющего обычно довольно сложную структуру, рассматривают вероятность равномерного отклонения частот — вероятность того, что в семействе возможую выбрать алгоритм у которого частота ошибок на контрольной выборке существенно больше его частоты ошибок на обучающей выборке.
Классические оценки в РАС-теории завышены, поскольку ориентированы на худший возможный случай целевой зависимости. Одним из наиболее актуальных направлений исследований в связи с этим является получение оценок, зависящих от свойств целевой функции, семейства и обучающей выборки.
Одними из основных факторов завышенности классических оценок является пренебрежение расслоением семейства ио частоте ошибок и сходством алгоритмов в семействе. Учет обоих факторов приводят к существенному уточнению оценок вероятности переобучения в комбинаторной теории [Воронцов, 2009]. Однако точные оценки к настоящему моменту получены лишь для некоторых модельных семейств алгоритмов и довольно узкого класса методов обучения.
Цель работы. Разработка новых методов получения оценок обобщающей способности, учитывающих расслоение и сходство для произвольных семейств и методов обучения, в рамках комбинаторной теории надежности обучения по прецедентам.
Научная новизна. В работе развиваются два метода получения оценок обобщающей способности. Оценки, использующие расслоение семейства ио частоте ошибок, рассматривались ранее в контексте классической РАС-теории. В данной работе выводятся их комбинаторные аналоги с некоторыми улучшениями. Второй метод — оценки, учитывающие сходство алгоритмов в смысле расстояния Хэммипга между векторами ошибок алгоритмов. Он основан на неравенствах типа Бонферрони, оценивающих вероятность конъюнкции большого числа событий через вероятности дизъюнкции их различных комбинаций и технику производящих функций. Данный метод является новым. Основная оценка параграфа 4.5 вводит понятие степени связности алгоритма о — числа алгоритмов на единичном расстоянии от, а и понятие профиля связности семейства — распределение степени связности в семействе. Оценка улучшает базовую оценку Вапника-Червоненкиса на множитель, экспоненциальный, но средней степени связности алгоритмов в семействе (для линейных классификаторов — по размерности пространства параметров).
Для семейства линейных классификаторов в работе получены оценки среднего значения и дисперсии профиля связности.
Методы исследования. Основными методами исследования в работе являются методы комбинаторной теории надежности обучения по прецедентам, оценки концентрации вероятностной меры, неравенства типа Бонферрони-Галамбоса, используемые для оценивания вероятности равномерного отклонения частот, метод производящих функций перечислительной комбинаторики, используемый для вычисления отдельных слагаемых неравенств типа Бонферрони. Для анализа профиля связности семейства линейных классификаторов в работе используется теория геометрических конфигураций, применяемая в теории обучения для решения гораздо более простой задачи — оценивания числа алгоритмов в семействе. Для экспериментального вычисления и сравнения оценок используется метод Монте-Карло.
Теоретическая и практическая значимость. Работа носит в основном теоретический характер и вносит существенный вклад в развитие комбинаторной теории надежности обучения по прецедентам. Предложенные методы учета сходства алгоритмов могут применяться для конкретных семейств как в рамках комбинаторного подхода, так и в рамках классического РАС-иодхода для уточнения оценок, использующих неравенство Буля.
Основным практическим приложением оценок обобщающей способности является разработка и обоснование новых методов обучения. Они также могут служить источником качественных соображений при выборе семейства. К примеру, основная оценка настоящей работы показывает, что при повышении сложности семейства, существенным фактором, уменьшающим вероятность переобучения, является увеличение степени сходства алгоритмов в семействе, что может служить обоснованием для применения семейств, непрерывных, но параметрам.
Область исследования согласно паспорту специальности 05.13.17— «Теоретические основы информатики»:
• разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных (п. 5);
• моделирование формирования эмпирического знания (п. 7);
• разработка методов обеспечения высоконадежной обработки информации (п. 11).
Согласно формуле специальности «Теоретические основы информатики», к ней относятся, в числе прочего, «. исследования методов преобразования информации в данные и знаниясоздание и исследование. методов машинного обучения и обнаружения новых знаний. «. Таким образом, исследование проблемы переобучения соответствует данной специальности.
Апробация работы. Результаты работы докладывались на научных семинарах ВЦ РАН, на конференциях ММРО, ИОИ, научной конференции МФТИ:
• всероссийская конференция «Математические методы распознавания образов» ММРО-12, 2005 г. (10];
• международная конференция «Интеллектуализация обработки информации» ИОИ-О, 2006 г. [8];
• всероссийская конференция «Математические методы распознавания образов» ММРО-13, 2007 г. [11];
• научная конференция МФТИ 50 «Современные проблемы фундаментальных и прикладных наук» 2007 г. [9];
• научная конференция МФТИ 51 «Современные проблемы фундаментальных и прикладных наук» 2008 г. [6];
• всероссийская конференция «Математические методы распознавания образов» ММРО-14, 2009 г. [7].
Результаты неоднократно докладывались на семинарах отдела Интеллектуальных систем ВЦ РАН, (рук. чл.-корр. РАН Константин Владимирович Рудаков).
Публикации по теме диссертации в изданиях из списка ВАК: [41, 42]. Другие публикации по теме диссертации: [10, 8, 11, 9, 6, 7]. Текст диссертации доступен на странице aBTopawww.MachineLearning.ru/wiki, «Участник:Вешя КосЬес1укоу».
Структура и объем работы. Работа состоит из оглавления, введения, пяти глав, заключения, списка обозначений, списка литературы.
Краткое содержание работы по главам. Во введении определяются основные обозначения, определяется функционал вероятности переобучения и процедура его обращения для получения доверительных оценок частоты ошибок на контроле. Определяется квантильный критерий переобучения. Приводятся комбинаторные аналоги оценки Вапника-Червоненкиса (УС-оценка) и оценки «бритвы Оккама» и выводится оптимальное априорное распределение на множестве алгоритмов для оценки «брртV вы Оккама».
Глава 2 содержит краткий обзор некоторых известных методов и результатов теории статистического обучения.
В главе 3 выводятся комбинаторные аналоги оценок обобщающей способности учитывающих расслоение семейства — так называемых вЬеН-оценок [48, 47], основанных на следующем соображении. Обычно большая часть алгоритмов в Т имеет вероятность ошибки (или частоту ошибок на полной выборке) около 50%. Если метод обучения выбирает алгоритм с малой частотой ошибок на обучающей выборке, то фактически выбор производится не из всего семейства алгоритмов, а лишь из небольшой его части, состоящей из алгоритмов с малой вероятностью ошибки. Размер этой части семейства существенно ниже размера всего семейства, что предполагает возможность точнее оценить вероятность переобучения, но сравнению, скажем, с классическими оценками Ваиника-Червоненкиса. В параграфе 3.3 выводится комбинаторная вЬеИ-оценка, которая учитывает эффект расслоения семейства по частоте ошибок на полной выборке, но требует знания полной выборки, то есть является ненаблюдаемой. В параграфе 3.4 выводится наблюдаемая комбинаторная вЬеН-оценка, основанная на расслоении семейства по частоте ошибок на обучающей выборке.
В главе 4 выводятся оценки обобщающей способности, учитывающие сходство алгоритмов в семействе. Оценки основаны на следующих соображениях. В УС-оценке функционал равномерного отклонения частот оценивается сверху ири помощи неравенства Буля. Известно, что оно может быть сильно завышено ири большом числе входящих в него событий. Неравенство, очевидно, становится точным, только если все события в нем взаимоисключающие. При оценивании функционала равномерного уклонения частот, составляющие его события вида «алгоритм, а переобучился», наоборот, существенно совместны и их число в неравенстве крайне велико. Как следствие, неравенство Буля представляет собой один из самых существенных факторов завышенное&tradeУС-оценки. Можно улучшить оценку неравенства Буля учитывая пересечения входящих в него событий. Пример такого учета дает разложение функционала равномерного отклонения частот по принципу включения-исключения. Очевидно, что пересечение событий вида «алгоритм, а переобучен» составляющих функциомал равномерного отклонения частот определяется сходством соответствующих алгоритмов. В главе рассматривается хэммингово сходство векторов ошибок алгоритмов, определяется граф 1-сходства на множестве векторов ошибок, предлагается способ вычисления вероятностей пересечений соответствующих событий в функционале равномерного отклонения частот и выводятся оценки, учитывающие различные характеристики сходства алгоритмов в семействе. В параграфе 4.4 выводится оценка учитывающая связность графа 1-сходства семейства, в параграфе 4.5 выводится оценка учитывающая распределение полустепеней вершин в графе — профиль связности, в параграфе 4.6 выводится оценка учитывающая наличие цепей в графе.
В главе 5 исследуются характеристики профиля связности для семейства линейных классификаторов. Поскольку точность оценок предшествующей главы увеличил вается с ростом степени связности семейства, возникает вопрос о нижних оценках степени связности или оценках степени концентрации профиля связности для конкретных семейств. Такие оценки можно было бы использовать в оценках обобщающей способности вместо профиля связности. В главе при помощи теории конфигураций выводится точное среднее значение и оценка дисперсии иолустенени связности для семейства линейных классификаторов. Полученные оценки не зависят от генеральной совокупности и представляют комбинаторные характеристики семейства линейных классификаторов.
В главе 6 экспериментально сравниваются оценки обобщающей способности из предшествующих глав. Используется семейство линейных классификаторов и случайная генеральная совокупность. Профили расслоения и связности оцениваются по методу Монте-Карло, для этого предлагается и обосновывается процедура сэмплинга алгоритмов из семейства.
1.1 Обозначения.
Пусть X некоторое множество объектов и У некоторое множество «ответов» допустимых для объекта из X. Пусть Т некоторое параметрическое семейство отображений из X в У, будем называть их алгоритмами, имея ввиду, что они должны допускать эффективную вычислительную реализацию. Пусть X С А" некоторая фиксированная конечная генеральная совокупность из Ь объектов, будем называть се полной выборкой. Пусть задана бинарная функция потерь I: Т х X —> {0,1}. Если /(/,?') = 1, то говорят, что алгоритм / €? допускает ошибку на объекте ж € X.
Например, в задачах классификации обычно полагают 1(/, х) = [/(х) ф у (х)]- 7. Здесь и далее задачах регрессии можно полагать /(/, х) = ^ |/(я) — у{х) квадратные скобки обозначают индикаторную функцию, равную 1, если условие в скобках истинно, и 0 иначе.
Рассмотрим конечное множество ¿—мерных бинарных векторов ошибок алгоритмов из Т на полной выборке X:
Допуская несущественную нестрогость в обозначениях, будем далее для краткости обозначать (1.1) как, А = X).
Определим отношение эквивалентности на F: f ~ /2, если I (fi, x) = /(/2,х) для всех х G X. Элементы множества a G, А взаимно однозначно соответствуют классам эквивалентности на J-. Будем говорить, что /? F представляет алгоритм, а е А, если, а = (I (/, zi),., I (/, xL)).
Для краткости везде далее будем называть векторы ошибок из, А также алгоритмами, имея ввиду произвольный алгоритм из соответствующего класса эквивалентности на Т.
Заметим, что мощность, А может быть оценена сверху либо как Ylt=о id)' гдс d есть VC-размерность [64] семейства бинарных функций {/(/, •): / € J7}, либо как 2L, если его VC-размерность бесконечна.
Число ошибок алгоритма, а 6 А (или любой функции / € Т из соответствующего ему класса эквивалентности) на произвольной выборке X С X определяется как п (а, X) = card {х? X: 1(а, х) = 1} .
Частота ошибок определяется как v (a, X) = ^j^p— Будем называть частоту ошибок на полной выборке и (а, Х) истинной частотой ошибок алгоритма ачисло ошибок на полной выборке п (а, X) — полным числом ошибок. Частота ошибок алгоритма, а на полной выборке X представляет аналог вероятности ошибки алгоритма в стандартном РАС-подходе.
В дальнейшем качество алгоритмов будет характеризоваться только числом или частотой ошибок — величинами, зависящими от бинарного вектора ошибок. Поэтому алгоритмы с одинаковыми векторами ошибок можно считать неразличимыми и рассматривать метод обучения ¡-л как отображение ¡-л: 2х —" А.
Обозначим через [Х]г множество всех подмножеств из X мощности ?:
Будем называть подмножества X € [Х]^ обучающими или наблюдаемыми выборками, и (а, X) — наблюдаемой частотой ошибок, п (а, X) — наблюдаемым числом.
1.1).
Х]е ={Х СХ: X = t). ошибок. Будем также пользоваться сокращенными обозначениями п (а, X) = па, п (а, X) = па, и (а, Х) = иа, и (а, Х) = 1>а. Будем обозначать через «>е {?.{} без индекса а)—допустимые значения частоты на полной/обучающей выборке и допустимые значения числа ошибок на полной/обучающей выборке.
Допустим, что все разбиения полной выборки X на две подвыборки, наблюдаемую обучающую X длины I и скрытую контрольную ХХ длины Ь — ?, равновероятны. Это предположение является ослабленным вариантом стандартной гипотезы о независимости объектов выборки при выборе из распределения вероятностей. Будем называть произвольный предикат <р [Х]£ —> {истина, ложь} событием. Определим вероятность события (р как долю выборок в [Х]г, для которых <р истинен:
Р[¥->(*)] = Ш Е.
V"/ А'€[Х]".
Для произвольных предикатовъУг будем обозначать через щ V<�рг<�р2, их дизъюнкцию, конъюнкцию и отрицание, соответственно. Для набора предикатов кр,(рк будем обозначать дизъюнкцию и конъюнкцию как N/?9, и АОтметим, чтоР[л*=1^] Ы-.-Ы.
Произвольную функцию ?: [Х]г где Г1 — некоторое множество, будем называть случайной величиной. В случае Z ~Ш определим математическое ожидание как среднее значение, но всем разбиениям: =.
Алгоритм, а = //(А), получаемый в результате обучения, является случайной величиной, принимающей значения из А.
Нашей основной задачей является получение как можно более точных доверительных оценок й истинной частоты ошибок:
Р[иа < Р (а, Х, Т, 1.1,а)] ^ 1-а, где V некоторая оценочная функция и «€ (0,1) достаточно близко к нулю. Назначение таких оценок состоит в том, чтобы, минимизируя оценочную функцию p (a, X, F, [i, а) но F, //., выбрать метод обучения /у, и семейство F с наилучшей обобщающей способностью.
Заключение
.
Результаты, выносимые на защиту:
1. Получены комбинаторные аналоги вЬеН-оценок Лэнгфорда-МакАллпстера, показано, что зЬеИ-оценки являются аналогом стандартных оценок Вашшка-Чер-воненкиса и «бритвы Оккама» Блумера и имеют ту же степень завышенное&trade-.
2. Предложен новый способ учета сходства алгоритмов в оценках вероятности переобучения, основанный на Бонферрони-оценках вероятности равномерного отклонения частот и методе производящих функций.
3. Получены оценки вероятности переобучения для случаев связного семейства, семейства с известным профилем расслоения-связности, семейства, состоящего из множества монотонных максимальных цепей алгоритмов.
4. Для семейства линейных классификаторов получены оценки среднего и дисперсии профиля связности.
Список литературы
- Бернштейп С. Теория вероятностей. — Г&зтехиздат, Москва, 1046.
- Вапник В. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
- Вапник В., Череоиенкис А. Теория распознавания образов. — Наука, 1974.
- Agarwal Р. К., Sharir М. Arrangements and their applications // Handbook of Computational Geometry. 1998. — Pp. 49−119.
- Anthony M., Bartlett P. Neural network learning: theoretical foundations.— Cambridge University Press, 1999.
- Boucheron S., Bousquet O., Lugosi G. Concentration inequalities // Advanced lectures on machine learning. — Springer, 2004. — Pp. 208−240.
- Boucheron S., Bousquet 0., Lugosi G. Theory of classification: some recent advances // ES AIM Probability & Statistics. — 2005. — Vol. 9. — Pp. 323−375.
- Bousquet O., Boucheron S., Lugosi G. Introduction to statistical learning theory // Advanced Lectures in Machine Learning. — Springer, 2004, — Pp. 169−207.
- Devroye L., Gyorfi L., Lugosi G. A Probabilistic Theory of Pattern Recognition. — SpringerVerlag, 1996.
- Devroye L., Lugosi G. Lower bounds in pattern recognition and learning // Pattern Recognition.- 1995.- Vol. 28, no. 7.- Pp. 1011−1018.
- Diaz J., Petit J., Serna M. A guide to concentration bounds // Handbook on randomized computing. — Vol. II. — Kluwer Press, 2001.- Pp. 457−507.
- Dohmen K. Improved Bonferroni Inequalities via Abstract Tubes. — Springer-Verlag, 2003. Edelsbrunner H. Algorithms in Combinatorial Geometry. — Springer-Verlag, 1987.
- Galambos J., Simonelli I. Bonferroni-type Inequalities with Applications. — Springer-Verlag, 1996.
- Grunbaum B. Convex Polytopes. — Springer, 2003. Griinbauin B., Klee V. Convex Polytopes. — Springer-Verlag, 2003.
- Hunter D. An upper bound for the probability of a union // J. Appl.Probab. — 1976. — Vol. 13. Pp. 597−603.
- Hush D., Scovel C. Concentration of hypergeometric distribution // Statistics & Probability Letters. — 2005. — Vol. 75, no. 2. Pp. 127−132.39. .Johnson N. L., Kotz S., Kemp A. W. Univariate Discrete Distributions.— Wiley-Interscience Publication, 1992.
- Kochedykov D. A. Combinatorial shell bounds for generalization ability // Pattern Recognition and Image Analysis. — 2010. — Vol. 20. — Pp. 459−473.
- Kochedykov D. A. A combinatorial approach to hypothesis similarity in generalization bounds // Pattern Recognition and Image Analysis. — 2011, — Vol. 21.
- Kolmogorov A. N., Tikhomirov V. M. e-entropy and e-capacity of sets in function spaces // Translations of the American Math. Soc. — 1961.
- Koltchinskii V. Rademacher penalties and structural risk minimization // IEEE Transactions on Information Theory. — 2001.— Vol. 47, no. 5.— Pp. 1902−1914. citeseer. ist. psu.edu/391 084.html.
- Naiman D. Q., Wynn II. P. Abstract tubes, improved inclusion-exclusion identities and inequalities and importance sampling // The Annals of Statistics. — 1997. — Vol. 25, no. 5. — Pp. 1954−1983.
- Occam’s razor / A. Blumer, A. Ehrenfeucht, D. Haussier, M. K. Warmuth /,/ Inf. Process. Lett. 1987. — Vol. 24. — Pp. 377−380.
- Peter Orhk II. T. Arrangements of Hyperplanes. — Springer, 2010.
- Pollai"d D. Convergence of stochastic processes. — Springer-Verlag, 1984.
- Rigorous learning curve bounds from statistical mechanics / D. Haussier, M. Kearns, H. S. Seung, N. Tishby // Machine Learning. — 1996. —no. 25. — Pp. 195−236.
- Sill J. Monotonicity and connectedness in learning systems: Ph.D. thesis I CalTech. Univ. — 1998.
- Stanley R. P. An introduction to hyperplane arrangements // Geometric Combinatorics / Ed. by V. R. E. Miller, B. Sturmfels. 2007.
- Valiant L. G. A theory of the learnable // Proceedings of the sixteenth annual ACM symposium on Theory of computing. — ACM, 1984.— Pp. 436−445. Vapnik V. N. Statistical Learning Theory. — Wiley, 1998.