1 Введение
Во многих задачах интеллектуального анализа данных для описания объектов используется метрическая информация [1, 2]. Для задач классификации и кластеризации [3, 4, 5] предполагается, что используемая метрика удовлетворяет так называемому принципу компактности: близкие объекты скорее должны лежать в одном классе, нежели в разных [6, 7]. В случае хорошей метрики можно полагать, что множество объектов распадается на несколько кластеров, отделенных друг от друга.
Для метрических пространств, представимых в виде объединения кластеров, распределение расстояний имеет некоторые характерные особенности. Так, если у метрики есть некоторое характерное внутрикластерное расстояние и межкластерное расстояние , причем , то можно ожидать, что доля расстояний в промежутке будет мала. В данной статье исследуется следующий вопрос: что нужно потребовать от распределения расстояний, чтобы гарантировать наличие кластерной структуры в метрическом пространстве?
Мы рассматриваем компактные метрические пространства с ограниченной борелевской мерой (или, что тоже самое, компактные метрические тройки Громова [8, 9]). В данных терминах удобно определить кластерную структуру как набор фиксированного числа отделенных друг от друга кластеров. Ниже будет показано, что среди таких структур найдется структура максимальной меры. Тогда факт близости меры данной структуры к мере всего пространства можно интерпретировать как представление метрики в виде объединения кластеров.
Наблюдение о внутрикластерных и межкластерных расстояниях может быть формализовано следующим образом: все расстояния разделяются на короткие, средние и длинные и мы требуем, чтобы доля средних расстояний была мала. Также мы потребуем выполнения некоторых дополнительных ограничений на распределение расстояний, обусловленных количеством кластеров в искомой кластерной структуре. В терминах параметрических ограничений на распределение расстояний мы получим нижнюю оценку на меру кластерной структуры максимальной меры. Вначале мы докажем искомую оценку для конечных полуметрических пространств с равномерной мерой, а затем, используя теорему Бляшке [10], обобщим оценку на случай компактного пространства.
2 Постановка задачи
Пусть дано компактное метрическое пространство и ограниченная борелевская мера на . Любое борелевское подмножество диаметра не более будем называть -кластером.
Определение 1.
Семейство -кластеров будем называть -кластерной структурой порядка , если при всех , где . Мерой назовем величину .
Верно следующее
Утверждение 1.
Среди всех -кластерных структур порядка есть структура максимальной меры.
Доказательство.
Достаточно рассматривать структуры, содержащие только компактные множества. Для каждой структуры произвольно занумеруем входящие в неё множества. Пусть
Тогда найдется последовательность такая, что . По теореме Бляшке метрическое пространство компактов из по метрике Хаусдорфа является компактным. Тогда без ограничения общности можно считать , где . Очевидно, что является -кластерной структурой порядка . Пусть . Рассмотрим множества . При достаточно малых
Но в силу сходимости при фиксированном и достаточно больших выполнено , и
Получили противоречие. ∎
Нашей дальнейшей задачей является определение условий, при которых можно гарантировать, что отношение близко к единице, где — -кластерная структура порядка максимальной меры. Везде далее мы считаем .
Рассмотрим модельный пример: пусть , где все множества являются -кластерами, и при всех . В данном случае мера -кластерной структуры порядка максимальной меры равна и выполнены равенства:
Пару точек будем называть ребром, длина ребра — это (более наглядная аналогия будет видна в случае ). В выше описанном примере нет ребер длины которых лежат в интервале , а также среди любых точек есть ребро длины не больше .
Если , то будем называть ребро -коротким; если , то будем называть ребро -длинным; все остальные ребра — -средние. Набор точек назовем -антикликой порядка , если при всех . Если понятно, о каком идет речь, то приставка будет опускаться.
В нижеследующих неравенствах (1) и (2) пары и наборы мы считаем упорядоченными. Потребуем, чтобы в нашем метрическом пространстве мера -средних ребер была мала в следующем смысле:
(1) |
а мера -антиклик порядка была мала в следующем смысле:
(2) |
где — параметры (мы будем их считать достаточно малыми).
Выбор верхней границы для интервала средних ребер объясняется техническими соображениями, и, гипотетически, может быть уменьшен. Нижняя же граница увеличена быть не может, если мы хотим получить оценку вида (3). Это следует из следующего утверждения.
Утверждение 2.
Для любых и существует компактное метрическое пространство такое, что
и мера любого кластера не более .
Доказательство.
Пусть , и при , а мера любого множества равна его мощности. Определим расстояние следующим образом:
Тогда мера любого -кластера не превосходит , а
Осталось взять , . ∎
3 Жадная кластерная структура
Вначале мы получим оценку вида (3) в случае, когда — конечное полуметрическое пространство. Отметим, что достаточно получить нижнюю оценку меры какой-то -кластерной структуры порядка . Рассмотрим следующую жадную процедуру. Пусть — множество максимальной мощности среди всех -кластеров (если таких множеств несколько, то выберем любое). Обозначим его окрестность за , т.е.
Пусть у нас есть попарно непересекающиеся множества . Тогда — множество максимальной мощности среди всех -кластеров в , а множество — -окрестность во множестве , т.е.
Так как мощность конечна, то процедура оборвётся не некотором шаге.
Определение 2.
Построенное разбиение мы назовем жадным кластерным разбиением, а семейство -кластеров назовем жадной -кластерной структурой порядка .
Сделаем несколько замечаний относительно последнего определения. Во-первых, последовательности и определяются неоднозначно — далее считается, что фиксирована некоторая пара последовательностей . Во-вторых, из построения очевидно, что жадная -кластерная структура порядка является -кластерной структурой порядка по определению (1).
Отметим, что последовательность монотонно убывает, однако, для последовательности свойство монотонности в общем случае не выполняется. Пусть — упорядоченные по убыванию . Следующим шагом мы покажем, что в условиях (1) и (2) и при достаточно малых и первые по мощности покрывают почти все множество , т.е. верно неравенство
где при и .
4 Нижняя оценка числа антиклик
Пусть — число -антиклик порядка , таких, что ровно по одной вершине содержится в каждом из множеств . Понятно, что при выполнено . Нам понадобится следующее рекуррентное соотношение на .
Утверждение 3.
Пусть , тогда при
Доказательство.
Пусть — вершины некоторой антиклики, . Для каждой из вершин рассмотрим множества
Так как диаметр не более , то . Пусть , тогда .
Для любой точки вершины образуют -антиклику порядка . Тогда имеем
∎
Из утверждения (3) сразу же получаем
(4) |
Теперь мы получим нижнюю оценку на — число -антиклик порядка . Нам осталось только просуммировать неравенство (4) по всем наборам из множеств . Введем обозначение для симметрического многочлена от переменных
тогда, используя (2) и (4), получим
Разделим каждое на и упорядочим по убыванию: получим набор , и тогда
5 Нижняя оценка для
По сути мы получили следующую задачу оптимизации
(5) |
Очевидно, что задача (5) имеет решение. Мы будем далее считать, что , иначе решение задачи (5) очевидно. Нам понадобятся следующие простые утверждения.
Утверждение 4.
Пусть — решение задачи (5), тогда либо при всех , либо .
Доказательство.
Предположим противное. Пусть . Рассмотрим вектор
Так как , то при достаточно малых вектор будет допустимым для задачи (5). Но , получили противоречие. ∎
Утверждение 5.
Пусть — решение задачи (5) и . Тогда , где и .
Доказательство.
Итак, рассмотрим вектор .
(6) |
Мы рассмотрим несколько случаев.
-
.
-
Так как при и выполнено , то верно следующее
Утверждение 6.
Пусть — решение задачи (5) и . Тогда
6 Оценка меры жадной -кластерной структуры
Далее мы будем рассматривать только внутреннюю структуру множеств . Поэтому без ограничения общности можно полагать, что .
Нам осталось доказать, что
Рассмотрим множества и . Для любых и выполнено , поэтому концы всех длинных ребер лежат в . Рассмотрим во множестве максимальное паросочетание из длинных ребер, которое покрывает множество . Пусть , тогда является -кластером. Докажем простое утверждение, связывающее мощность и число средних ребер в .
Утверждение 7.
Пусть — конечное полуметрическое пространство диаметра не более , и множество является -кластером максимальной мощности. Тогда число средних ребер не менее .
Доказательство.
Пусть — точка, из которой выходит максимально число коротких ребер, а — замкнутый шар радиуса с центром в . Тогда
∎
Также для любого ребра из паросочетания, покрывающего , и точки хотя бы одно из ребер является средним. В купе с утверждением 7 получаем следующее неравенство:
Сейчас мы применим технику аналогичную той, что использовалась при оценке числа антиклик.
Утверждение 8.
Пусть — число -антиклик порядка во множестве . Тогда при
Доказательство.
Доказательство почти дословно совпадает с доказательством утверждения 3. Пусть образуют некоторую антиклику. Для каждой из вершин рассмотрим множества
Так как диаметр не более , то . Пусть , тогда
Для любой точки вершины образуют антиклику порядка . Осталось заметить что каждую антиклику порядка мы посчитали не более раз, тогда имеем
∎
Из утверждения 6 и равенства сразу следует неравенство
Если , то
Пусть — множество всех индексов таких, что , тогда
Рассмотрим — множество таких индексов , что и . Тогда суммируя предыдущее неравенство по множеству :
Наконец, получаем
Итак, мы доказали следующую теорему
7 Обобщение на случай произвольного компактного пространства
Мы будем использовать технику, аналогичную той, что была использована при доказательстве утверждения (1).
Теорема 2.
Доказательство.
Фиксируем произвольное . В существует конечная -сеть, а значит и разбиение на конечное число -кластеров . Выберем положительных рациональных чисел так, что при и .
Рассмотрим полуметрическое пространство конечной мощности , где , а функция расстояния определяется следующим образом:
Отметим, что
Если , и , то для всех , верно . Отсюда получаем оценку на число -средних ребер в :
Аналогично имеем оценку для -антиклик порядка :
Заметим, что при и . В силу теоремы 1 получаем, что в существует -кластерная структура порядка меры не менее .
Понятно, что каждое либо полностью содержится в каком-то множестве семейства , либо никакой элемент не входит ни в какое множество семейства . Для каждого рассмотрим множество в . Заметим, что множество является -кластером, и для любых выполнено