Interdependence of clusters measures and distance distribution in compact metric spaces

09/24/2017
by   Alexey Pushnyakov, et al.
Mail.Ru Group
0

A compact metric space (X, ρ) is given. Let μ be a Borel measure on X. By r-cluster we mean a measurable subset of X with diameter at most r. A family of k 2r-clusters is called a r-cluster structure of order k if any two clusters from the family are separated by a distance at least r. By measure of a cluster structure we mean a sum of clusters measures from the cluster structure. Using the Blaschke selection theorem one can prove that there exists a cluster structure X^* of maximum measure. We study dependence μ(X^*) on distance distribution. The main issue is to find restrictions for distance distribution which guarantee that μ(X^*) is close to μ(X). We propose a discretization of distance distribution and in terms of this discretization obtain a lower bound for μ(X^*).

READ FULL TEXT VIEW PDF

Authors

page 1

page 2

page 3

page 4

09/25/2017

On improved bound for measure of cluster structure in compact metric spaces

A compact metric space (X, ρ) is given. Let μ be a Borel measure on X. B...
01/02/2018

Sketching and Clustering Metric Measure Spaces

Two important optimization problems in the analysis of geometric data se...
06/23/2022

Quantifying Distances Between Clusters with Elliptical or Non-Elliptical Shapes

Finite mixture models that allow for a broad range of potentially non-el...
05/02/2019

Selection of the Number of Clusters in Functional Data Analysis

Identifying the number K of clusters in a dataset is one of the most dif...
06/12/2021

A Cluster Model for Growth of Random Trees

We first consider the growth of trees by probabilistic attachment of new...
07/16/2021

Measuring and Explaining the Inter-Cluster Reliability of Multidimensional Projections

We propose Steadiness and Cohesiveness, two novel metrics to measure the...
07/31/2018

K-medoids Clustering of Data Sequences with Composite Distributions

This paper studies clustering of data sequences using the k-medoids algo...
This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 Введение

Во многих задачах интеллектуального анализа данных для описания объектов используется метрическая информация [1, 2]. Для задач классификации и кластеризации [3, 4, 5] предполагается, что используемая метрика удовлетворяет так называемому принципу компактности: близкие объекты скорее должны лежать в одном классе, нежели в разных [6, 7]. В случае хорошей метрики можно полагать, что множество объектов распадается на несколько кластеров, отделенных друг от друга.

Для метрических пространств, представимых в виде объединения кластеров, распределение расстояний имеет некоторые характерные особенности. Так, если у метрики есть некоторое характерное внутрикластерное расстояние и межкластерное расстояние , причем , то можно ожидать, что доля расстояний в промежутке будет мала. В данной статье исследуется следующий вопрос: что нужно потребовать от распределения расстояний, чтобы гарантировать наличие кластерной структуры в метрическом пространстве?

Мы рассматриваем компактные метрические пространства с ограниченной борелевской мерой (или, что тоже самое, компактные метрические тройки Громова [8, 9]). В данных терминах удобно определить кластерную структуру как набор фиксированного числа отделенных друг от друга кластеров. Ниже будет показано, что среди таких структур найдется структура максимальной меры. Тогда факт близости меры данной структуры к мере всего пространства можно интерпретировать как представление метрики в виде объединения кластеров.

Наблюдение о внутрикластерных и межкластерных расстояниях может быть формализовано следующим образом: все расстояния разделяются на короткие, средние и длинные и мы требуем, чтобы доля средних расстояний была мала. Также мы потребуем выполнения некоторых дополнительных ограничений на распределение расстояний, обусловленных количеством кластеров в искомой кластерной структуре. В терминах параметрических ограничений на распределение расстояний мы получим нижнюю оценку на меру кластерной структуры максимальной меры. Вначале мы докажем искомую оценку для конечных полуметрических пространств с равномерной мерой, а затем, используя теорему Бляшке [10], обобщим оценку на случай компактного пространства.

2 Постановка задачи

Пусть дано компактное метрическое пространство  и ограниченная борелевская мера  на . Любое борелевское подмножество  диаметра не более  будем называть -кластером.

Определение 1.

Семейство -кластеров будем называть -кластерной структурой порядка , если при всех , где . Мерой  назовем величину .

Верно следующее

Утверждение 1.

Среди всех -кластерных структур порядка  есть структура максимальной меры.

Доказательство.

Достаточно рассматривать структуры, содержащие только компактные множества. Для каждой структуры произвольно занумеруем входящие в неё множества. Пусть

Тогда найдется последовательность такая, что . По теореме Бляшке метрическое пространство компактов из  по метрике Хаусдорфа  является компактным. Тогда без ограничения общности можно считать , где . Очевидно, что является -кластерной структурой порядка . Пусть . Рассмотрим множества . При достаточно малых 

Но в силу сходимости при фиксированном  и достаточно больших  выполнено , и

Получили противоречие. ∎

Нашей дальнейшей задачей является определение условий, при которых можно гарантировать, что отношение близко к единице, где  — -кластерная структура порядка  максимальной меры. Везде далее мы считаем .

Рассмотрим модельный пример: пусть , где все множества  являются -кластерами, и при всех . В данном случае мера -кластерной структуры порядка  максимальной меры равна  и выполнены равенства:

Пару точек будем называть ребром, длина ребра — это  (более наглядная аналогия будет видна в случае ). В выше описанном примере нет ребер длины которых лежат в интервале , а также среди любых  точек есть ребро длины не больше .

Если , то будем называть ребро  -коротким; если , то будем называть ребро  -длинным; все остальные ребра — -средние. Набор точек назовем -антикликой порядка , если при всех . Если понятно, о каком  идет речь, то приставка  будет опускаться.

В нижеследующих неравенствах (1) и (2) пары и наборы мы считаем упорядоченными. Потребуем, чтобы в нашем метрическом пространстве мера -средних ребер была мала в следующем смысле:

(1)

а мера -антиклик порядка была мала в следующем смысле:

(2)

где  — параметры (мы будем их считать достаточно малыми).

Далее мы докажем, что при выполнении условий (1) и (2) верна оценка меры вида

(3)

где  при  и .

Выбор верхней границы для интервала средних ребер объясняется техническими соображениями, и, гипотетически, может быть уменьшен. Нижняя же граница увеличена быть не может, если мы хотим получить оценку вида (3). Это следует из следующего утверждения.

Утверждение 2.

Для любых  и  существует компактное метрическое пространство такое, что

и мера любого  кластера не более .

Доказательство.

Пусть , и при , а мера любого множества равна его мощности. Определим расстояние следующим образом:

Тогда мера любого -кластера не превосходит , а

Осталось взять , . ∎

3 Жадная кластерная структура

Вначале мы получим оценку вида (3) в случае, когда  — конечное полуметрическое пространство. Отметим, что достаточно получить нижнюю оценку меры какой-то -кластерной структуры порядка . Рассмотрим следующую жадную процедуру. Пусть  — множество максимальной мощности среди всех -кластеров (если таких множеств несколько, то выберем любое). Обозначим его окрестность за , т.е.

Пусть у нас есть попарно непересекающиеся множества . Тогда  — множество максимальной мощности среди всех -кластеров в , а множество  — -окрестность во множестве , т.е.

Так как мощность конечна, то процедура оборвётся не некотором шаге.

Определение 2.

Построенное разбиение мы назовем жадным кластерным разбиением, а семейство -кластеров назовем жадной -кластерной структурой порядка .

Сделаем несколько замечаний относительно последнего определения. Во-первых, последовательности и определяются неоднозначно — далее считается, что фиксирована некоторая пара последовательностей . Во-вторых, из построения очевидно, что жадная -кластерная структура порядка  является -кластерной структурой порядка  по определению (1).

Отметим, что последовательность монотонно убывает, однако, для последовательности свойство монотонности в общем случае не выполняется. Пусть  — упорядоченные по убыванию . Следующим шагом мы покажем, что в условиях (1) и (2) и при достаточно малых и первые по мощности  покрывают почти все множество , т.е. верно неравенство

где  при  и .

4 Нижняя оценка числа антиклик

Пусть  — число -антиклик порядка , таких, что ровно по одной вершине содержится в каждом из множеств . Понятно, что при выполнено . Нам понадобится следующее рекуррентное соотношение на .

Утверждение 3.

Пусть , тогда при

Доказательство.

Пусть  — вершины некоторой антиклики, .  Для каждой из вершин  рассмотрим множества

Так как диаметр не более , то . Пусть , тогда .

Для любой точки вершины образуют -антиклику порядка . Тогда имеем

Из утверждения (3) сразу же получаем

(4)

Теперь мы получим нижнюю оценку на  — число -антиклик порядка . Нам осталось только просуммировать неравенство (4) по всем наборам из  множеств . Введем обозначение для симметрического многочлена от переменных

тогда, используя (2) и (4), получим

Разделим каждое на и упорядочим по убыванию: получим набор , и тогда

5 Нижняя оценка для

По сути мы получили следующую задачу оптимизации

(5)

Очевидно, что задача (5) имеет решение. Мы будем далее считать, что , иначе решение задачи (5) очевидно. Нам понадобятся следующие простые утверждения.

Утверждение 4.

Пусть  — решение задачи (5), тогда либо  при всех , либо .

Доказательство.

Предположим противное. Пусть . Рассмотрим вектор

Так как , то при достаточно малых вектор будет допустимым для задачи (5). Но , получили противоречие. ∎

Утверждение 5.

Пусть  — решение задачи (5) и . Тогда , где  и .

Доказательство.

Если все попарно равны , то утверждение верно. Для любых имеем

Пусть нашлось такое, что . Тогда рассмотрим вектор

Пусть  — последняя ненулевая компонента . Пусть  — первая компонента такая, что , и . Тогда рассмотрим вектор

Тогда по утверждению (4) получаем, что  — не решение задачи (5). ∎

Итак, рассмотрим вектор .

(6)

Мы рассмотрим несколько случаев.

  1. . Неравенство (6) переходит в

  2. .

Так как при и выполнено , то верно следующее

Утверждение 6.

Пусть  — решение задачи (5) и . Тогда

Используя соотношения (4) и (6) получаем

6 Оценка меры жадной -кластерной структуры

Далее мы будем рассматривать только внутреннюю структуру множеств . Поэтому без ограничения общности можно полагать, что .

Нам осталось доказать, что

Рассмотрим множества  и . Для любых и выполнено , поэтому концы всех длинных ребер лежат в . Рассмотрим во множестве максимальное паросочетание из длинных ребер, которое покрывает множество . Пусть , тогда является -кластером. Докажем простое утверждение, связывающее мощность  и число средних ребер в .

Утверждение 7.

Пусть  — конечное полуметрическое пространство диаметра не более , и множество  является -кластером максимальной мощности. Тогда число средних ребер не менее .

Доказательство.

Пусть  — точка, из которой выходит максимально число коротких ребер, а  — замкнутый шар радиуса  с центром в . Тогда

Также для любого ребра из паросочетания, покрывающего , и точки хотя бы одно из ребер является средним. В купе с утверждением 7 получаем следующее неравенство:

Сейчас мы применим технику аналогичную той, что использовалась при оценке числа антиклик.

Утверждение 8.

Пусть  — число -антиклик порядка во множестве . Тогда при

Доказательство.

Доказательство почти дословно совпадает с доказательством утверждения 3. Пусть образуют некоторую антиклику. Для каждой из вершин  рассмотрим множества

Так как диаметр не более , то . Пусть , тогда

Для любой точки вершины образуют антиклику порядка . Осталось заметить что каждую антиклику порядка мы посчитали не более раз, тогда имеем

Из утверждения 6 и равенства сразу следует неравенство

Если , то

Пусть  — множество всех индексов таких, что , тогда

Если же , то из неравенства (6) получаем

Рассмотрим  — множество таких индексов , что и . Тогда суммируя предыдущее неравенство по множеству :

Наконец, получаем

Итак, мы доказали следующую теорему

Теорема 1.

Пусть конечное полуметрическое пространство с равномерной мерой , а  — -кластерная структура максимальной меры. Тогда, если выполнены неравенства (1) и (2), то

(7)

где

7 Обобщение на случай произвольного компактного пространства

Мы будем использовать технику, аналогичную той, что была использована при доказательстве утверждения (1).

Теорема 2.

Пусть компактное метрическое пространство с ограниченной борелевской мерой , а  — -кластерная структура максимальной меры. Тогда, если выполнены неравенства (1) и (2), то выполнено неравенство (7).

Доказательство.

Фиксируем произвольное . В существует конечная -сеть, а значит и разбиение  на конечное число  -кластеров . Выберем положительных рациональных чисел так, что при и .

Рассмотрим полуметрическое пространство конечной мощности , где , а функция расстояния определяется следующим образом:

Отметим, что

Если , и , то для всех , верно . Отсюда получаем оценку на число -средних ребер в :

Аналогично имеем оценку для -антиклик порядка :

Заметим, что при и . В силу теоремы 1 получаем, что в  существует -кластерная структура порядка меры не менее .

Понятно, что каждое либо полностью содержится в каком-то множестве семейства , либо никакой элемент не входит ни в какое множество семейства . Для каждого рассмотрим множество в . Заметим, что множество является -кластером, и для любых выполнено