On improved bound for measure of cluster structure in compact metric spaces

09/25/2017
by   Alexey Pushnyakov, et al.
Mail.Ru Group
0

A compact metric space (X, ρ) is given. Let μ be a Borel measure on X. By r-cluster we mean a measurable subset of X with diameter at most r. A family of k 2r-clusters is called a r-cluster structure of order k if any two clusters from the family are separated by a distance at least r. By measure of a cluster structure we mean a sum of clusters measures from the cluster structure. In our previous work we showed that under some parametric restrictions for distance distribution measure of maximal cluster structure μ(X)^* is close μ(X) and lower bound for μ(X)^* converges to μ(X) when corresponding parameters tend to 0. However, this bound asymptotically unimprovable. We propose an additional restriction for distance distribution that is responsible for balance of cluster's measure in cluster structure. This restriction allows to significantly improve previous bound in asymptotic sense.

READ FULL TEXT VIEW PDF

page 1

page 2

page 3

page 4

09/24/2017

Interdependence of clusters measures and distance distribution in compact metric spaces

A compact metric space (X, ρ) is given. Let μ be a Borel measure on X. B...
12/20/2018

Cluster validity index based on Jeffrey divergence

Cluster validity indexes are very important tools designed for two purpo...
12/01/2020

(k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time Warping

Due to the massively increasing amount of available geospatial data and ...
10/04/2021

Clustering with Respect to the Information Distance

We discuss the notion of a dense cluster with respect to the information...
07/16/2021

Measuring and Explaining the Inter-Cluster Reliability of Multidimensional Projections

We propose Steadiness and Cohesiveness, two novel metrics to measure the...
06/27/2022

Adaptive Cluster Thresholding with Spatial Activation Guarantees Using All-resolutions Inference

Classical cluster inference is hampered by the spatial specificity parad...

1 Введение

Мы рассматриваем компактное метрическое пространство с ограниченной борелевской мерой (компактная метрическая тройка Громова [8, 9]). С точки зрения задачи кластеризации интересен случай, когда существует кластерная структура, мера которой близка к мере всего пространства. В данном случае можно утверждать, что метрическое пространство представляется в виде объединения кластеров.

В предыдущей статье [11] предлагались следующие ограничения на распределение расстояний, соответствующие интуитивному представлению метрики, являющейся объединением кластеров. Вначале все расстояния разделяются на короткие, средние и длинные ребра в зависимости от параметра , отвечающего за диаметр кластеров. Короткие ребра соответствуют внутрикластерным расстояниям, а длинные ребра — межкластерным расстояниям соответственно. Первое ограничение состоит в том, что мера средних ребер должна быть мала. Второе ограничение обусловливается тем, что мы ищем кластерную структуру из ровно кластеров: среди любых точки какие-то две должны попасть в один кластер, поэтому мы требуем, чтобы мера -антиклик — наборов из точки без коротких ребер, — также была мала. Оба ограничения формулируются параметрически.

В описанных выше ограничения была получена нижняя оценка на меру кластерной структуры максимальной меры, которая стремится к мере всего пространства (при стремлении соответствующих параметров к нулю). Основной проблемой является то, что сходимость медленная: оценка содержит коэффициент вида ( — один из параметров).

В данной статье мы покажем, что с асимптотической точки зрения предыдущая оценка неулучшаема, однако, если дополнительно предположить, что мера -антиклик отделена от нуля, то можно значительно улучшить оценку. Техника доказательства будет аналогична предложенной в [11]. Сперва мы получим искомый результат для конечного полуметрического пространства с равномерной мерой. Вместо максимальной кластерной структуры будем оценивать жадную кластерную структуру, построение которой вполне конструктивно (хотя апеллирует к поиску максимальной клики в графе). Завершающим шагом будет обобщение на случай произвольного компактного пространства с помощью теоремы Бляшке [10].

2 Постановка задачи

Пусть дано компактное метрическое пространство с ограниченной борелевской мерой . Любое борелевское подмножество  диаметра не более  будем называть -кластером.

Определение 1.

Семейство -кластеров будем называть -кластерной структурой порядка , если при всех , где . Мерой  назовем величину .

Пару точек будем называть ребром, длина ребра — это . Если , то будем называть ребро  -коротким; если , то будем называть ребро  -длинным; все остальные ребра — -средние. Набор точек назовем -антикликой порядка , если при всех . Если понятно, о каком  идет речь, то приставка  будет опускаться.

В предыдущей статье рассматривались следующие параметрические ограничения на меру средних ребер и антиклик порядка :

(1)
(2)

где  — параметры. Была получена следующая оценка на меру -кластерной структурой порядка  максимальной меры :

(3)

Следующее утверждение показывает, что по параметру с асимптотической точки зрения данная оценка принципиально улучшена быть не может.

Утверждение 1.

Пусть фиксированы и . Существует конечное метрическое пространство с равномерной мерой такое, что , и .

Доказательство.

Пусть , при , и .

Тогда и . Если взять , то получаем требуемое утверждение.

В вышеописанной конструкции при малых фактически присутствует один кластер, а не . Иными словами, меры кластеров в кластерной структуре могут сильно различаться.

Предлагается ввести дополнительной ограничение, которое будет балансировать меры кластеров. Мы потребуем, чтобы мера антиклик порядка была ограничена снизу в следующем смысле

(4)

Далее будет показано, как, используя условие (4), можно улучшить оценку на . Как и ранее, мы будем рассматривать конечное полуметрическое пространство с равномерной мерой, а затем обобщим оценку на случай произвольного компактного пространства. Вместо кластерной структуры максимальной меры рассмотрим жадную кластерную структуру.

3 Жадная кластерная структура

Пусть  — множество максимальной мощности среди всех -кластеров (если таких множеств несколько, то выберем любое). Обозначим его окрестность за , т.е.

Пусть у нас есть попарно непересекающиеся множества . Тогда  — множество максимальной мощности среди всех -кластеров в , а множество  — -окрестность во множестве , т.е.

Так как мощность конечна, то процедура оборвётся не некотором шаге.

Определение 2.

Построенное разбиение мы назовем жадным кластерным разбиением, а семейство -кластеров назовем жадной -кластерной структурой порядка .

Рассмотрим множества  и . Для любых и выполнено , поэтому концы всех длинных ребер лежат в . Рассмотрим во множестве максимальное паросочетание из длинных ребер, которое покрывает множество . Пусть , тогда является -кластером.

Утверждение 2.

Пусть  — конечное полуметрическое пространство диаметра не более , и множество  является -кластером максимальной мощности. Тогда число средних ребер не менее .

Доказательство этого утверждения можно найти в [12]

Также для любого ребра из паросочетания, покрывающего , и точки хотя бы одно из ребер является средним. В купе с утверждением 2 получаем следующее неравенства

(5)
(6)

Пусть  — количество длинных ребер во множестве , тогда

Пусть  — множество индексов таких, что .

Если , то и .

Утверждение 3.
Доказательство.

Рассмотрим произвольную антиклику порядка . Пусть  — замкнутый шар радиуса с центром . Тогда , и при имеем . Таким образом, для любой точки  — антиклика порядка . Так как каждую антиклику порядка можно получить подобным построением не более раза, то, используя неравенства 2 и 4, получаем

4 Оценки числа антиклик

Пусть упорядоченные по убыванию мощности множеств . Введем обозначение для симметрического многочлена от переменных

Мы имеем следующую оценку снизу на число антиклик порядка , доказанную в [11].

Утверждение 4.

Далее мы получим верхнюю оценку числа антиклик порядка в терминах симметрических многочленов от .

Утверждение 5.

Пусть , тогда

где

Доказательство.

Рассмотрим произвольную антиклику порядка . Проделаем с ней следующую процедуру. Изначально все точки не отмечены. Пока существуют и такие, что и лежат в одном и не отмечены, мы отмечаем и вместе с ребром . В конце процедуры мы получим набор , попарно лежащих в разных и набор средних или длинных ребер из множества

где пары считаются неупорядоченными. Таким образом каждую, антиклику порядка можно закодировать ребрами из и токами из попарно различных , и

Используя утверждение 3 и неравенство (1), получаем

Так как и

то

Далее мы будем предполагать, что условия утверждения 5 выполнены. Используя неравенства (4) и (2), а также утверждения 4 и 5 получаем

(7)
(8)

Теперь мы можем получить простую оценку на

Утверждение 6.
Доказательство.

Пусть  — семейство всех -элементных подмножеств множества . Так как последовательность монотонно убывает, то

5 Оценка мощности кластерной структуры

Пусть  — множество индексов, соответствующих наибольшим по мощности множествам . Нам осталось оценить величину .

Если , то по утверждению 3

Если , то и, используя неравенство (5), получаем

Пусть  — множество индексов таких, что , тогда

Наконец,

В сочетании с утверждением 6 имеем

Так как система множеств является -кластерной структурой порядка , то мы получаем следующий результат.

Теорема 1.

Пусть конечное полуметрическое пространство с равномерной мерой , а  — -кластерная структура максимальной меры. Тогда, если выполнены неравенства (1), (2), (4) и , то

(9)

где

6 Обобщение на случай произвольного компактного пространства

Нам осталось обобщить предыдущую теорему на случай произвольного компактного пространства.

Теорема 2.

Пусть компактное метрическое пространство с ограниченной борелевской мерой ,  — -кластерная структура максимальной меры, и функция распределения величины непрерывна. Тогда, если выполнены неравенства (1), (2), (4) и , то выполнено неравенство (9).

Доказательство.

Доказательство почти дословно повторяет доказательство аналогичного результата из [11].

Фиксируем произвольное . В существует конечная -сеть, а значит и разбиение  на конечное число  -кластеров . Выберем положительных рациональных чисел так, что при и .

Рассмотрим полуметрическое пространство конечной мощности , где , а функция расстояния определяется следующим образом:

Отметим, что

Чтобы завершить доказательство достаточно показать, что

где при .

где  — мера -антиклик порядка в . Рассмотрим множество -антиклик порядка в , не являющихся -антикликами

Заметим, что в силу непрерывности функции распределения при

Тогда

Список литературы

  • [1] Журавлев Ю.И., Никифоров В.В. Алгоритмы распознавания, основанные на вычислении оценок // Кибернетика. 1971. № 3. С. 1–11.
  • [2] Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970.
  • [3] Celebi M.E., Kingravi H.A., Vela P.A.

    A comparative study of efficient initialization methods for the k-means clustering algorithm //

    Expert Systems with Applications.
    2013. Vol. 40, no. 1. Pp. 200–210.
  • [4] De Amorim R.C., Mirkin B. Minkowski metric, feature weighting and anomalous cluster initializing in k-means clustering // Pattern Recognition. 2012. Vol. 45, no. 3. Pp. 1061–1075.
  • [5] Aggarwal C.C., Reddy C.K. Data clustering: algorithms and applications. CRC Press, 2013.
  • [6] Загоруйко Н.Г. Гипотезы компактности и -компактности в методах анализа данных // Сибирский журнал индустриальной математики. 1998. Т. 1, № 1. С. 114–126.
  • [7] Браверман Э.М. Опыты по обучению машины распознаванию зрительных образов // Автоматика и телемеханика. 1962. Т. 23, № 3. С. 349–365.
  • [8] Gromov M. Metric structures for Riemannian and non-Riemannian spaces. Springer Science & Business Media, 2007.
  • [9] Вершик А.М. Универсальное пространство урысона, метрические тройки громова и случайные метрики на натуральном ряде // Успехи математических наук. 1998. Т. 53, № 5 (323). С. 57–64.
  • [10] Половинкин E.C., Балашов М.В. Элементы выпуклого и сильно выпуклого анализа. М.: Физматлит, 2004.
  • [11] Пушняков А.С О взаимосвязи мер кластеров и распределений расстояний в компактных метрических пространствах // Журнал вычислительной математики и математической физики 2017.
  • [12] Пушняков А.С О комбинаторных оценках максимальных -разбиений метрических конфигураций // Машинное обучение и анализ данных 2014. Т. 7, № 1. С. 854–862.