Бакалавр
Дипломные и курсовые на заказ

Определение количества кластеров

РефератПомощь в написанииУзнать стоимостьмоей работы

Дендрограмма для нашего примера приведена на рис. 2.4. Разрез дерева агрегирования вертикальной чертой дал нам два кластера, состоящих из 9 и 5 объектов. На верхней линии по горизонтали отмечены номера шагов алгоритма, всего алгоритму потребовалось 25 шагов для объединения всех объектов в один кластер. Так, в колонке Cluster Combined можно увидеть порядок объединения в кластеры: на первом шаге… Читать ещё >

Определение количества кластеров (реферат, курсовая, диплом, контрольная)

Существует проблема определения числа кластеров. Иногда можно априорно определить это число. Однако в большинстве случаев число кластеров определяется в процессе агломерации/разделения множества объектов. Процессу группировки объектов в иерархическом кластерном анализе соответствует постепенное возрастание коэффициента, называемого критерием Е. Скачкообразное увеличение значения критерия Е можно определить как характеристику числа кластеров, которые действительно существуют в исследуемом наборе данных. Таким образом, этот способ сводится к определению скачкообразного увеличения некоторого коэффициента, который характеризует переход от сильно связанного к слабо связанному состоянию объектов [5, с.178].

Порядок агломерации (протокол объединения кластеров) приведен в таблице 2.1.

В протоколе указаны такие позиции:

  • — Stage — стадии объединения (шаг);
  • — Cluster Combined — объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);
  • — Coefficients — коэффициенты.

Таблица 2.1.

Порядок агломерации.

Cluster Combined.

Coefficients.

Cluster 1.

Cluster 2.

000.

1,461E-02.

1,461E-02.

1,461E-02.

1,461E-02.

3,490E-02.

3,651E-02.

4,144E-02.

5,118E-02.

105.

120.

1,217.

7,516.

Так, в колонке Cluster Combined можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т. д.

В колонке Coefficients приведено количество кластеров, которое следовало бы считать оптимальным; под значением этого показателя подразумевается расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В нашем случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений. Процедура стандартизации используется для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений. В SPSS применяются следующие виды стандартизации:

  • — Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
  • — Разброс от — 1 до 1. Линейным преобразованием переменных добиваются разброса значений от — 1 до 1.
  • — Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
  • — Максимум 1. Значения переменных делятся на их максимум.
  • — Среднее 1. Значения переменных делятся на их среднее.
  • — Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

В таблице 2.1 мы видим, что значение поля Coefficients увеличивается скачкообразно, следовательно, объединение в кластеры следует остановить, иначе будет происходить объединение кластеров, находящихся на относительно большом расстоянии друг от друга.

В нашем примере это скачок с 1,217 до 7,516. Оптимальным считается количество кластеров, равное разности количества наблюдений (14) и количества шагов до скачкообразного увеличения коэффициента (12).

Следовательно, после создания двух кластеров объединений больше производить не следует, хотя визуально мы ожидали появления трех кластеров.

Агрегирование данных может быть представлено графически в виде дендрограммы. Она определяет объединенные кластеры и значения коэффициентов на каждом шаге агломерации (отображены значения коэффициентов, приведенные к шкале от 0 до 25).

Дендрограмма для нашего примера приведена на рис. 2.4. Разрез дерева агрегирования вертикальной чертой дал нам два кластера, состоящих из 9 и 5 объектов. На верхней линии по горизонтали отмечены номера шагов алгоритма, всего алгоритму потребовалось 25 шагов для объединения всех объектов в один кластер.

Рис. 2.4 Дендрограмма процесса слияния

Показать весь текст
Заполнить форму текущей работой