Определение количества кластеров
Дендрограмма для нашего примера приведена на рис. 2.4. Разрез дерева агрегирования вертикальной чертой дал нам два кластера, состоящих из 9 и 5 объектов. На верхней линии по горизонтали отмечены номера шагов алгоритма, всего алгоритму потребовалось 25 шагов для объединения всех объектов в один кластер. Так, в колонке Cluster Combined можно увидеть порядок объединения в кластеры: на первом шаге… Читать ещё >
Определение количества кластеров (реферат, курсовая, диплом, контрольная)
Существует проблема определения числа кластеров. Иногда можно априорно определить это число. Однако в большинстве случаев число кластеров определяется в процессе агломерации/разделения множества объектов. Процессу группировки объектов в иерархическом кластерном анализе соответствует постепенное возрастание коэффициента, называемого критерием Е. Скачкообразное увеличение значения критерия Е можно определить как характеристику числа кластеров, которые действительно существуют в исследуемом наборе данных. Таким образом, этот способ сводится к определению скачкообразного увеличения некоторого коэффициента, который характеризует переход от сильно связанного к слабо связанному состоянию объектов [5, с.178].
Порядок агломерации (протокол объединения кластеров) приведен в таблице 2.1.
В протоколе указаны такие позиции:
- — Stage — стадии объединения (шаг);
- — Cluster Combined — объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);
- — Coefficients — коэффициенты.
Таблица 2.1.
Порядок агломерации.
Cluster Combined. | Coefficients. | |||
Cluster 1. | Cluster 2. | |||
000. | ||||
1,461E-02. | ||||
1,461E-02. | ||||
1,461E-02. | ||||
1,461E-02. | ||||
3,490E-02. | ||||
3,651E-02. | ||||
4,144E-02. | ||||
5,118E-02. | ||||
105. | ||||
120. | ||||
1,217. | ||||
7,516. | ||||
Так, в колонке Cluster Combined можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т. д.
В колонке Coefficients приведено количество кластеров, которое следовало бы считать оптимальным; под значением этого показателя подразумевается расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В нашем случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений. Процедура стандартизации используется для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений. В SPSS применяются следующие виды стандартизации:
- — Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
- — Разброс от — 1 до 1. Линейным преобразованием переменных добиваются разброса значений от — 1 до 1.
- — Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
- — Максимум 1. Значения переменных делятся на их максимум.
- — Среднее 1. Значения переменных делятся на их среднее.
- — Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.
В таблице 2.1 мы видим, что значение поля Coefficients увеличивается скачкообразно, следовательно, объединение в кластеры следует остановить, иначе будет происходить объединение кластеров, находящихся на относительно большом расстоянии друг от друга.
В нашем примере это скачок с 1,217 до 7,516. Оптимальным считается количество кластеров, равное разности количества наблюдений (14) и количества шагов до скачкообразного увеличения коэффициента (12).
Следовательно, после создания двух кластеров объединений больше производить не следует, хотя визуально мы ожидали появления трех кластеров.
Агрегирование данных может быть представлено графически в виде дендрограммы. Она определяет объединенные кластеры и значения коэффициентов на каждом шаге агломерации (отображены значения коэффициентов, приведенные к шкале от 0 до 25).
Дендрограмма для нашего примера приведена на рис. 2.4. Разрез дерева агрегирования вертикальной чертой дал нам два кластера, состоящих из 9 и 5 объектов. На верхней линии по горизонтали отмечены номера шагов алгоритма, всего алгоритму потребовалось 25 шагов для объединения всех объектов в один кластер.
Рис. 2.4 Дендрограмма процесса слияния