Упрощенный показатель силуэта для определения качества кластерных структур

Обсуждаются вопросы, связанные с оценкой качества построения кластерной структуры данных. Приведено описание показателя качества кластеризации, учитывающего характеристики компактности и отделимости кластеров, — показателя силуэта в двух вариантах: классического и упрощенного. Отмечено, что для вычи...

Full description

Bibliographic Details
Main Authors: Вера Владимировна Журавлева, Анастасия Станиславовна Маничева
Format: Article
Language:English
Published: Altai State University 2022-09-01
Series:Известия Алтайского государственного университета
Subjects:
Online Access:http://izvestiya.asu.ru/article/view/11827
Description
Summary:Обсуждаются вопросы, связанные с оценкой качества построения кластерной структуры данных. Приведено описание показателя качества кластеризации, учитывающего характеристики компактности и отделимости кластеров, — показателя силуэта в двух вариантах: классического и упрощенного. Отмечено, что для вычисления классического показателя силуэта на большом массиве данных требуется трудоемкая процедура полного перебора пар объектов. Предложена вариация данного показателя, удобная для оценки кластерных структур, построенных на больших массивах данных, — упрощенный показатель силуэта. Рассмотренный показатель протестирован на модельных данных, по которым было построено несколько вариантов кластерных структур, таких, что отдельные кластеры представляли совокупность мини-кластеров. В качестве объектов при вычислении внутрикластерных и межкластерных расстояний были выбраны центры мини-кластеров с учетом их «веса» (в качестве веса задавалось число объектов в мини-кластерах). По каждой кластерной структуре тестового набора данных был вычислен соответствующий показатель силуэта. Проведенное сравнение значений классического и упрощенного показателей силуэта для каждого набора модельных данных дало адекватную оценку качества кластеризации.
ISSN:1561-9443
1561-9451