Оценка эффективности алгоритмов в задаче кластеризации биологических объектов

Проблематика. Задача определения функциональной связи между биофизическими параметрами является составной частью актуальной проблемы поиска оптимального воздействия на биологический объект и в настоящее время не является полностью решенной. Одной из важных задач в этой области является разбиение исх...

Full description

Bibliographic Details
Main Authors: Vitalii Umanets, Bogdan Voinyk, Volodymyr Pavlov, Ievgen Nastenko
Format: Article
Language:English
Published: Igor Sikorsky Kyiv Polytechnic Institute 2018-06-01
Series:Innovative Biosystems and Bioengineering
Subjects:
Online Access:http://ibb.kpi.ua/article/view/133466
_version_ 1797997547221942272
author Vitalii Umanets
Bogdan Voinyk
Volodymyr Pavlov
Ievgen Nastenko
author_facet Vitalii Umanets
Bogdan Voinyk
Volodymyr Pavlov
Ievgen Nastenko
author_sort Vitalii Umanets
collection DOAJ
description Проблематика. Задача определения функциональной связи между биофизическими параметрами является составной частью актуальной проблемы поиска оптимального воздействия на биологический объект и в настоящее время не является полностью решенной. Одной из важных задач в этой области является разбиение исходного пространства признаков на такие области (кластеры), которые относятся к различным функциональным соотношениям, связывающим биофизические параметры, и имеют, в общем случае, произвольную форму. Такие кластеры в дальнейшем логично называть функциональными. Для получения и анализа функциональных кластеров существует ряд алгоритмов, каждый из которых обладает своими преимуществами и недостатками. В то же время решение определенной практической задачи требует оценки эффективности алгоритмов с точки зрения адекватности выделения кластеров. Цель. В статье для достаточно общего примера задачи кластеризации биологических объектов (ирисы Фишера) оценивается эффективность ряда типичных инструментов кластеризации. Рассмотрено применение алгоритма k-средних, алгоритма Варда, а также разработанной в данной работе нечеткой версии кластеризации для алгоритма k-средних с ограниченной массой рабочей области формирования кластеров. Методика реализации. В алгоритм включена процедура априорной оценки количества кластеров. Оценка проводится по гистограмме частот, для определения оптимального количества столбцов гистограммы обосновывается применение формулы Скотта. Алгоритм позволяет формировать кластеры произвольной конфигурации с получением значения меры принадлежности объекта каждому из кластеров. На наборе данных "Ирисы Фишера" проведено сравнительное тестирование указанных алгоритмов. Результаты. Наилучшее значение F1-score получено для алгоритма, предложенного в работе – F1 = 0,92, F1 = 0,90 для метода Варда и F1 = 0,88 для классического алгоритма k-средних. Выводы. Полученные результаты тестирования свидетельствуют о том, что в задачах анализа кластеров произвольной формы целесообразно отдать предпочтение разработанной в данной работе версии нечетких k-средних с ограниченной массой рабочей области формирования кластеров. Расчет значения меры принадлежности в алгоритме позволяет получить дополнительную информацию о структуре кластерных образований, а также осуществить поправки результата кластеризации k-средних с ограниченной массой, что особенно важно при формировании кластеров за один проход. Сравнение требуемых для расчета вычислительных ресурсов для алгоритмов с относительно близкими результатами теста также свидетельствует о преимуществе предложенного в работе алгоритма. По сравнению с алгоритмом Варда ему требуется меньше вычислительных ресурсов, так как не нужна дополнительная память для хранения матрицы расстояний и нет затрат времени на ее перерасчет.
first_indexed 2024-04-11T10:33:28Z
format Article
id doaj.art-358cc3f99dcb49b0b2acd811a9533b5b
institution Directory Open Access Journal
issn 2616-177X
language English
last_indexed 2024-04-11T10:33:28Z
publishDate 2018-06-01
publisher Igor Sikorsky Kyiv Polytechnic Institute
record_format Article
series Innovative Biosystems and Bioengineering
spelling doaj.art-358cc3f99dcb49b0b2acd811a9533b5b2022-12-22T04:29:21ZengIgor Sikorsky Kyiv Polytechnic InstituteInnovative Biosystems and Bioengineering2616-177X2018-06-0122848910.20535/ibb.2018.2.2.133466133466Оценка эффективности алгоритмов в задаче кластеризации биологических объектовVitalii Umanets0Bogdan Voinyk1Volodymyr Pavlov2Ievgen Nastenko3Igor Sikorsky Kyiv Polytechnic InstituteIgor Sikorsky Kyiv Polytechnic InstituteIgor Sikorsky Kyiv Polytechnic InstituteIgor Sikorsky Kyiv Polytechnic InstituteПроблематика. Задача определения функциональной связи между биофизическими параметрами является составной частью актуальной проблемы поиска оптимального воздействия на биологический объект и в настоящее время не является полностью решенной. Одной из важных задач в этой области является разбиение исходного пространства признаков на такие области (кластеры), которые относятся к различным функциональным соотношениям, связывающим биофизические параметры, и имеют, в общем случае, произвольную форму. Такие кластеры в дальнейшем логично называть функциональными. Для получения и анализа функциональных кластеров существует ряд алгоритмов, каждый из которых обладает своими преимуществами и недостатками. В то же время решение определенной практической задачи требует оценки эффективности алгоритмов с точки зрения адекватности выделения кластеров. Цель. В статье для достаточно общего примера задачи кластеризации биологических объектов (ирисы Фишера) оценивается эффективность ряда типичных инструментов кластеризации. Рассмотрено применение алгоритма k-средних, алгоритма Варда, а также разработанной в данной работе нечеткой версии кластеризации для алгоритма k-средних с ограниченной массой рабочей области формирования кластеров. Методика реализации. В алгоритм включена процедура априорной оценки количества кластеров. Оценка проводится по гистограмме частот, для определения оптимального количества столбцов гистограммы обосновывается применение формулы Скотта. Алгоритм позволяет формировать кластеры произвольной конфигурации с получением значения меры принадлежности объекта каждому из кластеров. На наборе данных "Ирисы Фишера" проведено сравнительное тестирование указанных алгоритмов. Результаты. Наилучшее значение F1-score получено для алгоритма, предложенного в работе – F1 = 0,92, F1 = 0,90 для метода Варда и F1 = 0,88 для классического алгоритма k-средних. Выводы. Полученные результаты тестирования свидетельствуют о том, что в задачах анализа кластеров произвольной формы целесообразно отдать предпочтение разработанной в данной работе версии нечетких k-средних с ограниченной массой рабочей области формирования кластеров. Расчет значения меры принадлежности в алгоритме позволяет получить дополнительную информацию о структуре кластерных образований, а также осуществить поправки результата кластеризации k-средних с ограниченной массой, что особенно важно при формировании кластеров за один проход. Сравнение требуемых для расчета вычислительных ресурсов для алгоритмов с относительно близкими результатами теста также свидетельствует о преимуществе предложенного в работе алгоритма. По сравнению с алгоритмом Варда ему требуется меньше вычислительных ресурсов, так как не нужна дополнительная память для хранения матрицы расстояний и нет затрат времени на ее перерасчет.http://ibb.kpi.ua/article/view/133466Clusteringk-meansBiological objectMembership functionEstimation of a number of clustersFuzzy clustering
spellingShingle Vitalii Umanets
Bogdan Voinyk
Volodymyr Pavlov
Ievgen Nastenko
Оценка эффективности алгоритмов в задаче кластеризации биологических объектов
Innovative Biosystems and Bioengineering
Clustering
k-means
Biological object
Membership function
Estimation of a number of clusters
Fuzzy clustering
title Оценка эффективности алгоритмов в задаче кластеризации биологических объектов
title_full Оценка эффективности алгоритмов в задаче кластеризации биологических объектов
title_fullStr Оценка эффективности алгоритмов в задаче кластеризации биологических объектов
title_full_unstemmed Оценка эффективности алгоритмов в задаче кластеризации биологических объектов
title_short Оценка эффективности алгоритмов в задаче кластеризации биологических объектов
title_sort оценка эффективности алгоритмов в задаче кластеризации биологических объектов
topic Clustering
k-means
Biological object
Membership function
Estimation of a number of clusters
Fuzzy clustering
url http://ibb.kpi.ua/article/view/133466
work_keys_str_mv AT vitaliiumanets ocenkaéffektivnostialgoritmovvzadačeklasterizaciibiologičeskihobʺektov
AT bogdanvoinyk ocenkaéffektivnostialgoritmovvzadačeklasterizaciibiologičeskihobʺektov
AT volodymyrpavlov ocenkaéffektivnostialgoritmovvzadačeklasterizaciibiologičeskihobʺektov
AT ievgennastenko ocenkaéffektivnostialgoritmovvzadačeklasterizaciibiologičeskihobʺektov