Всеукраїнська науково-практична конференція



Сторінка56/60
Дата конвертації11.05.2018
Розмір3.74 Mb.
1   ...   52   53   54   55   56   57   58   59   60

ФОРМАЛІЗАЦІЯ ПРОЦЕСУ ОЦІНЮВАННЯ РЕЗУЛЬТАТІВ КЛАСТЕРИЗАЦІЇ

СКЛАДНИХ ОБ’ЄКТІВ



У роботі формалізовано процес оцінювання результатів кластерного аналізу складних об’єктів . Серед множини критеріїв, що можуть бути використані, було обрано частку загального розкиду, точково-бісеріальний метод кореляції та узагальнену дисперсію в класах, яких достатньо для оцінки якості результатів розбиття складних об’єктів.
Оцінювання результатів кластеризації складних об’єктів можна здійснити шляхом використання критеріальних величин.

Існує потужна множина критеріїв, що можуть бути використані для аналізу складних об’єктів, серед них було обрано частку загального розкиду, точково-бісеріальний метод кореляції та узагальнену дисперсію в класах, яких достатньо для оцінки якості результатів розбиття [2].

Нехай множина скиданих об’єктів розбита на k кластерів .

Для визначення величини Т частки загального розкиду складних об’єктів між кластерами необхідно ввести такі три характеристики ступеню розсіювання таких об’єктів із матриці Y, де збережені дані про них подано у вигляді точок у багатовимірному просторі [1, 2]:



,

де - вектор даних про і-тий складний об’єкт;



загальний центр ваги;

n – кількість складних об’єктів, що аналізуються;

– квадрат відстані між i-тим складним об’єктом та загальним центром ваги.


  • міжкластерний розкид В

,

де центр ваги z-го кластера складних об’єктів;



– кількість складних об’єктів в кластері ;

– квадрат відстані між центром ваги z-го кластера та загальним центром ваги.


  • розкид всередині кластерів складних об’єктів

де .

Оскільки при кластерному аналізі складних об’єктів використовується евклідова відстань, то дійсною є рівність

.

Величина частки загального розкиду Т складних об’єктів обраховується за формулою [2,3]



.

Величина T коливається в межах від 0 до 1 , якщо її значення наближається до 0 – це свідчить про нижчу якість розбиття складних об’єктів на таксони, а якщо значення наближається до 1 – навпаки.

Точково-бісеріальний коефіцієнт кореляції Rb між складними об’єктами, що аналізуються визначається наступним чином. Кожній парі складних об’єктів та ставиться у відповідність дві величини – відстань між ними та індекс еквівалентності [2,3]

Коефіцієнт Rb підраховується як коефіцієнт кореляції між та бінарною величиною по всіх парах складних об’єктів, які аналізуються, що дає [2,3]



,

де – середня відстань між складними об’єктами із різних кластерів;



– середня відстань між складними об’єктами із одного кластера;

- кількість відстаней між складними об’єктами, що потрапили в однин кластер;

- кількість відстаней між складними об’єктами із різних кластерів;

- загальна кількість відстаней;

- стандартне відхилення відстаней.

Узагальнена дисперсія в класах складних об’єктів H є однією з характеристик ступені розсіювання таких об’єктів, що належать одному класу напроти свого центра. Визначена величина обраховується за формулою (9) [1,2].



де - визначник матриці, а елементи вибіркової коваріаційної матриці підраховуються за формулою



де p-та характеристика складного об’єкта Yi;



– середнє значення pкомпоненти, підраховане за складниит об’єктами l-го класу.

Відносний показник якості розбиття множини складних об’єктів на таксони обраховується за формулою



де , і - відносні значення показників , і .



Отже, для виконання процесу оцінювання якості розбиття складних об’єктів на кластерів, потрібно обрахувати частку загального розкиду Т складних об’єктів між кластерами, значення точково-бісеріального коефіцієнта кореляції Rb між складними об’єктами, що аналізуються, величину узагальненої дисперсії в класах складних об’єктів H та відносного показника якості розбиття множини складних об’єктів на таксони.
ПЕРЕЛІК ЛІТЕРАТУРИ

  1. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004 – 336с.

  2. Айвазян С.А., Бухштабер В.М., Енюков И.С. Прикладная статистика: Классификация и снижение размерности. – М.:Финансі и статистика, 1989. – 607 с.

  3. Мандель И.Д. Кластерный анализ. – М.:Финансы и статистика, 1988. – 176с.


УДК 618.31.05


Поділіться з Вашими друзьями:
1   ...   52   53   54   55   56   57   58   59   60


База даних захищена авторським правом ©wishenko.org 2017
звернутися до адміністрації

    Головна сторінка