Ямковий К. С. Інформаційні технології побудови композитних індикаторів на основі методів машинного навчання

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0823U101138

Здобувач

Спеціальність

  • 122 - Комп’ютерні науки

20-12-2023

Спеціалізована вчена рада

ДФ 64.050.103-2969

Національний технічний університет "Харківський політехнічний інститут"

Анотація

У дисертаційній роботі вирішено науково-практичне завдання розробки методів та інформаційних технологій побудови композитних індикаторів на основі ядерних методів машинного навчання та оптимального узгодження експертної та статистичної інформації. Об’єкт дослідження – процеси побудови композитних індикаторів у задачах ранжування і багатокритеріального оцінювання та вибору. Предмет дослідження – методи та інформаційні технології побудови композитних індикаторів з на основі оптимального узгодження експертної і статистичної інформації та агрегації даних. Мета і задачі дослідження – розробка методів та інформаційних технологій побудови композитних індикаторів основі ядерних методів машинного навчання та оптимального узгодження експертної та статистичної інформації з метою підвищення точності отриманих моделей та обмеження їх складності. У вступі обґрунтовано актуальність теми дисертаційної роботи, зазначено зв’язок роботи з науковими темами, сформульовано мету, задачі та цілі дослідження, визначено об’єкт, предмет та методи дослідження, показано наукову новизну та практичне значення отриманих результатів, наведено інформацію про практичне використання, особистий внесок здобувача, апробацію результатів дослідження та їх висвітлення у публікаціях. Приводяться відомості щодо структури та обсягу дисертаційної роботи. У першому розділі проведено аналіз задачі побудови композитних індикаторів та огляд різних підходів до їх побудови, зокрема, методів машинного навчання. Наведено приклади використання композитних індикаторів у багатьох сферах для побудови різних узагальнених показників: людського розвитку, екологічної ефективності, інвестиційного портфеля тощо. Обґрунтовано вибір мети і задач роботи. У другому розділі задача побудови композитного індикатора сформульована в термінах машинного навчання, отримано розв'язання задачі побудови нелінійної моделі композитного індикатору на основі ядерної рідж-регресії. Проаналізовано методи узгодження різнорідної експертної інформації, що дозволяють знайти компроміс між експертними оцінками композитних індикаторів та статистичними оцінками часткових показників. Обґрунтовано запропонований метод оптимального узгодження експертної і статистичної інформації за допомогою регуляризації ядерної регресії з використанням апріорної інформації щодо важливості часткових показників, що суттєво підвищує точність отриманих моделей. У третьому розділі наведено принципи концепції великих даних та описані проблеми, які виникають при збільшені обсягів інформації, що використовується для побудови композитних індикаторів. Запропоновано використовувати методи агрегування даних для зменшення складності ядерної моделі. Розглянуто методи групування та кластеризації для агрегації даних. Для підвищення точності та ефективності кластеризації запропоновано використовувати регуляризацію за допомогою цільової змінної на етапі розрахунку відстані між точками в просторі ознак, викладено запропонований метод регуляризованої кластеризації. Визначено проблему недостатньої розмітки даних, яка особливо часто виникає при збільшенні кількості даних. Для розв’язання цієї проблеми запропоновано використовувати методи напівкерованого навчання на основі графової регуляризації та ядерного трюку під час оптимізації нелінійної функції переваг. Для розв’язання зазначених проблем розроблено двоетапний алгоритм агрегації даних, який використовує як глобальні, так і локальні патерни у структурі набору під час агрегації. Такий підхід дозволяє значно скоротити розмір вибірки при збереженні всіх властивостей та шаблонів. У четвертому розділі наведено опис запропонованої інформаційної технології для побудови композитних індикаторів методами машинного навчання, яка реалізує розроблені у роботі методи та алгоритми. Розроблена інформаційна технологія реалізована у вигляді бібліотеки мовою програмування Python з відкритим похідним кодом та наслідуванням інтерфейсів бібліотеки scikit-learn та відповідає усім вимогам методологій розробки проєктів у сфері машинного навчання та аналізу даних, а саме KDD та CRISP-DM. Перевірено працездатність розробленої інформаційної технології, точність запропонованих алгоритмів та проаналізовано отримані результати дослідження. Для цього використано декілька багатомірних наборів даних, які представляють різні домені області. Результати показали працездатність та ефективність запропонованих у роботі методів та алгоритмів. У висновках наведено основні результати дисертаційної роботи щодо вирішення поставлених наукових задач дослідження.

Публікації

K. Yamkovyi, “Adaptation of LambdaMART model to semi-supervised learning,” Вiсник Нацiонального технiчного унiверситету «ХПI». Серiя: Системний аналiз, управлiння та iнформацiйнi технологiї, 2023, №1(9), с. 76—81. (Б)

L. Lyubchyk, K. Yamkovyi, “Comparative Analysis of Modified Semi- Supervised Learning Algorithms on a Small Amount of Labelled Data,” System Research & Information Technologies, 2022, № 4, с. 34—43. (А, Scopus)

O. Akhiiezer, G. Grinberg, L. Lyubchyk, K. Yamkovyi, “Failure rate regression model building from aggregated data using kernel-based machine learning methods,” Вiсник Нацiонального технiчного унiверситету «ХПI». Серiя: Системний аналiз, управлiння та iнформацiйнi технологiї, 2022, № 2 (8), с. 51—56. (Б)

K. Yamkovyi, “Development and comparative analysis of semi-supervised learning algorithms on a small amount of labeled data,” Вiсник Нацiонального технiчного унiверситету «ХПI». Серiя: Системний аналiз, управлiння та iнформацiйнi технологiї, 2021, № 1 (5), с. 98—103. (Б)

L. Lyubchyk, O. Akhiiezer, G. Grinberg, K. Yamkovyi, “Machine Learning-Based Failure Rate Identification for Predictive Maintenance in Industry 4.0,” 2022 12th International Conference on Dependable Systems, Services and Technologies (DESSERT), IEEE, Athens, Greece , 2022, с. 1—5. (Scopus, Греція)

L. Lyubchyk, G. Grinberg, K. Yamkovyi, “Integral Indicator for Complex System Building Based on Semi-Supervised Learning,” 2018 IEEE First International Conference on System Analysis & Intelligent Computing (SAIC), IEEE, Kyiv, Ukraine, 2018, с. 1—5. (Scopus, Україна)

Файли

Схожі дисертації