Кириченко О. Л. Дослідження статистичних характеристик складних мереж методами інтелектуального аналізу даних

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0824U000903

Здобувач

Спеціальність

  • 121 - Інженерія програмного забезпечення

19-02-2024

Спеціалізована вчена рада

ДФ 76.051.044 (ID 4519)

Чернівецький національний університет імені Юрія Федьковича

Анотація

Дисертаційна робота присвячена дослідженню статистичних характеристик складних мереж та кластерної структури веб-простору з використанням методів інтелектуального аналізу даних, зокрема розробці інформаційної технології для кластеризації даних великого розміру, які були зібрані й оброблені спеціально створеним програмним забезпеченням. Також вивчено стохастичні матриці, які завдяки особливостям своїх спектральних властивостей є основним математичним об’єктом при дослідженні кластерної структури веб-простору. Дисертацiя складається зі вступу, чотирьох роздiлiв, висновкiв, перелiку використаних джерел та додаткiв. У вступi обґрунтовано актуальнiсть дослiдження, сформульовано мету, завдання, предмет, об’єкт та методи дослiдження, вказано наукову новизну, теоретичне та практичне значення отриманих результатiв, проаналізовано зв’язок роботи з науковими темами. Зазначено особистий внесок здобувача, а також наведено відомості про апробацію та публікації основних результатів дисертації. Перший роздiл містить ключові вiдомостi з теорії складних мереж, опис основних напрямів досліджень та завдання, якими займається теорія складних мереж. Проведено огляд та опис основних моделей (Ердоша–Рені, Уаттса–Строґаца, Барабашi–Альберт). Розглянуто та проаналізовано приклади реальних складних мереж та їх особливості Здійснено класифікацію та огляд методів однієї з важливих технік інтелектуального аналізу складних мереж – кластерного аналізу. У другому розділі дисертаційного дослідження описано концепцію кроулінгу як одного із засобів збирання інформації, проведено огляд існуючих програмних засобів для збирання інформації у веб-просторі. Другий розділ має прикладне значення, основним його результатом є розроблене спеціалізоване програмне забезпечення – кроулер з вбудованим аналітичним модулем для інтелектуальної обробки інформації. Третій розділ присвячений дослідженню освітніх сегментів веб-простору (українського (edu.ua), ізраїльського (ac.il) та польського (edu.pl), інформація про які була зібрана та оброблена за допомогою самостійно розробленої інформаційної технології. Застосування даної розробки дозволило отримати статистичні характеристики та кластерну структуру вказаних вище сегментів веб-простору та здійснити порівняльний аналіз. У четвертому розділі розглянуто питання кластеризації в графі на основі матриці суміжності. Основним об’єктом дослідження є стохастична матриця, що задає ймовірності переходу на графі та визначається із матриці суміжності. У розділі проаналізовано спектральні властивості стохастичної матриці із врахуванням кластерної структури графу. Основні теоретичні результати розділу наступні: доведено факт збіжності власних значень матриці P за умов, накладених на елементи матриці суміжності A (теорема 4.3.1); встановлений факт про асимптотичну еквівалентність спектрів матриць та дозволяє використовувати стохастичну матрицю із незалежними елементами замість відповідної стохастичної матриці P, елементи якої не є незалежними (лема 4.4.1); розглянуто частинний підхід до оцінки розподілу елементів матриці P за умови показникового розподілу елементів матриці A (лемах 4.5.1 та 4.5.2). Розроблено новий алгоритм перевірки належності елементів (вершин графу) до одного кластеру; побудовано критерій оцінки оптимальної кількості кластерів k_opt. На основі методу Монте-Карло проведено порівняння розробленого методу оцінки кількості кластерів із деякими класичними алгоритмами, в результаті чого встановлено ряд його переваг та недоліків. У висновках підсумовано основні результати дисертаційного дослідження. У додатках подано наукові публікації, відомості про апробацію результатів дисертації. Теоретичне значення. Результати теоретичних досліджень, а саме розвитку теорії графових досліджень, сформульовані та доведені леми і теореми, можуть використовуватися для подальших досліджень у цій галузі, а також у навчальних курсах кафедр математичних проблем управління і кібернетики та програмного забезпечення комп’ютерних систем Чернівецького національного університету імені Юрія Федьковича (та інших ЗВО), пов'язаних з інтелектуальним аналізом даних, методичних розробках, навчальних посібниках для освітнього процесу та науково-дослідної роботи студентів, аспірантів. Практичне значення. Розроблені у дисертаційній роботі кроулер, інформаційна технологія та метод визначення оптимальної кількості кластерів можуть в подальшому використовуватися для практичного дослідження складних мереж. Запропоновані підходи, результати використовуються компаніями «Квант Азимут» та «Qlicks B.V.». Ключові слова: модель (математична, економічна), моделювання, динаміка, інтелектуальний аналіз даних, кластеризація, k-means, інформаційна система, інформаційна технологія, інтелектуальна система, програмне забезпечення, тестування програмного забезпечення, рівні тестування програмного забезпечення, специфікація вимог до програмного забезпечення, функціональні та нефункціональні вимоги до програмного забезпечення, статистичні методи.

Публікації

1. Kyrychenko О., Ostapov S., Kanovsky I. Investigation of the certain internet domain statistical characteristics / Статистичні характеристики деяких зон інтернету та їх дослідження. Eastern-European Journal of Enterprise Technologies. 2013. Vol. 6, no. 12(66). Р. 91–96.

2. Кириченко О.Л., Малик І.В., Остапов С.Е. Стохастичні моделі в задачах штучного інтелекту. Вісник Київського національного університету імені Тараса Шевченка. Серія фізико-математичні науки. 2021. № 2. С. 53–57.

3. Kyrychenko O. Information technology for statistical cluster analysis of information in complex networks. Computer Systems and Information Technologies. 2022. No 4. Р. 47–51.

4. Кириченко О. Особливості архітектури програмного забезпечення для збору та аналізу статистичної інформації в глобальній мережі. Information Technology: Computer Science, Software Engineering and Cyber Security. 2023. № 2. С. 107–112.

Файли

Схожі дисертації