Кириченко О. Л. Дослідження статистичних характеристик складних мереж методами інтелектуального аналізу даних

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0824U000903

Облікова картка дисертації

0824U000903.pdf

Здобувач

Кириченко Оксана Леонідівна

Спеціальність

121 - Інженерія програмного забезпечення

Дата захисту

19-02-2024

Спеціалізована вчена рада

ДФ 76.051.044 (ID 4519)

Чернівецький національний університет імені Юрія Федьковича

Анотація

Дисертаційна робота присвячена дослідженню статистичних характеристик складних мереж та кластерної структури веб-простору з використанням методів інтелектуального аналізу даних, зокрема розробці інформаційної технології для кластеризації даних великого розміру, які були зібрані й оброблені спеціально створеним програмним забезпеченням. Також вивчено стохастичні матриці, які завдяки особливостям своїх спектральних властивостей є основним математичним об’єктом при дослідженні кластерної структури веб-простору. Дисертацiя складається зі вступу, чотирьох роздiлiв, висновкiв, перелiку використаних джерел та додаткiв. У вступi обґрунтовано актуальнiсть дослiдження, сформульовано мету, завдання, предмет, об’єкт та методи дослiдження, вказано наукову новизну, теоретичне та практичне значення отриманих результатiв, проаналізовано зв’язок роботи з науковими темами. Зазначено особистий внесок здобувача, а також наведено відомості про апробацію та публікації основних результатів дисертації. Перший роздiл містить ключові вiдомостi з теорії складних мереж, опис основних напрямів досліджень та завдання, якими займається теорія складних мереж. Проведено огляд та опис основних моделей (Ердоша–Рені, Уаттса–Строґаца, Барабашi–Альберт). Розглянуто та проаналізовано приклади реальних складних мереж та їх особливості Здійснено класифікацію та огляд методів однієї з важливих технік інтелектуального аналізу складних мереж – кластерного аналізу. У другому розділі дисертаційного дослідження описано концепцію кроулінгу як одного із засобів збирання інформації, проведено огляд існуючих програмних засобів для збирання інформації у веб-просторі. Другий розділ має прикладне значення, основним його результатом є розроблене спеціалізоване програмне забезпечення – кроулер з вбудованим аналітичним модулем для інтелектуальної обробки інформації. Третій розділ присвячений дослідженню освітніх сегментів веб-простору (українського (edu.ua), ізраїльського (ac.il) та польського (edu.pl), інформація про які була зібрана та оброблена за допомогою самостійно розробленої інформаційної технології. Застосування даної розробки дозволило отримати статистичні характеристики та кластерну структуру вказаних вище сегментів веб-простору та здійснити порівняльний аналіз. У четвертому розділі розглянуто питання кластеризації в графі на основі матриці суміжності. Основним об’єктом дослідження є стохастична матриця, що задає ймовірності переходу на графі та визначається із матриці суміжності. У розділі проаналізовано спектральні властивості стохастичної матриці із врахуванням кластерної структури графу. Основні теоретичні результати розділу наступні: доведено факт збіжності власних значень матриці P за умов, накладених на елементи матриці суміжності A (теорема 4.3.1); встановлений факт про асимптотичну еквівалентність спектрів матриць та дозволяє використовувати стохастичну матрицю із незалежними елементами замість відповідної стохастичної матриці P, елементи якої не є незалежними (лема 4.4.1); розглянуто частинний підхід до оцінки розподілу елементів матриці P за умови показникового розподілу елементів матриці A (лемах 4.5.1 та 4.5.2). Розроблено новий алгоритм перевірки належності елементів (вершин графу) до одного кластеру; побудовано критерій оцінки оптимальної кількості кластерів k_opt. На основі методу Монте-Карло проведено порівняння розробленого методу оцінки кількості кластерів із деякими класичними алгоритмами, в результаті чого встановлено ряд його переваг та недоліків. У висновках підсумовано основні результати дисертаційного дослідження. У додатках подано наукові публікації, відомості про апробацію результатів дисертації. Теоретичне значення. Результати теоретичних досліджень, а саме розвитку теорії графових досліджень, сформульовані та доведені леми і теореми, можуть використовуватися для подальших досліджень у цій галузі, а також у навчальних курсах кафедр математичних проблем управління і кібернетики та програмного забезпечення комп’ютерних систем Чернівецького національного університету імені Юрія Федьковича (та інших ЗВО), пов'язаних з інтелектуальним аналізом даних, методичних розробках, навчальних посібниках для освітнього процесу та науково-дослідної роботи студентів, аспірантів. Практичне значення. Розроблені у дисертаційній роботі кроулер, інформаційна технологія та метод визначення оптимальної кількості кластерів можуть в подальшому використовуватися для практичного дослідження складних мереж. Запропоновані підходи, результати використовуються компаніями «Квант Азимут» та «Qlicks B.V.». Ключові слова: модель (математична, економічна), моделювання, динаміка, інтелектуальний аналіз даних, кластеризація, k-means, інформаційна система, інформаційна технологія, інтелектуальна система, програмне забезпечення, тестування програмного забезпечення, рівні тестування програмного забезпечення, специфікація вимог до програмного забезпечення, функціональні та нефункціональні вимоги до програмного забезпечення, статистичні методи.

Читати повністю

Керівник роботи

Остапов Сергій Едуардович

Офіційні опоненти

Криворучко Олена Володимирівна
Говорущенко Тетяна Олександрівна

Рецензенти

Ушенко Юрій Олександрович
Угрин Дмитро Ілліч

Публікації

1. Kyrychenko О., Ostapov S., Kanovsky I. Investigation of the certain internet domain statistical characteristics / Статистичні характеристики деяких зон інтернету та їх дослідження. Eastern-European Journal of Enterprise Technologies. 2013. Vol. 6, no. 12(66). Р. 91–96.

2. Кириченко О.Л., Малик І.В., Остапов С.Е. Стохастичні моделі в задачах штучного інтелекту. Вісник Київського національного університету імені Тараса Шевченка. Серія фізико-математичні науки. 2021. № 2. С. 53–57.

3. Kyrychenko O. Information technology for statistical cluster analysis of information in complex networks. Computer Systems and Information Technologies. 2022. No 4. Р. 47–51.

4. Кириченко О. Особливості архітектури програмного забезпечення для збору та аналізу статистичної інформації в глобальній мережі. Information Technology: Computer Science, Software Engineering and Cyber Security. 2023. № 2. С. 107–112.

Читати повністю

Файли

autoreferat-Aнотація__публ_Кириченко.pdf

Дисертація_Кириченко.pdf

Схожі дисертації

0824U000944

Ількун Олександр Петрович

Система підтримки прийняття рішень в нечітких умовах.

0824U000734

Яворський Андрій Богданович

Методи та алгоритми аналізу біосигналів людини на основі машинного навчання

0824U000654

Бєда Ігор Володимирович

Методи та алгоритми аналізу відеопотоку для ідентифікації зміни сцен

0824U000593

Сюй Цзяшу --

Дослідження та розробка самонавчання візуальним особливостям на основі нейронних мереж

0824U000491

Головченко Максим Миколайович

Методи та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта