Олійник Ю. О. Інформаційна технологія аналізу текстових потоків даних

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0420U102411

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

11-12-2020

Спеціалізована вчена рада

Д 67.052.01

Херсонський національний технічний університет

Анотація

Робота присвячена розробленню інформаційної технології аналізу текстових потоків даних. Об'єкт дослідження - процеси інтелектуального аналізу інформації у текстових потоках даних. Мета дослідження - підвищення якості аналізу та швидкості обробки потоків текстової інформації українською мовою за рахунок розроблення нових методів та інформаційної технології аналізу текстових потоків даних. Методи дослідження ґрунтуються на засадах комп’ютерної лінгвістики, теорії ймовірностей, математичній статистиці та інших методах інтелектуального аналізу даних. Достовірність та обґрунтованість отриманих результатів обумовлені коректним використанням математичного апарату, а також підтверджуються результатами обчислювальних експериментів. Здійснено аналіз наявних підходів і методів аналізу текстових даних, проведено аналіз особливостей аналізу даних у потоках даних. Формалізовано модель потоку текстових даних на основі ковзного вікна, що дозволило розширити можливості застосування методів інтелектуального аналізу та машинного навчання даних для аналізу текстових потоків даних. Уперше розроблено метод виявлення аномалій у текстових потоках даних на основі розширеного алгоритму Isolation Forest, моделі текстових потоків даних на основі ковзного вікна та доданої фази попередньої обробки текстових даних та реферування. Удосконалено метод визначення тональності тексту в потоках текстової інформації, що передбачає комбінації алгоритмів Gradient Boosting, Rule Based та застосування моделі потоку текстових даних на основі ковзного вікна. Уперше запропоновано інформаційну технологію аналізу текстових потоків даних, яка використовує розроблені методи: метод виявлення аномалій та метод визначення тональності, що на відміну від наявних технологій забезпечує інтелектуальну обробку українськомовних текстів, підтримує розроблену модель ковзного вікна, а також високопродуктивні обчислення та візуалізацію обробки потоків даних у режимі онлайн. Галузь використання – в освітньому процесі у закладах освіти та науки, в установах та на підприємствах України.

Файли

Схожі дисертації