Лупей М. І. Інформаційна технологія аналізу й визначення авторської та стильової належності українськомовних текстів

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0421U101633

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

26-04-2021

Спеціалізована вчена рада

Д 35.101.01

Українська академія друкарства

Анотація

У дисертаційній роботі запропоновано вирішення науково-прикладної задачі створення інформаційної технології для аналізу й визначення авторської та стильової належності українськомовних текстів. Для цього було проведено кілько етапів роботи із даними. Проведено аналіз особливостей українськомовних текстів різних стилів та розглянуто особливості української граматики стосовно формування кінцівок слів, що необхідно для проведення етапу попереднього опрацювання українськомовних текстів. В роботі використовується метод стемінгу, який спеціальним чином адаптований під українську мову. На наступному етапі проаналізовано існуючі методи векторизації українськомовного тексту, серед яких виділено метод, що базується на хеш-функціях, метод векторизації за основі зворотної частоти документів та метод векторизації, що базується на частоті документів. Проведено класифікацію різних методів векторизації українськомовного тексту в поєднанні з різними типами машинного навчання та виявлено найкраще їх співвідношення для кожного типу досліджуваних завдань. Здійснено вибір методів машинного навчання для аналізу й визначення авторської та стильової належності українськомовних текстів, до яких можна віднести різні комбінації архітектур штучних нейронних мереж (MLP, SVR та SVC штучні нейронні мережі). На базі проведеної класифікації методів та підходів векторизації та класифікації, розроблено інформаційну технологію для аналізу й визначення авторської та стильової належності українськомовних текстів. В результаті визначено переваги методів машинного навчання та їхнє використання для створення інформаційних технологій. Проведено вибір методів векторизації текстів, їхню апробацію в рамках інформаційної технології для аналізу українськомовних текстів в комбінації із різними типами машинного навчання, під час якої визначено, що найкращі результати отримано саме при використанні векторизації з використанням зворотної частоти документу та методу векторизації, що базується на використанні хеш-функцій. Було удосконалено метод класифікації текстової інформації на базі багатошарового персептрону за рахунок використання спеціалізованих процедур навчання та регуляризаційних процедур, що надає можливість зменшити час прийняття рішення без втрати точності.

Файли

Схожі дисертації