Шаптала Р. В. Класифікація документів на основі векторних представлень словників при обробці природної мови у малоресурсному середовищі

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0823U100710

Здобувач

Спеціальність

  • 122 - Комп’ютерні науки

11-09-2023

Спеціалізована вчена рада

ДФ 26.002.31; ID 2014

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Анотація

Метою дисертаційного дослідження є розробка та вдосконалення методів класифікації документів, написаних природною мовою, у малоресурсному середовищі за допомогою побудови векторних графових представлень словників природної мови. Зважаючи на те, що 63% контенту Інтернету написано англійською мовою, і більшість мов представлена менш ніж 1% веб-сторінок, величезна кількість мов є малоресурсними та, відповідно, менш дослідженими з точки зору підходів до обробки природних мов. Це призводить до того, що інформаційні системи, які вимушені працювати на основі малопредставлених мов, часто потерпають від низької якості, порівняно з їх англомовними аналогами. Тому, покращення вже існуючих та розробка нових методів обробки природної мови у малоресурсному середовищі є актуальною задачею. Результати проведених досліджень показали, що векторні представлення словників на основі методів кодування вершин графів можна поєднувати з типовими векторними представленнями документів для покращення якості класифікації документів за допомогою підходів машинного навчання. Кожен крок запропонованого методу має набір параметрів та гіперпараметрів, від яких залежить результат та ефективність фінального рішення. Тому додатково наведено аналіз даних опцій, а також порівняння різних підходів до побудови представлень вершин графів у контексті словників. Для досягнення найкращих результатів пропонується використання методу на основі випадкових блукань - Node2Vec, який перетворює елементи словника у вектори за прийнятний час, не вимагає багато ресурсів та отримує вищі оцінки при подальшій класифікації документів. Для наступного кроку, а саме злиття векторних представлень документів та словникової інформації оптимальним виявився метод зваженої суми. Додатково наводяться практичні рекомендації по роботі з подібними даними, а саме особливості отримання, збереження та передобробки документів, побудови словників для кожного з методів класифікації документів, збереження та обробки словника синонімів, а також аналіз статистичної значущості результатів. Наукова новизна одержаних результатів полягає у наступному: Вперше запропоновано метод класифікації документів на основі векторних представлень словників при обробці природної мови у малоресурсному середовищі, який відрізняється від методів доповнення даних, що базуються на словниках, тим що у ньому поєднуються векторні представлення документів з векторними представленнями елементів лінгвістичних словників, що дозволяє збільшити F1-міру якості класифікації документів у малоресурсному середовищі; Запропоновано векторну модель слів зі словника синонімів, яка на відміну від інших будується на основі векторних представлень вузлів графу словника, що надає можливість її повторного використання в різних задачах обробки природної мови через трансферне навчання; Модифіковано методи конкатенації та зваженої суми при злитті векторних представлень слів додаванням етапу пошуку відповідності слів з документу словам з словника синонімів, що дозволяє покрити відсутні у словнику словоформи без побудови моделей визначення частини мови та пошуку словоформ, що суттєво ускладнено у малоресурсних середовищах. Практичне значення одержаних результатів полягає у тому, що: Розроблений метод дозволяє значно підвищити F1-міру якості систем класифікації документів у малоресурсних середовищах. Таким чином розробники даних систем можуть зменшити час та витрати на розробку, адже вища якість системи досягатиметься з меншою кількістю розмітки, розширення якої може бути не доступним, або вимагати додаткових часових чи фінансових інвестицій; Розроблено векторні представлення слів у словнику синонімів української мови, які можна перевикористовувати за допомогою трансферного навчання при створенні програмних систем у інших прикладних областях; Представлено набір даних для класифікації тем петицій, націлений на тестування методів обробки природної мови у малоресурсному середовищі. Документи написані українською мовою та мають вузьку урбаністичну спеціалізацію, що робить набір даних відмінним від корпусів загального призначення; Запропоновано застосування розробленого методу до класифікації петицій до Київської міської ради за темами, яка дозволяє автоматично пропонувати тему петиції при ручній розмітці, що може суттєво скоротити час на їх аналіз.

Публікації

R. Shaptala and G. Kyselov, “Enhancing document representations with synonyms graph node embeddings,” J. Theor. Appl. Inf. Technol., vol. 100, no. 1, pp. 70–80, Jan. 2022.

Р. Шаптала і Г. Кисельов, «Метод злиття багатомодальних векторних представлень слів у малоресурсному середовищі», ВОТТП, вип. 1, с. 174–179, Бер. 2023.

Р. Шаптала і Г. Кисельов, “Класифікація текстових документів з використанням доповнення векторних представлень документів графовими представленнями елементів словника синонімів,” Інформаційні технології та суспільство, вип. 3 (5), с. 49–55, Січ. 2023.

Р. Шаптала і Г. Кисельов, “Огляд методів злиття векторних представлень,” Телекомунікаційні та інформаційні технології, вип. 4 (77), с. 84–89, 2022.

R. V. Shaptala and G. D. Kyselev, “Using graph embeddings for Wikipedia link prediction,” Bull. Natl. Tech. Univ. “KhPI”. Ser. Syst. Anal. Control Inf. Technol., vol. 0, no. 1 SE-INFORMATION TECHNOLOGY, pp. 48–52, Jul. 2019.

Shaptala R.V. and Kyselov G.D., “Vector space models of Kyiv city petitions,” Sci. notes Taurida Natl. V.I. Vernadsky Univ. Ser. Tech. Sci., vol. 32, no. 1, pp. 169–177, 2021.

A. Samvelyan, R. Shaptala, and G. Kyselov, “Exploratory data analysis of Kyiv city petitions,” in 2020 IEEE 2nd International Conference on System Analysis Intelligent Computing (SAIC), 2020, pp. 1–4.

Схожі дисертації