Тодоріко О. О. Моделі та методи очищення та інтеграції текстових даних в інформаційних системах

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0416U003873

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

30-06-2016

Спеціалізована вчена рада

Д 64.050.07

Національний технічний університет "Харківський політехнічний інститут"

Анотація

Об’єкт дослідження – процеси очищення та інтеграції текстових даних в інформаційно-довідкових та пошукових системах. Мета дослідження - удосконалення технології очищення та інтеграції текстових даних в довідкових і пошукових інформаційних системах за рахунок використання моделі словозмінної парадигми та методу побудови лексемного індексу при організації пошуку за схожістю. Методи дослідження: методи математичного моделювання, методи об’єктно-орієнтованого аналізу та синтезу програмного забезпечення з використанням уніфікованої мови системного моделювання UML, методи створення лінійних та нейронних класифікаторів, методи теорії ймовірності та статистичного аналізу експериментальних даних. Теоретичні і практичні результати: створення програмного забезпечення у вигляді бібліотеки класів на мові Java для організації словникового пошуку за схожістю та інтеграції наборів даних. Наукова новизна одержаних результатів: вперше: - розроблено моделі словозмінної парадигми, які відрізняються способом представлення слів та обчислення приблизної міри схожості між представленнями, способом врахування форм слів та позицій символів у словах, що дозволило створити підґрунтя для побудови лексемного індексу, реалізації методу пошуку за схожістю, очищення та інтеграції наборів даних; - запропоновано метод побудови лексемного індексу, який відрізняється від існуючих зменшенням кількості записів за рахунок відображення всіх словоформ слова в один запис індексу, що дозволяє при попередній фільтрації скоротити кількість обчислень міри схожості між зразком та всіма формами слів; удосконалено метод пошуку за схожістю текстової інформації в довідкових та пошукових системах за рахунок використання моделей словозмінної парадигми та лексемного індексу, що дозволяє збільшити точність та повноту попередньої фільтрації; дістала подальшого розвитку інформаційна технологія очищення та інтеграції наборів даних, яка за рахунок вдосконалення методу пошуку за схожістю дозволяє спростити операцію обчислення міри схожості. Ступінь упровадження: результати дисертаційної роботи застосовано у процесі документообігу приймальної комісії для очищення даних в «Системі реєстрації абітурієнтів» Державного вищого навчального закладу «ЗНУ» та для зіставлення записів даної системи та системи електронної подачі заявок для вступу в вищі «Електронний вступ» МОН України, а також використані у навчальному процесі на кафедрі інформаційних технологій Державного вищого навчального закладу «ЗНУ». Галузь використання - очищення та інтеграція інформаційних систем.

Файли

Схожі дисертації