Діхтяренко О. В. Інформаційна технологія визначення нечітких збігів в контенті електронних документів

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0415U003874

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

30-06-2015

Спеціалізована вчена рада

Д 26.056.01

Київський національний університет будівництва і архітектури

Анотація

Дисертація присвячена проблемі плагіату наукових та інших робіт, яка завдяки росту комп'ютерної грамотності населення та проникненню Інтернету у всі сфери життя набуває все більшого масштабу. В рамках дисертаційного дослідження розроблені моделі та методи, які дозволяють визначати нечіткі збіги в тексті, зображеннях та таблицях документу, навіть при значних структурних змінах контенту. Запропоновано концептуальну модель технології визначення нечітких збігів, модель індексу документу та модель нечіткого збігу. Для підготовки тексту запропоновано використовувати засоби виправлення помилок в словах, відкидання стоп-слів і стоп-фраз, методи канонізації, десинонімізації та методи заміни антонімів. Розроблено метод створення індексу документу з використанням локально-чутливого хешування, та метод фільтрації помилкових збігів. Для графічних зображень запропоновано методи фрагментації та визначення базового кута повороту зображення. Для таблиць запропоновано методи визначення шапки таблиці та індексації по стовпцях і рядках. Удосконалено метод кластеризації документів з використанням частоти вживання слова в документі як ознаки кластеризації. Запропоновано варіанти створення моделей розширеного індексу документу, використання яких дозволить пришвидшити виконання процесу пошуку. Розроблена архітектура системи визначення нечітких збігів як програмного комплексу та запропоновано варіанти реалізації компонентів системи. Реалізована система у вигляді програмного забезпечення дозволяє виявляти запозичення у будь-яких типах документів. Система може бути впроваджена у ВНЗ, що дозволить підвищити рівень підготовки фахівців. У наукових періодичних виданнях система дозволить запобігти випадкам шахрайства і привласнення чужих робіт.

Файли

Схожі дисертації