Прищепа С. В. Інформаційна технологія екстрагування нових подій на основі лінгвомережевого аналізу у глобальних мережах

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0418U003920

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

29-11-2018

Спеціалізована вчена рада

Д 26.861.05

Державний університет телекомунікацій

Анотація

У дисертаційній роботі вирішується актуальне наукове завдання розробки інформаційної технології екстрагування нових подій на основі лінгвомережевого аналізу інформаційних потоків соціальних мереж, яка здатна працювати з великими масивами слабоструктурованих текстових даних та великою кількістю шуму, що є притаманним сучасним соціальним мережам, з метою підвищення ефективності автоматичного екстрагування подій з інформаційних потоків соціальних мереж в умовах великих обсягів інформації та значного інформаційного шуму. Проведено аналіз сучасного стану інформаційних технологій екстрагування подій і виявлення їх новизни та існуючих наукових методів для виконання даної задачі. Встановлено, що вимоги до екстраговуванної інформації та недоліки наявних підходів до екстрагування інформації не задовольняють сучасні потреби, таким чином, виникає протиріччя між потребою державних та бізнес структур своєчасно виявляти нові події з динамічно зростаючих обсягів інформації у глобальних мережах та обмеженістю науково-методичного апарату для ефективного їх виявлення. Одним із шляхів вирішення цієї суперечності є розробка ефективної технології екстрагування нових подій з певних інформаційних потоків. Для цього в роботі розроблено метод виявлення нових подій із текстів повідомлень соціальних мереж. Сутність методу полягає в тому, що з розподілених масивів документів певних категорій в яких наявні ключові слова зі словника тригерів події приймається рішення про приналежність документу до події чи не події, використовуючи наївний Байєсів класифікатор, а використання технік text mining для задачі виявлення понять та сутностей, дає змогу проводити автоматичний аналіз документу та порівняння з наявними в базі даних подіями за рахунок порівняння компонентів події, які представлені векторами події (тригери події, заголовки, ключеві слова, рейтинг джерела) за косинусною мірою та мірою входження для інших компонент (сутності, локації). Призначення методу – виявляти нові події з текстових повідомлень в слабоструктурованих інформаційних потоках, шляхом інтелектуальної обробки текстів. Для автоматичного наповнення словника тригерів події, що використовується в розробленому методі виявлення подій, розроблено новий метод виявлення дескрипторів у текстових масивах. Призначення методу полягає в виявленні та використанні дескрипторів для формування запитів і пошуку за ними релевантних документів по конкретній новинній темі та використання їх в якості можливих тригерів для подієвої класифікації. Для вдосконалення ефективності моніторингу та виявлення документів про подію від першоджерел розроблено метод рейтингування джерел, що здійснює комплексне рейтингування джерел на основі оцінки подієвості та зв’язків адаптованих під спеціальні теги соціальної мережі для визначення авторитетності авторів певних повідомлень та активних посередників розповсюдження інформації, а для виявлення найбільш ймовірного першоджерела події використовується граф горизонтальної видимості. При цьому, методи дослідження базуються на використанні теорії математичного аналізу, теорії ймовірностей і математичної статистики, теорії графів, теорії складних мереж, обробки природних мов, машинного навчання та комп’ютерної лінгвістики. Розроблено інструментально-програмні засоби, що реалізують розроблену технологію в системах контент-моніторингу InfoStream та X-SKIF, що підтверджують акти впровадження. Проведено оцінку ефективності технології на базі тестової вибірки документів українською та російською мовою з соціальної мережі Twitter по темі Автокатастрофи (ДТП) у розмірі 1000 документів, яка показала на 3-5% кращі результати по сбалансованій F-мірі у порівнянні з іншими підходами екстрагування нових подій з інформаційних потоків глобальних мереж.

Файли

Схожі дисертації