Міщенко Л. Д. МЕТОД РОЗПІЗНАВАННЯ ФЕЙКОВИХ НОВИН У МЕРЕЖІ ІНТЕРНЕТ НА ОСНОВІ ОБРОБКИ ПРИРОДНОЇ МОВИ

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0824U002552

Здобувач

Спеціальність

  • 123 - Комп’ютерна інженерія

Спеціалізована вчена рада

ДФ 26.002.184; ID 6516

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Анотація

У дисертаційній роботі вирішено актуальну науково-прикладну проблему оперативного розпізнавання та маркування фейкових повідомлень-новин за обмеженою апріорною інформацією для рішення задачі оперативного розпізнавання фейків та нейтралізації їх негативного впливу шляхом маркування в умовах значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення. Проведено аналіз заходів інформаційно-психологічного впливу (ІПсВ). Визначено, що об’єктами ІПсВ можуть бути громадяни; цілями ІПсВ – зміна думок, настроїв, дій. Проаналізовано множини способів реалізації ІПсВ та визначено, що найпоширенішими є розповсюдження оманливої інформації через фейкові новини. Досліджено, що засобами реалізації фейків є короткі інформаційні повідомлення, що розповсюджуються електронними медіа через сайти новин, соціальні мережі. Домінанта форми фейків належить повідомленням природньою мовою у форматі новин. Проаналізовано, що більшість традиційних підходів базується на комплексному застосування головних груп індикаторів, що дає лише апостеріорний результат на рівні спростування та не відповідає принципам оперативності – реальності масштабу часу. Визначено, що головним показником якості протидії фейкам є оперативність розпізнавання та маркування. Проведено аналіз вимог до оперативності розпізнавання фейків в умовах їх значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення та обрано спосіб виявлення фейків як аналіз контенту повідомлення. Визначено конкретику процесів для оперативного та комплексного вирішення задач розпізнавання та маркування фейкових новин. Проаналізовано використання частотного аналізу токенів тексту коротких інформаційних повідомлень та формування словнику фейків на динамічно-оновлювальній множині повідомлень. Зроблено аналіз статистичного критерія Байєса, адаптованого до лінгвістичної стилістики повідомлень прийняття рішення про фейк та його маркування та доцільність застосування методів машинного навчання без вчителя. Проведено аналіз результатів використання методу оперативного розпізнавання фейкових новин за обмеженою апріорною інформацією, який базується на комплексному синергетичному поєднанні процесів обробки природної мови: частотного аналізу токенів тексту коротких інформаційних повідомлень; удосконаленому спосіб контент-аналізу фейкових новин; бінарної класифікації повідомлень за удосконаленим Naive Bayes класифікатором та функції ранжування BM25. Метод вирізняється реалізацією процесу навчання на динамічно поновлюваній множині коротких інформаційних повідомлень з достовірних джерел. Це забезпечує оперативне розпізнавання фейків із точністю у діапазоні від 85% до 93% для їх бінарного маркування за змістом окремого повідомлення. У порівнянні з відомою стратегією NLP, яка базується на використанні статистичної міри TF-IDF без інтеграції Naive Bayes класифікатора, відсоток точності класифікації тексту становить від 80% до 90%. Отже, запропонований метод дозволив підвищити ефективність розпізнавання фейкових новин в середньому на 2,5%. Удосконалено спосіб бінарної класифікації та маркування фейкових новин, якій базується на використанні Naive Bayes класифікатора та функції ранжування BM25 та відрізняється адаптивним вибором параметрів функції ранжування за експериментальними даними, отриманими як результат частотного аналізу новин з достовірних джерел. Це дозволяє підвищити точність класифікації текстових даних на 14% на динамічно оновлюваній множині коротких інформаційних повідомлень без втрати швидкодії у порівнянні з відомими реалізаціями етапу класифікації фейкових новин в мережі Інтернет. Удосконалено спосіб контент-аналізу фейкових новин, що базується на використання схеми навчання без вчителя. Спосіб вирізняється використанням динамічно змінюваного за переліком джерел і змістом контенту DataSet масиву з достовірних джерел, за яким формується словник для розпізнавання фейків. Це забезпечує оперативне формування ознак фейків з урахуванням динаміки змін їх стилю та сфери. Результати проведених експериментів показали потенціал із високою стійкістю формувати бінарну оцінку із маркування фейків для споживачів з критичними умовами доступності. Також можливість оперативного розпізнавання і бінарного маркування фейків на пристроях із низькою продуктивністю, енергоспоживанням та із тимчасовою відсутністю доступу до глобальних інформаційних мереж. Розроблене комплексне серверне програмне забезпечення дозволить реалізувати моделі NLP для застосування запропонованого методу. Результат роботи комплексу – оперативне маркування фейкових повідомлень користувачам мобільних пристроїв. ПЗ можна інтегрувати в інформаційно-аналітичні ресурси та використати для реалізації хмарних сервісів розпізнавання фейкових новин у мережі Інтернет. Отже, актуальність тематики дисертаційного дослідження полягає у вирішенні задачі оперативного розпізнавання фейкових повідомлень – нових в умовах їх значної кількості, щільності потоку та обмеженості за змістом окремого повідомлення.

Публікації

Mishchenko L., Klymenko, I. (2023). Recognizing fake news based on natural language processing using the BM25 algorithm with fine-tuned parameters. Eastern-European Journal of Enterprise Technologies, 6 (2 (126)), c. 33–40. DOI: https://doi.org/10.15587/1729-4061.2023.293513.

L.D. Mishchenko, I. A. Klymenko, A method of accelerated fake news recognition based on natural language processing and removal of vowels in words. Збірник наукових праць «Проблеми інформатизації та управління» 1(73)/2023, 2023-04-28. с. 39-44. ISSN 2073-4751. DOI: https://doi.org/10.18372/2073-4751.73.17643.

L. Mishchenko, I. Klymenko, METHOD FOR DETECTING FAKE NEWS THROUGH WRITING STYLE. Технічні науки та технології, 4 (34). Чернігів, Україна. DOI: https://doi.org/10.25140/2411-5363-2023-4(34).

Л. Міщенко, І. Клименко. РОЗПІЗНАВАННЯ ФЕЙКОВИХ НОВИН ІЗ ВИКОРИСТАННЯМ ОБРОБКИ ПРИРОДНОЇ МОВИ Й АРХІТЕКТУРИ З НИЗЬКИМ ЕНЕРГОСПОЖИВАННЯМ ДЛЯ ПЕРИФЕРІЙНИХ ОБЧИСЛЕНЬ. Збірник наукових праць «Проблеми інформатизації та управління» 4(76)/2023. c. 49-57. DOI: https://doi.org/10.18372/2073- 4751.76.18241

L. Mishchenko, I. Klymenko, METHOD FOR DETECTING FAKE NEWS BASED ON NATURAL LANGUAGE PROCESSING. The VI International Scientific and Practical Conference «Modern ways of solving the problems of science in the world», February 13 – 15, 2023. Warsaw, Poland. p. 375- 378.

Людмила Міщенко. СПОСІБ РОЗПІЗНАВАННЯ ФЕЙКОВИХ НОВИН. Science, society, education: topical issues and development prospects: V International Scientific and Practical Conference Kharkiv, Ukraine. 12- 14 April 2020

L. Mishchenko, I. Klymenko, V. Tkachenko. The fake news recognition method based on Naïve Bayes with improved TF-IDF algorithm. Mathematical Modeling and Simulation of Systems (MODS'2023). Chernihiv, Ukraine, November 13-15, 2023.

Схожі дисертації