Висоцька В. А. Аналіз та синтез комп’ютерних лінгвістичних систем опрацювання україномовного текстового контенту

English version

Дисертація на здобуття ступеня доктора наук

Державний реєстраційний номер

0523U100152

Здобувач

Спеціальність

  • 10.02.21 - Структурна, прикладна та математична лінгвістика

14-09-2023

Спеціалізована вчена рада

Д 35.052.05

Національний університет "Львівська політехніка"

Анотація

У дисертації вирішено важливу науково-прикладну проблему аналізу та синтезу комп’ютерних лінгвістичних систем (КЛС) для розв’язання різних задач опрацювання україномовного текстового контенту на основі розроблення нових та удосконаленні відомих моделей, методів та засобів опрацювання природної мови (ОПМ). Аналіз та синтез КЛС базується на застосуванні лінгвістичного аналізу україномовного текстового контенту, інтелектуальному опрацювання текстового потоку контенту, машинному навчанні системи на достовірних даних та статистичному аналізі для знаходження закономірностей появи лінгвістичних подій. Розроблена інформаційна технологія (ІТ) опрацювання україномовного текстового контенту на відміну від існуючих підтримує принцип модульності типової архітектури КЛС для розв’язку конкретної задачі ОПМ та аналізу множини параметрів та метрик ефективності функціонування системи відповідно до поведінки цільової аудиторії. Розроблено загальну структуру КЛС для опрацювання текстового контенту українською мовою та концептуальну схему/модель функціонування типової КЛС на основі моделювання взаємодії основних процесів і компонентів системи, що дало змогу вдосконалити ІТ інтелектуального аналізу текстового потоку на основі опрацювання інформаційних ресурсів. Наведено приклади розроблених КЛС опрацювання україномовного текстового контенту для розв’язку відповідних задач ОПМ, функціонування яких ґрунтується на розроблених та вдосконалених моделях, методах та алгоритмах. Удосконалена модель лінгвістичного опрацювання текстового контенту на основі графемного, морфологічного, лексичного, синтаксичного, семантичного, структурного, онтологічного та прагматичного аналізу для вирішення конкретної проблеми ОПМ. Це дало змогу сформулювати загальні вимоги до процесів опрацювання україномовного контенту. Удосконалення методів опрацювання інформаційних ресурсів, таких як інтеграція, управління та супровід україномовного контенту, дозволило адаптувати процес інтелектуального аналізу текстового потоку до розв’язку різних задач ОПМ та розробити КЛС, що ефективно функціонують, метрики для розв’язку різних задач ОПМ. Удосконалені методи ОПМ на основі регулярних виразів узгодження за шаблоном дозволили адаптувати алгоритми графемного та морфологічного аналізу для опрацювання україномовних текстів. Удосконалено метод токенізації та нормалізації тексту каскадами простих підстановок регулярних виразів і кінцевих автоматів, що дало змогу адаптувати алгоритм лексичного та синтаксичного аналізів для опрацювання україномовних текстів. Удосконалено метод морфологічного аналізу, заснований на сегментації та нормалізації слів, сегментації речень і модифікованому алгоритмі стемінгу Портера як ефективного засобу ідентифікації афіксів лем для можливості розмічування аналізованого слова, що дозволило підвищити точність пошуку ключових слів на 9%. Розроблено метод ідентифікації ключових слів в україномовних текстах на основі графемного та морфологічного аналізу основ слів через регулярні вирази та N-грами, що дало змогу підвищити точність пошуку ключових слів на 6-9%, здійснити пошук стійких словосполучень та рубрикацію контенту. Розроблено метод визначення стійких словосполучень на основі ідентифікації ключових слів україномовного тексту та аналізу коефіцієнтів лексичного мовлення автора тексту в еталонних уривках контенту, що дало можливість на основі статистичної лінгвістики покращити точність методу визначення стилю автора тексту на 6-7%. Розроблено метод визначення стилю автора тематичного україномовного текстового контенту на основі аналізу ключових слів, стійких словосполучень, N-грам, лінгвометрії та стилеметрії, що дало змогу визначити стилістичний вклад кожного з авторів та підвищити точність атрибуції науково-технічної публікації на 6-12%. Розроблено метод обчислення ступеня верифікації автора україномовного тексту із множини можливих на основі порівняльного аналізу стилів потенційних авторів, що дало змогу підвищити точність класифікації за подібністю стилю до [9;34]% із загальної кількості учасників проекту. Розроблено методи аналізу та синтезу КЛС на основі створення загальної типової структури системи опрацювання текстового контенту українською мовою через підтримку модульності, моделювання взаємодії основних процесів і компонентів, що дало можливість розширити колекцію розв’язків різних типових задач ОПМ шляхом реалізації типового програмного забезпечення таких систем. КЛС реалізовано на інформаційному ресурсі http://victana.lviv.ua засобами CMS Joomla! (для розроблення е-каркасу сайту), PHP (для реалізації методів опрацювання текстового контенту), HTML (для реалізації розмітки сторінок), CSS (для опису стилів сторінок), MySQL (для зберігання даних та словників).

Публікації

1. Lytvyn V., Pukach P., Vysotska V., Vovk M., Kholodna N. Identification and correction of grammatical errors in Ukrainian texts based on machine learning technology. Mathematics. 2023. Vol. 11. 904.

2. Bisikalo O., Danylchuk O., Kovtun V., Kovtun O., Nikitenko O., Vysotska V. Modeling of operation of information system for critical use in the conditions of influence of a complex certain negative factor. International Journal of Control, Automation and Systems. 2022. Vol. 20. Р. 904–1913.

3. Bublyk M., Kowalska-Styczeń A., Lytvyn V., Vysotska V. The Ukrainian economy transformation into the circular based on fuzzy-logic cluster analysis. Energies. 2021. Vol. 14(18). Art. 5951.

3. Bublyk M., Kowalska-Styczeń A., Lytvyn V., Vysotska V. The Ukrainian economy transformation into the circular based on fuzzy-logic cluster analysis. Energies. 2021. Vol. 14(18). Art. 5951.

4. Lytvyn V., Vysotska V., Peleshchak I., Rishnyak I., Peleshchak R. Time dependence of the output signal morphology for nonlinear oscillator neuron based on Van der Pol model. International Journal of Intelligent Systems and Applications. 2018.Vol. 10(4). Р. 8–17.

5. Висоцька В. Метод авторифікації тексту науково-технічних публікацій на основі лінгвістичного аналізу коефіцієнтів мовної різноманітності. Радіоелектроніка. Інформатика. Управління. 2020. № 1(52). С. 108–124.

5. Висоцька В. Метод авторифікації тексту науково-технічних публікацій на основі лінгвістичного аналізу коефіцієнтів мовної різноманітності. Радіоелектроніка. Інформатика. Управління. 2020. № 1(52). С. 108–124.

6. Висоцька В. Інформаційна технологія просування інтернет-ресурсів в пошукових системах на основі контент-аналізу ключових слів web-сторінок. Радіоелектроніка, інформатика, управління. 2021 № 3 (58). C. 133-151.

7. Алєксєєва К. А., Берко А. Ю., Висоцька В. А. Технологія управління комерційним web-ресурсом на основі нечіткої логіки. Радіоелектроніка. Інформатика. Управління. 2015. № 3 (34). С. 71–79.

8. Бісікало О. В., Висоцька В. А. Виявлення ключових слів на основі методу контент-моніторингу україномовних текстів. Радіоелектроніка. Інформатика. Управління. 2016. № 1 (36). С. 74–83.

8. Бісікало О. В., Висоцька В. А. Виявлення ключових слів на основі методу контент-моніторингу україномовних текстів. Радіоелектроніка. Інформатика. Управління. 2016. № 1 (36). С. 74–83.

9. Бісікало О. В., Висоцька В. А. Застосування методу синтаксичного аналізу речень для визначення ключових слів україномовного тексту. Радіоелектроніка. Інформатика. Управління. 2016. № 3 (38). С. 54–65.

10. Lytvyn V., Pukach P., Bobyk І., Vysotska V. The method of formation of the status of personality understanding based on the content analysis. Eastern-European Journal of Enterprise Technologies. 2016. Vol. 5. P. 4–12.

11. Литвин В. В., Бобик І. О., Висоцька В. А. Застосування системи алгоритмічних алгебр для граматичного аналізу символьних обчислень виразів логіки висловлювань. Радіоелектроніка. Інформатика. Управління. 2016. № 4 (39). С. 77–89.

12. Lytvyn V., Vysotska V., Pukach P., Bobyk І., Pakholok B. A method for constructing recruitment rules based on the analysis of a specialist’s competences. Eastern-European Journal of Enterprise Technologies. 2016. Vol. 6/2 (84). P. 4–14.

13. Lytvyn V., Vysotska V., Pukach P., Brodyak O., Ugryn D. Development of a method for determining the keywords in the Slavic language texts based on the technology of web mining. Eastern-European Journal of Enterprise Technologies. 2017. Vol. 2/2 (86). Р. 14–23.

13. Lytvyn V., Vysotska V., Pukach P., Brodyak O., Ugryn D. Development of a method for determining the keywords in the Slavic language texts based on the technology of web mining. Eastern-European Journal of Enterprise Technologies. 2017. Vol. 2/2 (86). Р. 14–23.

14. Lytvyn V., Vysotska V., Pukach P., Vovk M., Ugryn D. Method of functioning of intelligent agents, designed to solve action planning problems based on ontological approach. Eastern-European Journal of Enterprise Technologies. 2017. Vol. 3/2 (87). Р. 11–17.

15. Lytvyn V., Vysotska V., Pukach P., Bobyk І., Uhryn D. Development of a method for the recognition of author’s style in the Ukrainian language texts based on linguometry, stylemetry. Eastern-European Journal of Enterprise Technologies. 2017. Vol. 4/2 (88). P. 10–18.

15. Lytvyn V., Vysotska V., Pukach P., Bobyk І., Uhryn D. Development of a method for the recognition of author’s style in the Ukrainian language texts based on linguometry, stylemetry. Eastern-European Journal of Enterprise Technologies. 2017. Vol. 4/2 (88). P. 10–18.

16. Коробчинський М. В., Чирун Л. Б., Висоцька В. А., Нич М. О. Особливості прогнозування результатів матчів у кіберспорті. Радіоелектроніка. Інформатика. Управління. 2017. № 3 (42). С. 95–105.

17. Коробчинський М. В., Чирун Л. Б., Висоцька В. А., Кондратьєв Є. О. Особливості формування та аналізу контенту інтернет-газети музичних новин. Радіоелектроніка. Інформатика. Управління. 2017. № 4. С. 139–150.

17. Коробчинський М. В., Чирун Л. Б., Висоцька В. А., Кондратьєв Є. О. Особливості формування та аналізу контенту інтернет-газети музичних новин. Радіоелектроніка. Інформатика. Управління. 2017. № 4. С. 139–150.

18. Lytvyn V., Vysotska V., Uhryn D., Hrendus M., Naum O. Analysis of statistical methods for stable combinations determination of keywords identification. Eastern-European Journal of Enterprise Technologies. 2018. Vol. 2/2 (92). P. 23–37.

19. Lytvyn V., Vysotska V., Maria H. Method of data expression from the Ukrainian content based on the ontological approach. Радіоелектроніка. Інформатика. Управління. 2018. № 3 (46). P. 144–157.

20. Lytvyn V., Vysotska V., Pukach P., Nytrebych Z., Demkiv I., Kovalchuk R., Huzyk N. Development of the linguometric method for automatic identification of the author of text content based on statistical analysis of language diversity coefficients. Eastern-European Journal of Enterprise Technologies. 2018. Vol. 5/2 (95). P. 16–28.

21. Pelekh I., Lytvyn V., Vysotska V., Kuchkovskiy V., Bobyk I., Malanchuk O., Ryshkovets Y., Brodyak O., Bobrivetc V., Panasyuk V. Development of the system to integrate and generate content considering the cryptocurrent needs of users. Eastern-European Journal of Enterprise Technologies. 2019. Vol. 1/2(97). P. 18–39.

22. Lytvyn V., Vysotska V., Pukach P., Nytrebych Z., Demkiv I., Senyk A., Malanchuk O., Sachenko S., Kovalchuk R., Huzyk N. Analysis of the developed quantitative method for automatic attribution of scientific and technical text content written in Ukrainian. Eastern-European Journal of Enterprise Technologies. 2018. Vol. 6/2 (96). P. 19–31.

23. Berko A., Vysotska V., Lytvyn V., Naum O. Planning the activities of intellectual agents in the electronic commerce systems. Радіоелектроніка. Інформатика. Управління. 2018. № 4. С. 143–158.

24. Lytvyn V., Vysotska V., Demchuk A., Demkiv I., Ukhans’ka O., Hladun V., Kovalchuk R., Petruchenko O., Dzyubyk L., Sokulska N. Design of the architecture of an intelligent system for distributing commercial content in the internet space based on SEO-technologies, neural networks, and machine learning. Eastern-European Journal of Enterprise Technologies. 2019. Vol. 2/2(98). P. 15–34.

25. Lytvyn V., Vysotska V., Shatskykh V., Kohut I., Petruchenko O., Dzyubyk L., Bobrivetc V., Panasyuk V., Sachenko S., Komar M. Design of a recommendation system based on collaborative filtering and machine learning considering personal needs of the user. Eastern-European Journal of Enterprise Technologies. 2019. Vol. 4/2 (100). P. 6–28.

26. Vysotska V., Demchuk A., Lytvyn V. Features of the architecture for Internet commercial content management system based on methods of Machine Learning, Web mining and SEO technologies. Радіоелектроніка. Інформатика. Управління. 2019. № 4. С. 121–135.

27. Lytvyn V., Vysotska V., Budz I., Pelekh Y., Sokulska N., Kovalchuk R., Dzyubyk L., Tereshchuk O., Komar M. Development of the quantitative method for automated text content authorship attribution based on the statistical analysis of N-grams distribution. Eastern-European Journal of Enterprise Technologies. 2019. Vol. 6/2 (102). P. 28–51.

28. Кравець П., Литвин В., Висоцька В. Ігрова модель онтологічної підтримки проектів. Радіоелектроніка, інформатика, управління. 2021. № 1(56). С. 172–183.

29. Литвин В. В., Бублик М. І., Висоцька В. А., Мацелюх Ю. Р. Технологія візуальної симуляції пасажиропотоків у сфері громадського транспорту smart city. Радіоелектроніка, інформатика, управління. 2021 № 4 (59). C. 106-121.

30. Кравець П. О., Литвин В. В., Висоцька В. А. Моделювання ігрової задачі призначення персоналу для виконання ІТ-проектів на основі онтологій. Радіоелектроніка, інформатика, управління. 2022. № 1 (60). С. 130–145.

31. Lytvyn V., Vysotska V., Veres O., Rishnyak I., Rishnyak H. Classification methods of text documents using ontology based approach. Advances in Intelligent Systems and Computing. 2017. Vol. 512. P. 229–240.

32. Lytvyn V., Vysotska V., Burov Y., Veres O., Rishnyak I. The contextual search method based on domain thesaurus. Advances in Intelligent Systems and Computing. 2018. Vol. 689. P. 310–319.

33. Kanishcheva O., Vysotska V., Chyrun L., Gozhyj A. Method of integration and content management of the information resources network. Advances in Intelligent Systems and Computing. 2018. Vol. 689. P. 204–216.

34. Vysotska V., Fernandes B. V., Emmerich M. Web content support method in electronic business systems. CEUR Workshop Proceedings. 2018. Vol. 2136. P. 20–41.

35. Lytvyn V., Vysotska V., Dosyn D., Burov Y. Method for ontology content and structure optimization, provided by a weighted conceptual graph. Webology. 2018. Vol. 15(2). P. 66–85.

36. Lytvyn V., Vysotska V., Osypov M., Slyusarchuk O., Slyusarchuk Y. Development of intellectual system for data de-duplication and distribution in cloud storage. Webology. 2019. Vol. 16. P. 1-42.

37. Vysotska V., Lytvyn V., Burov Y., Gozhyj A. Makara, S. The consolidated information web-resource about pharmacy networks in city. CEUR Workshop Proceedings. 2018. Vol. 2255. P. 239–255.

38. Rusyn B., Lytvyn V., Vysotska V., Emmerich M., Pohreliuk L. The virtual library system design and development. Advances in Intelligent Systems and Computing. 2019. Vol. 871. P. 328–349.

39. Vysotska V., Fernandes B. V., Lytvyn V., Emmerich M., Hirnyak M. Method for determining linguometric coefficient dynamics of Ukrainian text content authorship. Advances in Intelligent Systems and Computing. 2019. Vol. 871. P. 132–151.

40. Gozhyj A., Vysotska V., Yevseyeva I., Kalinina I., Gozhyj V. Web resources management method based on intelligent technologies. Advances in Intelligent Systems and Computing (AISC). 2019. Vol. 871. P. 206–221.

Файли

Схожі дисертації