Лях І. М. Методологічні основи інформаційної технології обробки даних експресії генів та її застосування в галузі біоінформатики

English version

Дисертація на здобуття ступеня доктора наук

Державний реєстраційний номер

0524U000108

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

10-05-2024

Спеціалізована вчена рада

Д 35.101.01

Українська академія друкарства

Анотація

У дисертаційній роботі запропоновано рішення актуальної науково-практичної проблеми: розробка методологічних основ інформаційної технології обробки даних експресії генів для розв’язання задач в галузі біоінформатики на основі комплексного застосування аналізу генної онтології, кластер-бікластерного аналізу та методів глибинного навчання, відмінною рисою якої є більш висока у порівнянні з існуючими методами адекватність оцінки стану об’єкта за рахунок гібридизації існуючих методів та алгоритмів обробки великих даних, оптимізації значень гіперпараметрів моделі із застосуванням кількісних критеріїв якості при реалізації відповідного етапу враховуючи тип даних, що досліджуються. У роботі уперше представлено розробку інформаційної технології, спеціалізованої для обробки даних експресії генів, яка використовує інтегрований підхід, що об'єднує аналіз генної онтології, кластер-бікластерний аналіз та сучасні методи глибинного навчання. Цей комплексний метод спрямований на підвищення точності та надійності в діагностиці станів складних об’єктів. Значущість цієї технології полягає у її здатності до глибокого аналізу та точної класифікації даних, що відкриває нові перспективи для досліджень при створенні систем діагностики складних об’єктів. Для підтримки цих вимог, уперше розроблено гібридну модель, яка дозволяє ефективно формувати підмножини значущих генів, використовуючи кластер-бікластерний аналіз та аналіз генної онтології. Здійснено детальний порівняльний аналіз різних типів та архітектур глибинних нейронних мереж, включаючи як згорткові, так і рекурентні нейронні мережі, а також їх гібридні комбінації. Особливу увагу приділено визначенню оптимальних гіперпараметрів за допомогою алгоритму оптимізації Байєса. Досліджено гібридну модель класифікації, що інтегрує методи глибинного та машинного навчання, для покращення об'єктивності в ідентифікації зразків. Модель складається з двох ієрархічних рівнів, де на першому рівні застосовуються різні моделі глибинного навчання для формування проміжних рішень, які у подальшому обробляються класифікатором на другому рівні. В якості класифікатора використовується алгоритм на основі дерева рішень (CART), що дозволяє формувати остаточні висновки щодо ідентифікації об'єкта. У дисертації також уперше розроблено гібридну модель бікластеризації, що використовує алгоритм ensemble для бікластеризації та метод оптимізації Байєса для точного налаштування параметрів алгоритму, забезпечуючи високу якість бікластеризації на основі оцінки взаємної інформації між рядками та стовпчиками бікластерів. Крім того, уперше запропоновано гібридну модель діагностики об’єктів на основі даних експресії генів, яка комбінує аналіз генної онтології, кластер-бікластерний аналіз та згорткові нейронні мережі, яка продемонструвала високу точність ідентифікації стану об'єктів з меншою кількістю значущих генів, що відкриває нові можливості для налаштування діагностичних моделей у біомедичних дослідженнях. Запропонований інтегральний критерій F1-міри, розрахунок якого передбачає застосування методу бажаностей Харрінгтона до парціальних значень F1-міри, що розраховані для окремих класів; методи застосування рекурентної нейронної мережі (РНМ) для обробки даних експресії генів. Досліджено два типи РНМ: LSTM та GRU. Запропоновано алгоритм оптимізації архітектури та значень гіперпараметрів РНМ, здійснено порівняльний аналіз методів оптимізації на основі упорядкованого пошуку за сіткою та алгоритму байєсівської оптимізації. Запропоновано комплексний критерій якості класифікації даних із застосуванням відповідного типу мережі глибинного навчання, що розраховується як зважена сума парціальних критеріїв якості, що розраховувалися в процесі моделювання. Виконано моделювання різних архітектур РНМ, за результатами якого визначенні оптимальні значення гіперпараметрів для кожного типу мережі; методи бікластеризації даних експресії генів шляхом більш ретельного формування критеріїв якості бікластеризації, які визначають бікластерну структуру, що створюється в процесі реалізації відповідного алгоритму бікластеризації. Запропоновано внутрішній критерій якості бікластеризації на основі оцінки взаємної інформації як між рядками бікластера, так і між його стовпцями. Ключові слова: дані експресії генів, взаємна інформація, ентропія Шеннона, бікластеризація, метод оптимізації Байєса, алгоритми кластеризації, аналіз генної онтології, глибинне навчання, гібридні моделі, мультикритеріальна оптимізація, згорткова нейронна мережа, рекурентна нейронна мережа.

Публікації

1. Yasinska-Damri L., Liakh I., Babichev S., Durnyak B. Evaluation of the gene expression profiles complex proximity metric effectiveness based on a hybrid technique of gene expression data extraction. CEUR Workshop Proceedings. 2021. Vol. 3038. Pp. 150-160 (індексована в наукометричній базі Scopus).

2. Babichev S., Yasinska-Damri L., Liakh I., Durnyak B. Comparison analysis of gene expression profiles proximity metrics. Symmetry (Switzerland). 2021. Vol. 13(10). Art. №. 1812. https://doi.org/10.3390/sym13101812 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

3. Yasinska-Damri L., Liakh I., Babichev S., Durnyak B. Current State of Methods, Models, and Information Technologies of Genes Expression Profiling Extraction: A Review. Lecture Notes on Data Engineering and Communications Technologies. 2022. Vol. 77. Pp. 69-81. https://link.springer.com/chapter/10.1007/978-3-030-82014-5_5 (bookchapter, індексована в наукометричній базі Scopus).

4. Yasinska-Damri L., Babichev S., Liakh I. Comparison Analysis of the Pearson's Phi-Square Test and Correlation Metric Effectiveness to Form the Subset of Differently Expressed and Mutually Correlated Genes. CEUR Workshop Proceedings. 2022. Vol. 3156. Pp. 93-102 (індексована в наукометричній базі Scopus).

5. Babichev S., Yasinska-Damri L., Liakh I., Škvor J. Hybrid Inductive Model of Differentially and Co-Expressed Gene Expression Profile Extraction Based on the Joint Use of Clustering Technique and Convolutional Neural Network. Applied Sciences (Switzerland). 2022. Vol. 12(22). Art. № 11795. https://doi.org/10.3390/app122211795 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

6. Babichev S, Yasinska-Damri L, Liakh I. A Hybrid Model of Cancer Diseases Diagnosis Based on Gene Expression Data with Joint Use of Data Mining Methods and Machine Learning Techniques. Applied Sciences. 2023. vol. 13(10). Art № 6022. https://doi.org/10.3390/app13106022 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

7. Babichev S., Liakh I., Morokhovych V., Honcharuk A., Balanda A., Zaitsev O. Applying Convolutional Neural Network for Cancer Disease Diagnosis Based on Gene Expression Data. CEUR Workshop Proceedings. 2023. Vol. 3609. Pp. 48-61 (індексована в наукометричній базі Scopus).

8. Babichev S, Liakh I, Kalinina I. Applying a Recurrent Neural Network-Based Deep Learning Model for Gene Expression Data Classification. Applied Science. 2023. Vol. 13(21). Art. № 11823. https://doi.org/10.3390/app132111823 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

9. Liakh I., Babichev S., Durnyak B., Gado I. Formation of Subsets of Co-expressed Gene Expression Profiles Based on Joint Use of Fuzzy Inference System, Statistical Criteria and Shannon Entropy. Lecture Notes in Data Engineering, Computational Intelligence, and Decision Making. 2023. Vol. 149. Pp. 25-41. https://link.springer.com/chapter/10.1007/978-3-031-16203-9_2 (bookchapter, індексована в наукометричній базі Scopus).

10. Ясінська-Дамрі Л.М., Лях І.М., Дурняк Б.В., Бабічев С.А. Гібридна індуктивна модель кластеризації профілів експресії генів на основі алгоритму SOTA. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 1(64). 2022. C. 48-62.

11. Лях І.М. Теоретичні дослідження щодо формування оптимальної топології генної регуляторної мережі. Поліграфія і видавнича справа/ Printing and publishing. Львів, УАД. 2023. № 1(85), С. 40-50.

12. Лях І.М. Нечітка модель видалення неінформативних профілів експресії генів за статистичними та ентропійними критеріями. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 1(66). 2023. С. 39-55.

13. Лях І.М. Сучасний стан методів реконструкції генних регуляторних мереж. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 2(63). 2021.С. 97-111.

14. Лях І.М., Дурняк Б.В., Бабічев С.А. Сучасний стан методів, моделей та алгоритмів валідації і моделювання генних регуляторних мереж. Поліграфія і видавнича справа/ Printing and publishing. Львів, УАД. №2(82). 2021.С. 92-104.

15. Лях І.М. Застосування аналізу генної онтології для формування підмножини значущих генів. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 2 (67). 2023. С. 136-144.

16. Polishchuk V., Kelemen M., Povkhan I., Kelemen M., Jr., Liakh I. Fuzzy Model for Assessing the Creditworthiness of Ukrainian Coal Industry Enterprises. Acta Montanistica Slovaca. 2021. Vol. 26(3). Pp. 444-454. (індексована в наукометричній базі Scopus).

17. Malyar N., Polishchuk V., Sharkadi M., Liakh I. Model of start-ups assessment under conditions of information uncertainty. Eastern-European Journal of Enterprise Technologies. 2016. Vol. 3(4-81). Pp. 43-49. (індексована в наукометричній базі Scopus).

18. Лях І.М., Білак Ю.Ю., Даньков-Товтин Л.Я., Станишевський В.В. Використання перевірки статистичних гіпотез в інформаційно-технічній сфері. А/В тестування та доцільність його застосування. Квалілологія книги. Збірник наукових праць. Львів, УАД. 2015. №2(28). C. 82-85.

19. Лях І.М. Математичні моделі міжгалузевого балансу. Квалілологія книги. Збірник наукових праць. Львів, УАД. 2015, №1(27). C. 84-88.

20. Дурняк Б., Корж Р., Костюк І., Лях І., Притуляк Я. Методологія та засоби технічної діагностики небезпечних об’єктів. Комп’ютерні технології друкарства. Збірник наукових праць. Львів, УАД. 2011. № 26. C. 214-219.

21. Дурняк Б.В., Луцків М.М., Угрин Я.М., Лях І.М. Моделювання стрічкоживильного пристрою за дискретної подачі матеріалу. Квалілогія книги. Львів, УАД. 2016. Випуск 2(30). C. 48-54.

22. Кульчицький Р.О., Тимченко О.В., Лях І.М. Порівняння алгоритмів виявлення контуру цифрового зображення. Моделювання та інформаційні технології. Київ, Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова. 2017. Bипуск 79. C. 165-172.

23. Полусин О.Б., Сабат В.І., Тимченко О.В., Лях І.М. Організація і структурні елементи систем захисту інформації. Моделювання та інформаційні технології. Київ, Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова. 2017. Bипуск 78. C. 161-166.

24. Сікора Л.С., Лиса Н.К., Лях І.М. Інформаційно-енергетична концепція та базові моделі активізації технологічних процесів на підставі лазерного фотонного зондування. Моделювання та інформаційні технології. Збірник наукових праць. 2015. Bипуск 75. C. 132-142.

25. Лях І.М., Білак Ю.Ю., Шилова Н.Ф. Комірковий зв’язок третього покоління. Системи обробки інформації. Харків. 2012. Bипуск 2(100). C. 205-207.

26. Лях І.М., Лавер О.Г., Сабуров А.С. Алгоритмізація деяких методів визначення шкідливих впливів у телекомунікаційних мережах. Поліграфія і видавнича справа. Львів, УАД. 2012. №4(60). C. 68-75.

27. Лях І.М., Кляп М.М., Вовканич С.В. Математичні моделі міжгалузевого балансу. Міжнародний науковий вісник: збірник наукових праць. Ужгород: ДВНЗ «УжНУ». 2015. Cпец. вип. 1(10). C. 373-380.

28. Лях І.М., Штулер І.Ю. Підвищення безпеки оцінювання експертних знань. Науковий журнал «Менеджер. Вісник Донецького державного університету управління», Серія «Економіка». 2018. Bипуск 2(79). C. 60-65.

29. Yasinska-Damri L., Liakh I. Babichev S., Durnyak B. Comparison analysis of the Pearson X2 coefficient and correlation metric to evaluate the gene expression profiles proximity. Матеріали Х Міжнародної науково-практичної конференції Інформаційні управляючі системи і технології ІУСT-Одеса-2021. 23 – 25 вересня, 2021. С. 103-104.

30. Лях І.М., Чобаль В.В. Аналіз рекурентної нейронної мережі (РНМ). ХVІІ Міжнародна наукова Інтернет-конференція «Національна безпека у фокусі викликів глобалізаційних процесів в економіці», 14-15 жовтня 2023, Ukraine-Turkey. C. 58-60.

31. Лях І.М., Гладинець О.І. Важливість захисту інформації в епоху використання штучного інтелекту: Proceedings of VIII International Scientific and Practical Conference «Modern problems of science, education and society». Kyiv, Ukraine, 9-11 October, 2023. Pp. 310-312.

32. Лях І.М. Аналіз основних компонентів згорткової нейронної мережі. Збірник тез доповідей XXXIV International Scientific and Practical Conference «Current and youth ways of solving the problems of world science». August 28-30, 2023. Florence, Italy. Pp. 106-107.

33. Лях І.М. Аналіз методів реконструкції генних регуляторних мереж. Збірник тез доповідей Міжнародної науково-практичної конференції «Сучасні світові тенденції розвитку науки, освіти, технологій та суспільства». 28 червня 2023. Кропивницький, Україна. C. 65-66.

34. Лях І.М. Аналіз параметрів топології генної мережі. Збірник тез доповідей Integration of Education, Science and Business in Modern Environment: Summer Debates: Proceedings of the 5th International Scientific and Practical Internet Conference. August 3-4, 2023. Dnipro, Ukraine. C. 311-312.

35. Лях І.М., Чобаль В.В. Формування критеріїв оцінки якості кластерної структури. Матеріали XVII Міжнародної наукової конференції «Стратегія якості в промисловості і освіті». 05-08 червня, 2023. Варна, Болгарія. C. 282-285.

36. Лях І.М., Лутак О.А. Аналіз ітераційних та ієрархічних алгоритмів. ХІV Міжнародна наукова Інтернет-конференція «Національна безпека у фокусі викликів глобалізаційних процесів в економіці». 10-11 листопада, 2022. Ukraine-Croatia. C. 47-49.

37. Лях І.М. Сучасний стан методів реконструкції генних мереж: аналіз та найближчі перспективи. Науково-технічна конференція професорсько-викладацького складу, наукових працівників і аспірантів. 07-11 лютого, 2022. Львів, УАД. С. 28.

38. Лях І.М., Лутак О.А. Аналіз алгоритмів реконструкції генних регуляторних мереж. XІII Міжнародна наукова Інтернет-конференція «Національна безпека у фокусі викликів глобалізаційних процесів в економіці». 20-21 травня, 2022. Ukraine-Greece. C. 23-25.

39. Tymchenko O., Havrysh B., Khamula O., Kovalskyi B., Vasiuta S., Lyakh I. Methods of Converting Weight Sequences in Digital Subtraction Filtration. 14th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). Vol. 2. September 17-20, 2019. Lviv, Ukraine. Pp. 32-36.

Файли

Схожі дисертації