Liakh I. Methodological foundations of information technology for gene expression data processing and its application in the field of bioinformatics

Українська версія

Thesis for the degree of Doctor of Science (DSc)

State registration number

0524U000108

Applicant for

Specialization

  • 05.13.06 - Інформаційні технології

10-05-2024

Specialized Academic Board

Д 35.101.01

Ukrainian Academy of Printing

Essay

The dissertation proposes a solution to a relevant scientific and practical problem: the development of methodological foundations of information technology for gene expression data processing to solve tasks in the field of bioinformatics based on a comprehensive application of gene ontology analysis, cluster-bicluster analysis, and deep learning methods. Its distinctive feature is a higher adequacy of object state assessment compared to existing methods due to the hybridization of existing methods and algorithms for processing big data, optimization of model hyperparameter values using quantitative quality criteria when implementing the corresponding stage, considering the type of data being studied. It is the first time that the development of information technology, specialized in gene expression data processing, that uses an integrated approach combining gene ontology analysis, cluster-bicluster analysis, and modern deep learning methods have been presented in the work. This comprehensive method is aimed at increasing the accuracy and reliability in diagnosing states of complex objects. The significance of this technology lies in its ability to perform deep analysis and precise classification of data, opening new perspectives for research in creating diagnostic systems for complex objects. To support these requirements, a hybrid model has been developed for the first time, allowing the effective formation of subsets of significant genes to use cluster-bicluster analysis and gene ontology analysis. A detailed comparative analysis of different types and architectures of deep neural networks, including both convolutional and recurrent neural networks, as well as their hybrid combinations, have been conducted. Particular attention has been given to determining optimal hyperparameters using the Bayesian optimization algorithm. A hybrid classification model integrating deep and machine learning methods to improve the objectivity in sample identification has been explored. The model consists of two hierarchical levels, where various deep learning models have been applied at the first level to form intermediate decisions, which have been processed by a classifier at the second level. A decision tree-based algorithm (CART) has been used as the classifier, allowing the formation of final conclusions about object identification. A hybrid biclustering model has been developed in the dissertation for the first time, using an ensemble algorithm for biclustering and Bayesian optimization method for precise parameter tuning of the algorithm, ensuring high-quality biclustering based on the assessment of mutual information between the rows and columns of biclusters. Furthermore, a hybrid diagnostic model of objects based on gene expression data has been presented for the first time, combining gene ontology analysis, cluster-bicluster analysis, and convolutional neural networks, which demonstrated high accuracy in identifying the state of objects with fewer significant genes, opening new possibilities for tuning diagnostic models in biomedical research. An integrated F1-score criterion has been proposed, calculated by applying Harrington's desirability method to partial F1-scores calculated for individual classes; methods of applying recurrent neural networks (RNN) for processing gene expression data have been explored. Two types of RNNs, LSTM and GRU, have been investigated. An algorithm for optimizing the architecture and hyperparameter values of RNNs has been proposed, and a comparative analysis of optimization methods based on grid search and Bayesian optimization has been conducted. A comprehensive quality criterion for data classification using the corresponding type of deep learning network has been proposed, calculated as a weighted sum of partial quality criteria developed during the modeling process. Modelling various RNN architectures has been performed, determining the optimal hyperparameter values for each network type; methods of biclustering gene expression data by more carefully forming quality criteria for biclustering, which define the bicluster structure created in the process of implementing the corresponding biclustering algorithm, have been proposed. An internal quality criterion for biclustering based on the assessment of mutual information both between the rows of the bicluster and its columns has been proposed. Key words: gene expression data, mutual information, Shannon entropy, biclustering, Bayesian optimization method, clustering algorithms, gene ontology analysis, deep learning, hybrid models, multicriteria optimization, convolutional neural network, recurrent neural network.

Research papers

1. Yasinska-Damri L., Liakh I., Babichev S., Durnyak B. Evaluation of the gene expression profiles complex proximity metric effectiveness based on a hybrid technique of gene expression data extraction. CEUR Workshop Proceedings. 2021. Vol. 3038. Pp. 150-160 (індексована в наукометричній базі Scopus).

2. Babichev S., Yasinska-Damri L., Liakh I., Durnyak B. Comparison analysis of gene expression profiles proximity metrics. Symmetry (Switzerland). 2021. Vol. 13(10). Art. №. 1812. https://doi.org/10.3390/sym13101812 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

3. Yasinska-Damri L., Liakh I., Babichev S., Durnyak B. Current State of Methods, Models, and Information Technologies of Genes Expression Profiling Extraction: A Review. Lecture Notes on Data Engineering and Communications Technologies. 2022. Vol. 77. Pp. 69-81. https://link.springer.com/chapter/10.1007/978-3-030-82014-5_5 (bookchapter, індексована в наукометричній базі Scopus).

4. Yasinska-Damri L., Babichev S., Liakh I. Comparison Analysis of the Pearson's Phi-Square Test and Correlation Metric Effectiveness to Form the Subset of Differently Expressed and Mutually Correlated Genes. CEUR Workshop Proceedings. 2022. Vol. 3156. Pp. 93-102 (індексована в наукометричній базі Scopus).

5. Babichev S., Yasinska-Damri L., Liakh I., Škvor J. Hybrid Inductive Model of Differentially and Co-Expressed Gene Expression Profile Extraction Based on the Joint Use of Clustering Technique and Convolutional Neural Network. Applied Sciences (Switzerland). 2022. Vol. 12(22). Art. № 11795. https://doi.org/10.3390/app122211795 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

6. Babichev S, Yasinska-Damri L, Liakh I. A Hybrid Model of Cancer Diseases Diagnosis Based on Gene Expression Data with Joint Use of Data Mining Methods and Machine Learning Techniques. Applied Sciences. 2023. vol. 13(10). Art № 6022. https://doi.org/10.3390/app13106022 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

7. Babichev S., Liakh I., Morokhovych V., Honcharuk A., Balanda A., Zaitsev O. Applying Convolutional Neural Network for Cancer Disease Diagnosis Based on Gene Expression Data. CEUR Workshop Proceedings. 2023. Vol. 3609. Pp. 48-61 (індексована в наукометричній базі Scopus).

8. Babichev S, Liakh I, Kalinina I. Applying a Recurrent Neural Network-Based Deep Learning Model for Gene Expression Data Classification. Applied Science. 2023. Vol. 13(21). Art. № 11823. https://doi.org/10.3390/app132111823 (індексована в наукометричній базі Scopus та Web of Science Core Collection, квартиль Q2 відповідно до класифікації SCImago Journal).

9. Liakh I., Babichev S., Durnyak B., Gado I. Formation of Subsets of Co-expressed Gene Expression Profiles Based on Joint Use of Fuzzy Inference System, Statistical Criteria and Shannon Entropy. Lecture Notes in Data Engineering, Computational Intelligence, and Decision Making. 2023. Vol. 149. Pp. 25-41. https://link.springer.com/chapter/10.1007/978-3-031-16203-9_2 (bookchapter, індексована в наукометричній базі Scopus).

10. Ясінська-Дамрі Л.М., Лях І.М., Дурняк Б.В., Бабічев С.А. Гібридна індуктивна модель кластеризації профілів експресії генів на основі алгоритму SOTA. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 1(64). 2022. C. 48-62.

11. Лях І.М. Теоретичні дослідження щодо формування оптимальної топології генної регуляторної мережі. Поліграфія і видавнича справа/ Printing and publishing. Львів, УАД. 2023. № 1(85), С. 40-50.

12. Лях І.М. Нечітка модель видалення неінформативних профілів експресії генів за статистичними та ентропійними критеріями. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 1(66). 2023. С. 39-55.

13. Лях І.М. Сучасний стан методів реконструкції генних регуляторних мереж. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 2(63). 2021.С. 97-111.

14. Лях І.М., Дурняк Б.В., Бабічев С.А. Сучасний стан методів, моделей та алгоритмів валідації і моделювання генних регуляторних мереж. Поліграфія і видавнича справа/ Printing and publishing. Львів, УАД. №2(82). 2021.С. 92-104.

15. Лях І.М. Застосування аналізу генної онтології для формування підмножини значущих генів. Українська академія друкарства НАУКОВІ ЗАПИСКИ / Ukrainian Academy of Printing SCIENTIFIC PAPERS. № 2 (67). 2023. С. 136-144.

16. Polishchuk V., Kelemen M., Povkhan I., Kelemen M., Jr., Liakh I. Fuzzy Model for Assessing the Creditworthiness of Ukrainian Coal Industry Enterprises. Acta Montanistica Slovaca. 2021. Vol. 26(3). Pp. 444-454. (індексована в наукометричній базі Scopus).

17. Malyar N., Polishchuk V., Sharkadi M., Liakh I. Model of start-ups assessment under conditions of information uncertainty. Eastern-European Journal of Enterprise Technologies. 2016. Vol. 3(4-81). Pp. 43-49. (індексована в наукометричній базі Scopus).

18. Лях І.М., Білак Ю.Ю., Даньков-Товтин Л.Я., Станишевський В.В. Використання перевірки статистичних гіпотез в інформаційно-технічній сфері. А/В тестування та доцільність його застосування. Квалілологія книги. Збірник наукових праць. Львів, УАД. 2015. №2(28). C. 82-85.

19. Лях І.М. Математичні моделі міжгалузевого балансу. Квалілологія книги. Збірник наукових праць. Львів, УАД. 2015, №1(27). C. 84-88.

20. Дурняк Б., Корж Р., Костюк І., Лях І., Притуляк Я. Методологія та засоби технічної діагностики небезпечних об’єктів. Комп’ютерні технології друкарства. Збірник наукових праць. Львів, УАД. 2011. № 26. C. 214-219.

21. Дурняк Б.В., Луцків М.М., Угрин Я.М., Лях І.М. Моделювання стрічкоживильного пристрою за дискретної подачі матеріалу. Квалілогія книги. Львів, УАД. 2016. Випуск 2(30). C. 48-54.

22. Кульчицький Р.О., Тимченко О.В., Лях І.М. Порівняння алгоритмів виявлення контуру цифрового зображення. Моделювання та інформаційні технології. Київ, Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова. 2017. Bипуск 79. C. 165-172.

23. Полусин О.Б., Сабат В.І., Тимченко О.В., Лях І.М. Організація і структурні елементи систем захисту інформації. Моделювання та інформаційні технології. Київ, Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова. 2017. Bипуск 78. C. 161-166.

24. Сікора Л.С., Лиса Н.К., Лях І.М. Інформаційно-енергетична концепція та базові моделі активізації технологічних процесів на підставі лазерного фотонного зондування. Моделювання та інформаційні технології. Збірник наукових праць. 2015. Bипуск 75. C. 132-142.

25. Лях І.М., Білак Ю.Ю., Шилова Н.Ф. Комірковий зв’язок третього покоління. Системи обробки інформації. Харків. 2012. Bипуск 2(100). C. 205-207.

26. Лях І.М., Лавер О.Г., Сабуров А.С. Алгоритмізація деяких методів визначення шкідливих впливів у телекомунікаційних мережах. Поліграфія і видавнича справа. Львів, УАД. 2012. №4(60). C. 68-75.

27. Лях І.М., Кляп М.М., Вовканич С.В. Математичні моделі міжгалузевого балансу. Міжнародний науковий вісник: збірник наукових праць. Ужгород: ДВНЗ «УжНУ». 2015. Cпец. вип. 1(10). C. 373-380.

28. Лях І.М., Штулер І.Ю. Підвищення безпеки оцінювання експертних знань. Науковий журнал «Менеджер. Вісник Донецького державного університету управління», Серія «Економіка». 2018. Bипуск 2(79). C. 60-65.

29. Yasinska-Damri L., Liakh I. Babichev S., Durnyak B. Comparison analysis of the Pearson X2 coefficient and correlation metric to evaluate the gene expression profiles proximity. Матеріали Х Міжнародної науково-практичної конференції Інформаційні управляючі системи і технології ІУСT-Одеса-2021. 23 – 25 вересня, 2021. С. 103-104.

30. Лях І.М., Чобаль В.В. Аналіз рекурентної нейронної мережі (РНМ). ХVІІ Міжнародна наукова Інтернет-конференція «Національна безпека у фокусі викликів глобалізаційних процесів в економіці», 14-15 жовтня 2023, Ukraine-Turkey. C. 58-60.

31. Лях І.М., Гладинець О.І. Важливість захисту інформації в епоху використання штучного інтелекту: Proceedings of VIII International Scientific and Practical Conference «Modern problems of science, education and society». Kyiv, Ukraine, 9-11 October, 2023. Pp. 310-312.

32. Лях І.М. Аналіз основних компонентів згорткової нейронної мережі. Збірник тез доповідей XXXIV International Scientific and Practical Conference «Current and youth ways of solving the problems of world science». August 28-30, 2023. Florence, Italy. Pp. 106-107.

33. Лях І.М. Аналіз методів реконструкції генних регуляторних мереж. Збірник тез доповідей Міжнародної науково-практичної конференції «Сучасні світові тенденції розвитку науки, освіти, технологій та суспільства». 28 червня 2023. Кропивницький, Україна. C. 65-66.

34. Лях І.М. Аналіз параметрів топології генної мережі. Збірник тез доповідей Integration of Education, Science and Business in Modern Environment: Summer Debates: Proceedings of the 5th International Scientific and Practical Internet Conference. August 3-4, 2023. Dnipro, Ukraine. C. 311-312.

35. Лях І.М., Чобаль В.В. Формування критеріїв оцінки якості кластерної структури. Матеріали XVII Міжнародної наукової конференції «Стратегія якості в промисловості і освіті». 05-08 червня, 2023. Варна, Болгарія. C. 282-285.

36. Лях І.М., Лутак О.А. Аналіз ітераційних та ієрархічних алгоритмів. ХІV Міжнародна наукова Інтернет-конференція «Національна безпека у фокусі викликів глобалізаційних процесів в економіці». 10-11 листопада, 2022. Ukraine-Croatia. C. 47-49.

37. Лях І.М. Сучасний стан методів реконструкції генних мереж: аналіз та найближчі перспективи. Науково-технічна конференція професорсько-викладацького складу, наукових працівників і аспірантів. 07-11 лютого, 2022. Львів, УАД. С. 28.

38. Лях І.М., Лутак О.А. Аналіз алгоритмів реконструкції генних регуляторних мереж. XІII Міжнародна наукова Інтернет-конференція «Національна безпека у фокусі викликів глобалізаційних процесів в економіці». 20-21 травня, 2022. Ukraine-Greece. C. 23-25.

39. Tymchenko O., Havrysh B., Khamula O., Kovalskyi B., Vasiuta S., Lyakh I. Methods of Converting Weight Sequences in Digital Subtraction Filtration. 14th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). Vol. 2. September 17-20, 2019. Lviv, Ukraine. Pp. 32-36.

Files

Similar theses