Бердник М. І. Метод L1 регуляризації для опису фізико-хімічних властивостей молекул

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0822U100191

Здобувач

Спеціальність

  • 102 - Хімія

28-12-2021

Спеціалізована вчена рада

ДФ 64.051.041

Харківський національний університет імені В. Н. Каразіна

Анотація

Роботу присвячено дослідженню можливостей використання L1-регуляризації в побудові хемометричних моделей «структура-активність» і квантовохімічних розрахунках. Для виконання завдань дисертації розроблено оригінальний комплекс програм, що реалізують різні статистичні (хемометричні) підходи до побудови регресійних моделей й аналізу їх прогностичної здатності. Також створено комплекс квантовохімічних програм, у яких L1-регуляризація використовується для побудови хвильових функцій методів, що ураховують електронну кореляцію. Зокрема, у дисертаційній роботі розглядалося використання L1-регуляризації для побудови лінійних емпіричних моделей опису різних фізико-хімічних параметрів молекул. Спираючись на досліджені вибірки молекул, було показано, що з використанням L1-регуляризації завжди можна сформулювати послідовний (упорядкований) набір дескрипторів. Систематично додаючи дескриптори з цього набору до моделей лінійної регресії або штучних нейронних мереж, можна отримати регресійні моделі з послідовно зростаючими величинами критеріїв валідації. Оскільки після ранжування дескрипторного набору обрані предиктори можуть використовуватися в різних підходах до побудови лінійної регресії, нами було проведено відповідне дослідження якості цих альтернативних моделей. Було показано, що той чи інший метод може мати кращі прогностичні властивості відповідно до критеріїв зовнішньої або внутрішньої валідації. Показано, що методом штучних нейронних мереж з використанням впорядкованого дескрипторного набору, який був отриманий методом L1-регуляризації, також може бути зроблено якісні прогнози властивостей речовини. Також було проведено співставлення отриманих рівнянь лінійної регресії з альтернативними підходами, що працюють із нескороченими (неоптимізованими) дескрипторними наборами. У вивчених прикладах L1-регуляризація дозволила сформулювати компактні одно-, двух- або трьох- параметричні моделі, які здатні задовільно описати набір даних. Також, моделі отримані з попереднім відбором із використанням LARS-LASSO виявились кращими, ніж результати розрахунків PLS та PCR. Певну увагу в дисертації приділено методам валідації й оцінкам якості регресійних рівнянь. З цією метою було використано модельну задачу, у яку вносилися похибки як в залежну, так і в незалежну змінні, при цьому розглядався найпростіший випадок – регресія з однією незалежною змінною. З використанням модельної задачі було продемонстровано, що випадкове одиничне розбиття вибірки на тренувальну та тестову не є інформативним. Отже, для адекватної оцінки регресійного рівняння, а також дослідження якості вхідних даних у цілому, необхідно створювати та вивчати якомога більше розбивань на тренувальну й тестову вибірку. Також було досліджено відомі, запропоновані на сьогодні, критерії валідації. Встановлено, що для даних із вираженим розкидом типовою картиною є зворотна (суттєво нелінійна) залежність критеріїв зовнішньої валідації від внутрішньої. Інша тісно пов’язана із побудовою статистичних моделей проблема це побудова класифікаційної функції. З цією метою в роботі використано L1-регуляризований розрахунок логістичної регресії. На досліджених задачах побудови класифікаційних функцій показано, що з використанням L1-регуляризованої логістичної регресії можна досягнути конкурентно-спроможніх результатів класифікації до результатів, отриманих з використанням інших, більш складних у розрахунковому сенсі, методів. Використання спеціального L1¬регуляризованого алгоритму дало можливість отримати досить прості класифікаційні рівняння, які є інтерпретуємими. Також отримані рівняння логістичної регресії є однозначними й відтворюваними. Показано, що метод L1-регуляризації може бути використаний і в квантовій хімії. За допомогою процедури L1-регуляризації можливо створення впорядкованого (ранжованого) набору електронно-збуджених відносно Гартрі-Фоківського стану конфігурацій. Включаючи різну кількість конфігурацій з створеного набору, можливо отримати прогресивний набір наближених розв’язків до точних даних методу. Метод реалізовано в рамках теорії збурень Меллера-Плессета другого порядку (MP2) та різних рівнів теорії зв’язаних кластерів. Продемонстровано, що такі наближені розв’язки дають доволі точні значення енергетичних характеристик молекул, при цьому кількість конфігурацій у розрахунках може бути значно нижчою, ніж у розрахунках з використанням повного конфігураційного набору точного методу. Для ефективного розв’язку відповідних рівнянь теорії зв’язаних кластерів, реалізовано низку розрахункових алгоритмів з використанням багатокрокових методів першого порядку.

Файли

Схожі дисертації