Терещенко О. І. Методи і моделі машинного навчання для виявлення та класифікації вразливостей смарт-контрактів

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0826U000518

Здобувач

Спеціальність

  • 122 - Комп’ютерні науки

06-04-2026

Спеціалізована вчена рада

PhD 12021

Національний університет "Одеська політехніка"

Анотація

У роботі обґрунтовано актуальність забезпечення безпеки смарт-контрактів у блокчейн-екосистемах, зокрема в децентралізованих фінансах, які оперують значними фінансовими активами та залишаються вразливими до помилок коду. Метою дослідження є підвищення ефективності за відповідними метриками виявлення, класифікації та локалізації вразливостей у смарт-контрактах за рахунок розробки моделей та методів машинного навчання, які становлять цілісний технологічний стек інтелектуального аналізу вихідного коду смарт-контрактів. Об’єктом дослідження є процеси виявлення, класифікації та локалізації вразливостей у смарт-контрактах, предметом – методи та моделі машинного навчання для багатоміткового виявлення, класифікації та локалізації вразливостей у смарт-контрактах. Сформульовано завдання: створення збалансованого датасету з анотацією вразливостей; розроблення моделей багатоміткової класифікації; підвищення надійності через калібрування й аналіз стійкості до змін коду; створення слабосупервізованих методів локалізації без токенної розмітки; апробація запропонованих рішень у програмному засобі. У першому розділі здійснено систематичний аналіз формальних методів, статичного та динамічного аналізу, а також підходів машинного навчання. Проаналізовано трансформерні моделі для коду (CodeBERT, GraphCodeBERT), графові нейронні мережі та гібридні архітектури. Визначено проблеми нестачі фрагментної розмітки, низької стійкості до рефакторингу та надмірної впевненості моделей. У другому розділі запропоновано комбінований метод формування збалансованого датасету, що поєднує детерміноване інжектування типових вразливостей у безпечний код і контекстно узгоджену генерацію прикладів великою мовною моделлю з подальшою верифікацією. Сформовано корпус із п’яти категорій по 1000 прикладів кожна. Метод забезпечує відтворюваність, реалістичність синтаксичних варіацій і баланс класів. У третьому розділі розроблено комплексний підхід до багатоміткової детекції та слабосупервізованої локалізації. Запропоновано модель CodeBERT-GDLA (Graph-aware Dual-Level Attention). Удосконалено механізм уваги шляхом інтеграції графових компонентів та навчуваних коефіцієнтів структурного впливу. Запропоновано CAM-узгоджену увагу та причинно-орієнтовану регуляризацію для інтерпретованої локалізації без токенної розмітки. Експерименти показали, що CodeBERT-GDLA перевершує базові моделі за macro-F1, macro-AUC і Hamming loss. Для задач локалізації досягнуто високих значень mAP і Hit@K (для повторного входу mAP ≈ 82%, Hit@5 ≈ 77%, Hit@7-10 ≈ 100%) зі стабільними результатами. Проведено абляційний аналіз та дослідження стійкості до рефакторингу, перейменування, форматування та часткової обфускації. Для зниження надмірної впевненості інтегровано метод регуляризації з оптимізацією очікуваної калібрувальної похибки, що забезпечило зменшення ECE та підвищення надійності ймовірнісних оцінок. У четвертому розділі представлено програмний засіб аудиту смарт-контрактів на основі моделі CodeBERT-GDLA з REST-інтерфейсом та можливістю інтеграції в CI/CD-конвеєри. Наукова новизна полягає у тому, що: вперше запропоновано комбінований метод формування навчального датасету за рахунок поєднання автоматичного інжектування аномальних конструкцій у коректний код смарт-контрактів із генерацією додаткових прикладів великою мовною моделлю з подальшою верифікацією, що дозволило забезпечити збалансованість вибірки; вперше побудовано модель CodeBERT-GDLA на основі вдосконалення архітектур BiGRU-ATT і CodeBERT-BiGRU за допомогою запропонованих методів графового зсуву і дворівневої графово-орієнтованої уваги, що дозволило підвищити ефективність виявлення та класифікації вразливостей при інтелектуальному аналізі вихідного коду смарт-контрактів; удосконалено метод регуляризації для калібрування ймовірнісних оцінок багатоміткової класифікації вразливостей смарт-контрактів за рахунок застосування оптимізації очікуваної калібрувальної похибки, температурного масштабування та фокального приглушення надмірної впевненості безпосередньо в процесі навчання моделі CodeBERT-GDLA, що забезпечує зниження її надмірної впевненості та підвищує надійність результатів інтелектуального аналізу вихідного коду смарт-контрактів; отримав подальший розвиток метод слабосупервізованого виділення вразливих фрагментів коду за рахунок інтеграції CAM-узгодженої уваги з причинно-орієнтованою регуляризацією, що забезпечує підвищення ефективності локалізації вразливостей при інтелектуальному аналізі вихідного коду смарт-контрактів. Практичне значення результатів полягає у створенні програмно-алгоритмічних засобів автоматизованого аудиту смарт-контрактів із багатомітковою детекцією, пояснюваною локалізацією та надійними ймовірнісними оцінками. Результати впроваджено у діяльність ТОВ НВО «Діскрет», НВП «КАРЕ» та в освітній процес НУ «Одеська політехніка».

Публікації

Komleva, N. O., & Tereshchenko, O. I. (2023). Requirements for the development of smart contracts and an overview of smart contract vulnerabilities at the Solidity code level on the Ethereum platform. Herald of Advanced Information Technology, 6(1), 54–68. DOI: https://doi.org/10.15276/hait.06.2023.4

Tereshchenko, O., & Komleva, N. (2023). Vulnerability detection of smart contracts based on bidirectional GRU and attention mechanism. In Communications in Computer and Information Science (Vol. 1980). Springer, Cham. DOI: https://doi.org/10.1007/978-3-031-48325-7_21

Tereshchenko, O. I., & Komleva, N. O. (2024). Identification and localization of vulnerabilities in smart contracts using attention vectors analysis in a BERT-based model. Radio Electronics, Computer Science, Control, (3), 173–184. DOI: https://doi.org/10.15588/1607-3274-2024-3-15

Терещенко, О. І. (2025). Комбінований метод локалізації вразливостей у смарт-контрактах на основі Attention та Grad-CAM. Таврійський науковий вісник. Серія: Технічні науки, 1(4), 306-316. DOI: https://doi.org/10.32782/tnv-tech.2025.4.1.30

Терещенко, О. І. (2025). Методи ін’єкції вразливостей у смарт-контракти для формування збалансованих датасетів. Вісник Херсонського національного технічного університету. № 3(94), Ч. 2, 456-462. DOI: https://doi.org/10.35546/kntu2078-4481.2025.3.2.58

Терещенко, О. І. (2025). Виявлення та локалізація вразливостей у смарт-контрактах на основі дворівневої уваги з графовим підкріпленням. Вісник Кременчуцького національного університету імені Михайла Остроградського, 4, 272-281. DOI: https://doi.org/10.32782/1995-0519.2025.4.30

Схожі дисертації