Зарічковий О. А. Методи та програмне забезпечення розмітки відеоданих для задач комп’ютерного зору

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0825U000390

Здобувач

Спеціальність

  • 121 - Інженерія програмного забезпечення

Спеціалізована вчена рада

ДФ 26.002.197; PhD 7646

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Анотація

Дисертація на здобуття наукового ступеня доктора філософії з галузі знань 12 Інформаційні технології за спеціальністю 121 Інженерія програмного забезпечення. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2025. Штучний інтелект є однією з найбільш поширених сфер розробок програмного забезпечення у сучасному світі інформаційних технологій. За останню декаду було досягнуто значного прогресу для задач комп'ютерного зору, зокрема, у детекції об’єктів, завдяки розвитку методів глибокого навчання та зростанню обчислювальних можливостей. Для успішної розробки та впровадження програмних засобів на основі ШІ необхідно збирати та розмічати великі об’єми даних, що вимагає значних людських ресурсів та часу. Неякісна розмітка даних може призвести до неточних та помилкових результатів методів ШІ, що в свою чергу стає причиною помилок у результатах обчислень програмного забезпечення. Наявні інструменти розмітки даних не завжди відповідають потребам розробників програмного забезпечення з використанням ШІ, особливо в контексті роботи з великими об'ємами відеоданих, що збільшує трудовитрати процесу створення якісних наборів даних. Наявність зазначених проблем визначає актуальне наукове завдання підвищення ефективності процесу розмітки відеоданих для задач комп’ютерного зору, яке вирішується у цій дисертаційній роботі. Метою дисертаційної роботи є підвищення швидкості розмітки відеоданих у контексті завдань детекції об'єктів за рахунок вдосконалення методів та програмного забезпечення, призначеного для розмітки відеоданих. Для досягнення мети в роботі досліджено методи навчання нейронних мереж, що підвищують точність детекції об’єктів без змін моделей чи збільшення їх параметрів, та підходи до зменшення обсягу кадрів, які обробляються в задачах комп’ютерного зору. Проведено аналіз візуально-мовних моделей для підвищення точності програмних рішень, а також сучасних інструментів і процесів розмітки зображень та відео з метою вдосконалення їх архітектури та пришвидшення обчислень. Розроблено дуальну архітектуру автоматизованої розмітки даних та програмне забезпечення, що її реалізує. Проведено експериментальне дослідження, яке доводить ефективність прийнятих рішень. У дисертаційній роботі отримано низку нових наукових результатів: - вперше запропоновано дуальну архітектуру програмного забезпечення для автоматизованої розмітки даних, яка, за рахунок методу адаптивно-агрегованого навчання нейромережі, забезпечує пришвидшення процесу розмітки та, на відміну від існуючих аналогів, дає змогу ефективного застосування нульового та активного навчання нейромережі для розмітки даних та більш гнучкого використання програмного забезпечення для різноманітних задач комп’ютерного зору; - вперше запропоновано метод пріоритезації складних зразків для навчання нейронної мережі, який, за рахунок відбору найскладніших зразків для навчання, підвищує якість набору даних без проведення попередньої розмітки відео, внаслідок чого збільшується точність детекції об’єктів на відео, та, на відміну від існуючих підходів, базується виключно на автоматично згенерованій репрезентації даних; - вперше запропоновано ітеративний метод вибору ключових кадрів на довгих відео, що дає змогу визначати ключові кадри та сегменти відео з поступовим підвищенням точності, та, на відміну від існуючих методів, враховувати динамічно зміни контенту відео для вибору ключових кадрів, підвищуючи точність сегментації та зменшуючи обсяг відеоданих для обробки; - вперше запропоновано метод агрегації знань між текстовою та візуальною частинами у візуально-мовній моделі (VLM) для обробки складних мультимодальних взаємодій, що забезпечує більш високу точність розпізнавання складних сцен на відео та їх опису у порівнянні з існуючими аналогами. Основні результати дисертаційної роботи опубліковано у 6 публікаціях, з яких 4 статті в періодичних виданнях, що проіндексовано у базі даних Scopus, 1 публікація опублікована у фаховому виданні, включених до переліку наукових фахових видань України з присвоєнням категорії «Б», та 1 публікація у матеріалах міжнародної наукової конференції.

Публікації

Зарічковий О.А. Дуальна архітектура програмного забезпечення для автоматизації розмітки даних для задач комп’ютерного зору. Міжвідомчий науково-технічний журнал «Адаптивні системи автоматичного управління». 2024. № 45 (2024). С. 109-118. DOI 10.20535/1560-8956.45.2024.313096.

Zarichkovyi, A., Stetsenko, I.V. (2024) ‘Attr4Vis: Revisiting importance of attribute classification in Vision-Language Models for Video Recognition’, International Journal of Computing, 23 (1), pp. 94-100. DOI 10.47839/ijc.23.1.3440

Zarichkovyi, A., Stetsenko, I.V. (2023) ‘Boundary Refinement via Zoom-In Algorithm for Keyshot Video Summarization of Long Sequences’, Lecture Notes on Data Engineering and Communications Technologies, 180, pp. 344-359. DOI 10.1007/978-3-031-36115-9_32

Zarichkovyi, A., Stetsenko, I.V. (2023) ‘Hard Samples Make Difference: An Improved Training Procedure for Video Action Recognition Tasks’, Lecture Notes in Networks and Systems, 544, pp. 508-519. Springer, Cham. DOI 10.1007/978-3-031-16075-2_36

Oleksandr Zarichkovyi and Iryna Mukha. (2021) ‘Approximate Training of Object Detection on Large-Scale Datasets’, Lecture Notes on Data Engineering and Communications Technologies, 83, pp. 389-400. DOI 10.1007/978-3-030-80472-5_32

Zarichkovyi, A., Stetsenko, I.V. Improving cross-modal knowledge exploration of vision language models. Інженерія програмного забезпечення і передові інформаційні технології (Soft Tech-2024): матеріали VI Міжнародної науково-практичної конференції молодих вчених та студентів, 21-23 травня 2024 року, м. Київ, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», ФІОТ. С. 58-61.

Схожі дисертації