Актуальність теми дослідження обумовлено існуючим протиріччям між ускладненням моделей глибинного навчання при використанні існуючих програмних рішень, з одного боку, та зростанням труднощів інтерпретації цих моделей у прикладному застосуванні з підвищенням швидкодії процедури розпізнавання та відстеження об’єктів у режимі реального часу – з іншого боку. Сфера застосування безпілотних літальних апаратів (БпЛА) постійно зростає і виникає необхідність адаптації алгоритмів машинного навчання та моделей глибинного навчання для використання саме на борту БпЛА при врахуванні обмеженості на обчислювальні ресурси та специфіку організації отриманого відеопотоку даних. У роботі підкреслюється вага вже існуючих архітектурних рішень реалізації згорткової нейронної мережі при використанні методів та алгоритмів машинного навчання. Встановлене протиріччя долається внесенням додаткових умов для задачі опрацьовування великого набору зображень відеопотоку, який постійно оновлюється та може вміщувати інформацію про об'єкти різного розміру та форми для задачі розпізнавання та відстеження. Виділяється необхідність використання в запропонованому програмному рішенні адаптованої функції втрат для підтримки прийняття рішень на основі спостережених даних. Актуальною в цій тематиці є задача злиття ознак згорткових нейронних мереж для просторового та часового потоків.
Метою роботи є підвищення точності виявлення, розпізнавання та відстеження об'єктів в режимі реального часу та реалізації відповідної технології у вигляді програмного засобу. Об’єктом дослідження є процеси опрацювання даних в задачах виявлення, розпізнавання та відстеження об’єктів у режимі реального часу.
Предметом дослідження є моделі, алгоритми та технології використання згорткових нейронних мереж для вирішення задачі розпізнавання та відстеження об'єкта у режимі реального часу.
Внутрішня логіка програмного забезпечення розробленої технології побудована з використанням компонентно-орієнтованого підходу. Для реалізації обчислень використано такі бібліотеки, як Pytorch, Ultralytics, NumPy, OpenCV2 та Matplotlib. Для розгортання цієї технології запропоновано реалізація декількох точок інтеграції.
Наукова новизна результатів дослідження полягає в наступному:
– вперше розроблено архітектурне рішення побудови нейронної згорткової мережі задачі виявлення, розпізнавання та відстеження об'єктів в режимі реального часу, що відрізняється від існуючого рішення тим, що використовує більшу кількість блоків розпізнавання об'єктів різного розміру, яке є оптимізоване для задач конкретної предметної області;
– вперше обґрунтовано можливість використання в розробленій технології PFNB-блоку, який базується на архітектурному рішенні Faster-Net, що використовує багатомасштабну мережу обʼєднання ознак для демонстрації покращеної точності розпізнавання у порівнянні з базовою технологією;
– вперше сформований власний набір даних для апробації розробленої технології починаючи з етапу розпізнавання об'єктів у відеопотоці, який включає об'єкти різного масштабу визначеної предметної області, що підтверджує ефективність розробленої моделі;
– вперше запропоновано архітектуру кросплатформної бібліотеки для реалізації технології виявлення, розпізнавання та відстеження об'єктів, яка є п'ятимасштабною структурою і містить механізм уваги BiFormer з малою обчислювальною потужністю, що дозволяє покращити точність виявлення малих об'єктів та покращує увагу до ключової інформації на карті об'єктів;
– вперше проведено моделювання порівняльних експериментів на YOLO v9 на невеликому наборі даних, які відрізняються використанням різних видів функцій втрат при зберіганні інших умов навчання незмінними, що показало використання функції регресійних втрат WIoU v3 найефективнішою для побудованої моделі;
– вперше проведено моделювання експериментів на невеликій кількості зображень при додаванні до базової моделі блоків детектування групи PFNB, які об'єднують дрібні особливості шарів нейронної згорткової мережі, що збільшує на невеликому наборі даних усереднене значення mAP та при їх одночасному використанні розмір моделі і кількість параметрів зменшується;
– вперше проведено моделювання експериментів на покращеній моделі YOLO v9 P, яка відрізняється від базової моделі YOLO v9 функцією втрат, методом злиття та модифікованою архітектурою блоку розпізнавання, що на невеликому наборі даних дозволило отримати покращення усередненого значення mAP на 7,7% і AP від 2,5% до 14,1%.