Сіряк Р. В. Моделі та метод інформаційної технології людино-машинної взаємодії з використанням жестів

English version

Дисертація на здобуття ступеня кандидата наук

Державний реєстраційний номер

0421U102133

Здобувач

Спеціальність

  • 05.13.06 - Інформаційні технології

13-05-2021

Спеціалізована вчена рада

К 29.051.16

Східноукраїнський національний університет імені Володимира Даля

Анотація

Об’єкт: процеси людино-машинної взаємодії, що здійснюють ідентифікацію, відстеження та класифікацію жестів рук або інших об'єктів на зображенні та у відеопослідовності; мета: покращення характеристик автоматичного розпізнавання статичних та динамічних жестів рук за рахунок розробки та практичного використання моделей і методу інформаційної технології людино-машинної взаємодії з використанням жестів; методи: при розробленні методології проектування і спільного використання візуальних методів розпізнавання жестів рук використано методи загальної теорії систем, системного аналізу, методи структурного синтезу, аналізу та моделювання процесів; при розробленні моделей комп’ютерного зору на основі глибоких нейронних мереж застосовано методи машинного навчання, технології збільшення даних (data augmentation), технології попередньої обробки даних (очищення, фільтрація розмиття за Гауссом, перетворення кольорів, адаптивна порогова обробка, алгоритм Otsu, детектор контурів Canny, для відділення зон зображення, які містять обличчя та долоні, використано модель дифузного освітлення, для визначення форми долоні використані моделі деформації зображень, порівняння зображень із спотвореннями); при розробленні технології розпізнавання та прогнозування динамічних жестів використано моделі генерації послідовностей з використанням ConvLSTM, для навчання нейромережевого класифікатора використано методи зворотного поширення похибки та спряжених градієнтів, для стеження за долонями використані методи статичної та динамічної кластеризації; при розробленні технології взаємодії між хірургом та системою перегляду зображень в операційній залі використано методи математичної статистики, функції просторового домену, теорія автоматів, теорія подібності; новизна: вперше розроблено методологію розробки і спільного використання візуальних методів розпізнавання жестів рук, яка дозволяє створювати і досліджувати моделі глибокого навчання для розпізнавання статичних та динамічних жестів, здатних працювати в режимі реального часу і забезпечує розуміння способів їх налаштування для різних інтерфейсів управління жестами та потенційних застосувань в системах ЛМВ; удосконалено модель статичного розпізнавання жестів, побудовану згідно пропонованої методології на основі згорткової нейронної мережі, шляхом штучного збільшення даних і використання контурів. Завдяки використанню контурів, модель є стійкою до відносно широких кутів обертання рук і незалежною від освітлення. Модель із доповненими даними досягла точності 97,12%, що майже на 4% перевищує модель без доповнень (92,87%), при цьому, для ефективної роботи достатньо стандартної веб-камери; дістала подальшого розвитку технологія розпізнавання та прогнозування жестів на основі моделі генерації послідовностей з використанням ConvLSTM2D і Conv3D. Для подальшого розширення можливостей ConvLSTM для вирішення проблеми прогнозування жестів було виконано наступні модифікації: (1) на етапі попередньої обробки введено виявлення контура, реалізованного у вигляді фільтру. Фільтрація на вхідному рівні дозволила фіксувати часові залежності та зменшити шум вхідного сигналу; (2) проведена заміна 3 шарів batch normalization на 3 слоя dropout regularization що дозволило знизити перенавчання та мінімізувати помилки передбачення при прогнозуванні жестів. Отримана точність склала 90%, що на 30% краще ніж у моделі ConvLSTM з batch normalization (60%); удосконалено модель скінченного автомату для безконтактного управління переглядом медичних зображень за допомогою жестів яка, на відміну від існуючих, використовує дані прогнозованих кадрів відеопослідовностей, що дозволяє зменшити час відгуку системи; для тестування пропонованих моделей і методу інформаційної технології розв’язування задач розпізнавання та прогнозування жестів в операційній залі створено новий датасет i виконано концептуальну розробку інтуїтивного словникового запасу динамічних жестів, що дозволяє реалізувати ефективну безконтактну інтерактивну систему, адаптовану до особливостей хірургічного контексту; удосконалено структурну модель інформаційної технології ЛМВ з використанням жестів, за рахунок визначення основних етапів та інформаційних потоків створення та інтеграції моделей глибокого навчання, яка забезпечує прийняття рішень щодо застосування розроблених методів, засобів і технологій; результати дослідження: розроблено програмні реалізації моделей системи розпізнавання, яка демонструє високу точність і швидкодію з низкою чутливістю до умов освітлення. Результати дисертаційної роботи використовуються в якості базових елементів системи ЛМВ для навігації та перегляду медичних зображень в операційній залі.

Файли

Схожі дисертації