Дисертаційна робота присвячена розробці та дослідженню алгоритмів керування на основі глибокого навчання з підкріпленням та імітації для задач автоматизованого догляду. Проблематика, що лежить в основі дослідження, є надзвичайно актуальною з огляду на глобальні демографічні зміни, які проявляються у старінні населення та нестачі людських ресурсів для забезпечення повноцінного догляду за пацієнтами.
Метою дослідження є створення алгоритмів, здатних керувати роботизованими системами для задач догляду, забезпечуючи при цьому високу адаптивність, безпеку та ефективність у непередбачуваних умовах. Дисертація складається із семи розділів, у яких детально розглянуто як теоретичні основи методів глибокого навчання з підкріпленням, так і практичні аспекти їх реалізації для систем роботизованого догляду.
У першому розділі розглянуто загальні проблеми роботизованого догляду в контексті глобальних демографічних змін та сучасних викликів. Особлива увага приділена потребам України, де війна значно збільшила кількість людей, які потребують тривалого догляду та реабілітації. Визначено ключові технічні та соціальні перешкоди для впровадження автоматизованих систем, серед яких висока вартість, технічна складність та необхідність забезпечення безпеки під час фізичної взаємодії з пацієнтами.
Другий розділ зосереджено на розробці стратегій керування, що забезпечують робастність та стійкість роботизованих систем. Запропоновано нові методи на основі дифузійних стратегій та алгоритмів навчання з підкріпленням, що дозволяють зменшити ризики виникнення помилок у поведінці робота. Значну увагу приділено розробці підходів для оптимізації цільових функцій, що дозволяють системам ефективно виконувати завдання навіть в умовах обмеженої кількості навчальних даних.
У третьому розділі досліджено методи навчання візуальних нейромережевих стратегій для керування системами догляду. Проблема полягала у необхідності обробки неповних або неточних даних сенсорів, що характерно для реальних умов експлуатації роботів. Запропоновано архітектуру нейронної мережі, яка забезпечує стабільне керування на основі візуальної інформації без привілейованих даних. Результати симуляцій у системах Assistive Gym показали високу ефективність запропонованих стратегій.
Четвертий розділ присвячено розробці методів раннього виявлення аномальної поведінки нейромережевих стратегій для підвищення безпеки систем догляду. Основні способи оцінки ризику або аномальності стратегії включають ансамблі прогнозних моделей. В розділі спочатку досліджуються моделі такого типу, їх варіації та модифікації. Далі виводиться метод, який використовує нормалізуючі потоки для моделювання очікуваної поведінки системи та ідентифікації відхилень у реальному часі. Він базується на існуючому методі виявлення аномалій в часових рядах, здатному оцінювати аномальність ряду тільки маючи повний часовий ряд, але при цьому дозволяє виявляти аномалії в реальному часу якомога раніше.
У п’ятому розділі в фокусі опиняється клас методів вивчення керованого середовища. Загалом такі методи дозволяють знизити розмірність простору станів середовища таким чином, щоб отриманий прихований простір станів мав динаміку, яка є гладкою або локально-лінійною. Застосування подібних методів до задачі автоматизованого догляду дозволило б підвищити інтерпретованість стратегій, а відповідно і збільшити безпечність системи.
Шостий розділ зосереджено на проблемах кодування дій та оптимізації представлень для керування системами догляду. Запропоновано підходи на основі узгодженості з кодуванням дій, що дозволяють стабілізувати поведінку системи та забезпечити робастне керування навіть у динамічних середовищах із складними просторами дій.
Сьомий розділ присвячений розробці цілісної багатокомпонентної системи керування для задач роботизованого догляду на базі нейромережевих стратегій. Спочатку запропоновано і реалізовано фізичну систему керування для задач годування з використанням методів навчання імітацією.
Отримана система підтримки прийняття рішень є наскрізною, тобто такою в якій керування реалізується нейронною мережею за сенсорними сигналами та виходами інших нейронних мереж. Це знижує вартість системи зменшуючи залежність від дорогих компонент. Були досліджені показники успішності порівнюваних алгоритмів, а також точність системи раннього виявлення аномалій при різних порогових значеннях.
Практичне значення отриманих результатів полягає у можливості використання запропонованих методів для створення ефективних та доступних систем роботизованого догляду, що можуть застосовуватись у реабілітаційних центрах, медичних закладах та для домашнього догляду. Впровадження таких систем дозволить значно зменшити навантаження на медичний персонал та забезпечити якісний догляд за пацієнтами. Фізична реалізація запропонованої системи також була розроблена за результатами досліджень в рамках роботи.