Титаренко А. М. Глибоке навчання з підкріпленням для задач роботизованого догляду

English version

Дисертація на здобуття ступеня доктора філософії

Державний реєстраційний номер

0825U001678

Здобувач

Спеціальність

  • 124 - Системний аналіз

Спеціалізована вчена рада

PhD 8714

Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Анотація

Дисертаційна робота присвячена розробці та дослідженню алгоритмів керування на основі глибокого навчання з підкріпленням та імітації для задач автоматизованого догляду. Проблематика, що лежить в основі дослідження, є надзвичайно актуальною з огляду на глобальні демографічні зміни, які проявляються у старінні населення та нестачі людських ресурсів для забезпечення повноцінного догляду за пацієнтами. Метою дослідження є створення алгоритмів, здатних керувати роботизованими системами для задач догляду, забезпечуючи при цьому високу адаптивність, безпеку та ефективність у непередбачуваних умовах. Дисертація складається із семи розділів, у яких детально розглянуто як теоретичні основи методів глибокого навчання з підкріпленням, так і практичні аспекти їх реалізації для систем роботизованого догляду. У першому розділі розглянуто загальні проблеми роботизованого догляду в контексті глобальних демографічних змін та сучасних викликів. Особлива увага приділена потребам України, де війна значно збільшила кількість людей, які потребують тривалого догляду та реабілітації. Визначено ключові технічні та соціальні перешкоди для впровадження автоматизованих систем, серед яких висока вартість, технічна складність та необхідність забезпечення безпеки під час фізичної взаємодії з пацієнтами. Другий розділ зосереджено на розробці стратегій керування, що забезпечують робастність та стійкість роботизованих систем. Запропоновано нові методи на основі дифузійних стратегій та алгоритмів навчання з підкріпленням, що дозволяють зменшити ризики виникнення помилок у поведінці робота. Значну увагу приділено розробці підходів для оптимізації цільових функцій, що дозволяють системам ефективно виконувати завдання навіть в умовах обмеженої кількості навчальних даних. У третьому розділі досліджено методи навчання візуальних нейромережевих стратегій для керування системами догляду. Проблема полягала у необхідності обробки неповних або неточних даних сенсорів, що характерно для реальних умов експлуатації роботів. Запропоновано архітектуру нейронної мережі, яка забезпечує стабільне керування на основі візуальної інформації без привілейованих даних. Результати симуляцій у системах Assistive Gym показали високу ефективність запропонованих стратегій. Четвертий розділ присвячено розробці методів раннього виявлення аномальної поведінки нейромережевих стратегій для підвищення безпеки систем догляду. Основні способи оцінки ризику або аномальності стратегії включають ансамблі прогнозних моделей. В розділі спочатку досліджуються моделі такого типу, їх варіації та модифікації. Далі виводиться метод, який використовує нормалізуючі потоки для моделювання очікуваної поведінки системи та ідентифікації відхилень у реальному часі. Він базується на існуючому методі виявлення аномалій в часових рядах, здатному оцінювати аномальність ряду тільки маючи повний часовий ряд, але при цьому дозволяє виявляти аномалії в реальному часу якомога раніше. У п’ятому розділі в фокусі опиняється клас методів вивчення керованого середовища. Загалом такі методи дозволяють знизити розмірність простору станів середовища таким чином, щоб отриманий прихований простір станів мав динаміку, яка є гладкою або локально-лінійною. Застосування подібних методів до задачі автоматизованого догляду дозволило б підвищити інтерпретованість стратегій, а відповідно і збільшити безпечність системи. Шостий розділ зосереджено на проблемах кодування дій та оптимізації представлень для керування системами догляду. Запропоновано підходи на основі узгодженості з кодуванням дій, що дозволяють стабілізувати поведінку системи та забезпечити робастне керування навіть у динамічних середовищах із складними просторами дій. Сьомий розділ присвячений розробці цілісної багатокомпонентної системи керування для задач роботизованого догляду на базі нейромережевих стратегій. Спочатку запропоновано і реалізовано фізичну систему керування для задач годування з використанням методів навчання імітацією. Отримана система підтримки прийняття рішень є наскрізною, тобто такою в якій керування реалізується нейронною мережею за сенсорними сигналами та виходами інших нейронних мереж. Це знижує вартість системи зменшуючи залежність від дорогих компонент. Були досліджені показники успішності порівнюваних алгоритмів, а також точність системи раннього виявлення аномалій при різних порогових значеннях. Практичне значення отриманих результатів полягає у можливості використання запропонованих методів для створення ефективних та доступних систем роботизованого догляду, що можуть застосовуватись у реабілітаційних центрах, медичних закладах та для домашнього догляду. Впровадження таких систем дозволить значно зменшити навантаження на медичний персонал та забезпечити якісний догляд за пацієнтами. Фізична реалізація запропонованої системи також була розроблена за результатами досліджень в рамках роботи.

Публікації

Tytarenko, Andrii. "Multi-step prediction in linearized latent state spaces for representation learning." System research and information technologies 3 (2022): 139-148. DOI: https://doi.org/10.20535/SRIT.2308-8893.2022.3.09

Tytarenko, Andrii. "Action Encoding in Algorithms for Learning Controllable Environment." System Analysis and Artificial Intelligence. Cham: Springer Nature Switzerland, 2023. 271-287. DOI: https://doi.org/10.1007/978-3-031-37450-0_16

Tytarenko, Andrii. "Reducing Risk for Assistive Reinforcement Learning Policies with Diffusion Models " System research and information technologies 3 (2024): 148–154. DOI: https://doi.org/10.20535/SRIT.2308-8893.2024.3.09

Tytarenko,Andrii."Detectingunsafebehaviorinneuralnetworkimitationpolicies for caregiving robotics" System research and information technologies 4 (2024): 86-96. DOI: https://doi.org/10.20535/SRIT.2308-8893.2024.4.07

Kurniawan, Erick and Jukl, Alexander and Kalajian, Michael and Sytyi, Mykyta and Tytarenko, Andrii and Yurchenko, Oleg and Shkurka, Olha and Tsyba, Yevhen and Carstoiu, Gabriel. Techniques for generating motion information for videos. US Patent 17219558. Dec 24, 2024. Патент США на винахід.

Схожі дисертації