Метод навчання автономних мобільних роботів на основі drl та curriculum learning

Бушма, Олександр Володимирович та Ганенко, Людмила (2025) Метод навчання автономних мобільних роботів на основі drl та curriculum learning Кібербезпека: освіта, наука, техніка" є рецензованим технічним часописом галузі інформаційних техноло, 30 (2). с. 568-582. ISSN 2663-4023

[thumbnail of Bushma_Cybersecurity_2025-30-v2_FITM.pdf] Текст
Bushma_Cybersecurity_2025-30-v2_FITM.pdf - Опублікована версія
Available under License Creative Commons Attribution Non-commercial.

Download (1MB)
Офіційне посилання: https://www.csecurity.kubg.edu.ua/index.php/journa...

Анотація

Робота присвячена актуальній задачі підвищення ефективності соціально- адаптивної навігації автономних мобільних роботів у динамічних середовищах із присутністю людей. Застосування методів глибокого навчання з підкріпленням (DRL) для вирішення цієї задачі ускладнюється високою розмірністю простору станів, складністю формалізації соціальних норм у функції винагороди та нестабільністю процесу навчання. Для подолання цих викликів запропоновано метод, що інтегрує алгоритм Proximal Policy Optimization (PPO) зі стратегією навчання за програмою Curriculum Learning (CL). Розроблена навчальна програма поєднує поступове ускладнення середовища (від статичних перешкод до середовища із рухомими агентами-людьми) та поетапне формування функції винагороди із додаванням соціальних компонентів. Ключовою особливістю є перехід між етапами, який базується на аналізі стабільності політики. Експериментальне дослідження проведено в розробленому симуляційному середовищі Gazebo із використанням мобільного робота Turtlebot3 Waffle та фреймворку ROS 2 Humble. Поетапне навчання дозволяє автономному мобільному роботу спочатку засвоїти базові навички уникнення статичних перешкод, потім — динамічних, і на завершальному етапі — враховувати соціальні норми взаємодії з людьми. Вхідними даними для системи є дані з LiDAR, стан робота та людей, а також цільова позиція. Результатом методу є оптимізована стохастична політика поведінки, що дозволяє автономному мобільному роботу приймати безпечні, ефективні та соціально прийнятні навігаційні рішення. Проведено порівняльний аналіз запропонованого методу із стандартним алгоритмом PPO. Отримані результати підтверджують, що запропонований метод дозволяє формувати ефективну політику соціально-адаптивної навігації, вирішуючи проблеми нестабільності та повільної збіжності.

Тип елементу : Стаття
Ключові слова: інформаційні технології; методи машинного навчання; методи навчання з підкріпленням; Deep Reinforcement Learning; Curriculum Learning; автономні мобільні роботи; навігація мобільних роботів; ROS 2; Gazebo
Типологія: Статті у періодичних виданнях > Фахові (входять до переліку фахових, затверджений МОН)
Статті у періодичних виданнях > Наукові рецензовані журнали (входять до інших баз, крім перерахованих та Google Academy, мають ISSN, DOI, індекс цитування)
Підрозділи: Факультет інформаційних технологій та математики > Кафедра комп'ютерних наук
Користувач, що депонує: Dr. Sci. Aleksandr / A..V. Bushma
Дата внесення: 05 Січ 2026 09:18
Останні зміни: 05 Січ 2026 09:18
URI: https://elibrary.kubg.edu.ua/id/eprint/55858

Actions (login required)

Перегляд елементу Перегляд елементу