수중 도킹을 위한 시뮬레이션 실전 전이 딥 강화학습

수중 도킹을 위한 시뮬레이션 실전 전이 딥 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고충실도 디지털 트윈인 Stonefish를 멀티프로세스 환경에 통합하고 PPO 기반 6자유도 제어 정책을 학습시켜, Girona AUV의 자동 도킹을 시뮬레이션에서 90% 이상의 성공률로 달성한 뒤 실제 테스트 탱크에서도 성공을 검증한다. 보상 함수는 거리·각도·행동 평활성·충돌·임무 보상을 결합하고, 관측에는 거리‑가중 가우시안 노이즈와 가시성 기반 잡음이 삽입되어 시뮬‑실전 격차를 최소화한다.

상세 분석

이 연구는 수중 로봇 분야에서 가장 큰 난제 중 하나인 “시뮬‑실전 격차”를 체계적으로 해소하려는 시도로 평가된다. 먼저 Stonefish 시뮬레이터를 기존 단일 스레드 구조에서 20개의 학습 스레드와 1개의 평가 스레드로 확장함으로써 학습 속도를 실시간의 5배 이상 가속했다. 이는 물리 연산을 CPU에 의존하면서도 고충실도 유체·충돌 모델을 유지할 수 있게 해, 저비용 GPU 기반 시뮬레이터(JAX‑MJX)와는 다른 장점을 제공한다.

정책 학습에는 Proximal Policy Optimization(PPO)을 선택했는데, 이는 연속 제어에 강인하고 클리핑 기법으로 급격한 정책 변화를 억제한다는 점에서 적절했다. 초기 단계에서 Soft Actor‑Critic(SAC)도 시험했지만, 실제 탱크 실험에서 PPO가 더 안정적인 성능을 보였다는 실증적 근거를 제시한다.

상태공간은 번역 오차(3차원), 요각 오차, 선·각속도, IMU 기반 가속도 총 10개 변수로 구성했으며, 관측 노이즈는 거리 비례 가우시안 베이스 노이즈와 목표 가시성에 따른 오클루전 노이즈를 결합해 현실 센서의 불확실성을 모사한다. 특히 노이즈 스케일을 거리의 1/6으로 설정한 점은 원거리에서의 추정 불확실성을 자연스럽게 반영한다.

행동공간은 6자유도 힘·토크 벡터이며, 실제 AUV는 5개의 스러스터로 롤을 직접 제어하지 못한다는 물리적 제약을 인정하고도 6차원 액션을 유지함으로써 정책이 물리적 제한을 학습 과정에서 스스로 파악하도록 설계했다.

보상 함수는 다중 요소를 가중합한 형태다. 거리 보상은 Mahalanobis 거리에 축별 가중치를 곱해 X·Y 축을 우선시했으며, 각도 보상은 요각 오차에 대한 지수형 페널티를 적용했다. 행동 평활성 보상은 연속 액션 차이의 L1 노름에 음의 상수를 곱해 급격한 제어 변화를 억제한다. 충돌 보상은 가속도 변화가 임계값을 초과할 경우 페널티를 부여하고, 임계값은 충돌 발생 여부에 따라 적응적으로 조정돼 센서 바운싱을 방지한다. 마지막으로 임무 보상은 목표 도달 시 큰 양의 보상을, 에피소드가 강제 종료될 경우 큰 패널티를 부여해 전역 목표를 강조한다. 이러한 설계는 밀집 보상에만 의존하는 정책이 지역 최적점에 머무는 현상을 효과적으로 차단한다.

실험 결과는 두 단계로 나뉜다. 시뮬레이션 단계에서는 평균 보상이 초기 -800에서 300~400으로 상승했으며, 90% 이상의 성공률을 기록했다. 학습 시간은 i7‑CPU와 RTX 4060 GPU 조합으로 약 3시간에 불과했다. 실제 탱크 테스트에서는 동일한 ROS 인터페이스와 카메라 기반 3D 바이너리 마커(3DBM) 추적을 사용해 정책을 그대로 적용했으며, 성공적인 도킹을 확인했다. 특히 정책이 피치 기반 감속과 요각 진동을 자율적으로 활용해 물리적 정렬을 보조하는 ‘emergent behavior’를 보인 점은 DRL이 전통적 제어기와 차별화되는 장점을 시각화한다.

한계점으로는 현재 물결·풍류와 같은 복합 환경 교란을 고려하지 않았으며, 충돌 모델이 단순화된 가이드 펀넬 형태에 국한돼 실제 복잡한 구조물과의 상호작용을 완전히 재현하지 못한다는 점을 언급한다. 또한 20개의 병렬 스레드가 GPU 기반 수천 개 인스턴스에 비해 확장성에서 뒤처질 수 있다는 점도 제시한다. 향후 연구에서는 도메인 랜덤화와 적대적 교란을 결합해 더욱 일반화된 정책을 도출하고, 멀티‑에이전트 협동 도킹 시나리오로 확장하는 방향을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기