기하학적 대칭을 활용한 드론 에어로빅 멀티태스크 강화학습

기하학적 대칭을 활용한 드론 에어로빅 멀티태스크 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 마이크로 항공기(MAV)의 회전 대칭(SO(2))을 신경망 구조에 명시적으로 삽입한 멀티태스크 강화학습 프레임워크 GEAR를 제안한다. equivariant actor와 FiLM 기반 태스크 모듈, 다중 헤드 critic을 결합해 플립, 롤, 파워루프 등 다양한 고속 기동을 하나의 정책으로 학습한다. 시뮬레이션에서 98.85% 성공률을 달성했으며, 실제 비행에서도 안정적인 실행과 복합 기동 조합을 검증하였다.

상세 분석

GEAR는 MAV의 물리적 특성 중 중력축을 중심으로 하는 SO(2) 회전 대칭을 활용한다. 논문은 이 대칭이 세계 좌표계의 yaw 회전과 무관하게 동작한다는 점을 증명하고, 이를 정책 네트워크의 입력·출력에 equivariant 구조로 구현한다. 구체적으로, 상태는 세계 좌표계가 아닌 몸체 프레임의 상대 상태(s_rel)로 정의되어 yaw 회전이 적용돼도 동일하게 유지된다. 이를 기반으로 equivariant backbone(예: 그룹 컨볼루션 또는 선형 변환) 위에 FiLM 레이어를 삽입해 태스크 ID와 파라미터를 조절한다. FiLM은 γ와 β 파라미터를 통해 각 태스크에 맞는 스케일·오프셋을 제공함으로써 하나의 공유된 표현을 다수의 기동에 재활용한다. 또한, 다중 헤드 critic을 도입해 각 태스크마다 별도의 가치 함수를 학습, 태스크 간 보상 충돌을 최소화한다. 보상 설계는 위치·속도·각속도 추적 항목을 커널 함수 H(x;k)=1/(1+kx) 로 부드럽게 shaping하고, 태스크별 기하학적 목표(예: 회전 평면 정렬, 목표점 고정)를 추가한다. 이러한 설계는 샘플 효율성을 크게 높여, 기존 MTRL 방식 대비 9.53% 높은 최종 반환값과 98.85%의 성공률을 기록한다. 실험에서는 고속 시뮬레이션 환경과 실제 0.2 kg급 드론에 정책을 전이했으며, 플립·롤·파워루프 등 기본 기동을 조합해 복합 기동을 구현했다. 논문은 대칭을 완전 강제하면 표현력이 제한될 수 있다는 기존 연구와 달리, 몸체 프레임 상대 상태를 이용해 대칭을 자연스럽게 보존함으로써 표현력 손실을 최소화한다는 점에서 차별화된다. 다만, 현재는 SO(2) 대칭만을 고려했으며, 비대칭 환경(예: 풍동, 장애물)에서의 일반화는 추가 연구가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기