커리큘럼 학습 기반 강화 학습을 통한 미지의 곡관 내 자율 드론 항법
초록
본 연구는 드론이 기하학적 정보 없이도 미지의 3차원 곡선형 튜브를 항해할 수 있는 강화 학습 접근법을 제안한다. LiDAR와 조건부 시각 감지만을 사용하는 에이전트는, 튜브 중심선에 대한 명시적 접근 권한을 가진 Pure Pursuit 알고리즘보다 우수한 성능을 보이며, 점진적 커리큘럼 학습과 회전 협상 메커니즘을 통해 부분 관측성 하에서도 강건한 항법 행동을 학습한다.
상세 분석
이 논문의 기술적 핵심은 ‘정보 비대칭’ 환경에서의 강화 학습 적용과 ‘부분 관측성’ 문제를 해결하기 위한 복합적 관측 전략에 있다. 연구팀은 베이스라인으로 튜브 생성의 기준이 되는 중심선(centerline)에 대한 완전한 정보를 활용하는 결정론적 Pure Pursuit 알고리즘을 설정했다. 이는 강화 학습 에이전트가 가진 국지적 LiDAR/시각 정보만으로 얼마나 효과적으로 항법을 보상할 수 있는지를 엄격하게 평가하기 위한 설계이다.
에이전트의 관측 공간 설계가 매우 정교하다. 37차원의 관측 벡터는 단순한 센서 원시 데이터가 아닌, LiDAR에서 추출한 수평/수직 비대칭도, 대칭 점수 등 고차원 기하학적 특징, 드론의 방향/운동학, 목표점의 시각적 방향, 그리고 목표가 시야에서 사라졌을 때를 대비한 ‘방향성 메모리’ 메커니즘으로 구성된다. 이 ‘메모리’는 회전 구간에서 튜브 중심이 보이지 않을 때, 마지막으로 알려진 방향 정보를 유지하여 연속적인 항법을 가능하게 하는 핵심 장치다.
학습 안정화와 일반화 성능 향상을 위한 ‘커리큘럼 학습’ 전략도 주목할 만하다. 학습 초기에는 거의 직선인 튜브에서 시작하여, 점차 곡률이 높고 복잡한 기하학적 구조로 진행함으로써 정책이 갑작스러운 난이도 상승에 의해 붕괴되는 것을 방지한다. 특히 레벨 2에서는 시야에서 중심점이 자주 사라지는 급격한 회전 구간을 포함하며, 이때 에이전트는 LiDAR 비대칭 신호와 방향성 메모리에만 의존해야 하는 가장 어려운 과제에 직면하게 된다.
이러한 접근법은 단순한 충돌 회피를 넘어, 튜브의 국지적 대칭성을 유지하며 중심을 따라가는 ‘정렬(Centering and Alignment)’ 행동을 내재적으로 학습하도록 유도한다. 고충실도 시뮬레이션에서의 검증은 학습된 정책이 연속적인 물리 역학으로 전이 가능함을 시사하며, 실제 산업·의료용 협소 관로 적용에 대한 실용적인 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기