대형 언어 모델을 활용한 소형 드론 전술 충돌 회피 정밀 튜닝
본 논문은 BlueSky 시뮬레이터 기반 데이터 생성 파이프라인을 통해 인간 전문가의 규칙을 언어 형태로 변환하고, 이를 Qwen‑Math‑7B 모델에 LoRA 기반 감독학습(SFT) 및 선호 기반 GRPO 학습으로 파인튜닝한다. 실험 결과, SFT가 충돌 회피 정확도와 일관성을 크게 향상시켰으며, GRPO는 협조적 행동을 강화하지만 이질적인 에이전트와의 상호작용에서 견고성이 다소 떨어짐을 보였다.
저자: Iman Sharifi, Alex Zongo, Peng Wei
본 논문은 소형 무인항공시스템(sUAS)이 저고도 공역에서 급증함에 따라, 안전을 보장하면서도 효율적인 전술적 충돌 회피(tactical deconfliction) 기술이 필요함을 강조한다. 전술적 충돌 회피는 짧은 시간 안에 다중 에이전트가 부분적으로 관측 가능한 환경에서 서로 협력해 안전 거리를 유지하고, 불필요한 궤도 편차를 최소화해야 하는 복합 문제이다. 기존 규칙 기반 접근법은 확장성이 부족하고, 최적화·학습 기반 방법은 실시간성·해석 가능성·안전성 측면에서 한계를 보인다. 최근 대형 언어 모델(LLM)이 추론·맥락 이해·연속 의사결정에서 뛰어난 성능을 보이지만, 항공 분야와 같은 안전‑중심 도메인에 직접 적용하면 출력 불안정성·도메인 지식 결여·안전 규칙 위반 위험이 존재한다.
이에 저자들은 LLM을 전술적 충돌 회피 정책 에이전트로 활용하기 위해 두 단계의 파인튜닝 전략을 설계하였다. 첫 번째는 Low‑Rank Adaptation(LoRA)을 이용한 감독학습(Supervised Fine‑Tuning, SFT)이다. 시뮬레이션‑투‑언어 파이프라인을 구축해 BlueSky 시뮬레이터에서 다양한 복합 시나리오를 자동 생성하고, 인간 전문가가 정의한 규칙 기반 정책을 통해 각 상황에 대한 최적 행동(가속, 유지, 감속)을 레이블링한다. 이렇게 얻은 프롬프트‑답변 쌍을 Qwen‑Math‑7B 모델에 LoRA 방식으로 학습시켜, 전체 파라미터를 고정하고 소수의 저차원 가중치만 업데이트함으로써 효율적인 도메인 적응을 달성한다.
두 번째는 Group‑Relative Policy Optimization(GRPO)이라는 선호 기반 정렬 방법이다. 동일 프롬프트에 대해 고온 샘플링으로 K개의 후보 행동을 생성하고, 사전에 정의된 보상 함수(안전 거리 유지, 우선권 존중, 보수적·해석 가능한 기동)를 적용해 각 후보의 상대적 어드밴티지를 계산한다. PPO‑스타일 클리핑 손실을 이용해 높은 어드밴티지를 가진 후보의 확률을 증가시키면서 정책 변동을 제한한다. 이 과정 역시 LoRA 파라미터만 업데이트한다.
데이터 파이프라인은 다음과 같이 구성된다. (1) 시나리오 구성: 프리‑실험 단계에서 20~30대의 sUAS가 동시에 비행하는 복합 시나리오를 무작위로 생성하고, 두 개의 병합 지점과 하나의 교차로를 포함해 도심 저고도 공역의 병목 현상을 재현한다. (2) 에이전트 이질성: 구성 X(고성능 드론)와 구성 Y(저성능 드론)를 정의해 속도·가속·센서 범위 차이를 반영한다. (3) 규칙 기반 정책: 인간 파일럿/관제사의 의사결정을 모사하는 if‑then 규칙을 설계해, 각 에이전트의 현재 속도, 목표 속도, 인접 침입기 수, 거리 등을 고려해 행동을 결정한다. (4) 프롬프트‑답변 변환: 시뮬레이션 로그를 구조화된 자연어 프롬프트와 정답 형태로 변환해 LLM 학습 데이터셋을 만든다.
실험은 두 차원에서 수행되었다. 첫 번째는 검증 데이터셋에서의 정확도·일관성·분리 거리 측정이며, 두 번째는 폐루프 시뮬레이션에서 근접 충돌(Near‑Mid‑Air‑Collision, NMAC) 발생률을 평가하였다. 결과는 다음과 같다. SFT 모델은 원본 Qwen‑Math‑7B 대비 정확도가 약 18%p 상승하고, NMAC 발생률이 65% 감소했다. 이는 감독학습이 인간 규칙을 효과적으로 내재화해 안전성을 크게 향상시킴을 보여준다. GRPO 모델은 SFT보다 약간 낮은 정확도를 보였지만, 협조적 행동(예: 교차로에서 순서 조정)에서 추가적인 이점을 제공했다. 그러나 에이전트가 서로 다른 정책(규칙 기반 vs. 강화학습 기반)일 때 정책 불안정성이 나타나 NMAC 감소 효과가 SFT보다 낮았다.
논문의 주요 기여는 다음과 같다. (1) 항공 교통 관리 분야에서 LLM을 직접 정책 에이전트로 활용하기 위한 시뮬레이션‑투‑언어 데이터 생성 파이프라인을 제안했다. (2) 파라미터 효율적인 LoRA 기반 감독학습이 안전‑중심 의사결정에 높은 정확도와 일관성을 제공함을 실증했다. (3) 선호 기반 GRPO가 협조적 행동을 촉진하지만 이질적 환경에서 견고성 한계가 있음을 밝혀, 두 접근법의 장단점을 명확히 제시했다.
향후 연구 방향으로는 (가) 실제 센서 데이터와 통신 지연을 포함한 온라인 파인튜닝, (나) 다중 LLM 앙상블을 통한 안전성 보강, (다) 규제 기관과 협업해 인증 가능한 안전 프레임워크 구축, (라) 인간‑인공지능 협업 인터페이스 설계 등을 제시한다. 이러한 연구는 sUAS가 점차 상용화되는 미래 공역에서 인간과 인공지능이 안전하게 협력할 수 있는 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기