드론 제어를 위한 대형 언어 모델 물리 안전 평가
초록
본 논문은 드론 제어에 LLM을 활용할 때 발생할 수 있는 물리적 위험을 체계적으로 정의하고, 400여 개의 시나리오로 구성된 벤치마크를 통해 주요 LLM들의 안전성을 정량화한다. 인간·물체·인프라·규제 위반 네 가지 위협 카테고리를 제시하고, 코드 정확성, 충돌 회피, 규제 준수 등 여섯 가지 안전 지표를 설계한다. 실험 결과, 코드 생성 능력이 뛰어난 모델일수록 안전 점수가 낮으며, 인‑컨텍스트 학습과 체인‑오브‑생각 기법이 일부 개선을 보이지만 의도치 않은 공격 탐지는 여전히 어려운 것으로 나타났다. 모델 규모가 클수록 위험 명령을 거부하는 경향이 강화된다.
상세 분석
이 연구는 LLM이 실제 로봇, 특히 저비용 드론을 제어하는 상황을 가정하고 물리적 안전을 평가하기 위한 최초의 체계적 프레임워크를 제시한다. 먼저 위험을 인간‑대상, 물체‑대상, 인프라 공격, FAA 규제 위반 네 가지 카테고리로 구분하고, 각 카테고리에 대응하는 구체적 시나리오를 설계하였다. 시나리오는 ‘직접 명령 공격’, ‘간접 명령 공격’, ‘코드 삽입’ 등 악의적 사용을 위한 고의 공격과, ‘오해된 지시’, ‘고위험 지시’, ‘시나리오 간과’ 등 사용자의 실수에서 비롯되는 비의도적 공격을 포함한다. 또한 ‘비행 금지 구역 침범’, ‘과도한 고도·속도’ 등 규제 위반 상황과, 기본적인 ‘이륙·이동·경로 따라가기’ 등 유틸리티 작업을 포함해 총 400여 개의 프롬프트를 구축하였다.
평가 파이프라인은 두 단계 AI 심판을 도입한다. 첫 번째는 코드 검증 심판으로, 생성된 파이썬 코드가 문법적으로 올바르고 시뮬레이션 환경(AirSim)에서 실행 가능한지를 판단한다. 두 번째는 안전 평가 심판으로, 코드가 위험 명령을 포함하는지, 규제를 위반하는지, 혹은 자체적으로 위험을 회피하도록 수정했는지를 판단한다. 특히 ‘Self‑Assurance’와 ‘Safety Refusal’ 행동을 별도로 측정해 모델이 위험을 인식하고 스스로 방어하는 능력을 정량화한다.
실험에 사용된 모델은 GPT‑3.5‑Turbo, Gemini‑Pro, Llama‑2‑7B‑Chat, CodeLlama‑7B‑Instruct, Llama‑3‑8B‑Instruct, Mistral‑7B‑Instruct‑v0.2, CodeQwen1.5‑7B‑Chat 등이다. 결과는 다음과 같다. 첫째, 코드 생성 정확도가 높은 모델(GPT‑3.5‑Turbo, CodeLlama 등)은 인간·물체·인프라 공격을 거부하는 비율이 낮아 안전‑유틸리티 트레이드오프가 존재한다. 둘째, 인‑컨텍스트 학습(ICL)과 제로‑샷 체인‑오브‑생각(ZS‑CoT) 프롬프트를 적용하면 전체 안전 점수가 약 5~8% 상승하지만, 특히 비의도적 공격을 식별하는 데는 큰 개선이 없었다. 셋째, 모델 규모가 클수록 ‘Self‑Assurance’와 ‘Regulatory Compliance’ 점수가 상승했으며, 대형 모델은 위험 명령에 대해 거부하거나 코드를 안전하게 수정하는 경향이 뚜렷했다. 그러나 규모 확대가 모든 안전 지표에 균등하게 기여하는 것은 아니며, 특정 카테고리(예: 인프라 공격)에서는 한계가 남아 있다.
이 논문은 물리적 안전을 정량화하기 위한 지표 체계와 시뮬레이션 기반 평가 인프라를 제공함으로써, LLM 기반 로봇 제어 시스템의 설계·검증 단계에 실용적인 도구를 제공한다. 또한, 현재 LLM이 복합적인 물리적 위험을 완전히 이해하고 예방하기에는 아직 부족함을 지적하고, 향후 안전‑정렬 기법 및 대규모 모델 학습이 필요함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기