대형 언어 모델 기반 선박 궤적 예측 강화와 그룹 상대 정책 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 선박 궤적 예측을 텍스트‑투‑텍스트 생성 문제로 재구성하고, 동적 프롬프트와 규칙 기반 보상 함수를 활용해 체인‑오브‑생각(CoT) 추론을 유도한다. Qwen‑3 모델을 백본으로 삼고, 그룹 상대 정책 최적화(GRPO) 알고리즘으로 강화 학습을 수행하여 기존 딥러닝 및 LLM 기반 베이스라인 대비 예측 오차를 크게 감소시킨다. 두 실제 AIS 데이터셋(CSJP, CFDP)에서 실험한 결과, 제안 방법이 가장 낮은 평균 오류를 기록하였다.

상세 분석

ShipTraj‑R1은 선박 궤적 예측을 전통적인 수치 회귀가 아닌 자연어 생성 형태로 전환함으로써 LLM의 강점인 의미 이해와 논리적 추론을 직접 활용한다. 핵심 설계는 세 가지로 요약된다. 첫째, “동적 프롬프트”는 목표 선박의 과거 좌표와 충돌 위험이 높은 인접 선박들의 궤적을 텍스트 형태로 삽입한다. 이때 충돌 위험 판단은 Quaternion Ship Domain(QSD) 모델을 이용해 위험 수준을 정량화하고, 위험 임계값을 초과하는 선박만을 선택해 프롬프트 길이를 효율적으로 관리한다. 둘째, 규칙 기반 보상 함수는 두 부분으로 구성된다. ‘생각 형식 보상’은 모델이 와 태그 사이에 명확한 CoT 과정을 기술하고, 내부에 정확히 T_pred개의 좌표쌍을 포함하도록 강제한다. 형식 위반 시 0점, 준수 시 1점이 부여된다. ‘예측 정확도 보상’은 Vincenty 거리 공식을 사용해 예측 좌표와 실제 좌표 간의 지리적 오차를 측정한다. 중심점 거리 120 m 이하이면 1점, 각 좌표별 90 m 이하이면 추가 점수를 부여해 총점이 T_pred+1에 도달하도록 설계하였다. 셋째, GRPO는 각 샘플에 대해 M개의 후보 출력을 생성하고, 위 보상으로부터 상대적 이점을 계산한다. 이 이점은 평균·표준편차 정규화 후 클리핑된 중요도 가중치와 결합되어 정책 업데이트에 사용된다. KL‑다이버전스 정규화 항을 포함해 기존 정책과의 급격한 변화를 억제한다. 이러한 설계는 LLM이 단순히 과거 궤적을 모방하는 것이 아니라, 주변 선박과의 상호작용을 고려한 안전‑중심 추론을 수행하도록 만든다. 실험에서는 Qwen‑3를 백본으로 사용했으며, 두 복잡한 해역 데이터에서 평균 위치 오차가 기존 LSTM, CNN, Graph‑based 모델 및 LLM 기반 베이스라인(LMTraj‑SUP, LG‑Traj)보다 현저히 낮았다. 특히 충돌 위험 상황에서의 CoT 추론이 예측 정확도와 해석 가능성을 동시에 향상시킨 점이 주목할 만하다. 다만, 텍스트 변환 과정에서 좌표 정밀도가 제한될 수 있고, 프롬프트 길이가 길어질 경우 토큰 제한에 부딪히는 점은 향후 개선이 필요하다.

대형 언어 모델 기반 선박 궤적 예측 강화와 그룹 상대 정책 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기