XR 환경에서 열린 집합 객체 탐지를 위한 사용자 프롬프트 전략 및 향상 기법
초록
본 논문은 XR(확장 현실) 환경에서 사용자가 제시하는 자연어 프롬프트의 다양성이 열린 집합 객체 탐지(OSOD) 모델의 성능에 미치는 영향을 체계적으로 조사한다. GroundingDINO와 YOLO‑E 두 최신 OSOD 모델을 실제 AR 이미지에 적용하고, Vision‑Language Model(VLM)을 활용해 ‘표준’, ‘과소‑세부’, ‘과다‑세부’, ‘실용적 모호성’ 네 종류의 프롬프트를 생성한다. 또한 키 객체 추출과 의미 범주 정착이라는 두 가지 프롬프트 향상 전략을 도입해 모호한 프롬프트에 대한 강인성을 크게 개선함을 실험적으로 입증한다.
상세 분석
이 연구는 XR 시스템에서 사용자와 시스템 간의 언어‑시각 인터페이스가 실제 사용 상황에서 얼마나 불안정할 수 있는지를 조명한다. 먼저, 저자들은 기존 OSOD 평가가 텍스트 입력을 깔끔하고 정확하게 가정하는 반면, 실제 XR 사용자는 종종 불완전하거나 과도하게 상세한, 혹은 상황에 따라 암시적인 표현을 사용한다는 점을 지적한다. 이를 재현하기 위해 Vision‑Language Model(VLM)을 이용해 자동으로 네 가지 프롬프트 변형을 생성했으며, 각각은 (1) 표준 프롬프트(핵심 속성만 포함), (2) 과소‑세부 프롬프트(정보가 부족), (3) 과다‑세부 프롬프트(불필요한 속성 과다 포함), (4) 실용적 모호성 프롬프트(의도는 명확하지만 언어적 단서가 부족)로 정의된다.
두 OSOD 모델, GroundingDINO와 YOLO‑E는 구조적으로 차이가 있다. GroundingDINO는 크로스‑모달 트랜스포머를 사용해 텍스트 토큰과 이미지 패치를 정밀하게 정렬하는 반면, YOLO‑E는 경량화된 실시간 탐지를 위해 텍스트 임베딩을 별도 헤드에 결합한다. 실험 결과, 두 모델 모두 과소‑세부와 표준 프롬프트에서는 mIoU와 평균 신뢰도에서 큰 차이를 보이지 않아 어느 정도 강인함을 가지고 있음을 확인했다. 그러나 실용적 모호성 프롬프트에서는 양 모델 모두 탐지 정확도가 급격히 떨어졌으며, 특히 GroundingDINO는 과다‑세부 프롬프트에서도 성능 저하가 두드러졌다. 이는 모델이 텍스트 토큰을 단순히 나열된 서브워드로 처리하고, 속성 간 상호작용을 명시적으로 모델링하지 못하기 때문이다.
프롬프트 향상 전략은 VLM을 활용해 (1) 핵심 객체 명사만 추출하는 ‘키 객체 추출’과 (2) 사용자 설명을 사전 정의된 의미 범주(예: 색상‑형태‑재질)와 매핑하는 ‘범주 정착’ 두 단계로 구성된다. 이 과정을 거친 후 재입력된 프롬프트는 원본보다 평균 55 % 이상의 mIoU 향상과 41 % 이상의 평균 신뢰도 상승을 보였다. 특히 GroundingDINO는 과다‑세부 프롬프트에서의 성능 회복이 두드러졌으며, YOLO‑E는 실용적 모호성 상황에서 가장 큰 이득을 얻었다.
데이터 측면에서는 DiverseAR와 DiverseAR+에서 추출한 264장의 실제 AR 이미지에 대해 목표 객체를 수동으로 지정하고 정확한 바운딩 박스를 라벨링했다. 이는 기존 벤치마크와 달리 사용자 의도와 시각적 복잡성이 동시에 존재하는 환경을 제공한다. 평가 파이프라인은 VLM 기반 프롬프트 생성 → 모델 추론 → 결과 비교의 순환 구조로 설계돼, 인간 라벨링 비용을 최소화하면서도 일관된 프롬프트 변형을 가능하게 한다.
결과적으로, 논문은 (1) OSOD 모델이 텍스트 입력의 품질에 민감함을, (2) 과다‑세부와 모호성 프롬프트가 주요 실패 원인임을, (3) VLM을 이용한 프롬프트 전처리가 실용적인 해결책이 될 수 있음을 입증한다. 향후 연구는 사용자‑시스템 대화형 인터페이스에서 실시간 프롬프트 교정 및 다중 모달 피드백 루프를 구축하는 방향으로 나아갈 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기