IntRec 의도 기반 객체 검색과 대조 정제

IntRec 의도 기반 객체 검색과 대조 정제
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

IntRec은 사용자 피드백을 이용해 긍정·부정 예시를 메모리화하고, 대조 정렬 점수로 후보 객체를 재순위화함으로써 복잡한 장면에서 모호한 객체 검색 정확도를 크게 향상시키는 인터랙티브 프레임워크이다.

상세 분석

IntRec은 기존의 일회성(open‑vocabulary) 객체 탐지기와 달리 “Intent State”(IS)라는 두 개의 메모리 집합(긍정 앵커 Z⁺와 부정 제약 Z⁻)을 도입한다. 초기 텍스트·이미지 프롬프트는 CLIP 기반 인코더를 통해 임베딩 z₀ᵖ 로 변환되고, 이는 Z⁺에 삽입된다. 이후 사용자는 시스템이 제시한 후보 영역에 대해 “긍정(확인)” 혹은 “부정(거절)” 피드백을 제공한다. 부정 피드백은 해당 영역 임베딩을 Z⁻에 추가하고, 긍정 피드백은 영역 임베딩 혹은 새로운 텍스트 임베딩을 Z⁺에 추가한다. 이렇게 축적된 IS는 매 라운드마다 후보 영역 rⱼ에 대해

S(rⱼ|ISₜ)=max_{z⁺∈Z⁺}cos(rⱼ,z⁺) − λ·max_{z⁻∈Z⁻}cos(rⱼ,z⁻)

라는 대조 정렬 점수를 계산한다. λ는 부정 제약의 영향력을 조절하는 하이퍼파라미터이며, 양쪽 최대값을 사용함으로써 “any‑positive, any‑negative” 형태의 다중 기준을 구현한다. 이 설계는 (1) 동일한 텍스트 쿼리에도 서로 다른 시각적 속성을 구분할 수 있게 하고, (2) 한 번의 부정 피드백만으로도 유사 객체 사이의 미세 차이를 크게 벌려 정확도를 급격히 끌어올린다.

알고리즘은 후보 영역을 사전 학습된 탐지기(예: Faster‑RCNN + CLIP)에서 추출한 M개의 피처 벡터에 적용한다. 실시간성을 위해 후보 점수 계산은 행렬 연산으로 병렬화되며, 한 인터랙션당 평균 30 ms 이하의 추가 지연을 보인다.

실험에서는 LVIS와 LVIS‑Ambiguous 두 벤치마크를 사용했으며, IntRec은 기본 OVMR, CoDet, CAKE 대비 각각 +2.3, +3.7, +0.5 AP 향상을 달성했다. 특히 LVIS‑Ambiguous에서는 단일 부정 피드백 후 AP가 7.9점 상승해, 기존 일회성 모델이 겪는 “distractor” 문제를 효과적으로 해결한다. Ablation study에서는 (i) Z⁺만 사용했을 때와 (ii) Z⁻만 사용했을 때 성능이 크게 떨어짐을 확인했으며, λ = 0.5 ~ 0.7 구간이 최적임을 보고한다.

이러한 설계는 인간‑로봇 협업, AR/VR 시각 검색 등 실시간 사용자‑중심 인터페이스에 바로 적용 가능하며, 기존 정적 탐지 파이프라인에 최소한의 메모리와 연산만 추가하면 된다.


댓글 및 학술 토론

Loading comments...

의견 남기기