오디오·비주얼·텍스트 연동 객체 분할을 위한 마스크 품질 자동 진단 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 언어 기반 오디오‑비주얼 세그멘테이션(Ref‑AVS)에서 생성된 마스크의 품질을, 실제 정답 마스크 없이도 정량·정성적으로 평가하는 새로운 과제(MQA‑RefAVS)를 제안한다. 이를 위해 1,840개의 비디오와 26,061개의 마스크로 구성된 MQ‑RAVSBench 벤치마크를 구축하고, 여섯 가지 오류 유형(Perfect, Cutout, Dilate, Erode, Merge, Full‑Neg)과 IoU 기반 품질 점수 및 행동 권고(accept, minor revision, major revision, reject)를 제공한다. 또한 멀티모달 대형 언어 모델을 활용한 MQ‑Auditor를 설계·학습시켜, 입력 영상·오디오·텍스트와 마스크를 동시에 고려해 자동으로 품질을 추정한다. 실험 결과, MQ‑Auditor가 기존 오픈소스·상용 MLLM보다 높은 정확도로 IoU와 오류 유형을 예측하며, Ref‑AVS 파이프라인에 연동해 segmentation 실패를 효과적으로 탐지하고 전체 성능을 향상시킴을 보였다.

상세 분석

본 연구는 Ref‑AVS 분야에서 “마스크 품질 평가”라는 이전에 거의 다루어지지 않았던 문제를 체계화한다는 점에서 학술적·실용적 의의가 크다. 첫째, 기존 Ref‑AVS 연구는 주로 정답 마스크가 존재하는 상황에서 IoU 등 단일 스칼라 지표로 성능을 측정했으며, 실제 서비스에서는 정답 마스크가 없기 때문에 모델이 생성한 마스크의 신뢰성을 판단하기 어려웠다. 논문은 이러한 한계를 극복하기 위해, 정답 없이도 마스크 품질을 추정하는 MQA‑RefAVS 과제를 정의하고, “IoU 추정”, “오류 유형 분류”, “품질 관리 행동 권고”라는 3가지 출력으로 문제를 구체화한다.

두 번째로, 데이터 구축 방법이 혁신적이다. Ref‑AVSBench을 기반으로 비디오·텍스트·오디오를 그대로 유지하면서, OpenCV 기반의 기하학적 변형(Cutout, Dilate, Erode)과 대형 멀티모달 모델(Qwen2.5‑VL, Rex‑Omni, SAM2)을 활용한 의미적 오류(Full‑Neg, Merge)를 자동 생성한다. 특히 Full‑Neg 마스크는 “음성·시각·텍스트와 일치하지 않는 객체”를 고도화된 VLM을 통해 찾아내어, 실제 현장에서 발생할 수 있는 심각한 의미 오류를 시뮬레이션한다. 이렇게 생성된 6가지 마스크 유형은 각각 IoU 구간과 대응 행동을 사전 정의함으로써, 학습·평가 단계에서 명확한 라벨을 제공한다.

세 번째로, 제안된 MQ‑Auditor는 멀티모달 대형 언어 모델(MLLM)을 기반으로 하면서, 영상 프레임, 오디오 스펙트로그램, 텍스트, 마스크 자체를 모두 입력으로 받아 “멀티모달 추론”을 수행한다. 기존 MLLM은 주로 텍스트·이미지 쌍에 최적화돼 있었으나, MQ‑Auditor는 오디오와 시계열 비디오 정보를 추가로 인코딩하고, 마스크의 픽셀 분포를 별도 토큰화하여 모델이 직접 품질 특성을 학습하도록 설계했다. 감독식 인스트럭션 튜닝을 통해 IoU 회귀, 오류 유형 분류, 행동 권고를 동시에 학습함으로써, 다중 태스크를 하나의 모델에 통합했다.

실험에서는 Gemini‑3‑Flash 등 최신 상용 MLLM과 비교했을 때, IoU 평균 절대 오차(MAE)와 오류 유형 정확도에서 현저히 우수한 성능을 보였다. 특히 “Full‑Neg”와 “Merge”와 같은 의미 오류는 기존 모델이 거의 구분하지 못했으나, MQ‑Auditor는 오디오·텍스트 연관성을 활용해 높은 구분 능력을 나타냈다. 또한 Ref‑AVS 파이프라인에 MQ‑Auditor를 후처리 단계로 삽입하면, 저품질 마스크를 사전에 걸러내어 전체 segmentation 정확도가 평균 3.2%p 상승하는 효과도 확인했다.

마지막으로, 논문은 한계와 향후 과제도 제시한다. 현재 마스크 생성은 주로 정형화된 변형에 의존하므로, 실제 현장에서 나타나는 복합적인 오류(예: 부분적인 색상 혼동, 동적 객체의 모션 블러 등)는 충분히 커버되지 않을 수 있다. 또한 오디오와 텍스트 간의 정교한 정합성을 평가하기 위한 더 정교한 프롬프트 설계와, 실시간 추론을 위한 경량화 모델 연구가 필요하다. 그럼에도 불구하고, MQA‑RefAVS와 MQ‑Auditor는 멀티모달 세그멘테이션 시스템의 신뢰성을 크게 향상시킬 수 있는 실용적인 프레임워크를 제공한다.

오디오·비주얼·텍스트 연동 객체 분할을 위한 마스크 품질 자동 진단 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기