CIEC 암시와 명시 단서를 결합한 다중모달 약한 지도 조작 위치 탐지
초록
CIEC는 이미지‑텍스트 쌍에 대해 세밀한 라벨 없이도 조작 영역을 찾는 약한 지도 학습 프레임워크이다. 이미지 쪽에서는 텍스트‑가이드 패치 선택(TRPS) 모듈이 시각·언어 단서를 결합해 의심 영역을 추출하고, 배경 억제와 공간 대비 제약으로 잡음을 줄인다. 텍스트 쪽에서는 시각 편차 보정 토큰 정렬(VCTG) 모듈이 의미 있는 내용어에 집중해 시각적 편차를 보정하고, 비대칭 희소·의미 일관성 제약으로 라벨 노이즈를 완화한다. 실험 결과, 완전 지도 방식과 경쟁 가능한 성능을 보인다.
상세 분석
CIEC는 기존 멀티모달 조작 탐지 연구가 겪는 두 가지 근본적인 한계를 동시에 해결한다. 첫째, 미세한 픽셀·토큰 수준의 라벨을 요구하는 비용 문제를 완화하기 위해 이미지‑텍스트 전체에 대한 ‘진위’ 라벨만을 사용한다. 둘째, 이미지와 텍스트의 변조 위치가 서로 독립적일 수 있다는 특성을 반영한다. 이를 위해 두 개의 전용 브랜치를 설계했으며, 각각의 브랜치는 서로의 단서를 보강한다. 이미지 브랜치의 TRPS는 (1) 텍스트에서 추출한 핵심 명사·형용사와 연관된 시각 히트맵을 초기 패치 후보로 사용하고, (2) 사전 학습된 객체·장면 공간 priors를 결합해 후보 영역을 정제한다. 이후 배경 억제(Background Silencing)와 공간 대비(Spatial Contrast) 손실을 도입해 비관련 영역의 활성화를 억제한다. 텍스트 브랜치의 VCTG는 (1) 이미지와의 교차‑어텐션을 통해 각 토큰이 유발하는 시각 편차를 측정하고, (2) 편차가 큰 토큰을 ‘시각적 의심 토큰’으로 선정한다. 비대칭 희소 제약은 실제 변조가 적은 토큰에 대해 강한 패널티를 부여해 과도한 활성화를 방지하고, 의미 일관성(semantic consistency) 제약은 텍스트 내 논리적 일관성을 유지하도록 유도한다. 두 브랜치의 출력은 최종 다중모달 조작 지도에 합쳐지며, 공동 학습 과정에서 상호 보완적인 신호가 강화된다. 실험에서는 DGM4와 같은 대규모 이미지‑텍스트 변조 데이터셋을 사용해, 정확도·IoU·F1 점수에서 완전 지도 기반 최신 모델과 근소한 차이만을 보이며, 라벨링 비용을 크게 절감한다. 또한, 교차‑모달 불일치(TF, FT) 상황에서도 안정적인 성능을 유지한다는 점이 주목할 만하다. 전체적으로 CIEC는 약한 지도 학습에 시각·언어 양쪽의 암시적(implicit)·명시적(explicit) 단서를 효과적으로 결합한 설계가 강점이며, 향후 LLM·비전 트랜스포머와의 연계에도 확장 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기