주의 기반 이미지 왜곡으로 MLLM 성능 향상
초록
AttWarp는 멀티모달 대형 언어 모델(Multimodal Large Language Model, MLLM)의 교차 모달 주의 정보를 이용해 입력 이미지를 비균일하게 재배치하는 테스트‑타임 기법이다. 모델 가중치를 변경하지 않고, 고주목 영역을 확대하고 저주목 영역을 압축함으로써 작은 객체와 미세 관계를 더 잘 인식하도록 돕는다. TextVQA, GQA, DocVQA, POPE, MMMU 등 다섯 가지 벤치마크와 LLaVA, Qwen‑VL, InternVL, InstructBLIP 네 모델에 적용했을 때 일관된 정확도 향상과 환각 감소를 확인했다.
상세 분석
AttWarp는 기존 MLLM이 이미지 인코더에 입력되기 전 단계에서 작동한다는 점이 핵심이다. 모델 내부의 교차‑모달 주의 행렬을 추출하고, 이를 행·열 별로 합산해 1차원 마진 주의 프로파일(m_x, m_y)을 만든다. 이 프로파일을 정규화한 뒤 누적분포함수(CDF)로 변환하고, 역 CDF를 이용해 좌표 매핑 함수를 정의한다. 결과적으로 고주목 영역은 좌표가 확장되고, 저주목 영역은 압축되는 비선형 사각형 왜곡(rectilinear warping)이 수행된다. 중요한 점은 이 변환이 이미지의 전체 픽셀을 보존한다는 것이다. 즉, 정보 손실 없이 해상도 재분배만 일어나므로 전통적인 크롭이나 마스크 방식보다 전역 컨텍스트를 유지한다.
기술적 구현은 두 단계로 나뉜다. 첫 번째는 “Attention Score Matrix 구현”으로, 선택된 디코더 레이어와 모든 헤드의 교차‑주의 가중치를 평균해 2D 주의 맵 A를 만든다. 이후 Lanczos 업샘플링과 평균 풀링을 거쳐 원본 해상도로 복원한다. 두 번째는 “Rectilinear Image Warping” 단계로, A를 마진 프로파일로 분해하고 CDF를 계산한 뒤, 역 CDF를 이용해 각 픽셀의 새로운 좌표 (f_WarpX, f_WarpY)를 얻는다. 최종 워프된 이미지는 bilinear interpolation으로 샘플링한다. 이 과정은 단일 forward pass와 CDF 연산만으로 실시간에 가까운 속도를 제공한다.
AttWarp‑Chain은 워프를 반복 적용한다. 첫 번째 워프 후 얻은 이미지에 대해 다시 주의 맵을 추출하고, 새로운 워프를 수행한다. KL‑divergence 기반 수렴 기준을 두어 주의 분포가 안정화되면 반복을 종료한다. 이는 복잡한 질의나 매우 작은 객체가 포함된 장면에서 워프 강도를 자동으로 조절한다는 장점을 제공한다.
AttWarp‑Distill은 추론 속도를 크게 개선한다. 오프라인으로 MLLM의 주의 맵을 목표로 하는 마진 프로파일을 수집하고, 이를 학습 데이터로 사용해 경량 네트워크를 훈련한다. 이미지와 텍스트를 입력으로 받아 CLIP‑ViT 토큰을 FiLM으로 텍스트에 조건화하고, 1D Conv 헤드로 마진을 직접 예측한다. 학습된 모델은 추론 시 단일 forward pass만으로 m_x, m_y를 생성하고, 동일한 CDF‑역 변환 과정을 거쳐 워프된 이미지를 만든다. 실험 결과, Distill 버전은 기존 방법 대비 3배 빠르면서도 정확도 손실이 미미했다.
성능 평가에서는 다섯 개 벤치마크와 네 가지 MLLM에 대해 AttWarp, AttWarp‑Chain, AttWarp‑Distill을 비교했다. TextVQA와 GQA에서는 작은 물체 식별 및 위치 관계 질문에서 평균 3~5% 포인트 상승을 보였고, DocVQA에서는 텍스트 영역이 얇게 분포된 경우 OCR‑like 정확도가 4% 이상 향상되었다. POPE와 MMMU 같은 일반화·환각 평가에서도 모델이 질문에 더 일관된 답변을 제공함을 확인했다. 또한, 기존의 Crop, Resize, Seam‑Carving 기반 베이스라인보다 전역 레이아웃 보존과 세부 디테일 강조 측면에서 우수했다.
한계점으로는 주의 맵의 품질에 크게 의존한다는 점이다. 만약 MLLM이 초기 단계에서 잘못된 주의를 할당하면 워프가 오히려 성능을 저하시킬 수 있다. 또한, 현재는 정사각형 그리드 구조에 맞춘 직선형 워프만 지원하므로, 복잡한 비선형 왜곡을 구현하려면 추가 연구가 필요하다. 마지막으로, 워프 과정이 이미지의 픽셀 밀도를 재분배하기 때문에, 매우 고해상도 이미지에서는 메모리 사용량이 증가할 수 있다.
전반적으로 AttWarp는 MLLM의 기존 구조를 그대로 유지하면서 입력 이미지 자체를 동적으로 재구성함으로써, 작은 객체와 미세 관계에 대한 인식 능력을 크게 향상시키는 실용적인 테스트‑타임 솔루션이다. 향후에는 주의 맵 품질을 개선하기 위한 사전‑학습 전략이나, 비선형 메쉬 기반 왜곡과 결합하는 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기