시각 토큰 프루닝으로 무너진 공간 무결성 복원: Nüwa 접근법
초록
Nüwa는 시각 언어 모델(VLM)에서 토큰을 효율적으로 줄이면서도 전역 위치 정보를 보존하는 두 단계 프루닝 프레임워크이다. 첫 단계는 비전 인코더 뒤에서 분리·정렬·집합의 세 가지 연산을 통해 전역 공간 앵커를 유지하고, 두 번째 단계는 LLM 내부에서 텍스트 가이드를 이용해 작업에 필요한 시각 토큰만 남긴다. 실험 결과, VQA에서는 94%→95% 수준의 성능 유지와 89% 토큰 감소, VG에서는 7%→47%까지 성능 회복을 달성했다.
상세 분석
본 논문은 기존 토큰 프루닝 기법이 VQA에서는 비교적 안정적인 반면, 시각 정답(Visual Grounding, VG)에서는 전역 공간 참조 프레임이 손상돼 급격히 성능이 떨어지는 문제를 지적한다. 저자들은 VLM의 처리 파이프라인을 두 단계로 분석한다. 첫 번째는 비전 인코더에서 전역적인 위치 정보를 결합해 전체 이미지 맵을 구성하는 단계이며, 두 번째는 LLM 디코더에서 텍스트와 시각 정보를 다중 레이어에 걸쳐 융합하는 단계이다. 특히 VG 작업은 중간 레이어에서 객체‑레벨의 정밀한 위치 정보가 필요하므로, 토큰을 무작위로 삭제하거나 단순히 유사도 기반으로만 선택하면 전역 위치 앵커가 파괴된다.
Nüwa는 이 문제를 해결하기 위해 ‘Boids’ 알고리즘에서 영감을 얻은 세 가지 연산을 도입한다.
- Separation(분리): 토큰을 지역적 클러스터로 나누어 과밀한 영역을 완화한다.
- Alignment(정렬): 각 클러스터 내에서 전역 컨텍스트와 정보 밀도에 가장 부합하는 대표 토큰을 선정한다. 여기서 전역 컨텍스트는 전체 이미지의 위치 히스토그램과 토큰의 절대 좌표를 결합해 만든 ‘공간 앵커’이다.
- Aggregation(집합): 선택된 대표 토큰 주변의 이웃 토큰을 의미적 유사도와 거리 가중치를 이용해 하나의 풍부한 피처로 합친다. 이 과정은 토큰 수를 크게 줄이면서도 공간 구조를 보존한다.
두 번째 단계에서는 LLM 내부의 중간 레이어에 텍스트‑가이드 프루닝을 적용한다. 질문이나 명령문에서 추출한 핵심 명사·관계 정보를 기반으로, 해당 텍스트와 높은 어텐션 점수를 공유하는 시각 토큰만 남긴다. 이렇게 하면 VG와 같이 특정 객체에 집중해야 하는 작업에서 불필요한 토큰을 제거하면서도, 필요한 객체 토큰은 유지된다.
실험에서는 LLaVA‑1.5 7B 모델을 기준으로 12개의 VQA·VG 데이터셋에 대해 기존 방법(VisionZip, FastV, SparseVLM 등)과 단순 랜덤·풀링 베이스라인을 모두 비교했다. 결과는 두 가지 주요 발견을 보여준다. 첫째, 고급 프루닝 기법이 단순 풀링 대비 VQA에서는 큰 이점을 보이지 않으며, VG에서는 오히려 성능이 크게 떨어진다. 둘째, Nüwa는 전역 위치 엔트로피(VAE)와 객체 중심 결합도(OCC) 지표에서 기존 방법보다 낮은 엔트로피와 높은 결합도를 기록해, 토큰 수를 크게 줄이면서도 공간·시맨틱 정보를 효과적으로 보존함을 증명한다.
또한, 토큰 수 88.9% 감소, TFLOPs 89% 절감, 프리필 타임 62% 감소라는 효율성 지표도 제시한다. 코드와 모델 가중치는 공개되어 재현 가능성을 높였다. 전반적으로 Nüwa는 “전역 공간 무결성”을 핵심 설계 원칙으로 삼아, VLM의 토큰 프루닝에서 발생하는 작업 의존적 성능 격차를 메우는 실용적이고 이론적으로 설득력 있는 솔루션이다.
댓글 및 학술 토론
Loading comments...
의견 남기기