시각‑언어 모델 효율화를 위한 기여 기반 토큰 프루닝 및 FFN 근사

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 비전‑언어 모델(VLM)에서 시각 토큰과 FFN 연산의 중복성을 정량화하고, “Attention Contribution”(주의 기여도)이라는 새로운 중요도 지표를 도입해 토큰을 선택적으로 프루닝한다. 또한 중간 레이어에서 시각 토큰에 대한 FFN 변환이 거의 선형임을 발견하고, 이를 경량화된 Hadamard 연산으로 근사함으로써 추론 비용을 크게 감소시킨다. 제안된 CAPA 프레임워크는 다양한 VLM 백본과 벤치마크에서 성능 저하 없이 효율성을 향상시킨다.

상세 분석

CAPA 논문은 두 가지 핵심 관찰에 기반한다. 첫째, 기존의 시각 토큰 프루닝 방법은 순수한 attention score(주의 확률)만을 사용해 토큰 중요도를 판단하는데, 이는 value vector의 크기를 무시함으로써 실제 기여도를 과소평가하거나 과대평가한다는 한계가 있다. 저자들은 attention probability와 value vector magnitude를 곱해 얻는 “Attention Contribution”(Cᵢ) 점수가 토큰이 residual stream에 실제로 추가하는 정보량을 더 정확히 반영한다는 실험적 증거를 제시한다. 이를 통해 시각 토큰을 두 종류로 구분한다. “Probability Dumps”(Type I)는 높은 attention mass를 갖지만 value magnitude가 작아 기여도가 낮으며, 실제로는 softmax에서 발생하는 확률 잔여물을 흡수하는 역할만 한다. 반면 “Structural Anchors”(Type II)는 높은 attention과 큰 value magnitude를 동시에 가지고 있어 모델의 표현에 핵심적인 영향을 미친다. 이 두 군집을 구분하지 않고 단순히 attention score만으로 프루닝하면 중요한 구조적 앵커가 손실돼 성능이 급격히 저하된다.

둘째, VLM의 Feed‑Forward Network(FFN) 연산이 토큰별로 비선형성을 다르게 활용한다는 점이다. 저자들은 각 레이어에서 입력 hidden state x와 FFN 적용 후 residual output y = x + FFN(x) 사이의 코사인 유사도 cos(x, y)를 측정했다. 시각 토큰에 대해 중간 레이어에서는 cos 값이 0.96 이상으로 거의 1에 가까워, FFN이 사실상 항등 변환에 가깝다는 것을 발견했다. 반면 텍스트 토큰은 초기·중간 레이어에서 낮은 유사도를 보이며 비선형 변환에 의존한다. 이 차이는 여러 백본(LLaVA‑1.5, Qwen2.5‑VL, InternVL3)에서 일관되게 나타났다. 따라서 시각 토큰에 대한 비싼 dense FFN 연산을 그대로 유지할 필요가 없으며, 선형성을 가정한 경량 Hadamard 곱(요소별 곱셈)으로 대체해도 표현 손실이 최소화된다.

CAPA는 이러한 두 관찰을 결합한다. 토큰 프루닝 단계에서는 매 생성 스텝마다 현재 query 토큰에 대한 Cᵢ를 계산해 상위 k개의 시각 토큰만 key‑value cache에 남기고 나머지는 실시간으로 삭제한다. 이는 정적 프루닝이 아니라 동적, 컨텍스트‑의존적 프루닝을 가능하게 한다. FFN 근사 단계에서는 “입출력 코사인 유사도”가 높은 레이어를 자동으로 탐지하고, 해당 레이어의 dense FFN를 학습 가능한 스칼라 벡터와의 Hadamard 곱으로 교체한다. 이렇게 하면 O(d²) 연산이 O(d)로 감소하면서도 모델의 비선형 처리 능력은 텍스트 토큰이 담당하는 레이어에만 집중된다.

실험 결과, CAPA는 다양한 이미지‑텍스트 멀티모달 벤치마크(VQAv2, COCO‑Caption, RefCOCO 등)에서 기존 프루닝 기반 가속 기법 대비 1.5×~2.3× FLOPs 절감과 1.2×~1.8× 추론 속도 향상을 달성했으며, Top‑1/Top‑5 정확도는 0.2% 이내로 유지했다. 특히 “Structural Anchors”를 보존한 덕분에 시각적 이해력(예: 물체 위치, 색상 구분)에서의 성능 저하가 거의 없었다. 또한 FFN 근사 적용 후에도 텍스트‑중심 작업(예: 질문‑응답)에서의 성능 손실이 미미함을 확인했다.

요약하면, CAPA는 (1) attention contribution을 이용한 정교한 시각 토큰 선택, (2) 시각 토큰 전용 FFN의 선형성 기반 경량 근사라는 두 축으로 VLM 추론 효율성을 크게 개선한 프레임워크이며, 기존 방법이 놓치던 토큰의 기능적 이질성을 명확히 규명함으로써 보다 안전하고 견고한 가속을 가능하게 한다.

시각‑언어 모델 효율화를 위한 기여 기반 토큰 프루닝 및 FFN 근사

초록

상세 분석

댓글 및 학술 토론

의견 남기기