동적 오디오 기반 의미 청크로 옴니모달 토큰 압축 혁신

DASH는 오디오 임베딩을 의미적 앵커로 활용해 코사인 유사도 급락을 경계 후보로 탐지하고, 이를 영상 토큰에 투사해 가변 길이 청크를 만든다. 각 청크 내에서는 경계 확률, 다중 스케일 가우시안 고유성, 정규화된 어텐션 점수를 융합해 토큰 중요도를 평가한다. 학습 없이 적용 가능하며, AVUT·VideoMME·WorldSense 등에서 25 % 토큰 유지율에도 기존 방법을 능가하는 정확도와 1.7 ×~3.8 ×의 속도 향상을 기록한다.

저자: Bingzhou Li, Tao Huang

동적 오디오 기반 의미 청크로 옴니모달 토큰 압축 혁신
본 논문은 옴니모달 대형 언어 모델(OmniLLM)이 오디오와 비디오 스트림을 동시에 처리하면서 발생하는 초대형 토큰 시퀀스의 연산 비용 문제를 해결하고자 한다. 기존의 토큰 압축 기법은 고정된 윈도우 크기로 토큰을 그룹화하고, 주로 어텐션 점수에 기반해 토큰을 선택하거나 병합한다. 이러한 접근법은 토큰을 평탄하고 균일한 구조로 가정하기 때문에, 의미적 전환이 일어나는 시점—예를 들어 음성의 멈춤, 화자 교체, 주제 전환—을 무시한다. 결과적으로, 의미 전환점에 해당하는 토큰이 어텐션 스파스성에 의해 제외되어, 공격적인 압축 시 서사 연속성이 크게 손상된다. DASH(Dynamic Audio‑driven Semantic cHunking)는 이러한 한계를 극복하기 위해 “오디오가 의미적 구조를 제공한다”는 핵심 가설을 채택한다. 구체적인 흐름은 다음과 같다. 1. **오디오 기반 동적 청크 생성** - 오디오 토큰 시퀀스 A={aₜ}에 대해 인접 토큰 간 코사인 유사도 simₜ=⟨aₜ₋₁,aₜ⟩/(‖aₜ₋₁‖‖aₜ‖)를 계산한다. - 유사도 급락을 1‑simₜ² 형태로 변환해 경계 확률 p_boundaryₜ를 얻고, 임계값 τₐ(기본 0.4)와 최소 청크 길이 C_min(30 토큰) 조건을 만족할 때 경계를 확정한다. - 이렇게 추출된 경계 집합 Bₐ는 의미적으로 일관된 오디오 구간을 정의한다. 2. **오디오 경계를 비디오에 투사** - 비디오 토큰 수 N_v와 오디오 토큰 수 N_a 사이의 시간 비율을 이용해 bᵥᵢ = round(bₐᵢ·N_v/N_a) 로 변환한다. - 투사된 경계가 최소 비디오 청크 길이(2K 토큰, 두 프레임)보다 작을 경우, 경계 강도(p_boundary) 순으로 강한 경계만을 남겨 청크 크기를 보장한다. 이 과정은 학습 없이 수행되는 greedy 알고리즘이다. 3. **청크 내부 토큰 중요도 평가** - **구조적 신호**: 경계 확률을 정규화한 s_bndₜ를 사용해 전환점 토큰에 가중치를 부여한다. - **내용 고유성**: 다중 스케일 가우시안 커널을 적용해 각 토큰의 밀도 기반 고유성 점수 s_uniₜ를 계산한다. 이는 주변 토큰과의 차별성을 측정해, 밀도 피크에 해당하는 토큰을 강조한다. - **어텐션 신호**: 모델 내부 어텐션 가중치를 정규화한 s_attₜ를 사용한다. - 세 점수는 가중치 w_b=0.4, w_u=0.3, w_a=0.3을 곱해 선형 결합하고, 목표 유지 비율에 따라 상위 토큰을 선택한다. 4. **학습‑프리 구현 및 효율성** - DASH는 파라미터를 전혀 학습하지 않으며, 오디오 인코더와 비디오 인코더 사이에 경량 플러그인 형태로 삽입된다. - 경계 기반 청크는 의미적 밀도에 따라 압축 용량을 동적으로 할당하므로, 정보가 풍부한 구간은 더 많은 토큰을 보존하고, 정적 구간은 강도 있게 축소한다. 5. **실험 및 결과** - 평가 데이터셋: AVUT, VideoMME, WorldSense. - 모델: Qwen2.5‑Omni (7B, 3B). - 25 % 토큰 유지율에서도 기존 35 % 유지율 방법을 능가하는 정확도(예: 비디오 질문응답, 장면 이해)와 3.8 × 프리필 속도 향상, 1.7 × 전체 레이턴시 감소를 달성했다. - Ablation 연구에서 각 신호(경계, 고유성, 어텐션)의 기여도를 분석했으며, 특히 경계 신호가 전환점 보존에 크게 기여함을 확인했다. 6. **의의와 향후 연구** - 오디오를 의미적 앵커로 활용함으로써 멀티모달 시퀀스 압축에 구조적 관점을 도입한 최초 사례 중 하나다. - 동적 청크와 다중 신호 융합이 토큰 압축의 효율성을 크게 향상시킬 수 있음을 실증했다. - 향후에는 텍스트, 센서 데이터 등 다른 모달리티에서도 유사한 앵커 신호를 탐색하거나, 경계 탐지에 베이지안 변화점 감지, 히든 마르코프 모델 등을 적용해 경계 정확도를 높이는 방안을 모색할 수 있다. 또한, 압축 후 재학습을 통한 파인튜닝 기법과 결합하면 더욱 높은 성능을 기대할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기