Mamba‑2 기반 오디오‑언어 모델 SAM, 파라미터 절감으로 최고 성능 달성
초록
SAM은 Mamba‑2 상태공간 모델을 백본으로 사용하고, EA‑T 기반 오디오 인코더와 다중모달 커넥터를 결합한 오디오‑언어 모델이다. 2.7B 파라미터 모델이 AudioSet에서 21.1 mAP, AudioCaps에서 17.6 SPICE를 기록해 7B 규모 트랜스포머 모델을 능가한다. 핵심 발견은 (1) 오디오 인코더의 공동 파인튜닝이 필수, (2) 길이보다 정보밀도가 높은 압축 토큰이 SSM에 더 유리, (3) 구조화된 질문·답변 데이터로 instruction‑following 학습을 하면 추론 능력이 크게 향상된다는 점이다.
상세 분석
SAM은 크게 네 부분으로 구성된다. 첫째, 88 M 파라미터를 가진 EA‑T‑base를 오디오 인코더로 사용해 멜‑스펙트로그램을 512개의 768‑차원 토큰으로 변환한다. 둘째, 이 토큰들을 멀티모달 커넥터를 통해 64개의 768‑차원 시퀀스로 압축하거나, 시간축·주파수축을 보존한 576·520 길이의 시퀀스로 재배열한다. 셋째, 재배열·압축된 토큰을 Mamba‑2 백본에 입력한다. Mamba‑2는 기존 Mamba‑1의 채널당 대각선 A 행렬을 헤드당 스칼라‑항등 행렬로 대체하고, 상태 크기 N을 확대해 연산 효율성을 2‑8배 높이면서도 성능을 유지한다. 마지막으로 텍스트 프롬프트와 캡션을 텍스트 인코더(f_t)로 임베딩해 오디오 임베딩과 연결한다.
학습은 OpenA QA 데이터(≈5.6 M 쌍)를 4단계 LTU 커리큘럼에 따라 진행하고, 각 Mamba‑2 블록에 LoRA(r=8~256) 어댑터를 적용해 파라미터 효율성을 높였다. 실험 결과, 파라미터가 2.7 B인 SAM‑2.7B가 AudioSet mAP 21.1, AudioCaps SPICE 17.6을 달성했으며, 이는 7 B 트랜스포머 기반 L‑TU‑7B, GAMA‑7B 등을 앞선다.
핵심 인사이트는 다음과 같다. (1) 오디오 인코더를 공동 파인튜닝하면 토큰의 τ‑effective rank가 감소하고 토큰 간 코사인 유사도가 증가한다. 이는 작은 SSM이 제한된 상태 용량에 맞춰 더 압축된 표현을 요구한다는 증거이며, 크기‑불일치 인코더를 고정하고 재학습하면 성능이 급격히 저하된다. (2) SSM은 선형 시간·메모리 복잡도를 갖지만, 토큰 수를 늘려도 성능이 크게 개선되지 않는다. 압축 토큰(a) 방식이 길이 확대(b, c) 방식보다 τ‑effective rank와 성능 모두에서 우수했다. 이는 SSM이 “긴 시퀀스”보다 “정보가 풍부하고 압축된 토큰”에 더 적합함을 시사한다. (3) 구조화된 이진·다중선택 질문(BQ/MCQ) 데이터로 instruction‑following 학습을 추가하면 MMAU‑Sound 전반에서 점수가 34 포인트 상승한다. 특히 SAM+OR‑2.7B는 Gemma‑3n‑4B를 능가해, SSM이 충분한 지도 학습을 받으면 복합 추론 능력도 트랜스포머와 동등하거나 우수함을 보여준다.
또한, LoRA rank를 8→256으로 확대하면 전반적인 정확도가 1~3 % 상승하고, Mamba‑2는 동일 LoRA 설정에서 Mamba‑1 대비 약 20 % 학습 시간을 절감한다. 이러한 효율성은 대규모 멀티모달 모델을 실용적인 GPU 환경에서 훈련할 수 있게 만든다.
결론적으로, SAM은 Mamba‑2를 오디오‑언어 멀티모달 백본으로 채택함으로써 파라미터 효율성, 학습 속도, 그리고 최종 성능 모두에서 기존 트랜스포머 기반 ALM을 앞선다. 향후 연구는 음성 전용 인코더와 데이터셋을 도입해 Speech Understanding 영역으로 확장하고, SSM 특성에 맞는 토큰 압축 및 구조화된 지도 학습 전략을 더욱 정교화하는 방향으로 진행될 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기