오디오 LLM의 청취 능력, MM‑SHAP으로 밝히다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 MM‑SHAP이라는 샤플리 기반 기법을 오디오 대형 언어 모델에 적용해 텍스트와 오디오 각각이 답변에 얼마나 기여하는지 정량화한다. MuChoMusic 벤치마크에서 Qwen‑Audio와 MU‑LLaMA 두 모델을 평가한 결과, 정확도가 높은 Qwen‑Audio는 텍스트 의존도가 높고, MU‑LLaMA는 두 모달리티를 보다 균형 있게 활용한다. 다만, 다중선택 질문에서는 전체적인 오디오 기여도가 낮아도 특정 사운드 이벤트를 정확히 찾아내는 경우가 있어 오디오가 완전히 무시되는 것은 아니다.

상세 분석

본 논문은 멀티모달 샤플리(MM‑SHAP) 프레임워크를 오디오 LLM에 맞게 변형함으로써, 모델이 텍스트와 오디오 각각을 얼마나 활용하는지를 정량적으로 측정한다. 샤플리 값은 각 입력 토큰(텍스트 토큰 또는 오디오 파형 세그먼트)의 기여도를 계산하고, 이를 절댓값으로 합산해 모달리티별 총 기여도(Φ_A, Φ_T)를 구한다. 이후 A‑SHAP = Φ_A / (Φ_A+Φ_T)와 T‑SHAP = 1‑A‑SHAP을 정의해 두 모달리티의 상대적 비중을 0~1 사이의 비율로 표현한다.

실험에서는 MuChoMusic 데이터셋의 1,187개 다중선택 질문을 사용했으며, 두 모델은 각각 다른 오디오 인코더와 LLM을 결합한다. Qwen‑Audio는 Whisper‑large‑v2와 Qwen‑7B를, MU‑LLaMA는 MERT‑v1‑330M과 LLaMA‑2‑7B를 사용한다. 두 가지 입력 방식(MC‑PI: 사전 예시 포함, MC‑NPI: 사전 예시 제외)으로 평가했으며, 각 경우에 정확도와 A‑SHAP을 보고한다.

결과는 흥미롭다. Qwen‑Audio는 정확도 44~~47%에 비해 A‑SHAP이 0.21~~0.23으로 매우 낮아 텍스트에 크게 의존함을 보여준다. 반면 MU‑LLaMA는 정확도 30~~32%에 A‑SHAP이 0.47~~0.50으로 텍스트와 오디오가 거의 동등하게 기여한다. 정확도와 오디오 사용량 사이에 뚜렷한 상관관계가 없으며, 이는 MuChoMusic이 질문 설계상 텍스트 기반 추론만으로도 높은 점수를 얻을 수 있음을 시사한다.

또한, 모델이 “단일 사운드 이벤트”를 요구하는 질문에 대해 높은 A‑SHAP 값을 보이는 경우가 발견되었다. 예를 들어, “문 앞에 들리는 소리는 무엇인가?”와 같은 질문에서 오디오 파형의 특정 구간이 높은 양·음의 샤플리 값을 나타냈다. 이는 모델이 전체적인 오디오 기여도가 낮더라도 중요한 순간에 오디오 정보를 활용한다는 증거다.

한편, 생성형 태스크(음악 설명)에서는 A‑SHAP이 0.73%까지 상승해, 태스크 종류에 따라 오디오 활용도가 크게 변한다는 점을 확인했다. 이는 MM‑SHAP이 모델의 전반적 성능이 아닌, 입력 모달리티와 태스크 특성에 따른 기여도를 드러내는 유용한 도구임을 뒷받침한다.

한계점으로는 샤플리 값 근사에 사용된 마스크 수(m=10)가 충분히 안정적인지에 대한 검증이 부족하고, 오디오 마스크가 파형을 직접 제로화함으로써 실제 청취 정보 손실 정도를 정확히 반영하는지 의문이 남는다. 또한, MuChoMusic 자체가 다중선택 형식이므로, 모델이 텍스트 기반 논리만으로도 정답을 추론할 수 있는 구조적 편향이 존재한다. 향후 연구에서는 보다 다양한 평가 방식(예: 자유형 답변, 시간적 정밀도 평가)과 더 정교한 마스크 전략을 도입해 모달리티 기여를 심층 분석할 필요가 있다.

오디오 LLM의 청취 능력, MM‑SHAP으로 밝히다

초록

상세 분석

댓글 및 학술 토론

의견 남기기