오디오‑언어 정렬로 추론 모델 강화
초록
ALARM은 추론 능력을 갖춘 대형 언어 모델에 오디오 인코더와 어댑터를 결합해, 자체 재구성(self‑rephrasing) 기법으로 텍스트‑오디오 불일치를 해소하고, 다중 인코더 융합으로 음성·음악·일반 소리를 모두 효과적으로 이해하도록 설계된 4B 파라미터 규모의 오디오‑언어 모델이다. 6M 샘플·19K시간 데이터로 학습해 기존 동급·대형 모델을 능가하고, 공개 벤치마크에서 최고 성능을 기록한다.
상세 분석
본 논문은 기존 ALM(오디오‑언어 모델)에서 LLM을 고정하고 어댑터만 학습하는 방식이, 체인‑오브‑생각(Chain‑of‑Thought, CoT) 기반 추론 LLM(RLM)에는 부적합함을 지적한다. RLM은 입력이 텍스트라는 전제를 바탕으로 사고 과정을 전개하므로, 오디오를 텍스트로 변환한 후 학습하면 “텍스트 기반” 응답이 생성돼 자연스러운 오디오 이해가 저해된다. 이를 해결하기 위해 저자들은 self‑rephrasing이라는 두 단계 프로세스를 도입한다. 첫 단계에서 고정된 RLM이 메타데이터(텍스트)와 프롬프트를 이용해 초기 응답 R₀을 생성하고, 두 번째 단계에서 동일 RLM을 다시 호출해 R₀을 “오디오‑지향” 형태로 재작성한다. 재작성 규칙(I_reph)은 메타데이터 언급을 배제하고, 오디오 청취·감지 과정처럼 서술하도록 설계돼, 출력 분포의 이동 없이도 오디오 전용 응답을 얻는다. 또한, 토큰 제한(B=1536)으로 재작성 비용을 조절할 수 있다.
데이터 측면에서는 6M 인스턴스·2.5M 고유 프롬프트로 구성된 ALARM 코퍼스를 구축한다. 기존 DeSTA‑A‑QA5M이 7K시간·7K 프롬프트에 불과한 반면, 본 코퍼스는 음성, 음악, 일반 소리 등 4가지 도메인을 포괄하고, 메타데이터(감정, 성별, 잡음 수준 등)를 포함해 프롬프트‑메타 정합성을 검증한다. 프롬프트 생성은 사전 학습된 LLM(Q)로부터 20개 후보를 샘플링하고, 텍스트와 일치·오디오‑전용성을 만족하는 후보만 남겨 무작위로 선택한다. 이렇게 함으로써 메타데이터와 불일치해 발생하는 hallucination을 크게 감소시킨다.
모델 아키텍처는 다중 인코더‑어댑터 설계가 핵심이다. Whisper(음성 전용), W2V‑BERT‑2.0(광범위 청각 특징), MuQ(음악), SS‑LAM(일반 소리) 네 개 인코더를 병렬로 사용하고, 각 인코더별 레이어 가중합을 통해 다층 정보를 압축한다. 이후 2‑layer ConvNet 또는 MLP 어댑터를 거쳐 25 Hz 혹은 50 Hz 토큰 시퀀스로 다운샘플링한다. 융합 방식은 세 가지: (1) ALARM‑CA – 연속적인 cross‑attention 블록으로 단계별 정제, (2) ALARM‑P – Whisper를 주 스트림으로 두고 Perceiver를 이용해 다른 인코더 출력을 고정 길이 프리픽스로 압축, (3) ALARM‑E – CA와 Whisper를 결합한 앙상블으로 50 Hz 토큰 레이트 유지. 이들 방식은 메모리·연산 효율성을 크게 개선하면서도 서로 보완적인 음향 정보를 효과적으로 통합한다.
학습은 고정된 RLM(Qwen3‑4B‑Thinking‑2507)을 백본으로 사용하고, 어댑터와 융합 모듈만 업데이트한다. 따라서 텍스트 능력은 그대로 유지되며, 오디오‑텍스트 정렬 비용도 크게 절감된다. 실험 결과, 4B 파라미터 모델임에도 불구하고 MMSU, MMAU‑speech 등 주요 오디오‑추론 벤치마크에서 동등·대형 모델을 앞서며, 특히 오픈소스 모델 중 최고 성능을 기록한다.
핵심 기여는 (1) RLM에 맞춘 self‑rephrasing 기법으로 텍스트‑오디오 불일치를 해소, (2) ASR·VAD 의존성을 배제하고 다중 인코더 융합으로 음성·음악·일반 소리를 모두 포괄, (3) 대규모·다양한 멀티모달 코퍼스를 구축해 hallucination 위험을 최소화, (4) 저비용·고효율 학습 파이프라인을 제공해 향후 연구·산업 적용에 기반을 마련한 점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기