대규모 텍스트‑오디오 모델을 활용한 실내 음향 응답 자동 생성
초록
**
본 논문은 사전 학습된 텍스트‑투‑오디오 모델인 Stable Audio Open을 소량의 실제 RIR 데이터에 미세조정하여, 자연어 프롬프트만으로 실내 음향 응답을 생성하는 방법을 제시한다. 이미지‑RIR 데이터셋에 시각‑언어 모델(VLM) 기반 캡션 파이프라인을 적용해 텍스트‑RIR 쌍을 자동 라벨링하고, 인‑컨텍스트 러닝(ICL)으로 자유형 사용자 입력을 표준 프롬프트로 변환한다. 실험 결과, RT60 오류가 5 % 수준으로 감소하고, MUSHRA 청취 테스트와 ASR 데이터 증강 실험에서 기존 이미지‑기반 모델을 크게 앞선 성능을 보였다.
**
상세 분석
**
이 연구는 기존 RIR 생성 방법의 두 가지 한계를 동시에 해결한다. 첫째, 물리‑기반 시뮬레이션은 방 구조·재질 파라미터가 필요하지만, 실제 측정은 비용과 인력 소모가 크다. 둘째, 기존 딥러닝 기반 접근은 대규모 라벨링된 RIR 데이터가 없으면 학습이 어려워, 합성 RIR을 혼합해 사용해야 하는데 이는 물리적 정확성을 저해한다. 저자들은 이러한 문제를 ‘대규모 생성 오디오 사전 지식’이라는 새로운 자원으로 풀어낸다. Stable Audio Open은 7,300시간 분량의 다양한 오디오(음악, 환경음, 음성 등)로 사전 학습돼 풍부한 스펙트럼과 시간‑주파수 구조를 내재하고 있다. 이를 RIR에 미세조정하면, 적은 양의 실제 RIR만으로도 모델이 고품질의 잔향 특성을 학습할 수 있다.
데이터 라벨링 파이프라인은 특히 혁신적이다. 이미지‑RIR 데이터셋에 대해 Llama‑3.2‑Vision, Qwen2.5‑VL, Molmo2 등 3개의 최신 VLM을 활용해 방 이미지에서 ‘방 크기, 형태, 재질, 흡음·산란 특성’ 등을 강조하는 캡션을 생성한다. 이후 LLM‑as‑judge(Llama‑3.3‑70B)로 캡션 품질을 1‑5 점으로 평가하고, 두 개 이상의 VLM이 3점 이상을 획득한 샘플만을 선별한다. 이렇게 확보된 고품질 캡션은 방 메타데이터와 결합돼 일관된 자연어 프롬프트(예: “A medium‑sized lecture hall with carpeted floor and plaster walls, RT60≈0.8 s”)를 만든다.
인‑컨텍스트 러닝(ICL) 전략은 사용자 입력이 자유형일 때도 모델이 일관된 프롬프트를 받을 수 있게 한다. 시스템 프롬프트와 5개의 예시(원시 캡션 ↔ 정제 프롬프트)를 제공하면, LLM이 입력을 분석해 핵심 음향 속성을 추출하고, 이를 표준 포맷으로 변환한다. 실험에서 ICL을 적용한 프롬프트의 T5 임베딩 코사인 유사도가 0.955로, 원시 자유형 텍스트(0.744)보다 크게 향상돼, 모델이 학습된 텍스트 분포와 일치함을 확인했다.
학습 설정은 Stable Audio Open의 텍스트 인코더와 VAE를 고정하고, Diffusion Transformer(DiT)만 5 epoch, 30분 정도 학습했다. 이는 기존 텍스트‑투‑RIR 모델(PromptReverb)이 145,976개의 샘플을 사용한 것에 비해 100배 적은 데이터(1,736개)로도 경쟁력 있는 성능을 달성했음을 의미한다. 정량 평가에서 RT60 평균 오류 5.56 %(중앙값 –31.73 %)를 기록했으며, Image2Reverb(96 % 평균 오류)보다 현저히 우수했다.
주관적 MUSHRA 청취 테스트에서는 인간 청취자가 “Ours” 모델에 55 점(95 % CI ±2.20)을 부여했으며, 이는 이미지‑기반 베이스라인(46 점, 41 점)과 앵커(51 점)보다 크게 앞섰다. 다만 완전한 숨은 레퍼런스(99 점)와는 차이가 남아, 생성된 RIR이 아직 물리적 정확도·공간감에서 완전한 실측과는 차이가 있음을 시사한다.
ASR 데이터 증강 실험에서는 WhisperX 기반 WER이 Ground‑Truth RIR 대비 0.12 %로 거의 동일했으며, 통계적으로 유의미한 차이가 없었다(Pratt p=0.728). 이는 생성된 RIR이 실제 RIR과 유사한 음성 인식 성능을 유지함을 의미한다. 다만 일부 샘플에서 WER이 약간 상승했으며, 이는 모델이 과도한 잔향을 억제해 청취 품질(PESQ, STOI)은 오히려 향상된 결과와 연결된다.
전체적으로 이 논문은 (1) 대규모 텍스트‑오디오 사전 모델을 RIR 도메인에 효율적으로 전이, (2) VLM 기반 자동 라벨링으로 텍스트‑RIR 쌍을 구축, (3) ICL을 통한 자유형 프롬프트 처리라는 세 축을 결합해, 데이터 효율성과 사용자 친화성을 동시에 달성했다는 점에서 의미가 크다. 향후 연구는 (a) 텍스트 인코더와 VAE까지 미세조정해 더욱 정교한 음향 특성 학습, (b) 다양한 방 규모·형태에 대한 일반화 평가, (c) 물리 기반 시뮬레이션과의 하이브리드 결합을 통해 초저·고잔향 환경까지 포괄하는 모델 확장이 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기