다중소스 증거 융합으로 구현한 고신뢰 오디오 질문 응답 시스템
본 논문은 두 개의 대형 오디오 언어 모델(LALM)과 25개의 음향 분석 도구를 계층화된 신뢰도 체계에 따라 결합한 파이프라인을 제안한다. 각 LALM은 독립적으로 관찰을 생성하고, 별도의 텍스트‑전용 추론 모델이 도구 출력과 교차 검증한다. 신뢰도 태그가 부착된 증거를 기반으로 논리적·사실적·완전성을 갖춘 추론 체인을 구성함으로써 Interspeech 2026 Audio Reasoning Challenge의 에이전트 트랙에서 최고 점수를 기…
저자: Aivo Olev, Tanel Alumäe
본 논문은 대형 오디오 언어 모델(LALM)과 전통적인 음향 분석 도구를 결합해, 오디오 질문에 대한 답변과 그 과정의 추론 체인을 동시에 제공하는 시스템을 제안한다. 연구 배경으로는 LALM이 풍부한 고수준 관찰을 제공하지만, 타임스탬프 허위 생성, 시각 정보 착각, 이벤트 과다 카운트 등으로 인해 hallucination이 빈번하다는 점을 들었다. 반면 전통적인 음향 도구는 재현 가능하고 결정적인 출력을 제공하지만, 질문 범위가 제한적이며 노이즈나 도메인 외 데이터에 취약하다. 이러한 상반된 특성을 조화시키기 위해 저자들은 세 가지 핵심 설계 원칙을 도입하였다.
첫 번째는 이중 소스 증거 융합이다. 두 개의 오픈‑소스 LALM, StepAudioR1과 Qwen3‑Omni를 사용해 동일 오디오를 전체와 세 개의 동일 길이 구간으로 나누어 관찰을 생성한다. 각 모델은 “관찰 보고”만을 수행하도록 프롬프트를 설계했으며, 최종 답변 예측은 숨겨 두었다. 이렇게 독립적인 관찰은 서로 교차 검증되며, 일치할 경우 0.80~0.95의 높은 신뢰도로 보강된다.
두 번째는 25개의 음향 도구를 네 단계의 신뢰도 티어(분석, 확률, 휴리스틱, LALM)로 분류하고, 각 티어에 기본 신뢰도와 보정 계수를 부여하는 체계이다. 예를 들어 비트·에너지·스펙트럼 분석 같은 결정적 도구는 0.90, Whisper 기반 ASR·다이어리제이션·소스 분리는 0.75, 코드 진행·환경 감지는 0.60, LALM은 0.70으로 제한한다. 도구가 적용된 도메인과 일치하지 않을 경우 도메인 적합성 계수를 곱해 신뢰도를 감소시킨다.
세 번째는 3단계 모순 탐지 메커니즘이다. (1) 키워드 겹침을 활용해 LALM 신뢰도를 ±0.15 조정하고, (2) 티어·보강·도메인 가드 기반으로 각 증거 항목에 hallucination 위험을 할당한다. (3) LLM 기반 모순 탐지기는 도구 간·내 모순, 신뢰도 위계 위반, 논리적 함정(예: 부재를 부재로 착각, 단일 소스 주장 무시 등)을 식별한다. 모순이 발견되면 검증 가설을 생성해, 목표 구간에 특화된 도구를 재호출하는 2단계 검증 루프를 실행한다.
증거와 신뢰도 점수가 모두 집계된 뒤, 두 단계의 LLM 호출이 진행된다. 첫 번째 호출은 질문, 라벨링된 관찰, 신뢰도 점수, 도구 검증 결과를 제시해 최적 답안을 선택한다. 두 번째 호출은 선택된 답안을 바탕으로 7개 섹션(청취 내용, 증거 종합, 모순 해결, 신뢰도 평가, 도구 교차 참조, 선택지 평가, 결론)으로 구성된 정형화된 설명을 생성한다. 선택과 설명을 분리함으로써 모델이 증거를 충분히 가중치화한 뒤에야 결정을 내리게 하여, 앵커링이나 사이코피 효과를 최소화한다.
실험은 Interspeech 2026 Audio Reasoning Challenge의 MMAR 벤치마크(1,000 샘플)에서 수행되었다. 평가 지표는 정답 정확도와 MMAR‑Rubrics 기반 추론 품질 점수이다. 제안 시스템은 정확도 76.9%와 추론 품질 69.8점으로 1위를 차지했으며, 특히 LALM 간 일치도가 높은 경우 정확도가 94.5%에 달했다. 신뢰도와 관찰 수가 많을수록 정확도가 상승했으며, 도구 기반 증거는 전체 답변의 8.5%를 바꾸었다(특히 음성 질문에서 85.7%). 도구 활용도 분석에서는 ASR·다이어리제이션·LALM 관찰이 가장 유용했으며, 리듬·템포 분석 도구는 거의 활용되지 않았다. Ablation 실험은 두 LALM을 모두 사용할 때 정확도가 4~5%p 상승함을 확인했다. 파이프라인 평균 처리 시간은 8~10분으로 실시간 적용에는 제한이 있지만, 비추론 LLM을 사용하면 비용을 크게 절감할 수 있다.
본 연구의 주요 공헌은 (1) 이질적인 오디오 정보원을 신뢰도 기반으로 정량화하고, (2) 모순 탐지를 통해 검증 루프를 도입해 투명하고 검증 가능한 추론 체인을 구축한 점이다. 향후 연구에서는 신뢰도 파라미터를 데이터‑기반으로 학습하거나, 실시간 요구에 맞춰 경량화된 도구 선택 전략을 탐색할 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기