오디오RAG 오디오 추론과 정보 검색을 위한 도전적 벤치마크
초록
AudioRAG는 오디오 기반 다중 홉 추론과 외부 정보 검색을 결합한 새로운 벤치마크이다. 공개 데이터와 직접 수집한 영상·오디오를 활용해 500개의 질문‑답변 쌍을 만들고, 기존 대형 오디오‑언어 모델(LALM)의 성능을 평가한다. 실험 결과 대부분의 모델이 낮은 정확도를 보이며, 제안된 에이전트 파이프라인이 22~25% 정도 정확도를 향상시킨다.
상세 분석
본 논문은 최근 급부상한 대형 오디오‑언어 모델(LALM)이 내부 파라미터 지식에만 의존하는 기존 평가 방식의 한계를 지적한다. 실제 사용자 시나리오에서는 청각 정보와 연관된 최신 사실이나 외부 지식이 필요하지만, 기존 벤치마크는 이러한 정보 검색(RAG) 요소를 포함하지 않는다. 이를 보완하기 위해 저자들은 AudioRAG라는 새로운 벤치마크를 설계했으며, 두 가지 데이터 소스를 결합한다. 첫 번째는 MMAU, CinePile, FMA 등 공개된 오디오·음악·음성 데이터셋에서 메타데이터(예: 장르, 동물 종) 를 추출하고, GPT‑4o를 활용해 다중 홉 질문을 자동 생성한다. 두 번째는 온라인에서 직접 수집한 영상·오디오를 인간이 청취하고, 최신 사건·문화적 맥락을 반영한 질문을 수작업으로 만든다. 이렇게 구성된 500개의 샘플은 질문이 텍스트 혹은 오디오 형태로 제공되고, 정답은 텍스트로 고정된다.
데이터 품질 확보를 위해 두 단계 필터링을 적용한다. 질문 유효성 필터는 LLM과 인간 annotator가 협업해 단일 정답을 갖는지 검증하고, 정답 정확성 필터는 검색 도구와 연결된 LLM 에이전트가 최신 정보를 이용해 답을 재생산하도록 하여 원본 정답과 일치하는지 확인한다. 이 과정에서 오류가 발견되면 인간이 재검토한다.
벤치마크 평가에서는 Qwen2.5‑Omni, Audio Flamingo 3, Audio‑Reasoner, Baichuan‑Omni, Qwen3‑Omni, Gemini‑2.5‑Flash 등 6개의 최신 모델을 시험한다. 결과는 대부분 20~45% 수준의 정확도로, 특히 오픈소스 모델은 폐쇄형 Gemini‑Flash에 비해 현저히 낮다. 이는 모델이 청각 정보를 인식하는 능력은 갖추었지만, 복합적인 추론 흐름을 설계하거나 최신 외부 지식을 호출하는 능력이 부족함을 의미한다.
이를 해결하기 위해 저자들은 “에이전트 파이프라인”을 제안한다. 텍스트 기반 LLM이 질문을 해석하고, 두 종류의 도구—오디오 처리 도구(T_a)와 웹 탐색 도구(T_exp)—를 동적으로 호출한다. 파이프라인은 Think‑Call‑Answer 사이클을 반복하며, 각 단계에서 현재 추론 상태와 도구 호출 결과를 반영해 중간 및 최종 답변을 생성한다. 구체적으로, 오디오 처리 단계에서는 질문에 포함된 “
실험에서는 Qwen3‑8B를 추론 LLM로, Qwen2.5‑Omni 혹은 Qwen3‑Omni을 오디오 처리 엔진으로 사용했다. 에이전트 파이프라인을 적용한 결과, Qwen2.5‑Omni은 32.2%에서 39.5%로, Qwen3‑Omni는 37.0%에서 46.2%로 정확도가 각각 22.7%와 24.9% 상승했다. 오류 분석에서는 크게 네 가지 유형(추론 오류, 오디오 처리 오류, 지식 오류, 무효 답변)으로 분류했으며, 에이전트 파이프라인은 특히 지식 오류와 추론 오류를 크게 감소시켰다.
이 논문은 오디오 기반 멀티모달 모델 평가에 정보 검색을 통합하는 최초의 시도이며, 데이터 구축, 필터링, 에이전트 설계 전반에 걸친 체계적인 접근을 제공한다. 향후 연구는 더 큰 규모의 데이터셋 확대, 다양한 도구 연동, 그리고 인간‑에이전트 협업 방식을 탐구함으로써 오디오‑언어 모델의 실용성을 한층 높일 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기