청각벤치마크 언어 모델이 청각 지식을 직접 듣지 않고 이해할 수 있을까

청각벤치마크 언어 모델이 청각 지식을 직접 듣지 않고 이해할 수 있을까
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AuditoryBench++는 텍스트 전용 환경에서 언어 모델의 청각 상식과 추론 능력을 평가하는 5가지 과제로 구성된 벤치마크이다. 저자들은 청각 정보를 상상하도록 유도하는 특수 토큰과 CLAP 기반 임베딩을 활용한 두 단계 학습 방식인 AIR‑CoT를 제안한다. 실험 결과, AIR‑CoT는 기존 오프‑더‑쉐프 모델 및 AudioBER‑T, Imagine to Hear 같은 강화 방법보다 피치 비교, 동물 소리 인식, 청각 상황 추론에서 현저히 높은 정확도를 기록한다.

상세 분석

AuditoryBench++는 기존 AuditoryBench가 갖던 한계—작은 규모, 이진·다중 선택만 지원—를 극복하고, 피치·길이·음량 비교, 동물 소리 인식, 청각 상황 추론이라는 다섯 가지 과제로 확장하였다. 특히 비교 과제는 AudioTime 데이터베이스에서 객관적인 피크 데시벨과 지속시간을 추출해 통계적 차이가 확실한 쌍을 선정함으로써 라벨 간 모호성을 최소화했다. 데이터 구축 파이프라인은 위키 기반, 인간 검증, IQR 기반 이상치 제거 등 다중 필터링 단계를 거쳐 고품질 샘플을 확보한다.

AIR‑CoT는 두 단계 학습으로 구성된다. 1단계에서는 LLM이 청각 지식이 필요한 구간을


댓글 및 학술 토론

Loading comments...

의견 남기기