음성대화 안전 평가를 위한 대형 오디오언어 모델 벤치마크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중 턴 음성 대화에서 사회적으로 해로운 발언을 자동으로 판단하기 위해, 대형 오디오‑언어 모델(LALM)을 안전성 평가자(Judge)로 활용하는 최초의 통제 벤치마크를 제시한다. 24 000개의 합성 음성 대화를 8가지 위험 카테고리와 5단계 심각도에 따라 생성하고, 160개의 샘플에 대해 인간 평가를 통해 라벨의 신뢰성을 검증하였다. Qwen2‑Audio, Audio Flamingo 3, MERaLiON 세 모델을 오디오 전용, 텍스트 전용, 멀티모달 입력 방식으로 시험했으며, 전사 품질(Whisper‑Large 등)의 영향도 분석하였다. 결과는 모델 구조와 입력 방식에 따라 민감도, 심각도 순서 유지, 턴 간 점수 안정성 사이에 상충 관계가 존재함을 보여준다.

상세 분석

본 연구는 음성 기반 대화 시스템의 안전성을 평가하기 위해 기존 텍스트‑중심 접근법의 한계를 정확히 짚어낸다. 먼저, 100개의 안전한 멀티턴 대화를 기반으로 GPT‑4o를 활용해 단일 턴을 8가지 위험 카테고리(증오, 괴롭힘, 위험, 기만, 폭력, 성적, 자해, 전반적)와 5단계 심각도(매우 경미→심각)로 변형한다. 변형 과정에서 감정 라벨도 함께 생성해, 감정‑음성 일관성을 유지하도록 설계하였다. 이렇게 만든 24 000개의 음성 대화는 Coqui XTTS‑v2를 이용해 원본 화자 특성을 보존한 합성 음성으로 재생성되었으며, 변형된 턴 외에는 원본을 그대로 유지해 정확한 원인‑효과 분석이 가능하도록 했다.

안전성 판단 모델로는 파라미터 규모가 7~10 B인 Qwen2‑Audio, Audio Flamingo 3, MERaLiON을 선택했으며, 텍스트 전용 기준선으로 LLaMA‑3.1‑8B를 사용했다. 각 모델은 (1) 오디오 전용, (2) 텍스트 전용, (3) 오디오 + 텍스트 멀티모달 입력 세 가지 모달리티로 평가되었고, 텍스트 입력의 경우 GT 전사, Whisper‑Large, Whisper‑Base 세 가지 전사 소스를 교차 적용했다. 프롬프트 설계는 기본, 사슬‑사고, few‑shot, 루브릭‑앵커, 캘리브레이션 등 다섯 가지 전략을 시험해 모델의 점수 산출 방식에 미치는 영향을 정량화하였다.

평가 지표는 (i) 민감도(unsafe 탐지율), (ii) 심각도 순서 유지(Severity‑wise mean score drop), (iii) 턴 위치 안정성(점수 변동성)이다. 인간 앵커 스터디에서는 5명의 평가자가 160개 샘플을 독립적으로 라벨링했으며, Cohen’s κ ≈ 0.84(안전/비안전), 가중 κ ≈ 0.80(심각도), Spearman ρ ≈ 0.59(순위 일치) 등 높은 일관성을 보였다. 특히 심각도 3 이상에서는 100% 탐지율을 기록해, 설계된 심각도 단계가 실제 인지 차이를 반영함을 확인했다.

실험 결과, 가장 높은 민감도를 보인 구성은 오디오 전용 + Qwen2‑Audio였지만, 동일 구성은 턴 간 점수 변동이 커서 안정성이 낮았다. 반대로 MERaLiON의 텍스트 전용 + Whisper‑Large 조합은 점수 변동이 최소했으나, 경미한 위험(심각도 1‑2) 탐지율이 떨어졌다. 전사 품질이 중요한 변수로 작용했으며, Whisper‑Large는 전사‑전용 모드에서 민감도를 약 10% 감소시켰지만, 심각도 순서 유지에는 큰 영향을 주지 않았다. 파라미터 규모보다 모델 아키텍처(예: 오디오 전용 트랜스포머 vs. 멀티모달 비전‑오디오 결합)가 민감도와 안정성 트레이드오프에 더 큰 영향을 미치는 것으로 나타났다.

결론적으로, 음성 대화 안전성 평가에 LALM을 활용하려면 적용 환경(배경 소음, 전사 품질)과 위험 유형(음성‑특화 신호가 중요한지 여부)을 고려해 모달리티와 모델을 선택해야 한다는 실용적 가이드라인을 제시한다.

음성대화 안전 평가를 위한 대형 오디오언어 모델 벤치마크

초록

상세 분석

댓글 및 학술 토론

의견 남기기