스마트 안경을 위한 방향성 다중화자 음성 이해 LLM 강화
초록
본 논문은 스마트 안경에 탑재된 다중 마이크 어레이를 활용해, 방향성을 인식하고 다중화자 대화를 이해할 수 있는 대형 언어 모델(LLM) 시스템을 제안한다. 두 가지 접근법—소스 분리 기반의 캐스케이드 구조와 직렬 출력 학습(SOT) 기반의 엔드‑투‑엔드 구조—을 설계하고, 스트리밍 방식으로 실시간 인식·번역을 수행한다. 실험 결과, 제안된 시스템이 기존 다중채널 ASR·번역 모델에 비해 화자 구분 오류와 번역 품질 모두에서 우수함을 입증한다.
상세 분석
이 연구는 기존 LLM 기반 음성 이해가 단일 채널·단일 화자 데이터에 국한된 한계를 극복하고자, 방향성 정보를 명시적으로 모델에 통합하는 두 가지 혁신적 파이프라인을 제시한다. 첫 번째는 전통적인 소스 분리(front‑end) 모듈을 활용한 캐스케이드 구조이다. 여기서는 5‑마이크 어레이에서 얻은 K+1개의 빔포밍 채널을 STFT 변환 후, GLU 기반 컨볼루션 인코더와 3‑layer LSTM, 디코더를 거쳐 각각 착용자와 대화 상대의 마스크를 추정한다. 마스크 적용 후 역 STFT를 수행해 두 개의 분리된 오디오 스트림을 얻고, RMS 비율과 음성 활동 검출(VAD)으로 600 ms 청크 단위의 화자 태그를 결정한다. 이 태그는 이후 단일 채널(참조 채널) 오디오와 함께 사전 정의된 프롬프트(예: “번역해라”)를 LLM에 전달해 화자별 작업을 수행하도록 한다. 이 방식은 화자 구분 정확도가 높지만, 겹침(overlap) 상황에서는 마스크 기반 분리가 왜곡을 일으켜 성능 저하가 발생한다는 한계가 있다.
두 번째는 직렬 출력 학습(Serialized Output Training, SOT) 기반의 엔드‑투‑엔드 접근법이다. 다중 채널 입력을 NLCMV 빔포머로 전처리해 각 방향별 빔을 생성하고, 그 중 하나의 ‘mouth‑beam’만을 LLM의 오디오 인코더에 입력한다. 이렇게 하면 방향성 차이가 강조된 신호를 그대로 LLM이 처리하도록 할 수 있다. 모델 파인튜닝 단계에서는 LoRA(저랭크 어댑테이션)를 적용해 오디오 인코더와 텍스트 디코더의 일부 파라미터만 효율적으로 업데이트한다(전체 파라미터의 약 1.9%). 학습 데이터는 화자 시작 시점을 기준으로 특수 토큰(
댓글 및 학술 토론
Loading comments...
의견 남기기