다중역할·음성 제어를 위한 풀듀플렉스 대화 모델 PersonaPlex

다중역할·음성 제어를 위한 풀듀플렉스 대화 모델 PersonaPlex
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PersonaPlex는 텍스트 기반 역할 프롬프트와 음성 샘플을 결합한 하이브리드 시스템 프롬프트를 이용해, 풀듀플렉스 대화 흐름 속에서도 제로샷 음성 클로닝과 세밀한 역할 조건화를 동시에 실현한다. 대규모 합성 데이터와 Moshi 기반 아키텍처를 활용해 훈련했으며, 기존 듀플렉스 모델보다 역할 일관성, 화자 유사도, 지연 시간 및 자연스러움에서 우수한 성능을 보인다.

상세 분석

PersonaPlex는 기존 풀듀플렉스 대화 모델이 갖는 “고정된 음성·역할” 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, Hybrid System Prompt라는 새로운 입력 포맷을 설계했는데, 이는 텍스트 역할 설명과 짧은 음성 샘플을 시간적으로 연속시켜 하나의 프롬프트로 제공한다. 텍스트 부분은 LLM 기반 역할 지시를 agent‑text 채널에 삽입하고, 음성 부분은 agent‑audio 채널에 실제 화자 샘플을 넣어 제로샷 클로닝을 가능하게 한다. 두 번째로, 대규모 합성 데이터 파이프라인을 구축했다. 서비스 도메인(은행, 레스토랑 등)·시나리오(환불, 정보 요청 등)를 계층적으로 샘플링하고, Qwen‑3‑32B·GPT‑OSS‑120B 같은 오픈 LLM을 이용해 두 사람 대화 텍스트를 생성한다. 이후 Dia·Chatterbox와 같은 멀티스피커 TTS 모델을 활용해 음성 및 화자 샘플을 합성하고, VoxCeleb·LibriTTS 등에서 추출한 26k개의 실제 화자 샘플을 음성 프롬프트로 사용한다.

아키텍처 측면에서 PersonaPlex는 Moshi


댓글 및 학술 토론

Loading comments...

의견 남기기