연속 독백과 이중 학습으로 구현한 네이티브 풀듀플렉스 챗봇

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트와 오디오를 단어 수준이 아닌 문장 수준에서 정렬하는 “연속 독백(contiguous monologue)” 방식을 도입하고, 독백이 오디오 앞·뒤에 번갈아 위치하도록 하는 “이중 학습(dual training)” 파라다임을 제시한다. 이를 기반으로 7 B 파라미터 규모의 FLM‑Audio 모델을 구축했으며, 기존 네이티브 풀듀플렉스 방식보다 적은 학습 데이터로 응답 품질과 지연 시간 모두에서 우수한 성능을 보였다.

상세 분석

FLM‑Audio 논문은 풀듀플렉스 대화 시스템에서 가장 큰 병목인 텍스트‑오디오 정렬 문제를 근본적으로 재고한다. 기존 네이티브 풀듀플렉스 모델(Moshi 등)은 텍스트 토큰을 음성 토큰과 1:1로 맞추기 위해 토큰을 삽입하고, 단어 수준 타임스탬프에 의존한다. 이 방식은 두 가지 치명적인 단점을 가진다. 첫째, 정밀한 단어‑레벨 타임스탬프를 확보하기 위한 전처리 비용이 크게 증가하고, 오류 전파 위험이 높다. 둘째, 인간 대화에서 내부 독백은 연속적인 문장 흐름을 이루며 음성보다 앞서 진행되는 특성을 반영하지 못한다.

논문은 이러한 한계를 극복하기 위해 “연속 독백”을 제안한다. 텍스트 채널에서는 문장 혹은 단락 단위의 연속 토큰을 그대로 출력하고, 음성 채널은 별도로 12.5 fps, 프레임당 8개의 오디오 토큰을 생성한다. 텍스트가 음성보다 먼저 끝나는 구간에는 토큰을 삽입해 시간 동기화를 유지한다. 이 설계는 (1) 문장‑레벨 정렬만으로 충분해 데이터 라벨링 비용을 크게 절감하고, (2) 사전 학습된 LLM의 언어 모델링 능력을 온전히 활용할 수 있게 한다.

핵심 혁신은 “이중 학습” 파라다임이다. 학습 단계마다 독백이 오디오 앞에 위치하는 TTS‑스타일과 뒤에 위치하는 ASR‑스타일을 교대로 적용한다. 초기 포스트‑트레이닝 단계에서는 대규모 자동 전사(1 M 시간)와 고품질 인간 라벨 데이터(ASR 데이터)를 혼합해 두 형식을 모두 학습한다. 이후 SFT 단계에서는 사용자 입력에 대한 응답 생성(대화형)과 동시에 실시간 청취‑응답(ASR‑Response) 및 TTS‑Response 태스크를 교차 학습한다. 손실 함수는 음성 토큰(semantic + acoustic)과 텍스트 토큰(, )에 각각 가중치를 부여해 α₁=1, α₂=0.5, β=1, γ=0.01 로 설정했으며, 이는 Moshi에서 사용된 γ=0.5와는 현격히 다른 설정이다.

아키텍처 측면에서는 Qwen‑2.5‑VL 기반 7 B 자동회귀 트랜스포머를 백본으로 사용하고, RQ‑Transformer 기반 “Depth Transformer”가 각 프레임의 히든 상태 hₜ를 받아 8개의 오디오 토큰을 로컬하게 생성한다. 이 설계는 O(N²) 복잡도의 전체 컨텍스트 재집계 없이도 텍스트·음성 동시 생성이 가능하도록 한다.

실험 결과, FLM‑Audio는 동일 규모의 네이티브 풀듀플렉스 베이스라인 대비 평균 응답 지연을 80 ms 수준으로 유지하면서, 자동 평가(MOS, BLEU)와 인간 평가 모두에서 유의미한 개선을 보였다. 특히 적은 학습 데이터(1 M 시간)에도 불구하고, 8 M 시간을 사용한 Moshi와 비교해 동등하거나 우수한 성능을 달성했다. 이는 연속 독백과 이중 학습이 데이터 효율성을 크게 높인 증거라 할 수 있다.

이 논문은 풀듀플렉스 대화 시스템에서 “문장‑레벨 정렬 + 양방향 학습”이라는 새로운 설계 원칙을 제시함으로써, 향후 대규모 멀티모달 모델이 실시간 인간‑같은 대화를 구현하는 데 중요한 방향성을 제공한다.

연속 독백과 이중 학습으로 구현한 네이티브 풀듀플렉스 챗봇

초록

상세 분석

댓글 및 학술 토론

의견 남기기