음성 에이전트를 위한 실시간 듣고‑생각‑말하기 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LTS‑VoiceAgent는 음성 입력을 스트리밍하면서 의미 단위가 완성될 때만 LLM을 호출하는 동적 의미 트리거와, 배경의 Thinker와 전경의 Speaker가 병렬로 작동하는 이중 역할 스트림 오케스트레이터를 제안한다. 이를 통해 복잡한 추론을 유지하면서 지연을 밀리초 수준으로 줄이고, 자연스러운 멈춤‑수정 현상을 포함한 Pause‑and‑Repair 벤치마크에서도 높은 정확도와 효율성을 보인다.

상세 분석

본 논문은 기존의 연속형 음성 에이전트가 직면한 “지연‑정밀도 트레이드오프”를 두 축으로 분석한다. 첫 번째 축은 언제 사고를 시작할 것인가(when‑to‑think)이며, 두 번째는 어떻게 점진적으로 추론을 이어갈 것인가(how‑to‑reason‑incrementally)이다. 기존 스트리밍 전략은 고정 길이 청크, VAD 기반 침묵 검출, 혹은 사전 추론(guess‑and‑check) 등 기계적인 분할에 의존해 의미 단위가 파편화되거나 불필요한 연산이 발생한다. LTS‑VoiceAgent는 이를 해결하기 위해 두 핵심 모듈을 설계한다.

Dynamic Semantic Trigger는 스트리밍 텍스트를 입력받아 의미 포화 확률 P_trigger를 추정하고, 사전 정의된 임계값 τ를 초과할 때만 LLM을 활성화한다. 트리거 학습은 대규모 LLM(GPT‑4o)을 활용해 의미 완전성을 갖는 구절에 “

음성 에이전트를 위한 실시간 듣고‑생각‑말하기 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기