가상 변호사 합성: 인도 5개 언어 다중 페르소나 음성 생성 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 구글 Gemini 2.5 Flash와 Pro TTS 모델을 활용해 힌디어, 타밀어, 텔루구어, 벵골어, 구자라티어의 법정 연설을 다섯 가지 변호사 페르소나로 합성하고, 자연스러움·전문성·진정성 등을 인간 평가로 측정한다. 결과는 힌디어와 드라비다어군에서 높은 점수를 받았지만, 감정적 억양과 표현력에서 ‘단조로운 권위’가 드러나며, 특히 벵골어·구자라티어에서 성능 저하가 관찰되었다.

상세 분석

이 연구는 멀티링궐 TTS의 현재 한계를 법정이라는 고도 전문 분야에 초점을 맞춰 정량·정성적으로 검증한다는 점에서 의미가 크다. 먼저, Gemini 2.5 Flash와 Pro 모델이 제공하는 5개 인도 언어에 대한 네이티브 지원을 전제로, 각 언어별 5개의 변호사 페르소나(공격적·공감적·분석적 등)를 정의하고, LLM을 이용해 해당 페르소나에 맞는 법률 논증 텍스트를 생성한다. 텍스트‑투‑스피치 변환 단계에서는 프로소디 제어 파라미터(피치, 속도, 강세)를 페르소나 벡터와 언어‑특정 임베딩에 매핑하는 수학적 프레임워크를 제시한다(식 3).

인간 평가에서는 15점 Likert 스케일을 사용해 자연스러움(Naturalness), 전문성(Professionalism), 진정성(Authenticity), 안전성(Safety), 포괄성(Comprehensiveness) 등 5가지 차원을 측정하였다. 힌디어는 전반적으로 4.84.9점으로 가장 높은 성능을 보였으며, 타밀·텔루구는 4.5~4.7점대로 안정적인 결과를 냈다. 반면 벵골어와 구자라티어는 진정성·표현성에서 3.2점 수준으로 급격히 떨어졌다. 이는 두 언어의 복잡한 음운 체계와 억양 패턴이 현재 모델의 훈련 데이터에 충분히 반영되지 않았음을 시사한다.

또한, “단조로운 권위(monotone authority)”라는 현상은 모델이 절차적 정보 전달에는 강하지만, 설득력을 높이는 억양 변동(피치 상승·하강, 리듬적 멈춤)에는 미흡함을 의미한다. 이는 법정 연설이 단순 정보 전달을 넘어 감정적 설득과 청중의 집중을 유도해야 하는 특수성을 고려할 때, 현재 TTS가 아직 인간 변호사의 ‘음성 예술’을 완전히 재현하지 못한다는 중요한 인사이트를 제공한다.

연구는 향후 개선 방향으로(1) 벵골어·구자라티어를 위한 대규모 고품질 음성 데이터 확보, (2) 감정·억양 제어를 위한 멀티‑스피커 프로소디 모델링, (3) 법률 도메인 특화 텍스트‑투‑스피치 파이프라인의 파인튜닝을 제안한다. 전반적으로, 다언어·다페르소나 TTS가 절차적 법률 업무에는 충분히 활용 가능하지만, 설득적 변호사 연설을 완전 재현하려면 음성 표현력 강화가 필수적이다.

가상 변호사 합성: 인도 5개 언어 다중 페르소나 음성 생성 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기