감정을 보존한 영어‑아랍어 음성 번역 파이프라인 EmoAra

감정을 보존한 영어‑아랍어 음성 번역 파이프라인 EmoAra
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EmoAra는 CNN 기반 감정 인식, Whisper ASR, MarianMT 번역, MMS‑TTS‑Ara 합성을 연계해 영어 음성을 아랍어 음성으로 변환하면서 감정 정보를 유지한다. 감정 분류 F1 94 %, BLEU 56, BERTScore 88.7 %를 달성했으며, 은행 고객 서비스에 적용 가능하도록 설계되었다.

상세 분석

본 논문은 다중 모듈을 하나의 엔드‑투‑엔드 파이프라인으로 통합한 시스템 EmoAra를 제안한다. 감정 인식 단계에서는 1‑D CNN을 활용해 MFCC, ZCR, RMSE 등 3가지 오디오 특성을 추출하고, 데이터 증강(노이즈 추가, 피치 변환, 시간 스트레칭·시프팅)으로 일반화를 높였다. 모델은 3개의 Conv‑1D 레이어와 배치 정규화·맥스 풀링·드롭아웃을 결합해 94 %의 F1 점수를 기록했으며, LSTM·ResNet50과의 비교 실험 결과 CNN이 가장 높은 정확도와 학습 효율을 보였다.

ASR에는 OpenAI Whisper Base 모델을 사용했으며, 트랜스포머 기반 인코더‑디코더 구조가 다양한 억양·배경 소음에 강인함을 제공한다. Whisper는 사전 학습된 대규모 음성‑텍스트 쌍을 활용해 영어 음성을 높은 정확도로 텍스트화한다.

번역 단계는 Helsinki‑NLP MarianMT를 도메인‑특화 은행 데이터(약 24 k 문장)와 일반 영어‑아랍어 병렬 코퍼스를 결합해 파인튜닝하였다. 토크나이저는 128 토큰 길이로 패딩·트렁케이팅했으며, 학습률·배치 크기·에폭·빔 서치 폭 등을 실험적으로 최적화했다. 교차 엔트로피 손실을 최소화하면서 BLEU 56·BERTScore 88.7 %를 달성했으며, 인간 평가에서 81 %의 만족도를 얻었다. 이는 특히 은행 용어와 문맥을 정확히 전달하는 데 기여한다.

마지막 TTS 단계는 MMS‑TTS‑Ara 모델을 적용했는데, 텍스트 인코더‑시퀀스 제너레이터‑신경 보코더(HiFi‑GAN) 구조가 아랍어 음소와 억양을 정교히 재현한다. 감정 정보는 앞 단계에서 추출된 ‘감정 라벨’과 prosody 조절 파라미터를 통해 음성 합성 시 억양·강세에 반영된다. 전체 파이프라인은 실시간 처리에 적합하도록 모듈 간 인터페이스를 표준화했으며, GPU 한 대에서 평균 응답 시간이 1.2 초 수준으로 보고되었다.

기술적 강점은 (1) 감정 특성을 보존하는 데이터 증강 및 특성 추출 전략, (2) 최신 사전 학습 모델(Whisper, MarianMT, MMS‑TTS‑Ara)의 도메인 파인튜닝, (3) 은행 고객 서비스라는 구체적 적용 분야에 맞춘 용어 사전 및 평가 설계이다. 한계점으로는 감정 라벨이 ‘angry’, ‘calm’ 두 종류에 국한돼 다중 감정(예: ‘sad’, ‘happy’)에 대한 일반화가 부족하고, 번역 품질이 BLEU 56 수준으로 아직 상용 수준에 미치지 못한다는 점이다. 향후 연구에서는 감정 라벨 확장, 대규모 다국어 데이터셋 구축, 그리고 실시간 스트리밍 파이프라인 구현을 통해 시스템의 범용성과 성능을 더욱 향상시킬 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기