다중 패러프레이즈를 활용한 수화 번역 학습 및 평가
초록
본 논문은 대형 언어 모델을 이용해 수화 번역 데이터에 다중 패러프레이즈를 자동 생성하고, 이를 학습과 평가에 적용했을 때의 효과를 분석한다. 학습 단계에서는 패러프레이즈가 성능을 저하시켰지만, 평가 단계에서는 다중 참조 BLEUpara가 기존 BLEU보다 인간 평가와 높은 상관관계를 보였다.
상세 분석
본 연구는 수화 번역(SLT) 분야에서 흔히 발생하는 ‘단일 참조’ 문제를 근본적으로 해결하고자 한다. 수화와 구어·문어 사이의 비동형성 때문에 하나의 수화 영상에 대해 여러 개의 올바른 번역이 존재함에도 불구하고, 기존 코퍼스는 대부분 하나의 텍스트만을 제공한다. 이는 학습 시 모델이 과도하게 제한된 표현만을 학습하게 만들고, n‑gram 기반 자동 평가 지표(BLEU 등)가 실제 번역 품질을 과소평가하게 만든다.
논문은 두 가지 주요 질문을 제기한다. 첫째, 대형 언어 모델(LLM)로 생성한 패러프레이즈를 학습 데이터에 추가하면 번역 모델의 일반화 능력이 향상되는가? 둘째, 다중 패러프레이즈를 평가 기준으로 사용하면 자동 평가 점수가 인간 판단과 더 잘 일치하는가?
패러프레이즈 생성 단계에서는 GPT‑4o‑mini, LLaMA 등 최신 LLM을 활용했으며, 동일한 프롬프트와 디코딩 파라미터(temperature 0.7, top‑p 0.95)를 적용해 각 원문에 대해 5개의 의미 보존 재작성문을 얻었다. 생성된 문장은 ‘ParaScore’라는 맞춤형 지표로 평가했는데, 이는 BERTScore 기반 의미 유사도와 정규화 레벤슈타인 거리(NLD)를 가중합한 형태다. γ = 0.35, ω = 0.5라는 하이퍼파라미터를 사용해 의미 보존과 어휘 다양성 사이의 균형을 정량화하였다. 실험 결과, GPT‑4o‑mini가 가장 높은 평균 ParaScore를 기록했으며, 이는 이후 학습·평가 실험에 사용된 패러프레이즈 집합으로 채택되었다.
학습 실험에서는 세 가지 전략을 비교했다. (1) 원본 참조만 사용한 베이스라인, (2) 각 학습 샘플마다 원본 + 5개 패러프레이즈 중 하나를 무작위로 선택해 학습, (3) 모든 패러프레이즈에 대해 손실을 계산하고 최소 손실을 보인 패러프레이즈만을 역전파에 활용하는 ‘최소 손실 선택’ 방식. 결과는 놀라웠다. 다중 패러프레이즈를 학습에 포함시킨 두 방법 모두 BLEU, ROUGE‑L, BLEURT 점수에서 베이스라인보다 낮은 성능을 보였으며, 특히 ‘무작위 선택’ 방식은 번역 일관성을 해치는 잡음으로 작용했다. 이는 다중 정답이 모델에게 불확실성을 주입해 학습 신호를 약화시킨 것으로 해석된다.
반면 평가 단계에서는 기존 단일 참조 대신 다중 패러프레이즈를 활용해 점수를 산출했다. ‘BLEUpara’는 기존 BLEU와 동일한 n‑gram 매칭 방식을 유지하되, 후보 번역을 모든 패러프레이즈와 비교해 최고 점수를 채택한다. 인간 평가와의 상관관계를 조사한 결과, BLEUpara는 기존 BLEU보다 인간 평점과의 피어슨 상관계수가 크게 상승했으며, 특히 의미적 다양성이 높은 사례에서 그 차이가 두드러졌다. 이는 다중 참조가 번역 품질을 보다 포괄적으로 측정한다는 증거다.
추가 실험으로는 비디오 수준의 텍스트 컨텍스트를 프롬프트에 포함시켜 패러프레이즈 품질을 높이려 했지만, 오히려 ParaScore가 감소하는 역효과가 나타났다. 이는 현재 LLM이 짧은 문맥만을 효과적으로 다루는 한계와, 수화 영상의 장기적 담화 구조를 반영하기 위한 별도 메커니즘이 필요함을 시사한다.
전체적으로 이 연구는 (1) 자동 패러프레이즈 생성은 현재 학습 단계에서 직접적인 성능 향상을 기대하기 어렵지만, (2) 평가 단계에서 다중 참조를 활용하면 자동 평가 지표의 신뢰성을 크게 높일 수 있음을 보여준다. 또한, 제안된 BLEUpara와 ParaScore는 향후 수화 번역뿐 아니라 일반 기계 번역에서도 다중 정답을 고려한 평가 체계 구축에 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기