금융 분야 한중 병렬 코퍼스 FFN 구축 및 LLM 번역 성능 평가
초록
본 논문은 2014년부터 2023년까지의 주요 금융 뉴스 기사와 제목을 수집·정제하여 1,013개의 본문과 809개의 제목으로 구성된 한중 금융 병렬 코퍼스 FFN을 구축한다. 구축된 데이터에 대해 ChatGPT와 ERNIE‑bot 두 대형 언어 모델(LLM)의 번역 품질을 BLEU, TER, chrF 지표로 평가하고, 동일 데이터로 학습한 OpenNMT 기반 신경기계번역(NMT) 모델과 비교한다. 실험 결과 LLM이 전반적으로 높은 점수를 보였지만, 금융 특유의 용어·숫자·법적 표현에서 오류가 빈번함을 확인한다. 논문은 이러한 문제점을 상세히 분석하고, 금융 번역 특화 LLM 개선 필요성을 강조한다.
상세 분석
FFN 코퍼스는 CNN, FOX, China Daily 등 국제·중국 주요 매체에서 2014‑2023년 사이에 발표된 금융 뉴스 기사와 헤드라인을 자동 크롤링한 뒤, 전문 번역가와 금융 분야 전문가가 2단계 검수를 거쳐 수동 교정한 결과물이다. 본문 1,013개와 제목 809개의 규모는 기존 공개된 금융 병렬 코퍼스에 비해 양적·질적 우위를 가진다. 특히, 기사 본문은 평균 450단어(한글 기준)로 충분히 풍부한 문맥을 제공하며, 헤드라인은 짧지만 핵심 정보를 압축하고 있어 두 종류의 번역 난이도를 동시에 평가할 수 있다.
평가에 사용된 BLEU, TER, chrF는 각각 n‑gram 정확도, 편집 거리, 문자‑레벨 F‑score를 측정해 번역 품질을 다각도로 파악한다. ChatGPT와 ERNIE‑bot은 사전 학습된 대형 모델이지만, 금융 전문 용어와 복합적인 수치·법률 표현에 대해 미세조정이 이루어지지 않아 오류 패턴이 유사했다. 예를 들어, “derivative contract”를 “파생 계약”으로 번역하는 대신 “파생상품 계약”으로 잘못 표기하거나, 금리 변동을 나타내는 “interest rate hike”를 “이자율 상승”이 아닌 “이자율 인상”으로 일관되지 않게 번역하는 경우가 빈번했다.
OpenNMT 기반 NMT 모델은 동일 데이터로 10 epoch 학습했으며, 어휘 제한과 BPE 토크나이저 적용으로 어휘 외 단어 처리 능력이 제한적이었다. 그 결과 BLEU 점수는 LLM에 비해 약 4~6점 낮았지만, 특정 금융 고유명사와 숫자 처리에서는 LLM보다 안정적인 출력을 보였다. 이는 대형 모델이 일반 언어에 강점을 두는 반면, 도메인 특화 데이터에 대한 세밀한 학습이 부족함을 시사한다.
오류 분석에서는 세 가지 주요 문제를 도출했다. 첫째, 숫자·통계 데이터의 정확성 유지 실패로, “$1.2 billion”을 “12억 달러”가 아닌 “1.2억 달러”로 오번역하는 사례가 다수 발견되었다. 둘째, 법적·규제 용어의 다의성으로, “compliance”를 “준수”가 아니라 문맥에 따라 “규정 준수” 혹은 “법규 준수”로 구분해야 함에도 일관되지 않은 번역이 이루어졌다. 셋째, 문화·관습 차이에 따른 어휘 선택 오류로, “bull market”을 직역해 “황소 시장”이라 표기하거나, “bear market”을 “곰 시장”이라 번역해 독자에게 혼란을 주었다.
이러한 분석을 토대로 논문은 도메인‑특화 프롬프트 설계, 금융 용어 사전 통합, 숫자·통계 정규화 모듈 도입 등 LLM 맞춤형 개선 방안을 제시한다. 또한, FFN 코퍼스를 공개함으로써 향후 금융 번역 연구에 표준 벤치마크를 제공하고, 다국어·다도메인 확장 가능성을 열어두었다.
댓글 및 학술 토론
Loading comments...
의견 남기기