의료 번역을 위한 텔레메디신 특수 사례 연구

초록

본 논문은 폴란드어‑영어 통계적 기계번역 시스템을 의료 분야에 적용하기 위해 다양한 학습 방법과 데이터 전처리 기법을 실험한다. EMEA 병원 문서와 OPUS 자막 데이터를 활용해 구문표, 언어모델, 품사 태깅, 팩터드 모델, 계층적 모델 등을 구축하고, BLEU, NIST, METEOR, TER 등 네 가지 지표로 성능을 평가한다. 폴란드어→영어 번역은 BLEU 70.58‑82.72, 영어→폴란드어는 67.58‑78.97의 점수를 얻어 실용적인 수준으로 확인되었으며, 텔레메디신 현장 적용 가능성을 제시한다.

상세 분석

본 연구는 의료 텍스트 번역의 특수성을 고려하여 폴란드어‑영어 통계적 기계번역(SMT) 시스템을 설계하고, 다양한 학습 전략이 번역 품질에 미치는 영향을 정량적으로 분석하였다. 데이터는 EMEA(유럽 의학 기관) 병원 문서와 OPUS 프로젝트의 Open Subtitles 코퍼스를 병행 사용했으며, 전자는 의료 도메인에 특화된 고품질 병렬문장을 제공하고, 후자는 일반 대화체를 포함해 언어 모델의 다양성을 확보한다. 두 코퍼스를 각각 전처리 단계에서 토큰화, true‑casing, 구두점 정규화를 적용했으며, 특히 폴란드어는 복합어와 굴절 형태가 풍부해 형태소 분석 기반 POS 태깅을 수행하였다.

구문표 구축에는 기본 구문표 외에 팩터드(factored) 구문표를 도입해 품사와 어근 정보를 결합하였다. 이는 특히 의료 전문어의 다의성을 감소시키는 효과를 보였다. 또한, 계층적(Syntax‑Based) 모델과 문법 태그 기반 정렬(alignment) 기법을 실험했는데, 계층적 모델은 긴 문장 구조를 보다 효율적으로 처리해 BLEU 점수 상승을 유도하였다. 문법 태그를 활용한 정렬은 단어 수준의 정밀도를 높여 NIST와 METEOR 점수에서 유의미한 개선을 나타냈다.

언어 모델은 5‑그램 모델을 기본으로 하면서 Kneser‑Ney 스무딩을 적용했으며, 의료 용어 사전을 별도 구축해 희귀어의 확률을 보정하였다. 실험에서는 개발(dev) 세트로 튜닝을 진행하고, 테스트(test) 세트에 대해 BLEU, NIST, METEOR, TER 네 지표를 동시에 측정하였다. 결과는 폴란드어→영어 방향에서 BLEU 70.58‑82.72, TER 0.12‑0.18 등 높은 성능을 보였으며, 영어→폴란드어에서도 BLEU 67.58‑78.97, TER 0.14‑0.20 수준을 유지했다. 특히, 팩터드 모델과 계층적 모델을 결합한 시스템이 가장 높은 점수를 기록하였다.

이러한 수치는 논문에서 제시한 품질 기준에 따라 “이해에 문제 없고, 실용적인 번역” 수준에 해당한다. 따라서 의료 현장에서 환자와 의료진 간의 원격 상담, 전자 처방전 교환 등 텔레메디신 서비스에 바로 적용할 수 있는 잠재력을 가진다. 다만, 데이터의 도메인 편향과 희귀어 처리 한계, 실시간 시스템 구축 시 연산 비용 등은 향후 연구 과제로 남는다.