슬로바키아어 의미 텍스트 유사도 연구 전통 알고리즘부터 트랜스포머까지
초록
본 논문은 슬로바키아어 문장 수준 의미 텍스트 유사도(STS) 과제를 전통 문자열·통계·지식 기반 알고리즘, 인공벌꿀집단(ABC) 최적화를 활용한 머신러닝 모델, 그리고 OpenAI 임베딩·GPT‑4·NLPCloud·슬로바키아BERT 등 최신 딥러닝 도구에 대해 체계적으로 비교 평가한다. 전통 방법 중 용어 기반 알고리즘이 가장 높은 상관을 보였으며, 머신러닝에서는 Gradient Boosting과 XGBoost가 최우수 성능을 기록했다. 상용·오픈소스 대형 모델이 모든 접근법을 앞섰으며, 비용·자원·해석 가능성 측면에서 각각의 장단점이 제시된다.
상세 분석
이 연구는 슬로바키아어라는 저자원 언어에서 STS 문제를 해결하기 위한 다층적인 접근법을 제시한다. 먼저 문자열 기반(레벤슈타인, Jaro‑Winkler 등)과 용어 기반(Jaccard, Ochiai 등) 알고리즘을 구현하고, 코퍼스 기반(HAL, ESA, DISCO) 및 지식 기반(Wu‑Palmer, Leacock‑Chodorow) 방법을 추가로 평가하였다. 실험 결과, 용어 기반 알고리즘이 가장 높은 피어슨 상관계수(0.58)를 기록했으며, 특히 Ochiai가 전반적으로 우수했다. 통계적 방법은 고품질 워드 임베딩과 결합될 때 성능이 크게 향상되었으며, OpenAI의 워드‑레벨 임베딩이 가장 좋은 결과(0.55)를 보였다. 반면, 슬로바키아어 WordNet을 활용한 지식 기반 알고리즘은 낮은 점수(0.18~0.28)로 전반적으로 부진했다. 이는 현지 언어 자원(WordNet)의 커버리지가 부족함을 시사한다.
머신러닝 단계에서는 전통 알고리즘의 출력값을 피처로 사용하고, 인공벌꿀집단(ABC) 최적화를 통해 피처 선택과 하이퍼파라미터 튜닝을 동시에 수행하였다. 10‑fold 교차 검증을 기반으로 한 적합도 함수는 평균 피어슨 상관계수였으며, 각 모델‑데이터셋 조합마다 30회 반복 최적화를 진행했다. 그 결과, Gradient Boosting Regression이 0.685/0.702, XGBoost가 0.678/0.696의 높은 점수를 얻었고, XGBoost는 훈련 시간이 짧아 실용적 장점을 제공한다. 전통 알고리즘만을 사용한 경우보다 평균 0.07~0.12 정도 상관계수가 개선되었다.
세 번째 단계에서는 외부 도구와 대형 언어 모델을 평가하였다. OpenAI의 텍스트‑임베딩‑3‑large 모델은 문장‑레벨 임베딩과 코사인 유사도 결합 시 0.756/0.718을 기록했으며, GPT‑4는 프롬프트 기반 점수 산출로 0.780/0.740을 달성해 모든 임베딩 모델을 앞섰다. 상용 NLPCloud의 Paraphrase‑Multilingual‑MPNet‑Base‑V2 기반 모델은 0.824/0.778로 최고 성능을 보였으며, 이는 비용을 감수할 수 있는 기업 환경에 적합함을 의미한다. 오픈소스 SlovakBERT를 STS Benchmark 일부로 미세조정한 결과는 0.75 수준으로 OpenAI 임베딩과 비슷한 수준을 유지했다.
전체적으로 전통 알고리즘은 구현이 간단하고 자원 소모가 적지만 성능 한계가 명확하다. 머신러닝 접근법은 전통 피처를 재활용해 성능을 끌어올릴 수 있으나 최적화 비용이 발생한다. 대형 언어 모델은 최고의 정확도를 제공하지만, API 비용, 추론 지연, 데이터 프라이버시 이슈 등을 고려해야 한다. 따라서 실제 적용 시에는 데이터 규모, 예산, 실시간 요구사항, 해석 가능성 등을 종합적으로 판단해 최적의 솔루션을 선택해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기