에스토니아어 대형언어모델 벤치마크: 최초의 토착 평가 체계
초록
에스토니아어 전용 LLM 벤치마크를 7개 데이터셋으로 구축하고, 6개 베이스 모델과 26개 인스트럭션 튜닝 모델을 인간 평가와 Claude 3.7 Sonnet을 활용한 LLM‑as‑judge 방식으로 비교하였다. 결과는 상업 모델이 전반적으로 우수했으며, 인간 평가와 자동 평가 간의 상관관계가 데이터셋별로 다르게 나타났다.
상세 분석
본 논문은 에스토니아어라는 저자원 언어에 특화된 LLM 평가 프레임워크를 최초로 제시한다는 점에서 학술적·실용적 의의가 크다. 7개의 서브벤치마크는 국가 시험, 트리비아, 어미변화, 어휘 의미, 문법 교정, 뉴스 요약, 화자명 추출 등 언어의 다양한 차원을 포괄한다. 특히 모든 데이터는 기계번역이 아닌 원본 에스토니아어 자료를 직접 수집·정제했으며, OCR‑LLM‑후보정 파이프라인을 통해 트리비아 카드와 같은 비정형 자료도 고품질로 전환했다. 모델 평가에서는 베이스 모델을 5‑shot, 인스트럭션 튜닝 모델을 zero‑shot으로 설정해 실제 사용 시나리오를 반영하였다. 6개의 베이스 모델(예: LLaMA‑2, Mistral)과 26개의 챗형 모델(오픈소스·상업 포함)을 대상으로 정확도, ROUGE‑L, Levenshtein 등 다중 메트릭을 적용했으며, 인간 평가와 LLM‑as‑judge(Claude 3.7 Sonnet) 결과를 교차 검증했다. 흥미롭게도 인간 평가와 자동 평가 간 상관계수는 데이터셋에 따라 0.45~0.78로 차이가 났으며, 특히 문법 교정·요약 과제에서 높은 일치도를 보였다. 이는 Claude 3.7 Sonnet이 에스토니아어 평가에 충분히 신뢰할 수 있는 판정자를 제공함을 의미한다. 또한 상업 모델이 전반적으로 우수했지만, 일부 오픈소스 모델이 특정 과제(예: 어미변화)에서 경쟁력을 보이며, 모델 크기와 튜닝 데이터의 품질이 성능에 미치는 영향을 시사한다. 마지막으로, 인간 평가와 자동 평가의 상관관계를 기반으로 향후 저자원 언어에 대한 벤치마크 설계 시 인간 라벨링 비용을 최소화할 수 있는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기