싱할라 물리 상식 추론 데이터셋 소개와 모델 평가
초록
본 논문은 Global PIQA 프로젝트의 일환으로, 스리랑카 공식 언어인 싱할라어로 구성된 최초의 물리 상식 추론 데이터셋을 제시한다. 110개의 인간이 직접 작성·검증한 샘플(프롬프트, 정답, 오답)로 구성되며, 문화·역사·일상 생활 등 9개 분야에 고르게 분포한다. 데이터셋을 활용해 싱할라어 전용 언어 모델 SinBERT와 다국어 대형 모델 GPT‑5 mini를 제로샷 실험했으며, 전반적인 정확도는 각각 49 %와 64.5 %에 머물러 문화·언어 특수성이 모델 성능에 큰 영향을 미침을 확인한다.
상세 분석
이 연구는 저자 두 명이 직접 현지 문화와 언어에 정통한 상태에서 110개의 물리 상식 질문을 설계한 점이 가장 큰 강점이다. 질문은 ‘문단 완성’ 형태와 ‘질문‑답변’ 형태로 나뉘며, 각각 67개와 43개로 비율이 균형을 이룬다. 도메인별 분포를 보면 불교(10개), 역사(19개), 기타(40개) 등 스리랑카 사회의 핵심 영역을 포괄하고 있어, 단순한 일반 상식이 아니라 지역 특수 문화·관습까지 포함한다는 점에서 기존 PIQA 데이터와 차별화된다.
오답 생성 규칙은 (1) 단어 한 글자 교체, (2) 1~3단어 교체, (3) 구절 순서 교환 등으로, 인간이 만든 미묘한 차이를 모델이 구분하도록 설계되었다. 이는 편향된 학습이 아닌 정교한 판단을 요구한다는 의미다. 토큰 길이 분석에서는 정답·오답의 길이 분포가 거의 일치해 길이 기반 힌트가 최소화된 것을 확인했다. 또한 일반 싱할라어 어휘 빈도와의 피어슨 상관계수가 0.11에 불과해, 데이터가 일반 언어 사용과 크게 다름을 보여준다.
실험에서는 SinBERT(2022)와 최신 GPT‑5 mini를 각각 제로샷으로 평가했으며, 도메인·형태별 정확도 차이를 상세히 보고한다. SinBERT는 ‘문단 완성’에서 평균 57 % 정도의 성능을 보였지만, 문화적 깊이가 있는 질문(예: 불교 의식, 전통 놀이)에서는 급격히 떨어진다. 반면 GPT‑5 mini는 전체 64.5 %의 정확도를 기록했지만, 번역 과정에서 발생한 의미 왜곡이 오히려 정답을 맞추는 경우와 틀리는 경우를 동시에 만든다(‘bath kolaya’와 ‘banana leaf’ 혼동 등). 이는 다국어 LLM이 현지 언어를 직접 이해하기보다 번역에 의존하는 한계와, 번역 오류가 추론 결과에 미치는 영향을 명확히 보여준다.
데이터셋의 난이도는 정답·오답 간 최소 편집 거리와 정확도 사이에 부정적 상관관계가 있음을 시각화했으며, 편집 거리가 2~4 정도인 경우에도 모델이 30 % 이하의 정확도를 보이는 등 작은 변형에도 모델이 크게 혼란스러워함을 확인한다. 이는 물리 상식 추론이 단순한 언어 패턴 매칭을 넘어 실제 세계 지식과 문화적 배경을 요구한다는 점을 강조한다.
결론적으로, 이 논문은 저자들이 직접 구축한 고품질 싱할라 물리 상식 데이터셋을 공개함으로써 저자들이 언급한 ‘저자 편향’과 ‘맞춤법 오류’ 등 제한점을 명시하고, 현재의 LLM이 다문화·다언어 환경에서 여전히 큰 격차를 보이고 있음을 실증한다. 향후 연구는 데이터 규모 확대, 다언어 교차 검증, 그리고 번역 없이 직접 추론 가능한 모델 설계가 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기