다문화 추론을 위한 템플릿 기반 다국어 벤치마크 Macaron
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
Macaron은 100개의 언어‑중립 템플릿을 활용해 7가지 추론 유형·22개 문화 영역을 조합한 20개 언어(저자원 포함)·20개 문화 맥락의 양방향 MCQ·True/False 데이터를 제공한다. 21개 다국어 LLM을 제로샷 평가한 결과, 추론 전용 모델이 가장 높은 정확도(≈79%)와 언어 간 균형을 보였으며, 오픈‑웨이트 모델은 현지 언어에서 크게 성능이 떨어졌다. 특히 문화‑기반 수학·계산 템플릿이 가장 어려웠다.
상세 분석
Macaron은 “템플릿‑퍼스트”라는 설계 철학을 채택한다. 먼저 100개의 언어‑중립 템플릿을 정의하고, 각 템플릿에 7가지 추론 유형(수학·상식·인과·시간·논리·공간·다중‑홉)과 22개의 문화 측면(음식·축제·교육·지리·인물 등)을 메타데이터로 태깅한다. 이 메타데이터는 동일 템플릿이 다양한 문화에 적용될 때도 추론 흐름과 난이도가 일관되도록 보장한다.
데이터 구축 파이프라인은 크게 다섯 단계로 구성된다. (1) 템플릿 설계·검증 단계에서 저자들은 슬롯(
댓글 및 학술 토론
Loading comments...
의견 남기기