다문화 추론을 위한 템플릿 기반 다국어 벤치마크 Macaron

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Macaron은 100개의 언어‑중립 템플릿을 활용해 7가지 추론 유형·22개 문화 영역을 조합한 20개 언어(저자원 포함)·20개 문화 맥락의 양방향 MCQ·True/False 데이터를 제공한다. 21개 다국어 LLM을 제로샷 평가한 결과, 추론 전용 모델이 가장 높은 정확도(≈79%)와 언어 간 균형을 보였으며, 오픈‑웨이트 모델은 현지 언어에서 크게 성능이 떨어졌다. 특히 문화‑기반 수학·계산 템플릿이 가장 어려웠다.

상세 분석

Macaron은 “템플릿‑퍼스트”라는 설계 철학을 채택한다. 먼저 100개의 언어‑중립 템플릿을 정의하고, 각 템플릿에 7가지 추론 유형(수학·상식·인과·시간·논리·공간·다중‑홉)과 22개의 문화 측면(음식·축제·교육·지리·인물 등)을 메타데이터로 태깅한다. 이 메타데이터는 동일 템플릿이 다양한 문화에 적용될 때도 추론 흐름과 난이도가 일관되도록 보장한다.

데이터 구축 파이프라인은 크게 다섯 단계로 구성된다. (1) 템플릿 설계·검증 단계에서 저자들은 슬롯(

다문화 추론을 위한 템플릿 기반 다국어 벤치마크 Macaron

초록

상세 분석

댓글 및 학술 토론

의견 남기기