가잘벤치: 페르시아 가잘 시 평가를 위한 사용 기반 벤치마크

가잘벤치: 페르시아 가잘 시 평가를 위한 사용 기반 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
가잘벤치는 페르시아 전통 시인 하페즈의 가잘을 대상으로 LLM이 의미 파악과 원문 회귀 능력을 동시에 측정한다. 의미를 prose로 재구성하는 파라프레이즈 과제와, 부분 힌트(의미·형식)로 정답 구절을 찾는 회귀·완성 과제로 구성된다. 실험 결과, 대부분의 모델은 의미 재구성에서는 좋은 성능을 보였지만, 정확한 구절 회귀에서는 크게 부족했으며, 인식 기반(다중선택) 과제로 전환하면 성능 격차가 크게 감소한다. 영어 소네트와의 비교 실험에서 회귀 성능이 현저히 높아, 데이터 노출량 차이가 원인임을 시사한다.

**

상세 분석

**
가잘벤치는 페르시아 문화권에서 일상적으로 인용·인용·완성되는 하페즈·사디·루미 등 고전 가잘을 대상으로, LLM이 실제 사용 상황에서 요구되는 두 가지 핵심 능력을 평가한다. 첫 번째는 ‘시‑문 재구성’(Poem‑to‑Prose) 과제로, 2행(커플릿) 시구를 자연스러운 한국어·영어·페르시아어 prose로 변환하도록 요구한다. 여기서는 의미 충실도, 문체 유지, 흐름 자연스러움 등을 자동·인간 평가 지표로 측정한다. 두 번째는 ‘정규 구절 회귀’(Canonical Verse Retrieval) 과제로, 부분적인 의미 단서(키워드, 핵심 이미지) 혹은 형식적 단서(리듬·운율·첫 글자) 등을 제공하고, 모델이 정확히 원문 구절을 완성하거나 선택하도록 만든다. 회귀 과제는 완전 구절 완성(completion)과 다중 선택(Recognition) 두 형태로 나뉘며, 전자는 모델이 자체적으로 구절을 생성해야 하므로 기억·생성 능력을 동시에 시험한다.

벤치마크 구축 단계에서는 하페즈 전집을 디지털화한 ‘Divan of Hafez’를 기반으로 1,200여 개 커플릿을 추출하고, 각 구절에 대해 5가지 변형 힌트를 설계했다. 변형 힌트는 (1) 의미 키워드, (2) 구절 앞부분, (3) 운율 패턴, (4) 첫 글자 순서, (5) 무작위 섞은 형태 등이다. 또한, 인간 평가자를 활용해 파라프레이즈 정답을 다중 라벨링하고, 구절 회귀 정답을 ‘정답·오답·유사’ 등 3단계로 구분했다.

실험에 사용된 모델은 GPT‑4, Gemini‑1.5‑Pro, LLaMA‑2‑13B, Mistral‑7B 등 8종이며, 모두 멀티언어 사전학습을 수행한 최신 LLM이다. 파라프레이즈 과제에서는 평균 BLEU‑4·ROUGE‑L 점수가 0.68·0.71 수준으로, 의미 전달과 문체 보존 모두에서 높은 일관성을 보였다. 반면, 구절 완성 과제에서는 정확도(Exact Match)가 0.32에 머물렀으며, 특히 형식 힌트(첫 글자 순서)만 제공될 때는 0.19 이하로 급락했다. 이는 모델이 시의 고유 운율·음보를 기억하기보다 의미 기반 추론에 의존한다는 점을 의미한다.

흥미로운 점은 ‘인식 기반’(다중 선택) 과제로 전환했을 때 정확도가 0.71까지 상승한 것이다. 이는 모델이 구절을 직접 생성하기보다는 후보 중에서 올바른 것을 고르는 능력이 더 뛰어남을 보여준다. 또한, 동일한 평가 프레임을 영어 소네트에 적용했을 때 완성 정확도가 0.58, 인식 정확도가 0.84로, 페르시아어 대비 현저히 높은 성능을 기록했다. 저자들은 이를 ‘데이터 노출량 차이’로 해석했으며, 페르시아 고전 시가 영어 대비 학습 코퍼스에 적게 포함된 것이 주요 원인이라고 주장한다.

추가 분석에서는 모델 크기와 파라미터 수가 회귀 성능에 미치는 영향을 조사했으며, 파라미터가 13B 이상이면 의미 파라프레이즈는 크게 향상되지만, 구절 회귀는 데이터 다양성에 더 민감함을 확인했다. 또한, ‘문맥 길이’(히스토리)와 ‘프롬프트 설계’가 회귀 정확도에 미치는 영향도 실험했는데, 히스토리를 3문장 이상 제공하면 평균 7%p 상승했다.

결론적으로, 가잘벤치는 LLM이 문화적·형식적 특성을 내재화하는 데 한계가 있음을 드러내며, 의미 이해와 형식 기억을 동시에 평가할 수 있는 새로운 평가 패러다임을 제시한다. 향후 연구는 (1) 페르시아어 데이터 증강, (2) 형식‑의미 복합 프롬프트 설계, (3) 메타‑러닝 기반 기억 강화 모델 개발 등을 통해 회귀 성능을 끌어올릴 필요가 있다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기