ChatGPT, 현대 중국 시를 이해할 수 있을까

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 현대 중국 시에 대한 ChatGPT의 이해도를 평가하기 위해 전문 시인 6명과 협업하여 5가지 핵심 차원(내용, 표현기법, 사상·감정, 현대성, 시적성)을 정의하고, 설계된 프롬프트를 통해 GPT‑4가 시를 해석하도록 했다. 원작 시인의 평가 결과, 전체 48편 중 73% 이상에서 시인의 의도와 일치했으나, 특히 시적성(가장 시적인 문장 선정)에서는 만족스럽지 못한 점이 드러났다. 또한, 일반 LLM을 평가자 역할로 활용한 실험에서도 GPT‑4가 전반적으로 높은 점수를 받았지만, 고전적 요소가 섞인 특수 시(Spe‑Poetry)에서는 언어 차원에서 낮은 성능을 보였다.

상세 분석

이 연구는 LLM이 ‘시를 이해한다’는 추상적 개념을 구체적 평가 프레임워크로 전환한 점이 가장 큰 공헌이다. 먼저, 기존 문헌과 8명의 현대 시인 인터뷰를 토대로 내용, 표현기법(언어·이미지·수사·리듬·비일상화), 사상·감정, 현대성, 시적성이라는 다섯 축을 도출했으며, 각 축에 대한 정의와 평가 기준을 명확히 제시했다. 특히 표현기법을 5개의 세부 요소로 세분화한 것은 시적 텍스트의 다층적 특성을 정량화하려는 시도로, 자동 평가가 어려운 시 분야에 인간‑LLM 혼합 평가 방식을 도입할 근거를 마련한다.

프롬프트 설계 단계에서는 기존 연구의 프롬프트 최적화 기법을 차용해, 시의 전체 구조와 각 차원별 질문을 명시적으로 포함시켰다. 이를 통해 GPT‑4가 단순 요약을 넘어 이미지와 리듬, 비일상화 요소까지 포괄적으로 분석하도록 유도했으며, 실제 출력 예시가 부록에 제시돼 재현성을 높였다.

실험 데이터는 6명의 전문 시인이 각각 8편씩 제공한 48편(총 147연, 750행)으로, 일반 현대 시(Com‑Poetry)와 고전 요소가 혼합된 특수 시(Spe‑Poetry) 두 그룹으로 구분했다. 이는 모델이 전통적 언어와 현대적 감각을 동시에 처리해야 하는 난이도를 조절하는 설계라 할 수 있다.

평가 방법은 원작 시인이 직접 GPT‑4의 해석을 0‑100점 척도로 채점했으며, 시적성은 0·50·100점으로 이산화했다. 결과는 내용·표현·사상·현대성 네 차원에서 평균 77‑82점(60‑90점 구간에 집중)으로 비교적 높은 일치를 보였지만, 시적성에서는 28문장 중 15문장이 시적성이 없다고 판단돼 50점 이하에 머물렀다. 이는 LLM이 ‘가장 시적인 문장’이라는 주관적 판단을 내리는 데 한계가 있음을 시사한다.

추가로, 동일 평가 기준을 다른 LLM(Qwen2.5‑Plus, Qwen2.5‑Max 등)에 적용한 결과, 전반적으로 GPT‑4와 비슷하거나 약간 높은 점수를 기록했지만, 특히 Spe‑Poetry의 언어 차원에서 73.75점으로 낮은 점수를 받았다. 이는 고전 어휘·문화적 배경이 모델의 언어 이해에 부정적 영향을 미친다는 기존 연구와 일치한다.

전체적으로 이 논문은 (1) 시 이해를 다차원적으로 구조화한 평가 프레임워크, (2) 인간 시인의 의도와 LLM 출력 간 정량적 비교, (3) LLM을 평가자로 활용한 메타‑평가라는 세 가지 혁신적 방법론을 제시한다. 다만, 시적성 평가의 이산화 점수 체계와 48편이라는 상대적으로 작은 샘플 규모는 결과의 일반화에 제한을 둔다. 향후 연구에서는 더 다양한 시류와 대규모 데이터, 그리고 다중 평가자(시인·문학비평가·일반 독자) 합의를 통한 신뢰도 향상이 필요하다.

ChatGPT, 현대 중국 시를 이해할 수 있을까

초록

상세 분석

댓글 및 학술 토론

의견 남기기