창의성 평가 재고: 기존 메트릭의 한계와 향후 방향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 창의성 평가에 널리 사용되는 네 가지 자동 메트릭(Perplexity, LLM‑as‑a‑Judge, Creativity Index, Syntactic Templates)을 세 가지 도메인(창의적 글쓰기, 비전형 문제 해결, 연구 아이디에이션)에서 인간 라벨링과 비교 분석한다. 실험 결과, 각 메트릭은 도메인마다 일관된 성능을 보이지 않으며, 서로 상충되는 판단을 내리는 경우가 빈번하다. 특히 Perplexity는 유창성만을 반영하고, CI는 어휘 중복에 민감하며, Syntactic Templates는 구조적 다양성만을 포착한다. LLM‑as‑a‑Judge는 프롬프트와 모델에 따라 편향되고 재현성이 낮다. 저자는 보다 인간 인지와 일치하는 일반화 가능한 창의성 평가 프레임워크의 필요성을 강조한다.

상세 분석

이 연구는 창의성 평가의 다차원성을 정량화하려는 시도에서 네 가지 대표적인 자동 메트릭을 선택하고, 각각을 토큰‑레벨(Perplexity), 구‑레벨(Creativity Index), 구조‑레벨(Syntactic Templates), 그리고 개념‑레벨(LLM‑as‑a‑Judge)으로 구분한다. 각 메트릭의 구현 세부사항은 다음과 같다. Perplexity는 사전 학습된 GPT‑2 기반 언어 모델을 이용해 토큰 확률의 역수를 로그 변환한 값으로 계산했으며, 높은 값이 ‘예상 밖’이라는 가정 하에 창의성을 추정한다. 그러나 실험 결과, 창의적 텍스트와 비창의적 텍스트 간 perplexity 분포가 크게 겹쳐, 구분력이 낮았다. 이는 언어 모델이 문법적·통계적 유창성을 주로 측정하고, 실제 의미적 새로움이나 독창성을 포착하지 못한다는 근본적인 한계를 드러낸다.

Creativity Index는 대규모 웹 코퍼스와의 n‑gram 겹침을 기반으로 L‑uniqueness를 측정한다. 논문에서는 L값을 5~11 범위로 변동시켰으며, 구현 방식(정확 일치 vs. 근사 일치)에 따라 점수가 두 배 이상 차이 나는 등 민감도가 매우 높았다. 특히 창의적 글쓰기 도메인에서는 인간 라벨과 높은 상관관계를 보였지만, 문제 해결이나 연구 아이디에이션에서는 거의 구분력을 발휘하지 못했다. 이는 해당 도메인에서 새로움이 어휘적 중복이 아닌 개념적 재구성에 더 의존하기 때문이다.

Syntactic Templates는 POS 태그 시퀀스의 압축 비율(CR‑POS), 템플릿 등장 비율, 토큰당 템플릿 수(TPT) 등을 지표로 삼아 구조적 다양성을 평가한다. 실험 결과, 연구 아이디에이션과 문제 해결 텍스트는 대부분 공식적인 서술 구조를 따르므로 템플릿 비율이 낮아 차별력이 부족했다. 반면 창의적 글쓰기에서는 일부 독특한 구문 패턴이 감지되었지만, 전체적으로는 의미적 창의성을 충분히 반영하지 못했다.

LLM‑as‑a‑Judge는 최신 LLM(GPT‑4, Claude‑2 등)을 체인‑오브‑생각(chain‑of‑thought)과 루브릭 기반 프롬프트로 활용해 전반적인 창의성을 1‑5 점수로 매긴다. 저자는 프롬프트 변형, 모델 선택, 온도 파라미터 등에 대한 광범위한 민감도 분석을 수행했으며, 동일 텍스트에 대해 세 번 반복 평가 시 일관성이 40%에 불과함을 보고했다. 또한 특정 라벨(‘독창적’ vs ‘평범함’)에 대한 편향이 관찰되었으며, 사전 학습 데이터에 포함된 사례와의 중복 가능성도 제기되었다. 이러한 결과는 LLM을 평가자로 사용할 때 인간 평가자의 주관성을 완전히 대체하기 어렵다는 점을 강조한다.

전체적으로, 네 메트릭 모두 ‘새로움’과 ‘유용성’이라는 창의성의 두 축을 완전하게 포착하지 못한다는 공통된 결함을 보인다. 특히 도메인 간 일관성이 결여되어, 한 메트릭이 특정 분야에서 높은 성능을 보이더라도 다른 분야에서는 전혀 효과적이지 않다. 이는 현재 자동 창의성 평가가 아직 인간 인지와 일치하는 통합적 모델을 갖추지 못했음을 의미한다. 논문은 향후 연구 방향으로 (1) 의미적 새로움을 직접 측정할 수 있는 임베딩 기반 거리 혹은 그래프 구조 분석, (2) 인간 라벨링을 보강하는 혼합형 평가 프레임워크, (3) 도메인 특화된 메트릭의 표준화와 공개 데이터셋 구축을 제안한다.

창의성 평가 재고: 기존 메트릭의 한계와 향후 방향

초록

상세 분석

댓글 및 학술 토론

의견 남기기