다양한 분야 텍스트 창의성 평가를 위한 대규모 데이터셋과 LLM 기반 평가자
초록
본 논문은 텍스트 창의성을 일관되게 측정하기 위한 쌍대 비교 프레임워크를 제안하고, 87개 분야에 걸친 100 K 이상의 인간 라벨과 1 M 이상의 합성 샘플을 포함하는 CreataSet을 구축한다. 이 데이터를 기반으로 학습한 평가 모델 CrEval은 인간 판단과의 일치도를 크게 높였으며, 기존 GPT‑4o 대비 18.7% 향상된 성능을 보인다. 또한 CrEval을 활용해 LLM의 생성 창의성을 실제로 증진시키는 실험도 수행한다.
상세 분석
본 연구는 텍스트 창의성 평가라는 난제에 두 가지 핵심 문제를 지적한다. 첫째, 기존 평가 방법은 도메인‑특화된 과제에 국한돼 있어 창의성이라는 개념을 일반화하기 어렵다. 둘째, 인간 라벨링이 비용과 시간 면에서 비효율적이며, 특히 ‘창의성’이라는 주관적 특성을 일관되게 판단하기 위한 명확한 컨텍스트가 부족하다. 이를 해결하기 위해 저자들은 (1) 공유 컨텍스트를 이용한 쌍대 비교 프로토콜을 설계하고, (2) CreataSet이라는 대규모 다중 도메인 데이터셋을 구축한다.
1. 쌍대 비교 프로토콜
동일한 지시문(I)에 대해 서로 다른 창의성 수준을 갖는 두 응답(R₁, R₂)을 제시하고, “어느 쪽이 더 창의적인가?”라는 질문을 LLM에게 묻는다. 인간 평가자는 동일한 프로토콜을 사용해 3,000여 쌍을 라벨링했으며, 공유 컨텍스트를 제공했을 때 ICC(내적 일관성)가 0.59→0.75로 크게 상승함을 실험적으로 확인했다. 이는 평가자의 주관적 편차를 줄이고, 라벨링 일관성을 확보하는 핵심 설계이다.
2. CreataSet 구축 파이프라인
- 데이터 초기화: 기존 창의성 데이터(Oogiri‑GO, Ruozhiba 등)와 일반적인 instruction‑tuning 데이터(Infinity‑Instruct)를 포함해 87개 도메인에서 1,875,146개의 (I, R) 쌍을 수집한다.
- 컨텍스트‑인식 응답 증강: 동일 지시문에 대해 다양한 창의성 수준을 갖는 응답을 LLM(GPT‑4o)으로 생성한다. 여기서 ‘창의성 레벨’은 사전 정의된 스케일(예: low, medium, high)로 조정되며, 이를 통해 1 M 이상의 합성 라벨을 확보한다.
- 라벨 구성(혼합 전략): 생성된 응답들을 쌍으로 묶고, 인간 라벨링 혹은 자동화된 신뢰도 모델을 이용해 “R₁이 더 창의적이다(y=1)” 혹은 “R₂가 더 창의적이다(y=0)” 라는 이진 라벨을 부여한다. 이렇게 구성된 (I, R₁, R₂, y) 샘플이 CrEval 학습 데이터가 된다.
데이터는 크게 Type A(기존 창의적 데이터), Type B(독립 텍스트에 인스트럭션을 역생성), Type C(일반 instruction‑response 쌍) 로 구분되며, 각 타입마다 길이와 도메인 특성이 다양하도록 설계돼 모델의 범용성을 강화한다.
3. CrEval 모델
CreataSet을 이용해 LLM을 ‘쌍대 비교’ 태스크에 특화시켜 fine‑tuning하였다. 모델 아키텍처는 기존 GPT‑4 기반을 그대로 사용하되, 최종 레이어에 binary classification head를 추가한다. 학습 과정에서는 contrastive loss와 pairwise ranking loss를 결합해 두 응답 중 더 창의적인 쪽을 정확히 예측하도록 최적화한다.
4. 실험 결과
- 인간 일치도: CrEval은 3,000개 테스트 쌍에 대해 인간 평균 ICC 0.78을 달성했으며, GPT‑4o는 0.61, 기존 heuristic(Unique‑n‑gram, DSI 등)은 0.45 수준에 머물렀다.
- 도메인 일반화: 20개 미지 도메인에 대해 zero‑shot 평가했을 때도 CrEval은 평균 12% 높은 정확도를 보였다.
- 창의성 향상: CrEval을 ‘reward model’으로 활용해 LLM을 재학습하거나, 생성 단계에서 CrEval 점수를 기준으로 샘플을 재선택하는 ‘self‑refine’ 루프를 적용했을 때, 인간 평가자 기준 창의성 점수가 평균 9% 상승했다.
5. 한계 및 향후 과제
- 합성 라벨 의존성: 자동 생성된 창의성 레벨이 인간 직관과 완전히 일치하지 않을 가능성이 있다. 향후 인간‑in‑the‑loop 라벨링을 확대해 라벨 품질을 지속적으로 검증해야 한다.
- 문화·언어 편향: 현재 데이터는 주로 영어·중국어 텍스트에 집중돼 있어 비서구 문화권에서의 창의성 판단이 제한적일 수 있다. 다국어·다문화 데이터 확장이 필요하다.
- 평가 기준의 다중성: 창의성은 ‘새로움·놀라움·가치’라는 3요소로 정의되지만, 현재 쌍대 비교는 주관적 ‘놀라움’에 치우칠 위험이 있다. 향후 다차원 점수 체계(예: novelty vs. usefulness) 도입이 요구된다.
전반적으로 본 논문은 텍스트 창의성 평가를 표준화·자동화하는 데 중요한 전진을 제시한다. 공유 컨텍스트 기반 쌍대 비교 프로토콜과 대규모 다중 도메인 데이터셋은 향후 LLM‑as‑judge 연구에 널리 활용될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기