LLM의 과학적 발산적 사고 능력 평가: LiveIdeaBench 벤치마크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 단일 키워드 프롬프트만을 이용해 과학적 아이디어를 생성하도록 LLM을 테스트하고, 독창성·실현 가능성·유창성·유연성·명료성 다섯 가지 차원에서 자동 평가하는 LiveIdeaBench를 제안한다. 40여 모델을 1,180개 키워드·22개 분야에 적용한 결과, 일반 지능 지표와는 별개로 창의적 아이디어 생성 능력이 크게 차이남을 확인하였다.

상세 분석

LiveIdeaBench는 인간의 발산적 사고 이론인 길포드(Guilford)의 5대 창의성 차원을 그대로 모델링한다. 구체적으로, ‘독창성’은 아이디어가 기존 지식과 얼마나 차별화되는지를, ‘실현 가능성’은 과학적 타당성과 실험 가능성을, ‘명료성’은 아이디어가 얼마나 명확히 서술되는지를 LLM 기반 심사자(Judge LLM)에게 점수 매기게 한다. ‘유창성’은 동일 키워드에 대해 여러 아이디어를 생성했을 때의 다양성(lexical·semantic 차이)으로 측정하고, ‘유연성’은 다른 차원의 평균 점수 30번째 백분위수로 정의한다. 이 설계는 기존 벤치마크가 주로 풍부한 컨텍스트(논문 초록·전체 텍스트)를 제공받아 수행하는 ‘수렴적 사고’를 평가하는 데 비해, 최소한의 입력만으로 얼마나 다양한 아이디어를 떠올릴 수 있는지를 정량화한다는 점에서 차별적이다.

실험에서는 1,180개의 과학 키워드(예: “양자 얽힘”, “CRISPR”, “탄소 나노튜브”)를 22개 분야에 고르게 배분하고, 각 키워드당 5~10개의 아이디어를 40여 최신 LLM(오픈·프로프라이어터리 모두)에게 생성하도록 했다. 생성된 아이디어는 동적 패널(Top‑10 모델)으로 구성된 심사자 집단에 의해 자동 평가되었으며, 인간 전문가와의 상관관계 검증을 통해 자동 평점의 신뢰성을 확보하였다.

주요 결과는 다음과 같다. (1) 일반 지능 지표(예: MMLU, BIG‑Bench)와 창의성 점수 간의 상관계수가 낮아, 지능과 창의성이 별개의 능력임을 LLM에서도 재확인했다. (2) QwQ‑32B‑preview와 같은 비교적 작은 모델이 claude‑3.7‑sonnet:thinking과 거의 동등한 독창성·실현 가능성 점수를 기록했으며, 이는 모델 규모와 훈련 목표가 창의성에 미치는 영향이 복합적임을 시사한다. (3) 대부분의 모델은 ‘유창성’에서는 높은 점수를 받았지만, ‘유연성’과 ‘독창성’에서는 큰 편차를 보였으며, 이는 동일한 아이디어 패턴을 반복하는 ‘창의적 동질성’ 문제가 존재함을 의미한다. (4) 인간 평가와 비교했을 때, 자동 심사자는 특히 ‘명료성’에서 인간보다 일관성이 높았지만, ‘실현 가능성’에서는 도메인 전문 지식이 부족한 경우 과대평가하는 경향을 보였다.

이러한 발견은 LLM의 과학적 아이디어 생성 능력을 향상시키기 위해서는 (i) 대규모 일반 지식 학습 외에 발산적 사고를 촉진하는 특수 프롬프트 설계·다중‑샘플링 전략, (ii) 도메인‑특화 지식 그래프와의 연계, (iii) 창의성 전용 보상 함수(예: 다양성·신선도 기반 RLHF) 도입이 필요함을 암시한다. 또한, LiveIdeaBench 자체가 동적 평가 파이프라인(심사자 모델 교체·재학습 가능)과 리더보드(실시간 모델 순위) 기능을 제공함으로써, 향후 연구자들이 새로운 모델을 즉시 비교·검증할 수 있는 인프라 역할을 할 것으로 기대된다.

LLM의 과학적 발산적 사고 능력 평가: LiveIdeaBench 벤치마크

초록

상세 분석

댓글 및 학술 토론

의견 남기기