창의적 코드 생성 평가를 위한 CreativeBench와 EvoRePE

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CreativeBench는 코드 생성 모델의 창의성을 정량화하기 위해 combinatorial(조합)과 exploratory(탐색) 두 차원을 포함한 벤치마크를 제시한다. 품질·새로움의 곱으로 정의한 창의성 점수와 자동화된 역공학·셀프플레이 파이프라인을 통해 데이터 누수를 방지하고, 대규모 실험에서 모델 규모가 조합적 창의성은 크게 향상시키지만 탐색적 창의성에는 한계가 있음을 발견한다. 또한 EvoRePE라는 추론 시점 스티어링 기법을 도입해 진화적 탐색 패턴을 내재화, 전반적인 창의성 점수를 일관되게 끌어올린다.

상세 분석

CreativeBench는 Boden의 인지적 창의성 프레임워크를 코드 생성에 적용한 최초의 시도라 할 수 있다. 두 하위 벤치마크, CreativeBench‑Combo와 CreativeBench‑Explore는 각각 ‘조합적 창의성’과 ‘탐색적 창의성’이라는 서로 다른 인지적 요구를 목표로 설계되었다. Combo는 역공학 파이프라인을 통해 사전에 검증된 복합 코드를 먼저 생성하고, 이를 기반으로 테스트 케이스와 문제 설명을 자동으로 도출한다. 이 과정은 “코드‑우선” 접근법이라 부르며, 생성된 문제마다 실행 가능한 정답이 보장되므로 hallucination을 객관적으로 배제할 수 있다. Explore는 제약 생성기와 솔버가 교대로 작동하는 셀프플레이 메커니즘을 사용한다. 제약은 단계적으로 누적되며, 솔버는 기존 제약을 만족하면서 새로운 제약을 회피하는 알고리즘을 찾아야 한다. 이때 솔버는 레퍼런스‑가이드 리파인먼트 과정을 거쳐 제한된 시도 횟수 내에 성공하면 다음 레벨로 진행한다.

평가 메트릭은 Quality × Novelty 로 정의된다. Quality는 Pass@1과 LLM‑as‑Judge를 결합한 샌드박스 실행 결과로 측정하고, Novelty는 임베딩 기반 거리와 n‑gram 차이를 결합한 논리적 거리(logic distance)로 정량화한다. 인간 전문가의 검증을 통해 89.1%의 인스턴스가 유효함을 확인했으며, 자동 메트릭과 인간 평가 간의 Spearman ρ는 0.78로 높은 상관성을 보였다.

실험에서는 GPT‑4, Gemini‑3‑Pro, Claude‑2 등 최신 대형 모델들을 다양한 진화 알고리즘(예: AlphaEvolve, FunSearch)과 결합해 평가하였다. 결과는 세 가지 주요 인사이트를 도출한다. 첫째, 모델 규모가 커질수록 조합적 창의성 점수는 크게 상승하지만 탐색적 창의성은 수익 체감 현상을 보인다. 이는 대형 모델이 기존 지식을 재조합하는 데는 강하지만, 새로운 제약 하에서 완전히 새로운 알고리즘을 탐색하는 능력은 제한적임을 시사한다. 둘째, ‘convergence‑by‑scaling’ 현상이 관찰되는데, 규모가 큰 모델은 정답률은 높아지지만 생성된 솔루션의 다양성·발산성은 감소한다. 셋째, 추론 단계에서의 논리적 추론 능력은 탐색적 창의성에만 유의미한 영향을 미치며, 조합적 창의성에는 큰 기여를 하지 않는다.

이러한 분석을 바탕으로 제안된 EvoRePE(Evolutionary Representation Engineering)는 진화 과정에서 얻어진 ‘창의성 벡터’를 추출해 모델의 내부 표현에 삽입한다. 구체적으로, 진화 트래젝터리에서 고창의성 솔루션과 저창의성 솔루션 사이의 활성화 차이를 벡터화하고, 추론 시 입력 임베딩에 가감함으로써 모델이 보다 창의적인 해답을 탐색하도록 유도한다. 실험 결과 EvoRePE는 기본 진화 전략에 비해 창의성 점수를 평균 12% 상승시켰으며, 이는 진화 알고리즘 자체의 성능 향상과는 독립적인 효과임을 확인했다.

전반적으로 CreativeBench는 코드 기반 창의성 평가에 필요한 객관성, 자동화, 고난이도 문제 설계라는 세 가지 핵심 요구를 충족한다. 또한 EvoRePE는 추론 단계에서 간단히 적용 가능한 스티어링 메커니즘으로, 향후 진화적 AI 시스템이나 일반 LLM에 창의성 증강 모듈을 제공할 수 있는 실용적 길을 제시한다.

창의적 코드 생성 평가를 위한 CreativeBench와 EvoRePE

초록

상세 분석

댓글 및 학술 토론

의견 남기기