LLM 기반 과학적 아이디어 창출: 창의성 중심 설문조사
초록
본 설문조사는 대형 언어 모델(LLM)을 활용한 과학적 아이디어 생성 방법을 다섯 가지 범주(외부 지식 증강, 프롬프트 기반 스티어링, 추론 시 스케일링, 다중 에이전트 협업, 파라미터 적응)로 정리하고, Boden의 창의성 수준(조합·탐색·변형)과 Rhodes의 4P(사람·과정·환경·산출물) 프레임워크를 적용해 각 접근법의 창의성 특성을 분석한다. 평가 지표의 주관성·신뢰성 문제와 변형적 창의성 구현의 어려움을 짚으며, 향후 연구 방향을 제시한다.
상세 분석
이 논문은 과학적 아이디어 생성이라는 다중목표 문제를 LLM의 ‘새로움’과 ‘과학적 타당성’이라는 두 축으로 재구성한다. 먼저 기존 연구를 외부 지식 증강, 프롬프트 스티어링, 추론‑시 스케일링, 다중 에이전트 협업, 파라미터 적응이라는 다섯 가지 메커니즘으로 분류한다. 각 메커니즘은 창의성의 4P 중 어느 요소에 주로 기여하는지를 명시한다. 예를 들어, 외부 지식 증강은 ‘환경(Press)’을 통해 기존 지식의 재조합을 촉진해 주로 조합적 창의성을 이끌어낸다. 프롬프트 기반 스티어링은 입력 설계로 모델의 탐색 공간을 넓히며, 이는 ‘과정(Process)’과 ‘환경(Press)’에 해당하고 탐색적 창의성을 유도한다. 추론 시 스케일링(다중 샘플링·브랜칭·반복 정제 등)은 탐색 폭을 기하급수적으로 확대해 탐색적 창의성을 강화하지만, 평가 신호가 약하면 타당성이 저하될 위험이 있다. 다중 에이전트 시스템은 역할 분담·토론·비판 등 인간 과학팀의 협업 메커니즘을 모방함으로써 ‘과정(Process)’과 ‘사람(Person)’ 양쪽을 활성화한다; 이들은 개념 공간 자체를 변형시킬 가능성이 있어 변형적 창의성에 가장 근접한다. 마지막으로 파라미터 적응(파인튜닝·RLHF·CRPO·DivPO 등)은 모델 자체를 ‘사람(Person)’ 차원에서 재구성해 장기적으로 높은 수준의 창의성을 내재화하려는 시도이다.
창의성 수준을 Boden의 세 단계와 매핑한 점이 특히 의미 있다. 조합적 단계는 기존 문헌·데이터를 재배열하는 작업에 해당하고, 탐색적 단계는 구조화된 탐색(예: 트리 탐색, 샘플링 확대)으로 정의된다. 변형적 단계는 기존 과학적 패러다임을 깨는 새로운 가설·방법론을 제시하는 것으로, 현재 대부분의 LLM 기반 시스템은 이 단계에 도달하지 못한다는 결론을 내린다.
평가 측면에서는 ‘산출물(Product)’에 초점을 맞춘 메트릭이 부족함을 지적한다. novelty, feasibility, impact 등을 정량화하려는 시도가 있으나, 주관성·재현성 문제가 지속된다. 인간 전문가 평가, 자동화된 시뮬레이션, 베이스라인 대비 차별화 점수 등 복합적인 평가 체계가 필요하다고 제안한다.
마지막으로 논문은 현재 연구가 ‘환경(Press)’과 ‘과정(Process)’에 편중돼 있으며, ‘사람(Person)’과 ‘산출물(Product)’ 차원의 연구가 미비함을 강조한다. 모델 아키텍처 자체가 순차적 자동회귀 구조에 제한받아 변형적 창의성에 구조적 한계가 있을 가능성을 제시하고, 그래프 기반 인코더·디코더, 메타러닝, 지속적 학습 등 새로운 패러다임을 탐색할 것을 권고한다.
요약하면, 이 설문은 LLM 기반 과학적 아이디어 생성 연구를 체계적으로 분류하고, 창의성 이론과 연결함으로써 현재 한계와 향후 연구 로드맵을 명확히 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기