인지과학 자동 발견 엔진: 대규모 언어모델을 활용한 전 단계 자동화
본 논문은 인지과학 연구의 전통적 탐구 사이클을 네 단계(실험 설계·데이터 생성·모델 합성·루프 폐쇄) 모두에 대형 언어모델(LLM)을 적용해 완전 자동화하는 프레임워크를 제안한다. 실험은 LLM이 문법 기반 혹은 직접적인 프롬프트로 생성하고, 행동 데이터는 인간 인지 기반 파운데이션 모델(Centaur)으로 시뮬레이션한다. 모델 합성은 LLM 기반 프로그램 합성 및 진화적 탐색으로 수행되며, 최종적으로 ‘흥미도(interestingness)’…
저자: Akshay K. Jagadish, Milena Rmus, Kristin Witte
인지과학은 인간 지능을 이해하기 위해 인지 과정을 형식화한 계산 모델을 구축하는 학문이다. 전통적으로 연구자는 실험(paradigm)을 설계하고, 인간 피험자를 모집해 데이터를 수집한 뒤, 사전에 정의된 모델군을 손수 구현·검증한다. 이러한 사이클은 인간의 개입이 매 단계마다 필요하기 때문에 속도가 느리고, 탐색 가능한 가설 공간이 연구자의 배경지식과 직관에 의해 제한된다. 저자들은 이러한 병목을 해소하고, 인지과학 연구를 ‘완전 자동화된 in‑silico 과학’으로 전환하기 위한 네 단계 프레임워크를 제시한다.
1. **실험 제안(Experiment Proposing)**
- 실험을 기술하기 위한 형식적 언어(문법)를 정의한다. 예시로 MDP(마코프 의사결정 과정) 기반 문법을 들며, 상태·전이·보상 구조를 파라미터화한다.
- 그러나 문법 자체가 표현할 수 있는 실험 종류를 제한하므로, 궁극적으로는 LLM을 ‘지능형 실험 샘플러’로 활용해 직접 실험 설계를 생성하도록 한다. LLM은 특정 행동을 유도하거나 가설을 검증하기에 최적화된 과제 구성을 제안하고, 피드백을 받아 반복적으로 개선한다.
2. **데이터 생성(Data Generation)**
- 제안된 실험을 기반으로 ‘Centaur’와 같은 인간 인지 파운데이션 모델을 이용해 행동 데이터를 시뮬레이션한다. 모델은 텍스트 프롬프트를 받아 각 트라이얼의 선택·보상·피드백을 순차적으로 생성한다.
- 데이터는 인구통계·정신건강 설문 등 메타데이터와 결합해 특정 가상 피험자(예: 30세 남성, 강박성향 높은) 프로파일을 재현한다. 이는 실제 인간 집단의 이질성을 반영하려는 시도이다.
- 하지만 현재 파운데이션 모델이 인간의 복잡한 전략을 완벽히 모방하지 못하거나, 훈련 데이터 분포 밖의 새로운 과제에 대해 일반화가 제한될 수 있다. 따라서 합성 데이터는 ‘가설 생성 가속기’로 활용하고, 실험적 검증을 통해 지속적으로 교정해야 한다.
3. **모델 합성(Model Synthesis)**
- 기존 연구에서는 연구자가 후보 모델을 직접 코딩하고, likelihood 함수를 정의해 최적화한다. 자동화된 접근에서는 LLM이 파이썬 함수 형태의 인지 모델을 자동 생성하고, 성능 피드백(예: 로그우도, 예측 정확도)을 받아 반복적으로 수정한다.
- GeCCo( Guided generation of Computational Cognitive Models)와 FunSearch 같은 프로그램 합성·진화 알고리즘을 결합해, 코드 변형을 탐색하고 가장 높은 목표 점수를 얻는 모델을 선택한다.
- 탐색 공간은 매우 거칠고, 작은 코드 수정이 모델을 완전히 붕괴시킬 수 있다. 또한 LLM이 학습한 편향이 코드 스타일이나 가정에 반영될 위험이 있다. 따라서 다중 목표(예측 성능·해석 가능성·계산 효율성)를 동시에 고려하는 평가 체계가 필요하다.
4. **루프 폐쇄(Closing the Loop)**
- 최종 단계에서는 ‘흥미도(interestingness)’라는 메트릭을 통해 이번 사이클의 결과가 과학적으로 얼마나 가치 있는지를 평가한다. 이 메트릭은 novelty(기존 지식 대비 새로운 정도), compressibility(설명 모델의 단순성), transferability(다양한 과제·집단에 적용 가능성), qualitative signatures(특정 행동 패턴) 등을 포함한다.
- 기존의 정보이득 기반 실험 설계는 통계적 구분에만 초점을 맞추어 이론적 의미가 낮은 경우가 많다. 따라서 LLM‑critic은 다중 목표를 종합해 ‘흥미도 점수’를 산출하고, 이를 다음 실험 제안 단계에 피드백한다.
- 이 과정에서 ‘극단적 새로움’만을 추구하거나, 점수를 조작하기 위한 전략이 학습될 위험이 있다. 따라서 단일 스칼라가 아닌 다중 목표 최적화와 인간 전문가의 검증이 병행되어야 한다.
**위험과 한계**
- **실험 문법**: 표현력이 제한되면 혁신적 실험 자체를 생성할 수 없으며, 문법 설계 자체가 과학적 창의성의 병목이 된다.
- **합성 데이터 신뢰성**: 파운데이션 모델이 인간 행동을 ‘표면적으로’ 재현할 수는 있지만, 내부 메커니즘이 다를 경우 잘못된 가설을 강화할 위험이 있다. 지속적인 베이스라인 검증과 적대적 테스트가 필요하다.
- **모델 탐색**: 코드 기반 탐색은 비연속적이며, 최적해가 전역이 아닐 가능성이 크다. 진화적 알고리즘과 LLM의 조합이 탐색 효율을 높이지만, 편향과 과적합을 방지하기 위한 메타-규제 기법이 요구된다.
- **흥미도 평가**: ‘흥미도’는 주관적 요소가 강하고, 게임화될 위험이 있다. 다중 목표(novelty, robustness, parsimony, generalization, unification)를 동시에 고려하고, 인간 과학자가 최종 판단을 내리는 하이브리드 구조가 바람직하다.
**전망**
자동화된 탐색 엔진은 인간 연구자가 ‘문제 정의·제약·평가 기준’만 제공하고, 나머지는 고속으로 탐색·제안·검증하도록 함으로써 연구 효율을 수십 배 향상시킬 수 있다. 특히 개인차를 메타데이터와 결합해 시뮬레이션하면, 계산 정신의학과 같은 분야에 직접적인 응용이 가능하다. 또한 행동뿐 아니라 신경 데이터(뇌 활동)까지 통합한다면, 멀티모달 인지 모델링으로 확장될 여지가 있다. 궁극적으로는 ‘모든 가능한 실험·데이터·모델’을 생성하는 바벨 도서관이 아니라, 과학적 가치가 높은 소수의 페이지만을 효율적으로 찾아내는 시스템을 구축하는 것이 목표이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기