에이전트 기반 가설 생성·검증으로 사회과학 연구 가속화
초록
EXPERIGEN은 LLM‑기반 생성기와 실험기 에이전트를 결합한 두 단계 베이지안 최적화 프레임워크로, 비구조화 데이터에서 가설을 자동으로 제시하고 통계적 검증까지 수행한다. 10개 도메인에서 기존 방법보다 2‑4배 많은 유의미한 가설을 발견하고, 전문가 평가에서 88%가 새롭고 70%가 실질적 영향을 미친다고 판단했으며, 실제 A/B 테스트에서도 p < 1e‑6, 효과 크기 +344%를 기록했다.
상세 분석
EXPERIGEN은 사회과학 연구의 핵심인 “관찰 → 가설 생성 → 실험 검증” 순환을 완전 자동화하려는 시도로, 두 개의 특화된 LLM 에이전트를 활용한다. 생성기(Generator)는 데이터셋 요약(스키마, 통계, 샘플)과 실험기의 능력 설명을 입력으로 받아, 사전 학습된 과학 지식에 기반한 가설 후보를 샘플링한다. 여기서 가설은 자연어 형태이며, plausibility와 testability를 동시에 고려한다는 점이 기존 LLM 기반 가설 생성과 차별화된다.
실험기(Experimenter)는 ReAct 구조를 채택해 가설을 구체적인 특성(feature)과 공변량(covariate)으로 변환하고, 코드 인터프리터와 LLM 기반 특성 추출기를 이용해 데이터 전처리·특성 생성·통계 검정을 자동화한다. 검증 과정에서는 χ², t‑test, 회귀 등 적절한 검정법을 선택하고, 다중 검정 보정을 위해 Bonferroni 혹은 FDR을 적용한다. 검정 결과(p값, 효과 크기)는 메모리(M)에 저장돼, 이후 생성기가 이를 피드백으로 활용해 가설을 정제하거나 새로운 조합을 제안한다.
이러한 내·외부 루프는 베이지안 최적화의 탐색‑활용 균형을 모방한다. 외부 루프는 novelty‑driven seed hypothesis를 탐색하고, 내부 루프는 해당 seed를 통계적 유의미성까지 끌어올리는 “refinement” 과정을 수행한다. 결과적으로 검증된 가설 집합이 점진적으로 확대되며, 각 가설은 이전 결과에 조건부로 의존한다는 점에서 인간 연구자의 인지적 흐름을 잘 모사한다.
실험에서는 10개의 이질적인 도메인(텍스트 설득, 이미지 기억, 관계형 Reddit 스레드 등)에서 기존 방법 대비 7‑17% 높은 예측 정확도와 2‑4배 더 많은 유의미한 가설을 도출했다. 특히, 복합 변수(예: 인용·통계·프레이밍)의 상호작용을 포착한 가설은 단일 패스 LLM이 놓치기 쉬운 사례로, EXPERIGEN만이 발견할 수 있었다.
전문가 평가에서는 25개의 가설 중 88%가 ‘중간 이상’ 수준의 새로움을, 70%가 ‘실질적 연구 가치’를 가지고 있다고 판단했으며, 검증 rigor는 석사·박사 수준과 동등하다고 평가되었다. 마지막으로, Fortune 500 기업과 협업한 A/B 테스트에서 LLM이 제안한 가설이 실제 전환율을 344% 상승시켰으며, 통계적 유의미성(p < 10⁻⁶)을 확보했다.
하지만 몇 가지 한계도 존재한다. 첫째, 가설 생성과 검증 모두 LLM의 사전 지식에 크게 의존하므로, 도메인 특화 지식이 부족한 분야에서는 품질이 저하될 위험이 있다. 둘째, 현재 검증 파이프라인은 전통적인 통계 검정에 국한돼 있어 인과 추론이나 구조 방정식 모델링 등 복잡한 분석을 다루기엔 제한적이다. 셋째, 코드 인터프리터와 LLM 특성 추출기의 결합은 실행 오류나 편향된 특성 정의를 초래할 가능성이 있으며, 재현성을 위해서는 상세한 프롬프트와 환경 설정이 공개돼야 한다. 넷째, 실험 비용이 높은 실제 현장 실험(A/B 테스트)까지 연결된 사례가 하나뿐이므로, 일반화 가능성을 평가하려면 더 다양한 산업·학문 분야에서의 적용이 필요하다.
전반적으로 EXPERIGEN은 “가설 → 실험” 전 과정을 에이전트 기반 자동화로 연결함으로써, 데이터 풍부한 사회과학 분야에서 연구 속도를 획기적으로 높일 잠재력을 보여준다. 향후에는 인과 추론 모듈 통합, 도메인‑특화 프롬프트 설계, 오픈소스 구현 공개 등을 통해 신뢰성과 확장성을 강화한다면, 학계·산업 모두에서 혁신적인 연구 도구로 자리매김할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기