HypoSpace: 언더디터미네이션 상황에서 LLM 창의성을 집합형 가설 생성기로 평가
초록
HypoSpace는 관측만으로는 여러 설명이 가능한 과학적 문제에서, 대형 언어 모델이 제시하는 가설 집합의 타당성·독창성·포괄성을 정량화하는 벤치마크이다.
상세 분석
본 논문은 과학적 추론에서 흔히 마주치는 ‘언더디터미네이션(underdetermination)’ 현상을 정량적으로 평가하기 위한 새로운 진단 프레임워크인 HypoSpace를 제안한다. 핵심 아이디어는 LLM을 ‘가설 샘플러’로 간주하고, 각 문제에 대해 완전하게 열거 가능한 정답 집합 (H_O) 을 사전에 정의한 뒤, 모델이 생성한 (N) 개의 가설에 대해 세 가지 지표를 측정한다. 첫째 Validity(VR) 는 모델이 제시한 가설이 관측과 일치하는 비율을 나타내는 정밀도 개념이다. 둘째 Uniqueness(NR) 는 중복 없이 새로운 가설을 제시했는지를 평가하며, 이는 도메인별 정규화(canonicalization) 과정을 통해 의미론적 동등성을 제거한다. 셋째 Recovery(RR) 는 모델이 실제로 탐색한 고유 유효 가설의 수를 전체 가능한 가설 수 (|H_O|) 로 나눈 커버리지 비율이다. 이 세 지표는 각각 ‘적합성’, ‘독창성’, ‘유창성(포괄성)’을 의미하며, 전통적인 단일 정답 정확도와는 독립적인 정보를 제공한다.
세 가지 도메인—(i) 단일 노드 개입 관측을 기반으로 하는 인과 그래프 추론, (ii) 상하관계와 중력 제약을 만족하는 3D 복셀 재구성, (iii) 표현형 관측으로부터 Boolean 유전 상호작용 모델링—은 모두 정형화된 검증자와 정확히 열거 가능한 가설 공간을 갖는다. 이를 통해 모델이 ‘모드 붕괴(mode collapse)’ 현상을 보이는지 정량적으로 파악할 수 있다. 실험 결과, 최신 instruction‑tuned 및 reasoning‑focused 모델들은 관측 일관성(VR)은 높은 수준을 유지하지만, 가설 공간이 커질수록 NR과 RR이 급격히 감소한다는 일관된 패턴을 보였다. 특히, 모델이 확률 분포가 ‘피크(p peaked)’하게 집중될 경우, 작은 ‘헤드’ 집합에만 높은 확률이 할당되고 나머지 ‘테일’ 가설은 거의 샘플링되지 않아 커버리지가 비효율적으로 낮아진다. 논문은 이를 수학적으로 전개하여, 최소 확률 (\epsilon) 가 매우 작을 경우 필요한 샘플 수가 (O(1/\epsilon)) 로 급증함을 보였다.
또한, ‘계층적 디코딩(stratified decoding)’과 같은 간단한 샘플링 전략이 피크 현상을 완화하고 RR을 개선할 수 있음을 실증하였다. 이는 LLM 자체의 능력보다 샘플링 방법론이 가설 탐색 효율에 큰 영향을 미친다는 중요한 시사점을 제공한다. 전체적으로 HypoSpace는 ‘모델이 얼마나 넓은 가설 공간을 탐색할 수 있는가’를 측정하는 정밀한 도구로, 기존의 정답‑중심 벤치마크가 놓치기 쉬운 창의적·탐색적 능력을 드러낸다.
댓글 및 학술 토론
Loading comments...
의견 남기기