대형언어모델 기반 알고리즘 탐색을 위한 대비 개념트리 탐색
초록
본 논문은 대형언어모델(LLM)이 생성한 프로그램을 계층적 개념 트리로 변환하고, 고성능·저성능 프로그램 사이의 대비 확률을 이용해 부모 선택을 가중화하는 “Contrastive Concept‑Tree Search (CCTS)”를 제안한다. CCTS는 개념별 유용성을 학습해 탐색을 유리한 영역으로 편향시키며, 기존 적합도 기반 진화적 방법보다 효율성을 높이고, 문제별 해석 가능한 개념 트리를 제공한다.
상세 분석
CCTS는 LLM‑보조 알고리즘 발견이라는 블랙박스 최적화 문제를 두 단계로 재구성한다. 첫 번째 단계는 LLM이 제시한 코드에 대해 사전 정의된 프롬프트를 이용해 “개념 추출기” Φ를 호출, 코드에 포함된 의미적 요소를 트리형 인디케이터 벡터 b 로 변환한다. 이때 개념은 사전 정의된 계층 구조에 따라 삽입·확장되며, 조상 개념이 활성화될 경우 하위 개념도 자동으로 활성화되는 ‘조상-폐쇄’ 속성을 갖는다.
두 번째 단계는 추출된 개념을 기반으로 대비 학습을 수행한다. 아카이브 Aₜ를 성능 임계값 τₜ에 따라 goodₜ와 badₜ로 분할하고, 각각에 대해 동일한 파라미터화된 확률 모델 ˆp_η(b) 를 최대우도(교차 엔트로피) 방식으로 추정한다. 여기서 η⁺와 η⁻는 각각 고성능·저성능 집합을 설명하는 파라미터이며, L2 정규화와 스무딩을 통해 과적합을 방지한다.
학습된 두 모델의 likelihood‑ratio L(b)=log ˆp_η⁺(b)−log ˆp_η⁻(b) 를 부모 선택 확률에 곱해, 개념 조합이 고성능에 기여할 가능성이 높을수록 선택 확률을 상승시킨다. 탐색 정책은 ‘균등 탐색(p_explore)’과 ‘CCTS‑가중 탐색(1−p_explore)’을 혼합해 탐색‑활용 균형을 조절한다.
실험은 Erdős‑type 조합론 문제 집합에 대해 수행되었으며, CCTS는 동일한 연산 예산 하에서 기존 적합도 기반 진화(Uniform, Greedy, k‑elite)보다 평균 2.3배 빠른 수렴을 보였다. 특히, 개념 트리 시각화를 통해 “그래프 색칠”, “매칭 구성” 등 문제별 핵심 아이디어가 어떻게 계층적으로 축적되는지 확인할 수 있었다.
추가적인 합성 실험에서는 개념 공간을 인위적으로 설계하고, 고성능·저성능 개념을 명시적으로 배치함으로써 CCTS가 학습한 대비 점수가 실제 개념 유용성을 정확히 반영함을 검증하였다. 분석 결과, 성능 향상의 대부분은 ‘피해야 할 개념’을 빠르게 식별하고 해당 개념이 포함된 부모를 배제함으로써 얻어졌으며, 이는 기존 적합도 기반 방법이 놓치기 쉬운 부정적 신호를 활용한 것이다.
전체적으로 CCTS는 (1) LLM 내부의 의미적 구조를 외부 탐색 루프에 명시적으로 연결, (2) 대비 학습을 통한 빠른 피드백 루프 구축, (3) 해석 가능한 개념 트리 제공이라는 세 가지 핵심 기여를 한다. 향후 연구에서는 개념 추출기의 자동화, 다중 작업 간 개념 전이, 그리고 비정형 코드(예: 파이썬 스크립트)에서의 개념 정규화 방법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기