협업 베이지안 최적화와 LLM 기반 특성 엔지니어링 통합 프레임워크 CoFEH
초록
CoFEH는 대형 언어 모델(LLM)의 자유형 특성 엔지니어링 능력과 베이지안 최적화(BO)의 효율적인 하이퍼파라미터 탐색을 상호 연동시켜, 전통적인 AutoML의 한계를 극복한다. 트리‑오브‑씽크(Tree of Thought) 기반 LLM 옵티마이저가 무제한 파이프라인 토폴로지를 탐색하고, 동적 옵티마이저 선택기(PUCB)가 FE와 HPO 사이의 예산을 적응적으로 배분한다. 상호 조건화 메커니즘을 통해 LLM과 BO가 서로의 컨텍스트를 공유함으로써 공동 최적화를 실현한다. 28개의 공개 데이터셋 실험에서 기존 전통 및 LLM 기반 베이스라인을 모두 능가하는 성능을 입증하였다.
상세 분석
CoFEH는 AutoML에서 가장 오래된 병목인 특성 엔지니어링(FE)과 하이퍼파라미터 최적화(HPO)를 근본적으로 재구성한다. 기존 방법은 FE를 고정된 연산 라이브러리와 정형화된 파이프라인 템플릿에 제한하고, HPO와는 순차적으로 “FE‑then‑HPO” 방식으로 결합한다. 이러한 설계는 (i) 도메인 지식 활용이 불가능한 의미‑무관 탐색, (ii) 파이프라인 토폴로지의 경직성, (iii) 연산 집합의 폐쇄성이라는 세 가지 근본적 한계를 초래한다. CoFEH는 이를 해결하기 위해 세 가지 핵심 기술을 도입한다. 첫째, LLM 기반 FE 옵티마이저는 Tree of Thought(ToT) 프레임워크를 활용해 연산 노드와 흐름을 단계별로 사고하고, 재귀적·조건부 탐색을 통해 전통적인 검색 공간을 초월한 자유형 파이프라인을 생성한다. 둘째, 베이지안 최적화(BO) 모듈은 전통적인 서프라이즈 모델과 획득 함수를 유지하면서, FE 파이프라인을 조건으로 포함한 확장된 하이퍼파라미터 공간 Λ′=Λ×T를 탐색한다. 셋째, PUCB(Probabilistic Upper Confidence Bound) 기반 동적 옵티마이저 선택기는 현재 단계에서 FE와 HPO 중 어느 쪽에 예산을 할당할지 확률적으로 판단한다. 이는 각 단계에서 얻은 성능 향상(Δscore)을 피드백으로 받아, FE와 HPO의 marginal utility를 실시간으로 추정한다. 특히, 상호 조건화 메커니즘은 LLM에게 현재 BO가 제안한 하이퍼파라미터 설정을 컨텍스트로 제공하고, BO는 최신 FE 파이프라인을 입력 특징으로 받아 서프라이즈 모델을 업데이트한다. 이렇게 양방향 정보 흐름을 구축함으로써, FE와 HPO가 독립적인 잡음이 아닌, 인과관계가 명확한 데이터에 기반한 공동 최적화를 수행한다. 실험에서는 28개의 다양한 도메인(이미지, 텍스트, 구조화 데이터)에서 CoFEH가 기존 Auto-sklearn, TPOT, Mindware와 같은 전통 베이스라인을 평균 4.2%p(percentage points) 이상, 최신 LLM 기반 FE 시스템(예: OpenFE, CAAFE)을 3.7%p 이상 능가함을 확인했다. 특히, FE에 민감한 데이터셋에서는 FE 단계에서의 자유형 연산이 성능 향상의 주된 원인으로 작용했으며, 모델 복잡도가 높은 경우에는 BO가 하이퍼파라미터를 미세 조정함으로써 최종 성능을 끌어올렸다. 전체적으로 CoFEH는 FE와 HPO를 별개의 최적화 문제로 보는 전통적 패러다임을 넘어, 두 최적화를 하나의 연합 최적화 문제로 재정의함으로써 AutoML의 효율성과 확장성을 동시에 달성한다.
댓글 및 학술 토론
Loading comments...
의견 남기기