대형 언어 모델 기반 메타 서러게이트로 다중 과제 최적화 효율화
초록
본 논문은 대형 언어 모델(LLM)을 메타 서러게이트로 활용하여, 서로 다른 차원과 특성을 가진 다수의 최적화 과제에 대한 적합도 예측을 통합적으로 수행하는 프레임워크를 제안한다. 메타 서러게이트는 과제 메타데이터와 결정 변수들을 토큰 시퀀스로 변환해 조건부 확률 p(y|x,m)을 추정함으로써, 작업 간 지식 공유와 새로운 과제에 대한 제로샷 일반화를 가능하게 한다. 실험에서는 제로샷 차원 확장 능력과 ETO(진화적 전이 최적화)와의 결합을 통해 두 단계(서러게이트 수준·개체 수준) 전이 효과를 입증하였다.
상세 분석
이 연구는 기존 다중‑과제 서러게이트 모델이 직면한 세 가지 핵심 한계—확장성, 입력 공간의 동질성 요구, 고정 커널의 표현력 부족—를 LLM 기반 메타 서러게이트로 근본적으로 해소한다. 먼저, 메타 서러게이트는 모든 과제를 하나의 텍스트 기반 토큰 시퀀스로 통합한다. 메타데이터(m)는 과제의 목표 설명, 차원 정보, 제약 조건 등을 자연어 형태로 기술하고, 결정 변수(x)와 목표값(y) 역시 동일한 토큰화 규칙에 따라 인코딩한다. 이렇게 하면 서로 다른 차원·형태의 입력을 별도의 매핑 없이도 동일한 임베딩 공간에 매핑할 수 있어 입력 공간의 이질성을 자연스럽게 포괄한다.
LLM은 대규모 사전학습된 언어 이해·생성 능력을 활용해 고차원 토큰 시퀀스 간 복잡한 상관관계를 모델링한다. 조건부 확률 p(y|x,m) 추정은 본질적으로 회귀 문제이지만, LLM은 텍스트 시퀀스 전체를 하나의 확률 모델로 다루므로 비선형·비정형 관계를 자유롭게 학습한다. 다중 과제 학습 단계에서는 모든 과제의 샘플을 하나의 배치에 포함시켜 공동 최적화를 수행한다. 이때 공유된 토큰 임베딩이 과제 간 공통 패턴을 자동으로 추출하고, 과제 고유 토큰이 특수성을 보존한다. 결과적으로, 과제 간 전이 효과가 커널 설계 없이도 자연스럽게 발생한다.
실험에서는 20여 개의 베엔치마크 최적화 문제(차원 550)를 사용해 메타 서러게이트를 사전학습하였다. 특히, 훈련에 포함되지 않은 차원(예: 30차원)과 새로운 함수 형태에 대해 제로샷 예측 정확도가 기존 MTGP·Hetero‑GP 대비 1525% 향상되었으며, 추론 시간도 GPU 기반 LLM은 과제 수와 무관하게 일정 수준을 유지해 실시간 적용 가능성을 보여준다.
또한, 메타 서러게이트를 ETO 파이프라인에 삽입해 두 단계 전이(서러게이트 수준·개체 수준)를 구현하였다. 서러게이트 수준 전이는 메타 서러게이트가 제공하는 예측값을 이용해 초기 탐색 영역을 축소하고, 개체 수준 전이는 기존 ETO가 활용하는 최적해 간 교차·변이 연산에 메타 서러게이트가 제시하는 신뢰 구간을 가중치로 적용한다. 이 복합 전이 전략은 동일 실험 설정에서 평균 평가 횟수(FE) 감소율을 30% 이상, 최종 최적해 품질을 10% 이상 향상시키는 결과를 얻었다.
한계점으로는 LLM 파인튜닝에 요구되는 GPU 메모리와 학습 데이터 양이 여전히 크며, 메타데이터 설계가 성능에 민감하다는 점이다. 향후 연구에서는 경량화된 LLM(예: LoRA, QLoRA) 적용과 자동 메타데이터 생성 기법을 통해 실용성을 높일 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기