경량 다중LLM 협업을 위한 공유 MCTS 기반 모델 컴파일 최적화
초록
COLT은 단일 대형 LLM 대신 여러 소형 LLM을 공동으로 활용하여 컴파일러 최적화 탐색을 수행한다. 공유된 MCTS 트리를 통해 변환 이력과 모델 선택을 동시에 관리하고, 모델‑인식 트리 정책과 단계적 확대 메커니즘으로 작은 모델을 우선 사용하면서도 필요 시 대형 모델로 전환한다. 실험 결과, CPU·GPU 벤치마크에서 10배 이상 속도 향상을 달성하고, 대형 LLM 호출 비율을 24% 수준으로 감소시켰다.
상세 분석
COLT은 기존 LLM‑기반 컴파일러 최적화가 대형 모델에 의존해 비용이 높다는 문제를 근본적으로 재구성한다. 핵심 아이디어는 “모델 선택을 의사결정 변수로 포함한 공동 상태공간”을 정의하고, 이를 MCTS의 노드에 ⟨프로그램, 현재 모델⟩ 형태로 매핑한 것이다. 이렇게 하면 각 노드에서 활성화된 LLM이 변환과 다음 모델을 동시에 제안하도록 설계할 수 있다. 모델‑인식 트리 정책은 UCT 공식에 모델 크기 가중치를 곱해 작은 모델을 탐색 초기에 선호하면서도 탐색‑활용 균형을 유지한다. 또한, “코스‑알터네이션” 메커니즘은 연속적인 성능 퇴보가 감지되면 자동으로 가장 큰 LLM으로 에스컬레이션한다.
공유 트리를 활용함으로써 서로 다른 LLM이 제안한 변환 프리픽스를 재사용하고, 하위 노드에서 얻은 보상(실제 실행 시간 또는 성능 지표)을 루트까지 역전파한다. 이는 하나의 모델이 발견한 유망한 변환 시퀀스가 다른 모델에게도 전달되어 전체 탐색 효율을 크게 높인다. 실험에서는 다섯 개의 최신 신경망 모델(Transformer, ResNet 등)을 CPU와 GPU 환경에서 최적화했으며, COLT은 단일 대형 LLM 기반 베이스라인 대비 평균 10.86×(CPU)·30.05×(GPU) 속도 향상을 기록했다. 특히, 대형 LLM 호출 횟수를 전체의 23.9%로 제한하면서도 최적화 품질을 유지하거나 개선했다.
한계점으로는 모델 간 제안 품질 차이가 큰 경우 초기 탐색 단계에서 작은 모델이 잘못된 변환을 반복할 위험이 존재한다. 또한, 현재 구현은 변환 후보를 텍스트 형태로 LLM에 전달하는 방식이라, 변환 후보 집합이 커질수록 프롬프트 길이와 토큰 비용이 증가한다. 향후 연구에서는 변환 후보를 구조화된 그래프 형태로 인코딩하거나, 메타‑학습을 통해 모델 간 신뢰도를 동적으로 조정하는 방법이 제안될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기