언어 기반 베이지안 최적화로 LoRA 하이퍼파라미터 탐색 효율화
초록
본 논문은 사전 학습된 대형 언어 모델(LLM)을 프롬프트와 학습 가능한 토큰을 통해 연속 임베딩으로 변환하고, 이를 베이지안 최적화(BO)에 활용해 LoRA 하이퍼파라미터 탐색을 효율화한다. 데이터 서브셋을 이용한 프록시 학습 평가를 결합해 약 30회의 BO 반복만으로 기존 45,000가지 조합 대비 20% 이상의 성능 향상을 달성하였다.
상세 분석
이 연구는 LoRA 파인튜닝 시 필수적인 하이퍼파라미터(랭크 r, 스케일링 팩터 α, 학습률, 배치 크기, 드롭아웃 등)의 조합 탐색이 비용이 많이 드는 문제임을 지적한다. 기존의 베이지안 최적화는 연속 공간을 전제로 하며, 이산형 하이퍼파라미터와 도메인 지식 통합에 한계가 있었다. 논문은 이러한 한계를 극복하기 위해 LLM을 ‘이산‑연속 매핑’ 장치로 재구성한다. 구체적으로, 각 하이퍼파라미터 설정을 구조화된 텍스트 템플릿(예: {설명, 이름, 값})으로 변환하고, 도메인 지식을 담은 프롬프트와 함께 LLM에 입력한다. LLM은 고정된 사전학습 가중치를 유지하면서, 추가로 학습 가능한 토큰 ψ와 투사 레이어 P(·;θ)를 통해 임베딩 z를 생성한다. 이 임베딩은 GP 기반 서프라이즈 모델의 입력으로 사용되어, BO의 획득 함수가 연속 공간에서 효율적으로 탐색하도록 만든다. 학습 가능한 토큰은 프롬프트만으로는 표현하기 어려운 미세한 도메인 정보를 캡처하며, 투사 레이어는 임베딩을 BO에 최적화된 형태로 변환한다.
또한, 논문은 전체 데이터셋을 이용한 평가가 비용이 크다는 점을 인식하고, 전체 데이터와 서브셋 데이터 간 성능 상관관계가 높다는 실증적 관찰을 활용해 ‘프록시 트레이닝 평가’를 도입한다. 서브셋으로 빠르게 학습·평가한 결과를 실제 성능의 근사치로 사용함으로써 BO 반복당 비용을 크게 낮춘다.
실험에서는 다양한 LLM(예: GPT‑3.5 기반)과 LoRA 변형(DoRA, rsLoRA, PiSSA) 및 여러 모델 아키텍처에 적용했으며, 30회의 BO 반복만으로 기존 45,000가지 조합 탐색 대비 20% 이상의 성능 향상을 기록했다. 이는 프롬프트 설계, 학습 가능한 토큰, 투사 레이어, 프록시 평가가 상호 보완적으로 작용해 탐색 효율을 극대화했음을 보여준다. 한계점으로는 LLM 자체의 추론 비용과 프롬프트 설계에 대한 전문가 의존성이 남아 있으며, 프록시 평가가 모든 데이터셋에 동일한 상관관계를 보장하지 않을 가능성이 있다. 향후 연구에서는 자동 프롬프트 생성, 멀티‑모달 LLM 활용, 프록시 평가의 이론적 보증 등을 통해 일반성을 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기