예산 할당을 위한 듀얼페이즈 LLM 프레임워크 DARA
초록
DARA는 제한된 데이터 환경에서 광고주 예산을 효율적으로 배분하기 위해, LLM의 인‑컨텍스트 학습과 강화학습 기반 미세조정을 결합한 두 단계 구조를 제안한다. 첫 단계에서 몇 개의 사례만으로 초기 예산 계획을 생성하고, 두 번째 단계에서 피드백을 활용해 수치적 정밀도를 높이며 최적화한다. 실험 결과, 기존 RL·LLM 기반 방법들을 크게 앞선 성능을 보인다.
상세 분석
본 논문은 온라인 광고의 AI‑Generated Bidding(AIGB) 환경에서 예산 할당 문제를 ‘few‑shot’ 상황에 초점을 맞추어 재정의한다. 전통적인 강화학습(RL) 접근법은 대규모 상호작용 데이터가 필요하지만, 실제 광고주들은 개인화된 목표와 제한된 히스토리를 가지고 있어 데이터가 부족한 경우가 빈번하다. 이러한 한계를 극복하기 위해 저자는 대규모 언어 모델(LLM)의 인‑컨텍스트 학습 능력을 활용한다. LLM은 몇 개의 예시만으로도 새로운 작업을 수행할 수 있지만, 수치 연산에 대한 정밀도가 낮아 미세한 예산 조정에는 부적합하다. 이를 보완하기 위해 ‘GRPO‑Adaptive’라는 새로운 RL‑fine‑tuning 기법을 도입한다. 기존 GRPO는 그룹 단위 KL 정규화를 사용해 정책 업데이트의 안정성을 확보했으나, 고정된 레퍼런스 정책에 의존한다는 한계가 있었다. GRPO‑Adaptive는 훈련 과정 중에 레퍼런스 정책을 동적으로 교체함으로써, 최신 정책과의 비교를 지속적으로 수행한다. 이로써 정책 개선이 보다 유연하고 효율적으로 이루어지며, LLM의 추론 능력과 수치적 정확도가 동시에 향상된다.
DARA의 핵심 설계는 두 개의 모듈, ‘Few‑shot Reasoner’와 ‘Fine‑grained Optimizer’로 구성된 듀얼‑에이전트 아키텍처이다. 첫 번째 모듈은 구조화된 프롬프트(목표, few‑shot 데이터, 이전 시도 기록, 출력 형식)를 통해 초기 예산 배분 벡터를 생성한다. 여기서 LLM은 언어적 패턴 인식과 일반화 능력을 활용해, 제한된 히스토리로부터 전반적인 배분 의도를 도출한다. 두 번째 모듈은 실제 환경에서 얻은 ROI 피드백을 입력받아, GRPO‑Adaptive로 미세조정된 정책을 적용해 예산 벡터를 단계별로 수정한다. 이 단계는 수치적 민감도가 높은 연산을 요구하므로, RL 기반 정책 업데이트가 핵심 역할을 한다.
실험 설계는 실제 기업 광고 데이터와 합성 시뮬레이션 환경을 모두 포함한다. 합성 환경은 다항식·지수형 함수로 정의된 ROI‑budget 관계를 통해 다양한 시나리오를 무한히 생성할 수 있게 설계되었으며, 이는 모델의 일반화 능력을 평가하는 데 기여한다. 실험 결과, DARA는 ROI 총합 및 예산 제약 하에서의 변동성 최소화 측면에서 기존 Q‑learning, HiBid, ABPlanner 등과 비교해 평균 12‑18% 이상의 성능 향상을 기록했다. 특히, 데이터가 5개 이하인 초저샘플 상황에서도 안정적인 정책을 학습해, few‑shot 환경에서의 실용성을 입증했다.
이 논문의 주요 기여는 다음과 같다. 첫째, 예산 할당 문제를 ‘고수준 일반화 단계’와 ‘세밀한 최적화 단계’로 명확히 분리함으로써, 각 단계에 맞는 모델 능력을 최적화하였다. 둘째, 레퍼런스 정책을 동적으로 교체하는 GRPO‑Adaptive 알고리즘을 제안해, LLM의 추론 능력과 RL의 정밀성을 동시에 끌어올렸다. 셋째, 실제 광고 데이터와 통제된 합성 데이터를 모두 활용한 두 가지 환경을 구축해, 정책의 견고함과 확장성을 검증하였다. 전반적으로 DARA는 제한된 데이터와 복잡한 비정상적 환경에서도 광고주 예산을 효율적으로 배분할 수 있는 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기