LLM 라우팅·계단식·사용자 선택: 비용·성능 균형의 게임 이론
초록
본 논문은 두 종류의 LLM(표준 모델과 추론 모델)을 보유한 제공자가 사용자 요청을 라우팅하고, 실패 시 계단식(cascade)으로 전환하는 상황을 Stackelberg 게임으로 모델링한다. 사용자는 성공 가치와 지연 비용을 고려해 재프롬프트하거나 포기(q)하는 전략을 선택하고, 제공자는 비용 최소화를 목표로 라우팅 정책(i, s)을 설계한다. 저자는 사용자 최적 반응을 완전히 규명하고, 이를 이용해 제공자 문제를 단일 변수 최적화로 축소한다. 대부분의 파라미터 영역에서 최적 라우팅은 정적이며 계단식이 필요 없으며, 모델 가치와 비용 순위가 다를 때 제공자와 사용자의 선호가 크게 어긋나는 ‘불일치 격차’를 발견한다. 또한 이탈 패널티가 낮을 경우 제공자가 지연을 인위적으로 늘려 비용을 절감하려는 ‘극단적 불일치’ 현상이 발생한다는 점을 제시한다.
상세 분석
이 연구는 LLM 서비스의 핵심 운영 문제를 게임 이론적 관점에서 접근한다. 제공자는 두 모델 M₁(표준)과 M₂(추론)를 보유하고 각각 비용 c₁<c₂와 지연 t₁<t₂, 성공 확률 p₁<p₂를 가진다. 사용자는 한 번의 호출에서 기대 가치 V·pᵢ와 지연 비용 tᵢ를 비교해 순수 가치 ξᵢ=V·pᵢ−tᵢ를 정의한다. ξᵢ>0이면 가치‑지배, ξᵢ<0이면 지연‑지배 모델이다. 사용자는 모델이 실패했을 때 포기 확률 q를 선택하고, 제공자는 초기 라우팅 i와 M₁이 실패했을 때 M₂로 전환할 확률 s를 정한다.
저자는 먼저 사용자의 최적 포기 정책 q를 구한다. M₂에 직접 라우팅(i=2)하면 사용자는 ξ₂<0이면 즉시 포기하고, ξ₂≥0이면 전혀 포기하지 않는다. M₁에 라우팅(i=1)할 경우, ξ₁과 ξ₂의 부호 조합에 따라 네 가지 경우로 나뉜다. 두 모델 모두 가치‑지배이면 q=0, 두 모델 모두 지연‑지배이면 q*=1이다. ξ₁<0<ξ₂인 경우, 사용자는 s가 일정 임계값 s₀보다 작으면 포기하고, 그 이상이면 남는다. 가장 복잡한 경우 ξ₁>0>ξ₂에서는 s에 따라 q가 0, 1, 혹은 중간값을 취하는 비선형 구간이 존재한다. 이때 q는 F(s,q)=0이라는 2차 방정식의 해로 정의된다. 이러한 결과는 사용자가 라우팅 정책을 관찰한 뒤, 자신의 기대 순가치와 지연을 직접 비교해 행동한다는 현실적 가정을 반영한다.
제공자 입장에서는 사용자의 최적 q를 고려해 기대 비용 Jᵢ(s,q)=Cᵢ(s,q*)+P·(1−Sᵢ(s,q*))를 최소화한다. 여기서 Cᵢ는 모델 호출에 따른 실제 비용, Sᵢ는 최종 성공 확률이다. 저자는 Jᵢ를 s에 대한 단일 변수 함수로 변형하고, 각 ξ 조합에 대해 최적 s와 i를 분석한다. 결과적으로 대부분의 파라미터 영역에서 최적 정책은 “정적 라우팅”이며, 즉 s=0 혹은 s=1로 고정된 단일 모델 선택이 된다. 계단식이 유리한 경우는 M₁과 M₂의 순가치 차이가 크고, ξ₁이 약간 음수이면서 ξ₂가 크게 양수인 경우에 한정된다.
또한 제공자와 사용자의 모델 순위가 일치하지 않을 때, 즉 제공자는 비용 효율성을 위해 ξ₂가 낮은 모델을 선호하지만 사용자는 ξ₂가 높은 모델을 선호하는 상황에서 ‘불일치 격차’가 발생한다. 이 격차는 사용자의 기대 효용 감소와 제공자의 비용 절감 사이의 트레이드오프를 정량화한다. 특히 이탈 패널티 P가 작을 경우 제공자는 의도적으로 t₂를 늘려(즉, 모델 지연을 인위적으로 늘려) 사용자가 포기하도록 유도함으로써 장기적인 비용을 최소화하려는 ‘극단적 불일치’ 전략을 취할 수 있다. 이는 서비스 품질 저하와 사용자 만족도 하락을 초래한다는 중요한 정책적 함의를 가진다.
전반적으로 논문은 LLM 라우팅·계단식 설계가 단순히 모델 성능과 비용만을 고려하는 것이 아니라, 사용자 행동 모델을 포함한 전체 시스템의 동적 균형을 분석해야 함을 강조한다. 제시된 임계값 규칙은 실제 서비스 운영에서 라우팅 정책을 간단히 구현할 수 있게 해 주며, 불일치가 심한 경우 정책 조정이나 가격·서비스 레벨 협상을 통해 균형을 맞출 필요성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기