솔버 인 루프 OR 디버깅과 행동 합리성을 위한 MDP 기반 벤치마크
초록
본 논문은 기존 LLM 평가가 일회성 코드 생성에 머무는 한계를 지적하고, 솔버를 피드백 루프로 활용하는 두 가지 새로운 벤치마크인 OR‑Debug‑Bench와 OR‑Bias‑Bench를 제안한다. OR‑Debug‑Bench는 5,000개 이상의 선형 프로그램 오류를 9가지 유형으로 나누어 단계별 디버깅 과정을 평가하고, OR‑Bias‑Bench는 뉴스벤더 문제에서 모델의 행동 편향을 정량화한다. 도메인 특화 강화학습(RLVR)과 커리큘럼 학습을 통해 8 B 파라미터 모델이 최신 API 대비 복구율·진단 정확도·수정 단계 모두에서 우수한 성능을 보였다.
상세 분석
이 연구는 운영 연구(OR) 분야에서 실무자가 모델을 디버깅할 때 반드시 거치는 “불가능한 서브시스템(IIS) 분석 → 제약 충돌 식별 → 모델 수정” 과정을 정형화하고, 이를 강화학습(MDP) 프레임워크에 매핑함으로써 LLM의 자기 교정 능력을 체계적으로 측정한다. OR‑Debug‑Bench는 자연어 설명과 고의로 손상된 Gurobi 코드 쌍을 제공하고, 각 수정 행동마다 솔버를 재실행해 새로운 IIS를 반환한다. 이렇게 얻은 deterministic oracle은 ‘복구율(RR@k)’, ‘진단 정확도(DA)’, ‘최적성 보존(OP)’ 등 다중 메트릭을 가능하게 하며, 특히 높은 RR@5(95.3%)와 낮은 평균 단계수(2.25)를 달성한 8 B 모델은 기존 API(예: GPT‑5.2‑chat, Claude‑sonnet‑4 등)보다 9~14%p 향상된 성능을 보여준다.
OR‑Bias‑Bench는 뉴스벤더 모델링에서 닫힌 형태의 최적 주문량 Q*를 기준으로, 모델이 제시한 주문량 Q와의 비율을 통해 ‘합리성(Rationality)’과 ‘편향 차이(Bias Diff)’를 측정한다. 여기서 중요한 점은 ID(내부 분포)와 OOD(외부 분포) 간의 일반화 격차를 정량화한 뒤, 커리큘럼 학습을 적용해 ‘pull‑to‑center’ 편향을 48% 감소시켰으며, 오히려 ID→OOD 전이에서 부정적인 편향 이동(−9.6%)을 관찰했다는 것이다. 이는 단순히 데이터 양을 늘리는 것이 아니라, 단계별 난이도와 CR(critical ratio) 구간을 조절한 교육이 모델의 의사결정 구조를 근본적으로 바꿀 수 있음을 시사한다.
훈련 파이프라인은 두 트랙으로 나뉜다. 첫 번째 트랙은 SFT(슈퍼바이즈드 파인튜닝) 후 GRPO(그룹 상대 정책 최적화)를 적용해 복구 행동에 대한 복합 보상(결과 + 진단 + 효율)으로 강화학습을 수행한다. 두 번째 트랙은 뉴스벤더 데이터에 대해 3단계 커리큘럼(극단 → 경계 → 전체)으로 학습해 편향을 단계적으로 완화한다. 특히, 진단 정확도에 0.3 비중을 부여한 복합 보상은 ‘운이 좋은’ 최적 도달을 억제하고, 실제 원인 파악을 유도한다.
실험 결과는 26개 모델(8 B 로컬 모델 3종, 22개 API)와 12,000여 샘플에 걸쳐 검증되었다. 로컬 8 B 모델은 RR@5 95.3%, DA 62.4%, 평균 단계 2.25를 기록했으며, 이는 가장 높은 성능을 보인 Llama‑3.1‑8B(97.3% RR@5)와 비교해도 복구 효율성에서 우위에 있다. API 모델은 전반적으로 RR@5 86100% 사이이지만, 평균 단계가 3.55.0으로 현저히 낮다. 편향 측면에서도 커리큘럼 학습을 적용한 모델만이 OOD에서 편향 감소를 달성했으며, 기존 API는 편향 차이가 20% 수준으로 유지된다.
전체적으로 이 논문은 OR 분야에서 LLM을 평가·훈련하는 새로운 패러다임을 제시한다. deterministic solver 피드백을 활용한 MDP 설계, 다중 메트릭 기반 벤치마크, 그리고 도메인 특화 강화학습·커리큘럼 학습이 결합돼, 모델이 ‘코드를 고치는’ 능력뿐 아니라 ‘의사결정 편향을 교정하는’ 능력까지 동시에 향상될 수 있음을 입증한다. 향후 연구는 더 복잡한 정수계획, 비선형 모델, 그리고 실시간 운영 환경으로 확장하는 것이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기