시간창과 가변 이익을 고려한 오리엔티어링 문제 해결을 위한 학습 기반 이산‑연속 최적화 프레임워크
초록
본 논문은 시간창과 서비스 시간에 따라 변동하는 이익을 갖는 오리엔티어링 문제(OPTWVP)를 해결하기 위해, 경로 선택과 서비스 시간 할당을 각각 전용 디코더로 예측한 뒤, 선형 계획법을 이용해 서비스 시간을 전역 최적화하는 두 단계 학습 프레임워크 DeCoST를 제안한다. 실험 결과, 500노드 이하 인스턴스에서 기존 최첨단 휴리스틱·메타휴리스틱 대비 6.6배 빠른 추론 속도와 우수한 해 품질을 입증하였다.
상세 분석
DeCoST는 OPTWVP의 이산‑연속 변수 간 상호 의존성을 명시적으로 분리함으로써 학습 효율성을 크게 향상시킨다. 첫 번째 단계에서는 병렬 디코더 구조를 채택해, 트랜스포머 기반 라우팅 디코더와 서비스 시간 디코더(STD)를 동시에 동작시킨다. 라우팅 디코더는 노드 방문 순서를 예측하고, STD는 각 방문 노드에 대한 초기 서비스 시간 비율(δd)을 추정한다. 이때 pTAR(Profit‑Weighted Time Allocation Ratio)이라는 억제형 감독 지표를 도입해, 서비스 시간이 과도하게 결정론적으로 수렴하는 것을 방지하고, 라우팅 단계에서 장기적인 구조 정보를 반영하도록 설계하였다.
두 번째 단계에서는 고정된 경로를 기반으로 서비스 시간 최적화(STO) 문제를 선형 계획(LP) 형태로 변환한다. 서비스 시간 변수 d_i는 각 노드의 최대 허용 서비스 시간 d_i^max와 시간창 제약을 고려한 선형 부등식으로 표현되며, 목표 함수는 Σ p_i·d_i 형태의 선형 이익을 최대화한다. 저자들은 STO가 전역 최적해를 보장한다는 정리를 제시하고, 병렬 simplex 혹은 interior‑point 방법을 활용해 대규모 인스턴스에서도 실시간 수준의 해결이 가능함을 증명한다.
학습 과정은 REINFORCE 기반 정책 경사 상승을 사용한다. 정책 π_θ는 라우팅과 서비스 시간 두 부분을 공동으로 샘플링하며, 보상은 전체 경로와 서비스 시간에 대한 총 이익 R(τ,d)으로 정의된다. 베이스라인 b는 배치 평균 보상으로 설정해 분산을 감소시킨다. 중요한 점은 제약 위반을 즉시 페널티화하지 않고, 라우팅 디코더가 생성한 경로가 시간창을 만족하도록 마스크를 적용함으로써, 학습 초기에 불필요한 제약 위반을 최소화한다는 것이다.
실험에서는 100~500노드 규모의 합성 및 실제 산업 데이터셋을 사용했으며, 기존 Constructive Solver(예: Greedy, Adaptive Large Neighborhood Search)와 최신 메타휴리스틱(예: Genetic Algorithm, Ant Colony Optimization) 대비 평균 4.2%~9.8% 높은 수익을 달성했다. 특히 500노드 이하에서는 평균 6.6배 빠른 추론 시간을 기록했으며, DeCoST는 다양한 기존 Constructive Solver와 플러그인 형태로 결합해 일관된 성능 향상을 보였다.
이러한 설계는 (1) 이산‑연속 변수의 공동 학습을 가능하게 하는 구조적 분해, (2) 서비스 시간 최적화를 선형 계획으로 전환해 전역 최적성을 확보, (3) pTAR 기반 피드백 루프를 통해 라우팅 단계에서 연속 변수의 영향을 사전에 반영한다는 점에서 기존 NCO 및 MIP 기반 접근법을 능가한다. 또한, 제약을 명시적으로 마스크하고, 두 단계 간의 피드백을 순환적으로 적용함으로써 학습 안정성과 일반화 능력을 동시에 확보하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기