트랜스포머 기반 직접 해 예측으로 역최적화 없이 조합 최적화 해결
초록
**
본 논문은 알려진 제약은 제약 추론 모듈로 강제하고, 과거 최적 해를 학습해 트랜스포머 시퀀스‑투‑시퀀스 모델이 새로운 조합 최적화 문제의 해를 직접 생성하도록 하는 프레임워크를 제안한다. 역최적화(IO)와 LSTM 기반 방법에 비해 추론 속도가 빠르고, 복잡한 숨은 목적함수·제약을 포함한 경우에도 근접 최적 해를 제공한다.
**
상세 분석
**
이 연구는 전통적인 역최적화가 요구하는 “파라미터 θ를 정확히 추정해 역가능 집합을 만족한다”는 강한 가정에서 벗어나, 해 자체를 직접 예측하는 구조화된 예측 문제로 전환한다. 구체적으로, 입력 컨텍스트 u와 알려진 제약 집합 X(u)를 트랜스포머 인코더에 제공하고, 디코더는 가능한 결정 변수 시퀀스를 자동 회귀적으로 생성한다. 여기서 핵심은 제약 추론 모듈이다. 제약 추론 모듈은 현재까지 생성된 토큰과 입력 u를 기반으로, 아직 선택되지 않은 토큰 중에서 제약을 위반할 가능성이 있는 후보를 마스크(mask) 처리한다. 따라서 디코더는 언제나 현재 단계에서 허용된 선택만을 출력하게 되며, 최종적으로 생성된 해는 반드시 알려진 제약을 만족한다.
모델 학습은 지도학습 형태로 진행된다. 과거 최적 해 ˆx와 대응하는 컨텍스트 ˆu를 쌍으로 사용해, 교차 엔트로피 혹은 순위 기반 손실 ℓ을 최소화한다. 이때 손실은 모델이 생성한 해 Mφ(ˆu)와 실제 해 ˆx 사이의 차이를 측정한다. 트랜스포머의 셀프‑어텐션은 입력 변수 간의 고차 상호작용을 효율적으로 포착할 수 있어, 숨은 목적함수(예: 비선형, 이차형)나 암묵적 제약(예: 선호도, 환경 요인)까지도 암시적으로 학습한다.
실험에서는 세 가지 전형적인 조합 최적화 문제—(1) 가중치와 보상이 알려지지 않은 배낭 문제, (2) 목적 함수가 미지인 이분 매칭, (3) 릴리스 타임과 미지의 선행 제약을 가진 단일 기계 스케줄링—에 대해 평가한다. 각 문제마다 ‘알려진 제약’(예: 배낭 용량, 매칭의 일대일 제약, 작업의 시작·완료 순서)과 ‘알려지지 않은 요소’(보상 함수, 목적 가중치, 선행 관계)를 다르게 설정하였다. 트랜스포머 기반 모델은 LSTM 기반 구조화 예측 및 최신 역최적화 알고리즘에 비해 두드러진 성능 우위를 보였다. 특히 복잡한 비선형 목적함수나 노이즈가 섞인 데이터셋에서 최적성 격차가 510% 수준으로 감소했으며, 추론 시간은 0.010.1초 수준으로 실시간 응용이 가능했다.
한계점도 명시한다. 제약 추론 모듈이 조합적 상태 공간을 탐색해야 하므로, 제약이 비단조(예: 일반적인 그래프 색칠)일 경우 마스크 연산이 비용이 크게 증가한다. 논문에서는 이러한 문제를 피하기 위해 ‘단조 제약 시스템’(예: 배낭 용량, 매칭 일대일)만을 대상으로 실험하였다. 또한, 모델은 최적성을 보장하지 않으며, 충분히 풍부하고 일관된 학습 데이터가 없을 경우 역최적화보다 열등할 수 있다. 따라서 문제 특성(제약 복잡도, 데이터 품질, 목표 최적성 수준)에 따라 역최적화와 직접 예측 중 적절한 방식을 선택해야 한다는 결론을 제시한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기