강화학습의 적대적 인스턴스 생성과 로브스트 트레이닝

2026년 02월 04일

읽는 시간: 10 분

...

#paper #AI 요약

📝 원문 정보

- Title: Adversarial Instance Generation and Robust Training for Neural Combinatorial Optimization with Multiple Objectives
- ArXiv ID: 2601.01665
- 발행일: 2026-01-04
- 저자: Wei Liu, Yaoxin Wu, Yingqian Zhang, Thomas Bäck, Yingjie Fan

📝 초록

본 논문에서는 다목적 조합 최적화 문제(MOCOP)를 해결하는 강화학습 기반의 신경망 모델에 대한 강인성을 향상시키는 새로운 접근법을 제안한다. 이를 위해 선호도 기반 적대적 공격(PAA) 방법과 동적인 선호도 증강 방어(DPD) 방법을 소개한다. PAA는 특정 선호도에 맞춘 어려운 인스턴스를 생성하여 신경망 모델의 성능을 저하시키며, DPD는 적대적 공격으로부터 신경망 모델을 보호하고 그 강인성을 향상시킨다. 이러한 방법들은 다목적 트래블링 세일즈맨 문제(MOTSP), 다목적 용량 제약 차량 경로 문제(MOCVRP), 그리고 다목적 배낭 문제(MOKP)에서 우수한 성능을 보여준다.

💡 논문 해설

1. **선호도 기반 적대적 공격 (PAA)**: 이 방법은 특정 선호도에 맞춰 어려운 문제를 생성하여 신경망 모델의 성능을 저하시키는 방식입니다. 이를 통해 우리는 신경망 모델이 다양한 상황에서 얼마나 잘 작동하는지 평가할 수 있습니다.

비교적 쉬운 이해: PAA는 마치 학생에게 어려운 시험 문제를 내어 그의 진정한 실력을 측정하듯, 신경망 모델에 어려운 인스턴스를 주어 성능을 평가합니다.
중간 수준 이해: PAA는 특정 선호도 조건 하에서 강화학습 기반의 신경망 모델이 어떻게 작동하는지를 알아내기 위해, 해당 선호도에 맞춘 어려운 문제를 생성하고 이를 통해 모델의 성능을 저하시킵니다.
고급 이해: PAA는 특정 선호도 조건 하에서 다목적 조합 최적화 문제(MOCOP)를 해결하는 강화학습 기반 신경망 모델에 대한 적대적 공격을 수행하며, 이는 모델의 성능 저하를 통해 그 강인성을 평가합니다.

동적인 선호도 증강 방어 (DPD): DPD는 PAA로 인한 성능 저하를 완화시키고 신경망 모델의 강인성을 향상시킵니다.
- 비교적 쉬운 이해: DPD는 마치 학생이 어려운 시험 문제에 대응할 수 있도록 추가적인 연습을 제공하는 것처럼, 신경망 모델이 다양한 상황에서 잘 작동하도록 보호합니다.
- 중간 수준 이해: DPD는 PAA로 인해 저하된 성능을 회복하고, 특정 선호도 조건 하에서 강화학습 기반의 신경망 모델의 강인성을 향상시키기 위해 디자인되었습니다.
- 고급 이해: DPD는 적대적 공격에 대응하기 위한 보완적인 전략으로, 특정 선호도 조건 하에서 다목적 조합 최적화 문제(MOCOP)를 해결하는 강화학습 기반 신경망 모델의 성능 저하를 완화시키고 강인성을 향상시킵니다.
실험 결과: 본 논문에서는 PAA와 DPD 방법을 MOTSP, MOCVRP, 그리고 MOKP에 적용하여 실험한 결과를 보여줍니다.
- 비교적 쉬운 이해: 실험은 마치 학생들이 다양한 시험 문제들을 풀어보며 자신의 실력을 확인하는 것처럼, 신경망 모델이 다양한 MOCOP 인스턴스에서 어떻게 작동하는지를 평가합니다.
- 중간 수준 이해: 본 논문에서는 PAA와 DPD 방법을 다목적 트래블링 세일맨 문제(MOTSP), 다목적 용량 제약 차량 경로 문제(MOCVRP), 그리고 다목적 배낭 문제(MOKP)에 적용하여 신경망 모델의 성능과 강인성을 평가합니다.
- 고급 이해: 본 논문에서는 PAA와 DPD 방법을 다양한 MOCOP 인스턴스, 즉 MOTSP, MOCVRP, 그리고 MOKP에 적용한 결과를 보여줍니다. 이를 통해 신경망 모델의 성능 저하를 확인하고, 적대적 공격에 대한 강인성을 향상시키는 방법을 제시합니다.

📄 논문 발췌 (ArXiv Source)

적대적 공격 ,강건 최적화 ,신경망 조합 최적화, 강화학습

# 서론

다목적 조합 최적화 문제(MOCOPs)는 컴퓨터 과학과 연산 연구에서 광범위하게 연구되어 왔으며, 교통 스케줄링, 특성 선택, 에너지 계획, 통신 네트워크 최적화 등 다양한 실제 응용 분야에 나타납니다. 단일 목표 최적화와 달리 MOCOPs는 여러 충돌하는 목적을 포함하며 따라서 Pareto-최적 솔루션 집합, 즉 Pareto 집합을 식별하려고 합니다. 좋은 Pareto 집합 근사치는 수렴성과 다양성을 동시에 달성해야 합니다. 조합 최적화의 본질적인 NP-난해성과 다중 목표의 존재로 인해 대부분의 MOCOPs는 실용적으로 해결하기 어렵습니다.

전통적인 방법, 정확한 알고리즘 및 휴리스틱 알고리즘을 포함하여, 이러한 방법들은 오랫동안 근사 Pareto 집합을 얻는데 경쟁력을 갖춘 성능을 보여왔지만, 일반적으로 도메인 특화 지식이나 대규모 반복 탐색이 필요합니다. 대신, 딥 강화학습(DRL)은 MOCOPs를 해결하는 혁신적인 접근 방식으로 부상했습니다. 감독 학습과 달리 DRL은 레이블 데이터 집합에 대한 의존성을 제거합니다. 또한, 휴리스틱 및 정확한 알고리즘과 비교하여 DRL은 합리적인 계산 시간 내에서 근사 최적해를 식별하는 효율성이 우수합니다.

그러나 이러한 장점에도 불구하고, MOCOPs의 DRL 솔버에 대한 강인성은 여전히 상당히 연구되지 않았습니다. 단일 목표 조합 최적화 문제에서는 이전 연구들이 이미 비-i.i.d. 분포에서 추출된 인스턴스를 사용하여 실험을 수행하고 수정된 학습 절차 및 세밀한 모델 아키텍처와 같은 완화 전략을 제안했습니다. 훈련 및 테스트 분포가 벌어지면, DRL 모델은 MOCOP 시나리오에서 분포 외 인스턴스에 대한 성능이 크게 저하될 수 있으며, 이는 가짜, 분포 특정 신호에 대한 과적합 현상 때문일 수 있습니다. 이를 해결하기 위해 본 연구에서는 MOCOPs의 DRL 솔버를 위한 분포 외 일반화 능력을 향상시키는 작업을 수행합니다.

본 논문에서는 이러한 설정을 위한 강인성 지향 프레임워크를 제안합니다. 기존 신경망 접근법이 주로 분포 내 성능에 초점을 맞추는 것과 달리, 우리는 분포 변화와 선호도 조건화가 DRL 솔버의 성능에 어떻게 영향을 미치는지 체계적으로 평가합니다. 또한, 적대적 인스턴스 생성 및 강건한 학습 전략을 도입하여 다양한 인스턴스 분포에서 일반화를 개선합니다. 우리의 주요 기여는 다음과 같습니다:

우리는 DRL 모델에 대한 선호도 기반 적대적 공격(PAA) 방법을 제안합니다. PAA는 특정 선호도와 관련된 하위 문제의 솔루션 품질을 저하시키는 어려운 인스턴스를 생성하여 DRL 모델을 약화시킵니다. 생성된 인스턴스는 Pareto 앞면의 hypervolume 측면에서 품질을 크게 떨어뜨립니다.
우리는 적대적 공격의 영향을 완화하기 위해 동적인 선호도 증강 방어(DPD) 방법을 제안합니다. DPD는 적대 학습에 하드니스 인식 선호도 선택 전략을 통합함으로써 제한된 선호도 공간에 대한 과적합을 효과적으로 완화시킵니다. 이를 통해 DRL 모델의 강인성을 향상시키고 다양한 분포에서 일반화 능력을 증진시킵니다.
우리는 우리의 방법들을 세 가지 고전적인 MOCOPs, 다목적 여행 상인 문제(MOTSP), 다목적 용량 제약 차량 경로 문제(MOCVRP), 그리고 다목적 배낭 문제(MOKP)에서 평가합니다. PAA 방법은 최신 DRL 모델의 성능을 크게 저하시키지만, DPD 방법은 그들의 강인성을 향상시켜 강력한 분포 외 일반화 능력을 제공합니다.

전제 조건

문제 정의

MOCOP의 수학적 표현은 일반적으로 다음과 같습니다:

MATH

\begin{equation}
\min_{\pi \in \mathcal{X}} F(\pi) = \big(f_1(\pi), f_2(\pi), \dots, f_m(\pi)\big), \tag{1}
\end{equation}

클릭하여 더 보기

여기서 $`\mathcal{X}`$는 모든 가능한 솔루션 집합을 나타내고, $`F(\pi)`$는 목표 값 벡터입니다. MOCOP의 솔루션은 문제에 지정된 제약 조건을 모두 충족하는 경우만 가능합니다. 예를 들어, MOTSP는 노드 집합 $`V = \{0, 1, 2, \dots, n\}`$가 있는 그래프 $`G`$에서 정의됩니다. 각 솔루션은 길이 $`T`$의 노드 시퀀스인 투어 $`\pi = (\pi_1, \pi_2, \dots, \pi_T)`$입니다.

다목적 최적화 문제에서는 모든 목표를 동시에 최적화하는 Pareto-최적 솔루션을 찾는 것이 목표입니다. 이러한 Pareto-최적 해는 다양한 목표에 대한 선호도를 균형 있게 조정하려고 합니다. 본 논문에서 우리는 다음과 같은 Pareto 개념을 사용합니다:

정의 1 (Pareto 우위). $`u, v \in \mathcal{X}`$라고 하자. 솔루션 $`u`$는 솔루션 $`v`$를 지배한다고 정의되며 ($`u \prec v`$) 모든 목표 $`i \in \{1, \dots, m\}`$에 대해 $`f_i(u)`$가 $`f_i(v)`$보다 작거나 같고 적어도 하나의 목표 $`j \in \{1, \dots, m\}`$에 대해 $`f_j(u) < f_j(v)`$인 경우만 가능합니다.

정의 2 (Pareto 최적). 솔루션 $`x^* \in \mathcal{X}`$는 다른 모든 솔루션 $`\mathcal{X}`$에 의해 지배받지 않는 경우 Pareto 최적이며, 즉 $`x' \prec x^*`$와 같은 해결책이 존재하지 않음. 모든 Pareto-최적 해의 집합은 Pareto 집합 $`\mathcal{P} = \{x^* \in \mathcal{X} \mid \nexists x' \in \mathcal{X} \text{ such that } x' \prec x^*\}`$라고 불립니다. Pareto 집합의 투영은 Pareto 앞면 $`\mathcal{PF} = \{F(x) \mid x \in \mathcal{P}\}`$를 형성합니다.

분해

다목적 COP을 다양한 선호도 하에서 단일 목표 문제 시리즈로 스칼라화하는 분해는 DRL 모델의 MOCOP Pareto 앞면을 얻기 위한 효과적인 전략입니다. 선호도 벡터 $`\lambda = (\lambda_1, \lambda_2, \dots, \lambda_m) \in \mathbb{R}^m`$와 $`\lambda_i \geq 0`$, 그리고 $`\sum_{i=1}^m \lambda_i = 1`$를 주면, 가중 합(WS) 및 Tchebycheff 분해(TCH)는 MOCOP을 스칼라화 하위 문제로 변환하여 Pareto 앞면을 근사합니다.

WS 분해. WS 분해는 선호도 벡터 아래의 $`m`$ 목표 함수들의 볼록 결합을 최소화합니다:

MATH

\begin{equation}
g_w(\pi|\lambda) = \sum_{i=1}^m \lambda_i f_i(\pi), \quad \text{with } \pi \in \mathcal{X}.
\label{eq:weighted}
\end{equation}

클릭하여 더 보기

Tchebycheff 분해. Tchebycheff 분해는 목표 값과 이상점 사이의 최대 가중 거리를 최소화합니다:

MATH

\begin{equation}
g_t(\pi|\lambda, z^*) = \max_{1 \leq i \leq m} \lambda_i |f_i(\pi) - z^*_i|, \quad \text{with } \pi \in \mathcal{X},
\label{eq:Tchebycheff}
\end{equation}

클릭하여 더 보기

여기서 $`z^* = (z^*_1, z^*_2, \dots, z^*_m)`$는 이상점으로, $`z^*_i = \min_{\pi \in \mathcal{X}} f_i(\pi)`$입니다.

분해 전략은 다양한 선호도 하에서 부분 문제 시리즈로 MOCOP을 축소함으로써 이를 해결합니다. 주어진 인스턴스 $`x`$와 선호도 $`\lambda`$, 신경망 기반의 MOCOP 솔버는 Pareto 해를 근사하는 확률 정책 $`p_\theta`$를 학습하여 $`\pi = (\pi_1, \pi_2, \dots, \pi_T)`$를 근사합니다. 여기서 $`\theta`$는 학습 가능한 매개변수입니다.

DRL 솔버의 강인성에 대한 조망

가우시안 혼합 생성기에서 $`c_{\text{DIST}}`$ 값이 변하는 결과.

DRL 모델에 대한 MOCOP의 강인성이 아직 연구되지 않은 상태인 것을 고려해, 우리는 두 가지 대표적인 신경망 솔버인 PMOCO와 CNH를 MOTSP에 대해 평가했습니다. 이들 솔버는 50 노드의 단일/다중 목표 TSP 인스턴스(원래 논문과 동일한 설정)에서 사전 훈련되었습니다.

구체적으로, 우리는 가우시안 혼합 모델(GMM) 생성기를 사용하여 분포 외 검증 인스턴스를 생성했습니다. $`c_{\text{DIST}} \in \{1, 5, 10, 20, 30, 40, 50\}`$을 변경하여 $`c_{\text{DIST}}`$가 클러스터의 공간적 확산을 제어하고 인스턴스의 어려움을 결정합니다. WS-LKH(다목적 최적화 문제(MOCOPs)를 해결하는 최신 솔버)는 비교 기준으로 사용되었습니다. Figure 1은 솔루션 간의 차이를 나타내는 hypervolume gap을 보여줍니다:

MATH

\begin{equation}
\text{Gap} = \frac{HV_{\text{LKH}} - HV_{\text{DRL}}}{HV_{\text{LKH}}} \times 100.
\end{equation}

클릭하여 더 보기

우리의 결과는 $`c_{\text{DIST}}`$가 증가함에 따라(더 어려운 테스트 인스턴스를 나타냄) 신경망 솔버의 성능이 저하되고 그들의 해와 WS-LKH의 해 사이의 격차가 넓어짐을 보여줍니다. 이러한 결과는 신경망 솔버들이 일정하게 분포된 인스턴스에서 훈련되었음에도 불구하고, 검증 인스턴스가 더 다양하고 복잡해질수록 강인성을 유지하는 데 어려움이 있다는 중요한 한계를 보여줍니다.

방법

본 절에서는 신경망 솔버의 강인성에 대한 선호도 기반 적대적 공격(PAA) 방법을 소개하며, 이를 통해 어려운 인스턴스를 생성합니다. 또한, 동적인 선호도 증강 방어(DPD) 방법을 제안하여 신경망 솔버의 강인성을 향상시킵니다. 제안된 적대적 공격 및 방어 방법의 개요는 Figure 2에 나타나 있습니다.

선호도 기반 적대적 공격 (PAA)

일반적으로 신경망 솔버는 다양한 선호도 하에서 MOCOP을 부분 문제 시리즈로 분해하고, 각각의 부분 문제를 독립적으로 해결합니다. 만약 신경망 솔버가 특정 선호도 $`\lambda`$ 아래에서 부분 문제([eq:Tchebycheff])를 잘 해결할 수 있다면, 전체 Pareto 앞면에 대한 좋은 근사를 생성할 수 있습니다. 본 논문에서는 특정 $`\lambda`$ 값을 가질 때 신경 모델이 부분 문제의 해를 효과적으로 근사하지 못하면, 결과적으로 Pareto 앞면의 근사가 부적절하다는 가설을 제시합니다. 이러한 착안에서 MOCOPs에 대한 신경망 솔버를 공격하기 위한 PAA 방법을 제안합니다. 특히, 원래 데이터(즉, 깨끗한 인스턴스)에 따라 선호도별로 특화된 페르테브레이션을 적용하여 각각의 지정된 선호도와 맞춤된 어려운 인스턴스를 생성합니다. 다양한 선호도에 걸친 어려운 인스턴스를 식별한 후, 이를 종합적인 세트로 수집하고 신경망 솔버의 강인성을 체계적으로 저하시키는 데 사용합니다.

일반성을 잃지 않고, 우리는 특정 선호도에 맞춘 어려운 인스턴스를 생성하여 각 부분 문제에서 신경망 솔버의 성능을 평가합니다. 이를 위해 다음과 같은 강화 학습 손실 변형을 최대화하는 방식으로 공격을 수행합니다:

MATH

\begin{equation}
\ell(x; \theta) = \frac{L(\pi \mid x)}{b(x)} \log p_\theta(\pi \mid x),
\label{eq:loss}
\end{equation}

클릭하여 더 보기

여기서 $`L(\pi \mid x)`$는 주어진 선호도 $`\lambda`$에 대한 부분 문제의 손실을 나타내며(예를 들어, Tchebycheff 분해로 Eq. ([eq:Tchebycheff])에 따라 계산됩니다). $`b(x)`$는 $`L(\pi \mid x)`$의 기준이며, $`b(x) = \frac{1}{M} \sum_{j=1

ArXiv 원문 PDF 보기

📊 논문 시각자료 (Figures)

강화학습의 적대적 인스턴스 생성과 로브스트 트레이닝

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

관련 연구

MOCOP 솔버

DRL 모델의 COPs 강인성

전제 조건

문제 정의

분해

DRL 솔버의 강인성에 대한 조망

방법

선호도 기반 적대적 공격 (PAA)

📊 논문 시각자료 (Figures)

감사의 말씀

목차

목차

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

관련 연구

MOCOP 솔버

DRL 모델의 COPs 강인성

전제 조건

문제 정의

분해

DRL 솔버의 강인성에 대한 조망

방법

선호도 기반 적대적 공격 (PAA)

📊 논문 시각자료 (Figures)

감사의 말씀

관련 게시글

3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

AI 강화된 양자점 해밀토니안 튜닝을 통한 마이저나 모드 형성

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

검색 시작

검색 결과 없음