다목적 순차 의사결정 연구 동향

초록

본 논문은 다목적 순차 의사결정 문제를 단일 목표로 환원할 수 없는 경우를 세 가지 시나리오로 구분하고, 각각에 맞는 알고리즘 분류 체계를 제시한다. 스칼라화 방식, 정책 유형, 최적해 형태(단일 정책, 볼록 껍질, 파레토 전선)를 기준으로 기존 연구를 체계적으로 정리하고, 주요 응용 분야와 향후 연구 과제를 논의한다.

상세 분석

논문은 먼저 다목적 순차 의사결정(MOSDM)이 왜 단일 목표 변환이 불가능하거나 비효율적인지를 명확히 정의한다. 저자는 “불가능(impossible)”, “비현실적(infeasible)”, “비선호적(undesirable)”이라는 세 가지 상황을 제시한다. 불가능 상황은 목표 간 상충이 심해 스칼라화가 의미를 상실하는 경우이며, 비현실적 상황은 모든 목표를 동시에 만족시키는 정책을 찾는 것이 계산적으로 불가능한 경우, 비선호적 상황은 의사결정자가 특정 스칼라화 함수를 선호하지 않아 다양한 정책 집합을 제공해야 하는 경우이다.

이러한 시나리오를 토대로 저자는 스칼라화 함수의 특성(선형, 비선형, 가중치 기반, 유틸리티 기반 등)과 정책의 형태(정책 집합, 확률적 정책, 결정적 정책)로 분류하는 새로운 taxonomy를 제안한다. 특히, 스칼라화 함수가 볼록(concave/convex)인 경우 최적해가 볼록 껍질(convex hull)로 표현될 수 있음을 보이며, 비볼록 함수에서는 파레토 전선 전체가 필요함을 강조한다.

알고리즘 측면에서는 전통적인 동적 프로그래밍(DP)과 강화학습(RL) 기법을 다목적 버전으로 확장한 방법들을 상세히 검토한다. 예를 들어, 다목적 가치 반복(Multi‑Objective Value Iteration)에서는 벡터값 벨만 연산자를 사용해 각 상태에서 가능한 가치 벡터 집합을 유지한다. 이때 집합의 크기 폭증을 억제하기 위해 지배(dominance) 관계와 근사(ε‑approximation) 기법을 적용한다. 또한, 다목적 정책 그래디언트(Multi‑Objective Policy Gradient)와 같은 정책 기반 방법은 스칼라화된 기대 보상을 최대화하면서도 파레토 최적성을 보장하기 위해 다중 목표에 대한 라그랑주 승수를 동적으로 조정한다.

학습 기반 접근에서는 다목적 심층 Q‑네트워크(Multi‑Objective Deep Q‑Network)와 같이 벡터형 Q‑값을 출력하도록 네트워크 구조를 변형하고, 경험 재플레이 버퍼에 다목적 트랜지션을 저장해 샘플 효율성을 높인다. 또한, 베이즈 최적화와 진화 알고리즘을 활용한 다목적 메타러닝 기법도 소개되며, 이는 목표 간 상충이 심한 환경에서 빠른 정책 탐색을 가능하게 한다.

마지막으로, 논문은 실제 적용 사례를 통해 제안된 taxonomy가 어떻게 실무에 활용될 수 있는지를 보여준다. 로봇 경로 계획에서는 에너지 소비와 시간 최소화를 동시에 고려해 파레토 전선을 생성하고, 의료 치료 계획에서는 부작용 최소화와 치료 효과 극대화를 위한 다목적 최적화가 필요하다. 이러한 사례들은 다목적 의사결정이 단일 목표 최적화와는 근본적으로 다른 설계·분석 흐름을 요구함을 입증한다.

전체적으로 이 논문은 다목적 순차 의사결정 분야의 연구 흐름을 체계적으로 정리하고, 스칼라화 함수와 정책 유형에 따른 최적해 형태를 명확히 구분함으로써 향후 알고리즘 설계와 응용 연구에 중요한 지침을 제공한다.