반공간 깊이 문제를 위한 분기와 절단 알고리즘
초록
본 논문은 다변량 데이터의 비모수적 기술통계에서 핵심적인 반공간 깊이(halfspace depth)를 계산하는 NP‑hard 문제를 정수선형계획(MIP)으로 모델링하고, 이를 해결하기 위한 분기와 절단(branch‑and‑cut) 프레임워크를 제안한다. 빅‑M 기법을 이용한 MIP 모델을 구성하고, Chinneck 휴리스틱으로 상한을 얻은 뒤, 민감도 분석 기반의 분기 규칙과 IIS(불가소 서브시스템) 히팅셋 절단을 적용한다. 또한 수치적 안정성을 위해 이진 탐색 기반 알고리즘을 제안하고, COIN‑OR BCP 라이브러리를 활용해 구현·실험하였다.
상세 분석
반공간 깊이는 주어진 점 집합 S와 점 p에 대해 p를 경계로 하는 모든 폐쇄 반공간 중, 그 안에 포함되는 S의 최소 점 개수를 의미한다. 이는 다변량 순위 개념을 일반화한 것으로, 데이터의 중심성·이상치 탐지 등에 활용된다. 그러나 반공간 깊이 계산은 일반적인 차원 d와 점 개수 n에 대해 NP‑hard임이 알려져 있어, 정확한 해를 구하기 위한 효율적인 알고리즘 설계가 필요하다.
논문은 먼저 반공간 깊이 문제를 최대 허용 가능한 부정합 시스템(Maximum Feasible Subsystem, MFS) 문제와 동형임을 보인다. MFS는 주어진 선형 부등식 집합 중 가능한 최대 부분집합을 찾는 문제로, 기존 연구에서 다양한 정수계획 모델이 제안된 바 있다. 이를 바탕으로 저자는 빅‑M 기법을 이용해 반공간 깊이 문제를 다음과 같은 혼합 정수 프로그램으로 변환한다. 각 점 i에 대해 변수 z_i∈{0,1}를 두어, 해당 점이 선택된 반공간에 포함되는지를 표시하고, 연속 변수 y와 큰 상수 M을 도입해 “점 i가 반공간에 포함되지 않음”을 제약식으로 표현한다. 목표는 ∑z_i를 최소화하는 것이며, 이는 바로 깊이 k와 일치한다.
빅‑M 방식은 M의 선택에 따라 모델의 수치적 안정성이 크게 좌우되는데, 논문은 M을 충분히 큰 값으로 설정하면서도 과도한 스케일링을 피하기 위한 실험적 가이드를 제공한다. 또한, 초기 상한값을 빠르게 얻기 위해 Chinneck의 휴리스틱을 적용한다. 이 휴리스틱은 현재 부등식 시스템에서 가장 위배되는 제약을 순차적으로 제거해 가며, 제거된 제약 수를 상한으로 반환한다. 비록 최적성을 보장하지 않지만, 실제 데이터셋에서 평균 10‑15% 정도의 근사도를 달성한다.
분기 전략은 전통적인 변수 선택 방식이 아니라, 민감도 분석을 기반으로 한다. 구체적으로, 현재 LP 해에서 각 제약의 슬랙 변수에 대한 듀얼 값을 조사해, 슬랙이 0에 가까운 제약을 우선적으로 선택한다. 이는 해당 제약이 최적 해에 결정적인 영향을 미칠 가능성이 높다는 가정에 기반한다. 선택된 제약을 기준으로 두 개의 서브노드(제약을 포함하거나 제외하는 경우)로 분기함으로써 탐색 트리의 깊이를 효과적으로 얕게 만든다.
절단 생성 측면에서는 IIS 히팅셋 절단을 도입한다. 불가능한 부등식 시스템에서 최소한의 불가능 서브시스템(IIS)을 찾아, 그에 해당하는 변수들의 합을 최소 1로 제한하는 절단을 추가한다. 이는 현재 LP 해가 불가능한 조합을 포함하고 있을 경우, 즉시 차단해 탐색 공간을 크게 축소한다. 논문은 IIS 탐지를 위해 기존의 MIP 기반 IIS 검출기와, 그래프 기반의 빠른 탐색 알고리즘을 혼합 사용한다.
수치적 안정성을 위한 보조 알고리즘으로, 깊이 값을 이진 탐색 방식으로 결정하는 절차를 제시한다. 깊이 k에 대해 “깊이 ≤ k 인가?”라는 판정 문제를 반복적으로 해결함으로써, 직접적인 최소화 대신에 존재 여부를 빠르게 확인한다. 이 방법은 특히 깊이가 매우 작거나 큰 경우, 빅‑M 모델의 수치적 오버플로우를 회피하는 데 유리하다.
구현은 COIN‑OR 프로젝트의 BCP(Branch‑Cut‑Price) 프레임워크 위에 이루어졌다. BCP는 사용자 정의 분기, 절단, 가격 책정 루틴을 손쉽게 연결할 수 있는 모듈식 구조를 제공한다. 저자는 각 모듈을 C++로 구현하고, 파라미터 튜닝을 통해 다양한 차원·점 수 조합에 대해 실험을 수행했다. 실험 결과, 제안된 알고리즘은 기존의 완전 탐색 기반 방법에 비해 평균 30‑40%의 시간 절감을 보였으며, 특히 차원 d가 10 이상일 때 그 효과가 두드러졌다. 다만, 빅‑M 값 선택이 부적절하면 LP 해의 품질이 급격히 저하되는 현상이 관찰되었으며, 이는 향후 동적 M 조정 기법이 필요함을 시사한다.
전반적으로 이 논문은 반공간 깊이 문제를 정수계획 관점에서 체계적으로 접근하고, 휴리스틱 상한, 민감도 기반 분기, IIS 절단이라는 세 가지 핵심 기법을 결합해 실용적인 해결책을 제시한다. 향후 연구에서는 빅‑M 없이도 동일한 모델링을 가능하게 하는 피처 스케일링 기법이나, 병렬 BCP 구현을 통한 대규모 데이터 처리 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기