대규모 고로모프 워샤스테인 최적화: 제곱노름을 넘어
초록
본 논문은 조건부 음수형(CNT) 비용을 이용해 고로모프‑워샤스테인(GW) 문제를 선형 맵과 최적 수송(OT) 문제로 변환한다. 이를 통해 메모리와 시간 복잡도를 각각 선형·이차로 낮추고, 미분 가능하며 이론적 수렴 보장을 제공한다. 실험에서는 수십만 개 점을 몇 분 안에 매칭하는 성능을 보이며, 다양한 기하학적 응용에 활용 가능함을 입증한다.
상세 분석
논문은 GW 최적화가 일반적으로 비선형 이차 할당 문제로 NP‑hard 수준의 난이도를 가진다는 점을 출발점으로 삼는다. 기존 연구들은 주로 제곱 유클리드 거리(‖x‑x′‖²)를 비용으로 사용했는데, 이는 장거리 상호작용에 과도하게 민감하고 외부 잡음에 취약한 단점이 있다. 저자들은 이러한 한계를 극복하기 위해 ‘조건부 음수형(CNT)’ 비용이라는 보다 일반적인 클래스에 주목한다. CNT 비용은 Schoenberg의 정리에 의해 Hilbert 공간으로의 임베딩이 가능하며, 이는 ‖φ(x)‑φ(x′)‖² 형태로 표현될 수 있음을 의미한다. 따라서 원본 데이터 공간 X, Y 각각에 대해 φ, ψ 라는 임베딩을 정의하고, 각 점을 (φ(x),½‖φ(x)‖²) 형태의 확장된 특징 벡터로 매핑한다.
핵심 정리(Theorem 3.2)는 이 확장된 특징 공간에서 GW 에너지와 엔트로피 정규화 항을 동시에 고려한 EGW 문제를
C(α,β)+min_{Γ,π} F(Γ,π) 형태로 변형한다는 것이다. 여기서 Γ는 Hilbert‑Schmidt 연산자로, 두 임베딩 공간 사이의 선형 변환을 담당한다. F(Γ,π)는 Γ에 대한 2‑노름(HS) 정규화, 엔트로피 KL 항, 그리고 ‑2⟨Φ(x),ΓΨ(y)⟩ 의 선형 결합으로 구성된다. 중요한 점은 F가 Γ에 대해서는 볼록(convex)하고, 고정된 Γ에 대해 π에 대해서는 OT 문제와 동등함을 보인다는 점이다. 즉, 교대로
π←argmin_π F(Γ,π) (즉, 비용 c_Γ(x,y)=−2⟨Φ(x),ΓΨ(y)⟩ 에 대한 엔트로피 정규화 OT)
Γ←argmin_Γ F(Γ,π) (즉, π에 의해 정의된 교차 공분산 행렬을 그대로 사용)
를 수행하면 전체 EGW 문제를 효율적으로 해결할 수 있다.
이 교대 최적화는 기존 EGW 솔버가 겪는 엔트로피 편향을 ‘Sinkhorn divergence’를 이용해 완전히 보정한다(SGW). 저자들은 SGW_ε가 ε→0 일 때 원래 GW와 동일한 최소값을 갖고, ε>0 일 때도 대칭적 보정으로 인해 자기 자신과의 거리(OT_ε(α,α))가 상쇄되어 편향이 사라진다. 또한, Γ의 차원은 보존하고자 하는 쌍wise 특성(예: 거리, 트리 구조, 하이퍼볼릭 거리 등)에 따라 결정되므로, 고차원 데이터에서도 메모리 사용량이 O(N) 수준으로 유지된다.
시간 복잡도 측면에서는, 각 교대 단계에서 OT_ε/8 를 Sinkhorn 알고리즘으로 해결하므로 O(N²) 연산이 주를 이룬다. 이는 기존 GW 솔버가 O(N³) 혹은 그보다 더 높은 복잡도를 보이는 것에 비해 큰 개선이다. 또한, Hilbert‑Schmidt 연산자 Γ는 행렬 형태로 구현 가능하므로 GPU 가속이 용이하고, 미분 가능성도 보장된다.
실험에서는 177k 점으로 구성된 실루엣 데이터셋, 3D 포인트 클라우드, 그래프 매칭 등 다양한 도메인에 적용하였다. 결과는 기존 최첨단 EGW(제곱거리 기반)와 비교해 매칭 정확도, 수렴 속도, 메모리 사용량 모두에서 우수함을 보여준다. 특히, 짧은 거리 구조를 강조하는 CNT 비용(예: p=1 거리)에서는 외부 잡음에 강인한 매칭을 얻을 수 있었으며, 장거리 구조를 강조하는 경우에도 기존 제곱거리 기반 방법보다 안정적인 결과를 제공한다.
요약하면, 저자들은 GW 문제를 “선형 정렬 + OT”라는 두 단계로 분해함으로써, 이론적 보증과 실용적 효율성을 동시에 달성한 새로운 EGW 프레임워크를 제시하였다. 이는 대규모 비유클리드 데이터 매칭에 있어 기존 한계를 크게 뛰어넘는 돌파구가 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기