고차원 데이터의 속 빈 공간 탐지를 위한 슬라이스 투어
초록
본 논문은 고차원 데이터의 투영 시 시각적으로 감지하기 어려운 중공(속 빈) 구조와 비선형 구성을 드러내기 위해, 투어(grand tour) 과정에서 얻어지는 투영 평면에 직교하는 공간을 슬라이스하는 방법을 제안한다. 정규화된 데이터 중심을 기준으로 직교 거리를 계산하고, 사용자가 지정한 부피 파라미터에 따라 슬라이스 두께를 자동 조정한다. 구현은 R 패키지 tourr의 display_slice 함수로 제공되며, 구형·다각형·토러스·‘바늘‑건초더미’ 데이터 등 다양한 예시를 통해 중공 구조와 숨겨진 비선형 경계가 효과적으로 드러남을 보인다.
상세 분석
본 연구는 고차원 데이터 시각화에서 투영(projection)만으로는 드러나지 않는 내부 구조, 특히 “속 빈”(hollow) 형태와 작은 규모의 비선형 패턴을 탐지하기 위한 새로운 기법인 슬라이스 투어(slice tour)를 제시한다. 핵심 아이디어는 투어 과정에서 생성되는 d‑차원(주로 d=2) 투영 평면에 대해, 그 평면에 직교하는 (p‑d) 차원 공간에서의 거리 ‖x₀ᵢ‖₂를 계산하고, 미리 정의한 임계값 h 이하인 점들을 강조함으로써 ‘슬라이스’를 만든다. 여기서 x₀ᵢ는 관측치 xᵢ를 투영 평면에 정사영한 뒤 남은 직교 성분이며, 평면이 원점(데이터 평균) 통과한다고 가정한다.
슬라이스 두께 h는 데이터 차원 p와 슬라이스 부피 파라미터 ε에 의해 자동 결정된다. 균일히 분포된 고차원 구를 가정하면, 슬라이스가 차지하는 상대 부피 V_rel ≈ ½ (h/R)^{p‑2} 로 근사할 수 있다. 이를 ε = V_rel 로 두고 h = ε^{1/(p‑2)} 로 역산함으로써, 차원이 증가해도 일정 비율의 점이 슬라이스 안에 포함되도록 설계한다. 또한, 슬라이스 중심을 데이터 평균이 아닌 임의의 점 c 로 이동시킬 수 있도록 일반화된 거리 식 ‖x₀ᵢ – c₀‖₂ 를 도입하였다. 이는 비대칭적인 구멍이나 오프‑센터 구조를 탐색할 때 유용하다.
구현 측면에서는 R 패키지 tourr에 display_slice 함수를 추가하여, 기존 animate 함수와 동일한 인터페이스로 슬라이스 투어를 실행한다. 사용자는 eps, anchor, pch_slice, pch_other 등 파라미터를 통해 부피, 중심, 점 표시 방식을 조정할 수 있다. 시각적으로는 슬라이스 내부 점을 검은색 원형 마커(pch=20)로, 외부 점을 회색 점(pch=46)으로 구분한다.
논문은 3‑D 구와 5‑D 구, 4‑D 토러스, 6‑D 큐브 등 인공 데이터와, 5‑D ‘바늘‑건초더미’ 데이터, 와인 데이터에 대한 SVM 경계 시각화 등 실험을 제시한다. 특히, 중공 구의 경우 슬라이스를 통해 내부가 비어 있음을 명확히 구분할 수 있었으며, 고차원(5‑D)에서는 슬라이스 두께가 커짐에 따라 해상도가 떨어지는 한계도 확인했다. 비선형 경계 시각화에서는 슬라이스가 투영만으로는 숨겨진 구형 경계와 다항식 경계의 비선형성을 드러내는 데 효과적이었다.
한계점으로는 샘플 수가 충분히 크지 않으면 슬라이스 안에 포함되는 점이 희박해 시각적 신호가 약해진다. 차원이 높아질수록 슬라이스 부피가 급격히 감소하므로, 더 많은 데이터와 적절한 ε 선택이 필요하다. 또한, 현재 구현은 직교 거리 기반의 구형 슬라이스만을 제공하므로, 사용자가 원하는 방향성이나 비구형 슬라이스를 정의하려면 추가적인 파라미터 설계가 요구된다. 향후 연구에서는 슬라이스를 가이드 투어와 결합하거나, 다중 슬라이스를 동시에 표시하는 방법, 그리고 비선형 차원 축소와의 연계 등을 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기