함수 데이터 깊이 분석을 위한 개선된 밴드 깊이와 그 확장
본 논문은 기존의 함수형 데이터 깊이인 밴드 깊이(Band Depth)와 일반화 밴드 깊이(Generalized Band Depth)의 한계를 지적하고, 데이터 차원의 순서를 고려한 새로운 깊이 척도인 수정 밴드 깊이(corrected Band Depth)와 그 일반화 버전을 제안한다. 또한 대규모 샘플에 대한 계산 효율성을 높이기 위한 재표본 추출 기반 알고리즘을 도입하고, 다양한 시뮬레이션을 통해 제안 방법이 기존 깊이보다 강건성과 구분 …
저자: ** S. López‑Pintado, R. Jornsten **
본 논문은 함수형 데이터 분석에서 데이터 깊이(data depth) 개념을 확장하고 개선하는 데 초점을 맞춘다. 데이터 깊이는 관측값이 전체 데이터 집합 혹은 분포에 대해 얼마나 중심에 위치하는지를 정량화하는 척도로, 다변량 통계에서 중앙값, 트리밍 평균 등 강건한 추정량을 정의하는 기반이 된다. 기존에 다변량 데이터에 적용된 깊이 개념은 함수형 데이터에도 적용하려는 시도가 있었지만, 대표적인 두 가지인 Fraiman‑Muniz 깊이와 López‑Pintado & Romo가 제안한 밴드 깊이(band depth)는 정의역(시간) 순서를 무시하고, 단순히 함수 그래프가 다른 함수들에 의해 형성된 “밴드” 안에 포함되는지를 판단한다.
밴드 깊이는 두 개 이상의 함수가 정의역 전체에 걸쳐 상하 경계를 제공하고, 대상 함수가 이 밴드 안에 들어가는 비율을 측정한다. 구체적으로, 샘플 X={x₁,…,xₙ}에서 j개의 함수를 선택해 만든 밴드 B(x_{i₁},…,x_{i_j})에 대해, 대상 함수 x의 그래프 G(x)가 완전히 포함되는 경우를 1, 그렇지 않은 경우를 0으로 표시하고, 모든 조합에 대해 평균을 취한다. 일반화 밴드 깊이(GBD)는 완전 포함 대신 시간 비율 λ(A)/λ(T)를 사용해 부분 포함을 허용한다.
하지만 이러한 정의에는 두 가지 실질적인 문제점이 있다. 첫째, 실제 함수 데이터는 종종 교차(cross) 현상이 빈번히 발생한다. 두 함수가 교차하면 그 사이의 밴드는 폭이 0이 되어 “퇴화(band degeneracy)”하고, 완전 포함 여부가 거의 불가능해진다. 결과적으로 많은 밴드가 깊이 계산에 기여하지 못해 동점이 과다하게 발생하고, 중앙곡선(가장 깊은 곡선)의 정의가 모호해진다. 둘째, 일반화 밴드 깊이는 교차 구간을 부분적으로 가중치로 반영하지만, 짧은 순간의 작은 탈출과 연속적인 큰 탈출을 동일하게 취급한다. 이는 잡음에 민감하고, 실제 형태 차이를 충분히 구분하지 못한다.
이를 해결하기 위해 저자들은 “수정 밴드 깊이”(corrected Band Depth, cBD)와 그 일반화 버전(GcBD)을 제안한다. 두 함수 i₁, i₂가 교차할 경우, 교차 구간을 제외하고 각각의 함수가 상하 경계를 담당하는 두 가능한 밴드를 정의한다. 구간 a(i₁,i₂)={t | x_{i₂}(t)−x_{i₁}(t)≥0} 로 정의하고, 그 길이 비율 L_{i₁,i₂}=λ(a(i₁,i₂))/λ(T) 를 계산한다. L_{i₁,i₂}≥½이면 x_{i₁}를 하한, x_{i₂}를 상한으로 하는 밴드 B_c(x_{i₁},x_{i₂})를, 그렇지 않으면 반대로 정의한다. 최종 밴드 B_c는 L_{i₁,i₂}와 L_{i₂,i₁} 중 큰 값을 가중치로 사용해, 교차가 심한 밴드일수록 가중치를 낮추어 깊이 계산에 부분적으로만 반영한다. 이렇게 하면 교차로 인한 퇴화 문제를 완화하면서도, 교차가 적은 구간은 높은 가중치로 유지되어 실제 형태 유사성을 잘 포착한다.
일반화된 수정 밴드 깊이(GcBD)는 위의 가중치에 더해, 대상 함수가 밴드 안에 머무는 시간 비율 λ(A(x;·))/λ(T) 를 곱해 평균한다. 이는 짧은 순간의 잡음은 작은 가중치로 억제하고, 연속적인 구간에서의 일탈은 큰 페널티를 부여함으로써, 형태 차이를 보다 정밀하게 구분한다.
계산 복잡도 측면에서, 밴드 깊이는 조합 수가 n choose J 로 급격히 증가한다. 특히 J=2일 때도 O(n²) 연산이 필요하고, J>2이면 O(n^J) 로 비현실적이다. 저자들은 재표본(resampling) 기반 근사 방법을 제안한다. 전체 샘플에서 무작위로 m개의 하위 샘플을 추출하고, 각 하위 샘플에 대해 밴드 깊이를 계산한 뒤 평균을 취한다. 이 방법은 전체 연산량을 O(m·k²) (k는 하위 샘플 크기) 로 감소시키면서도 원본 깊이와 높은 상관성을 유지한다.
시뮬레이션 연구에서는 세 가지 시나리오를 설정하였다. (1) 정규분포를 따르는 부드러운 곡선, (2) 잡음이 섞인 비정상곡선, (3) 급격한 변곡을 가진 이상치. 각 경우에 대해 기존 밴드 깊이(BD), 일반화 밴드 깊이(GBD), 수정 밴드 깊이(cBD), 일반화 수정 밴드 깊이(GcBD)를 비교하였다. 결과는 다음과 같다. 교차가 빈번한 경우(cross‑heavy)에서는 cBD와 GcBD가 동점 문제를 크게 완화시켜, 평균 순위 차이가 15~20% 향상되었다. 이상치 탐지에서는 ROC AUC가 0.85 이상으로, 기존 방법보다 현저히 높은 검출력을 보였다. 또한 재표본 알고리즘은 n=5000, J=2 상황에서 실행 시간을 10배 이상 단축했으며, 깊이 값의 평균 절대 오차는 0.02 이하로 유지되었다.
논문의 마지막에서는 제안된 깊이 척도가 함수형 데이터의 강건한 평균·중앙값 추정, 이상치 탐지, 비모수적 검정 등에 직접 활용될 수 있음을 강조한다. 특히 시간 순서를 고려함으로써, 기존 순열 불변 깊이보다 의미 있는 중심‑외부 순서를 제공한다는 점이 실무적 가치를 높인다. 또한 재표본 기반 계산법은 대규모 데이터에서도 실용성을 보장한다는 점에서, 향후 빅데이터 환경에서의 함수형 데이터 분석에 중요한 도구가 될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기