데이터에서 p 진법·초거리 모델로의 전이와 이상 탐지
초록
본 논문은 교차표 형태의 원시 데이터를 대응분석(Correspondence Analysis)으로 유클리드 공간에 매핑한 뒤, 시간 순서를 반영한 초거리(ultrametric) 구조를 유도하여 이상·변화 패턴을 탐지하는 방법을 제시한다. 영화 대본과 콜롬비아 내전 데이터를 사례로 적용해 서사 흐름과 사회 갈등의 진화를 정량적으로 분석한다.
상세 분석
논문은 먼저 교차표(또는 빈도표) 데이터를 행·열 각각을 고유한 좌표축으로 하는 고차원 유클리드 공간에 투영한다. 이때 대응분석(CA)은 특잇값 분해(SVD)를 이용해 행·열 프로파일 간의 χ² 거리(카이제곱 거리)를 최소화하면서 차원 축소를 수행한다. 결과적으로 각 관측치는 저차원 유클리드 좌표에 위치하게 되며, 이 좌표계는 데이터 내의 주요 변동 원천을 보존한다.
다음 단계에서는 이러한 유클리드 거리 구조를 초거리(ultrametric)로 변환한다. 초거리란 삼각 부등식이 d(x,z) ≤ max{d(x,y), d(y,z)} 형태로 강화된 거리이며, 이는 계층적 클러스터링 트리와 일대일 대응한다. 저자들은 특히 “시계열 초거리”를 정의하는데, 이는 연속된 시간 단계 사이의 거리 차이를 누적하여 트리 구조를 만든다. 구체적으로, 인접 시점 i와 i+1 사이의 유클리드 거리를 기본 거리로 삼고, 이를 기반으로 최소 스패닝 트리(MST)를 구축한 뒤, MST를 완전 이진 트리 형태로 변환한다. 이렇게 얻어진 초거리 트리는 데이터 흐름의 급격한 변동(이상)과 점진적 변화를 명확히 구분한다.
초거리 모델의 핵심 장점은 p-진법(p‑adic) 해석과의 연결성이다. 초거리 트리는 p‑adic 수 체계에서 정의되는 거리와 동형이며, 이는 데이터의 “계층적 근접성”을 수학적으로 엄밀히 표현한다. 따라서 이상 탐지는 트리 상에서 급격히 상승하는 거리(또는 낮은 p‑adic 차수) 구간을 식별함으로써 수행된다.
실증 분석에서는 두 가지 사례를 제시한다. 첫 번째는 영화 <카사블랑카>의 대본을 시나리오 라인별로 토큰화하고, 등장인물·대사·장면을 교차표화한 뒤 CA와 초거리 변환을 적용한다. 결과 트리는 서사의 전환점(예: “Here’s looking at you, kid”)을 뚜렷한 노드로 드러내며, 감정적·내러티브적 변곡점을 정량화한다. 두 번째는 1988‑2004년 콜롬비아 내전 데이터를 연도별 사건 유형(폭력, 협상, 인권 침해 등) 교차표로 구성하고 동일 절차를 적용한다. 초거리 트리는 1990년대 초반 급격한 폭력 증가와 2002년 이후 평화 협상 진전이라는 두 주요 변곡점을 포착한다.
이러한 접근법은 기존의 시계열 분석이나 단순 클러스터링이 놓치기 쉬운 “계층적 비선형 변동”을 포착한다는 점에서 의미가 크다. 특히 데이터가 고차원·희소하고, 시간적 순서가 중요한 경우 초거리 기반 p‑adic 모델은 해석 가능성과 탐지 효율성을 동시에 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기