데이터 분석에서 양자 통계의 필요성
본 논문은 전통적인 벡터 공간 모델을 확장하여 데이터 분석에 나타나는 비분배적 개념 격자를 양자 확률론으로 설명한다. 저자는 유사도 측정이 벨 부등식을 위반할 수 있음을 보이며, 이는 데이터 분석에 비가환 확률 분포가 필요함을 시사한다.
저자: Dusko Pavlovic
논문은 현대 정보 사회에서 데이터가 저장·처리되는 방식이 과거의 정형 데이터베이스와는 달리 네트워크 기반의 상호작용과 부분적·불완전한 정보에 크게 의존한다는 점을 서두에서 제시한다. 이러한 환경에서는 사용자의 선호를 완전하게 정의하거나, 질의에 대한 정확한 관련성을 파악하기가 어려워 ‘부분 정보와 불확정성’ 문제가 핵심 과제로 떠오른다. 저자는 이러한 문제를 기존의 확률 모델이 잡아내지 못하는 이유를 두 가지로 구분한다. 첫째는 데이터가 비분배적 개념 격자를 형성한다는 점이며, 둘째는 사용자의 선호 자체가 측정 과정에서 ‘정신적 동전’처럼 확률적 붕괴를 겪는다는 점이다.
다음으로 저자는 ‘패턴 행렬’ A를 도입한다. 행렬의 행은 아이템 J, 열은 속성(또는 사용자) U, 원소 A_{iu}는 평가값이나 존재 여부를 나타낸다. 이 행렬에 대해 ‘아이템 균형’과 ‘사용자 균형’이라는 전처리 과정을 설명한다. 각각 평균을 빼고, 결측값을 0으로 채워 평균이 0이 되도록 만든다. 이후 행과 열을 각각 ℓ₂‑정규화하여 단위 벡터 형태로 변환한다. 이러한 정규화는 평가 스케일 차이를 제거하고, 순수한 구조적 관계만을 드러내기 위한 전처리이다.
정규화된 행렬을 선형 연산자 A: U → J 로 보고, 그 전치 A†를 이용해 두 개의 상관 행렬 M_J = AA†와 M_U = A†A 를 만든다. 이 두 행렬은 각각 아이템 간, 사용자 간의 내재된 유사성을 나타내며, 스펙트럴 분해를 통해 고유값 λ_i와 고유벡터를 얻는다. 고유값은 ‘주제’ 혹은 ‘스타일’의 중요도를, 고유벡터는 해당 주제에 대한 아이템·사용자들의 기여도를 의미한다. 이 과정은 전통적인 잠재 의미 분석(LSI)에서의 특이값 분해와 동일한 수학적 구조를 가진다. 또한, 하이퍼링크 기반의 HITS 모델에서 허브와 권위 점수를 구하는 방식과도 일치한다.
형식 개념 분석(FCA)에서는 값의 리그를 이진 격자 B = {0,1} 로 두고, 행렬 A를 이진 관계로 해석한다. 이 경우 전치와 부정 연산을 결합한 ‘Galois 연결’이 형성되어 개념 격자의 폐쇄 연산자를 정의한다. 폐쇄 집합들의 격자는 아이템과 속성 사이의 완전한 개념 구조를 나타내며, 이는 앞서 언급한 스펙트럴 분해와 동일한 최소성(minimality)을 가진다.
핵심 이론적 기여는 ‘유사도 측정값이 벨 부등식’을 만족해야 한다는 명제이다. 저자는 두 사용자 x, y와 두 아이템 a, b에 대해 전통적인 코사인 유사도 S(x,a)·S(y,b) + S(x,b)·S(y,a) ≤ 2 라는 부등식을 도출한다. 그러나 실제 데이터에서 흔히 쓰이는 코사인 유사도는 이 부등식을 위반하는 경우가 존재함을 간단한 2차원 예시로 증명한다. 이는 고전적 확률론이 전제하는 ‘결합 가능성’이 깨진다는 의미이며, 비가환 확률 분포, 즉 양자 확률이 필요함을 시사한다.
결론적으로, 논문은 데이터 분석에서 나타나는 비분배적 개념 구조와 불확정성은 양자 확률론적 모델로 자연스럽게 설명될 수 있음을 보인다. 기존의 벡터 공간 모델을 양자 논리와 연결함으로써, 더 정교한 추천 시스템·정보 검색·지식 추출 방법을 설계할 수 있는 이론적 토대를 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기