소셜 네트워크에서 노드 발견 문제
초록
본 논문은 관찰되지 않는 은밀한 노드(코버트 노드)를 탐지하기 위한 두 가지 방법을 제시한다. 첫 번째는 Jaccard 유사도 기반 k‑medoids 군집을 이용한 휴리스틱 접근법이며, 두 번째는 최대우도 추정과 이상 탐지를 결합한 통계적 추론 방법이다. 합성 네트워크와 실제 비밀 조직 데이터를 이용해 정밀도·재현율·F‑measure를 비교 평가한다.
상세 분석
이 논문은 사회적 네트워크에서 직접 관측되지 않는 코버트 노드가 존재한다는 가정 하에, 이들 노드가 존재했을 경우 로그에 나타날 ‘의심스러운’ 활동 패턴을 식별하는 문제를 정의한다. 문제 정의에서는 노드 집합을 관측 가능한 O와 관측 불가능한 C로 구분하고, 각 활동 로그 d_i 를 O에 속한 노드들의 집합으로 표현한다. 로그는 이진 행렬 d_{ij} 로 전환되어, 통계 모델링의 입력이 된다.
첫 번째 해결책은 휴리스틱 방법이다. 로그에 등장한 모든 노드를 Jaccard 계수를 이용해 유사도 행렬을 만든 뒤, k‑medoids(또는 계층적 군집)로 군집화한다. 각 군집 c_l 에 대해 로그 d_i 와의 연관성을 w(d_i,c_l) = max_{n_j∈c_l} B(n_j∈d_i)/∑_i B(n_j∈d_i) 로 정의하고, 이를 기반으로 s(d_i) = ∑_l B(d_i∩c_l≠∅) 와 같은 단순 가중합 형태의 의심도 함수를 만든다. 이 방식은 계산량이 로그·노드 수에 비례해 선형적으로 증가하므로 대규모 데이터에 적용 가능하지만, 네트워크 토폴로지나 전파 메커니즘에 대한 사전 지식이 없으면 정확도가 제한적이다.
두 번째는 통계적 추론 방법이다. 전파 확률 r_{jk} 와 초기자 확률 f_j 를 하나의 파라미터 벡터 θ 에 포함시켜, 로그 집합 {d_i} 의 로그우도 L(θ)=∑i log p(d_i|θ) 를 최대화한다. 여기서 p(d_i|θ)=∑j d{ij} f_j ∏{k≠j}
댓글 및 학술 토론
Loading comments...
의견 남기기