연속시간 확산 네트워크에서 영향력 최대화

초록

본 논문은 연속시간 마코프 체인을 이용해 확산 과정의 평균 도달 노드 수를 정확히 계산하고, 제한된 시간 내에 가장 큰 영향을 미치는 초기 노드 집합을 찾는 문제를 NP‑hard로 규정한다. 이후 서브모듈러 특성을 이용한 그리디 알고리즘을 제안하여 (1‑1/e)‑근사 성능을 보장하고, 합성·실제 데이터에서 기존 방법보다 최소 20% 이상 높은 확산 효율을 입증한다.

상세 분석

이 연구는 전통적인 이산시간 영향력 최대화 모델이 시간 제한을 명시적으로 반영하지 못한다는 한계를 극복하기 위해 연속시간 확산 모델을 도입한다. 저자들은 각 간선에 확률적 전파 지연을 지수분포 등 연속시간 확률밀도함수로 매핑하고, 전체 네트워크를 연속시간 마코프 체인(CTMC)으로 표현한다. CTMC의 전이 행렬을 이용하면, 특정 초기 노드 집합 S에서 시작했을 때 시간 t까지 도달한 노드들의 기대값 μ(S,t)를 선형 방정식 시스템으로 정확히 계산할 수 있다. 이는 기존의 몬테카를로 시뮬레이션에 비해 계산 복잡도를 크게 낮추면서도 정확도를 유지한다는 장점이 있다.

문제 정의는 “주어진 시간 제한 T 내에 μ(S,T)를 최대화하는 |S|=k인 노드 집합 S 찾기”이며, 저자들은 이 문제가 일반적인 최대 커버 문제로 환원될 수 있음을 보이며 NP‑hard임을 증명한다. 핵심 이론적 기여는 μ(S,T)가 비감소이며 서브모듈러(즉, diminishing returns) 특성을 가진다는 점이다. 이를 바탕으로 고전적인 그리디 알고리즘을 적용하면 (1‑1/e) 근사 비율을 보장한다는 정리를 제시한다. 하지만 직접적인 그리디 선택은 매 반복마다 CTMC 해를 새로 계산해야 하므로 비용이 높다. 이를 해결하기 위해 저자들은 “노드 영향도 상한”을 사전 계산하고, 후보 집합을 점진적으로 축소하는 “Lazy Greedy” 기법을 도입한다. 또한, 전이 행렬의 희소성을 활용한 빠른 선형 시스템 솔버와, 병렬화 가능한 샘플링 기법을 결합해 전체 알고리즘의 실행 시간을 O(k·|E|·polylog|V|) 수준으로 낮춘다.

실험에서는 합성 네트워크(ER, BA, WS)와 실제 소셜 미디어·바이오 네트워크(트위터 리트윗, 감염 데이터)를 대상으로 비교한다. 평가 지표는 제한 시간 T 내에 실제 도달한 노드 수와 알고리즘 실행 시간이다. 결과는 제안 알고리즘이 기존의 이산시간 그리디, 라우드스톤, 그리고 최근 연속시간 기반 베이지안 최적화 방법보다 평균 20%~35% 높은 확산 효과를 보이며, 특히 전파 속도가 빠른 네트워크에서 그 차이가 두드러진다. 또한, 파라미터 민감도 분석을 통해 전이 확률 분포 형태가 바뀌어도 성능 저하가 미미함을 확인한다. 전체적으로 이 논문은 연속시간 확산 모델의 이론적 기반을 확립하고, 실용적인 근사 알고리즘을 제공함으로써 시간 제한이 중요한 실제 응용(마케팅 캠페인, 전염병 방역 등)에 큰 기여를 한다.