정적 탐욕 알고리즘으로 확산 최대화의 확장성 정확성 딜레마 해결

초록

본 논문은 영향력 최대화 문제에서 기존 탐욕 알고리즘이 서브모듈러티 보장을 위해 수많은 몬테카를로 시뮬레이션을 필요로 하는 비효율성을 지적한다. 이를 해결하기 위해 정적 그래프 샘플을 미리 생성하고, 이 샘플에 기반해 서브모듈러티를 엄격히 유지하는 StaticGreedy 알고리즘을 제안한다. 정적 샘플을 이용함으로써 계산량을 두 자릿수 감소시키고, 동적 업데이트 전략을 추가해 대규모 네트워크에서도 2~7배의 속도 향상을 달성한다. 정확도는 기존 최고 수준의 탐욕 알고리즘과 동등하게 유지된다.

상세 분석

영향력 최대화는 소셜 네트워크에서 소수의 시드 노드를 선택해 전체 확산을 극대화하는 NP‑hard 문제이며, 일반적으로 기대 확산량을 목표 함수로 삼는다. 이 목표 함수가 비감소와 서브모듈러티를 만족하면, 표준 탐욕 알고리즘이 (1‑1/e) 근사 비율을 보장한다. 그러나 기존 연구들은 실제 구현 시 기대 확산량을 추정하기 위해 매 반복마다 수천 번의 몬테카를로 시뮬레이션을 수행한다. 이러한 접근은 시드 선택 과정에서 사용되는 샘플이 매 단계마다 바뀌기 때문에, 함수가 실제로 서브모듈러티를 유지한다는 보장이 사라진다. 결과적으로 탐욕 선택이 최적성 보장을 잃고, 정확도를 유지하려면 시뮬레이션 수를 폭증시켜야 하는 ‘확장성‑정확성 딜레마’가 발생한다.

논문은 이 문제의 근본 원인을 “동적 샘플링이 서브모듈러티를 파괴한다”는 점으로 규정하고, 정적 샘플링 방식을 도입한다. 구체적으로, 전체 네트워크에 대해 R개의 독립적인 확산 시뮬레이션(즉, 활성화 그래프)을 사전에 생성하고, 이 고정된 샘플 집합을 전체 탐욕 과정에 재사용한다. 각 시드 후보의 marginal gain은 이 정적 샘플에 대해 정확히 계산되므로, 함수는 샘플 수준에서 완전한 서브모듈러티를 만족한다. 따라서 탐욕 단계에서 근사 비율 보장이 그대로 적용된다.

또한, 정적 샘플을 이용하면 marginal gain을 재계산할 필요가 없으며, 단순히 후보 노드가 포함된 샘플들의 활성화 횟수를 누적·감소시키는 방식으로 효율을 극대화한다. 이때 발생하는 중복 계산을 최소화하기 위해 ‘동적 업데이트 전략’을 제안한다. 구체적으로, 새로 선택된 시드가 포함된 샘플에서 이미 활성화된 노드들을 추적하고, 이후 후보들의 marginal gain을 업데이트할 때 해당 노드들을 제외한다. 이 기법은 특히 대규모 네트워크에서 후보 집합이 수십만에 달할 때 2~7배의 속도 향상을 제공한다.

실험에서는 실세계 소셜 네트워크(예: LiveJournal, Orkut, Twitter)와 합성 그래프에 대해 기존 CELF++, TIM+, IMM 등과 비교하였다. StaticGreedy는 R=100~200 정도의 정적 샘플만으로도 기존 탐욕 기반 알고리즘과 동일하거나 약간 높은 확산량을 기록했으며, 실행 시간은 평균 100배 이상 단축되었다. 특히, 동적 업데이트를 적용한 버전은 메모리 사용량을 크게 늘리지 않으면서도 추가적인 가속을 달성했다.

이 논문의 핵심 기여는 (1) 서브모듈러티 보장이 실제 구현에서 무시되고 있음을 명확히 밝힌 점, (2) 정적 샘플링을 통해 서브모듈러티를 강제하고 탐욕 알고리즘의 이론적 근사를 유지한 점, (3) 동적 업데이트 전략으로 실시간 대규모 네트워크에서도 실용적인 성능을 확보한 점이다. 이러한 접근은 영향력 최대화뿐 아니라, 서브모듈러티가 핵심인 다른 그래프 기반 최적화 문제에도 확장 가능성을 시사한다.