비밀번호의 스케일프리 네트워크: 시각화와 경험적 비밀번호 집합 추정

초록

본 논문은 대규모 실사용 비밀번호 데이터셋을 그래프 형태로 모델링하여, 비밀번호 간 연결 구조와 커뮤니티·클러스터링 특성을 시각화한다. 빈도와 차수를 별도로 고려한 ‘인기’ 정의를 제시하고, 위상 공간에서의 통계적 추측 공격 모델을 통해 “크래킹 커브”를 설명한다. 또한 사전 크기 최소화 문제를 최소 지배 집합(Minimum Dominating Set) 문제와 동등함을 증명해 NP‑complete임을 밝힌다.

상세 분석

이 연구는 기존의 비밀번호 보안 분석이 개별 비밀번호의 빈도나 사전 기반 공격에 초점을 맞추던 점을 탈피한다. 저자들은 Yahoo, phpBB, 12306 등 다양한 실서비스에서 수집한 수백만 건의 비밀번호를 정점(Vertex)으로, 두 비밀번호가 일정 편집 거리(예: 레벤슈타인 거리 ≤ 2) 이하일 경우 간선(Edge)으로 연결한 무방향 그래프를 구축한다. 이렇게 형성된 네트워크는 전형적인 스케일프리 구조를 보이며, 차수 분포가 파워‑로우(p ∝ k^‑γ) 형태를 따른다. 이는 소수의 ‘핵심’ 비밀번호가 매우 높은 차수를 가지고, 다수의 비밀번호는 낮은 차수를 갖는다는 의미로, 기존 빈도 기반 인기 순위와 차수 기반 인기 순위가 서로 다른 군집을 형성함을 시사한다.

커뮤니티 탐지는 Louvain 알고리즘을 적용해 모듈러티를 최적화했으며, 결과적으로 비밀번호가 의미론적·패턴적 유사성을 공유하는 클러스터가 형성됨을 확인했다. 예를 들어 “password”, “passw0rd”, “p@ssword123” 등은 동일 커뮤니티에 속해, 공격자가 하나의 후보만으로도 해당 커뮤니티 전체를 효율적으로 탐색할 수 있음을 보여준다.

통계적 추측 공격 모델은 그래프의 차수 중심성을 활용한다. 공격자는 차수가 높은 정점을 우선적으로 시도하고, 차수‑우선 탐색 순서대로 사전을 구성한다. 이때 성공률은 차수 누적 분포와 거의 일치하는 ‘크래킹 커브’를 형성한다. 저자들은 이 현상을 수학적으로 증명하기 위해 차수‑순서 추정 함수와 실제 실험 결과를 비교했으며, 차수 기반 사전이 빈도 기반 사전보다 동일 성공률에 대해 평균 30 % 적은 시도 횟수를 요구함을 보고했다.

마지막으로 사전 최소화 문제를 최소 지배 집합 문제와 동치임을 증명한다. 그래프 G(V,E)에서 모든 정점을 커버하도록 하는 최소 정점 집합 D⊆V를 찾는 것이 바로 사전 크기를 최소화하는 문제와 일치한다. 최소 지배 집합 문제는 NP‑complete이며, 따라서 최적 사전 생성은 근사 알고리즘이나 휴리스틱에 의존해야 함을 결론짓는다. 이론적 복잡도 분석 외에도, 저자들은 그리디 기반 근사법을 적용해 실제 데이터셋에서 5 %~10 % 수준의 사전 크기 감소를 달성했다.

전반적으로 이 논문은 비밀번호 보안을 ‘집합 수준’의 위상 구조로 재해석함으로써, 기존의 빈도‑중심 분석을 보완하고, 공격·방어 양측 모두에게 새로운 전략적 인사이트를 제공한다.