마스터마인드 공격으로 드러나는 DNA 문자열 프라이버시 위험

본 논문은 프라이버시 보호 문자열 비교 프로토콜이 제공하는 최소한의 정보, 즉 두 문자열 사이의 일치 점수만으로도 공격자가 대상 문자열 Q를 효율적으로 복원할 수 있음을 체계적으로 분석한다. 연구는 크게 네 부분으로 구성된다. 첫 번째 부분에서는 마스터마인드 게임의 수학적 모델을 소개한다. 코덱메이커가 길이 N, 알파벳 크기 K인 비밀 문자열 Q를 선택하고, 코드브레이커가 연속적으로 추측 문자열 V_i를 제시하면 코덱메이커는 두 종류의 점수를 반환한다. 하나는 “검은 색(black) 점수” b(Q,V_i)로 정확히 같은 위치와 문자를 센 것이고, 다른 하나는 “흰 색(white) 점수” w(Q,V_i) 혹은 LCS 점수 a(Q,V_i)와 같은 순서‑비의존 점수이다. 논문은 특히 두 번째 점수인 LCS를 DNA 서열 정렬에서 흔히 사용되는 스코어로 채택한다. 두 번째 부분에서는 마스터마인드 응답 집합의 만족성 문제를 다룬다. 저자는 3‑차원 매칭(3DM) 문제를 이용해 LCS 기반 마스터마인드 만족성이 NP‑complete임을 증명한다. 이는 임의의 응답 집합에 대해 일관된 Q가 존재하는지를 판단하는 것이 계산적으로 어려움을 의미한다. 그러나 이론적 난이도가 실제 공격을 방어하지 못한다는 점을 강조한다. 세 번째 부분은 공격 알고리즘 자체에 초점을 맞춘다. 저자는 먼저 일반적인 경우, 즉 Q가 알파벳 K와 길이 N만 알려진 상황에서 (N+2)·K개의 LCS 질의를 통해 Q를 완전 복원할 수 있음을 보인다. 구체적인 질의 설계는 (i) 각 알파벳을 모두 포함하는 문자열을 만든 뒤, (ii) 해당 알파벳이 Q에 몇 번 등장하는지를 점수로 추정하고, (iii) 위치 정보를 단계적으로 좁혀 가는 방식이다. 다음으로, 실제 유전체 데이터는 알파벳이 균등하게 분포하지 않으며, 변이 위치와 빈도가 사전에 알려진 경우가 많다는 점을 이용한다. 저자는 Zipf 법칙에 따라 빈도가 높은 문자에 대해 먼저 질의를 수행하고, 변이 가능한 위치(예: rCRS와의 차이점)만을 대상으로 추가 질의를 하는 “분포 기반 마스터마인드” 전략을 제안한다. 이 방법은 이론적으로 O(N·log K) 수준의 질의 수로 복원을 가능하게 하며, 실험에서는 평균 350회 이하의 질의로 99% 이상의 mtDNA 서열을 복원했다. 네 번째 부분은 실제 데이터에 대한 실험 결과이다. 인간 미토콘드리아 DNA(길이 약 16 500 bp) 1 000개 샘플을 대상으로 두 가지 시나리오를 수행했다. (1) 단일 색 점수 b만 제공되는 경우, (2) LCS 점수 a만 제공되는 경우. 두 경우 모두 평균 300~400회, 최악 경우 600회 이하의 질의로 전체 서열을 정확히 복원했으며, 변이 다중이 존재하는 복잡한 서열도 성공적으로 복원했다. 이는 현재 공개된 mtDNA 데이터베이스가 이러한 마스터마인드 공격에 매우 취약함을 의미한다. 마지막으로 논문은 방어 전략을 논의한다. 가능한 방어책으로는 (a) 질의당 반환되는 점수에 무작위 노이즈를 추가해 정보량을 감소시키는 방법, (b) 질의 횟수에 제한을 두어 공격자가 충분한 정보를 수집하지 못하도록 하는 정책, (c) 다중 파티 계산(MPC)이나 동형암호 기반 프로토콜을 도입해 점수 자체를 암호화된 형태로 반환하고, 복호화는 사전에 합의된 제한된 경우에만 허용하는 방안 등이 있다. 또한, 데이터베이스 운영자는 변이 정보가 포함된 서열을 직접 제공하기보다, 변이 여부만을 반환하는 블룸 필터와 같은 구조를 활용해 프라이버시를 강화할 것을 제안한다. 전반적으로 이 연구는 “점수만 반환한다”는 겉보기에 안전한 프라이버시 보호 메커니즘이 실제로는 마스터마인드 게임과 동등한 정보 누출을 야기한다는 중요한 교훈을 제공한다. 특히 유전체 데이터와 같이 고유하고 민감한 문자열이 대상인 경우, 기존 프로토콜을 재검토하고 보다 강력한 암호학적 보호 수단을 도입해야 함을 강조한다.

마스터마인드 공격으로 드러나는 DNA 문자열 프라이버시 위험

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기