소규모 사용자 환경을 위한 압축 로컬 차등 프라이버시와 사이버 보안 데이터 수집
초록
본 논문은 기존 로컬 차등 프라이버시(LDP)가 작은 사용자 집단에서 유틸리티가 급격히 떨어지는 문제를 해결하고자, 압축 로컬 차등 프라이버시(CLDP)라는 새로운 개념을 제안한다. CLDP는 출력값을 거리 기반으로 가중하여 비슷한 값이 더 높은 확률로 선택되도록 하는 ‘압축 확률’ 메커니즘을 도입한다. 이를 기반으로 순서형 데이터, 비순서형 아이템, 그리고 아이템 시퀀스를 모두 다룰 수 있는 Ordinal‑CLDP, Item‑CLDP, Sequence‑CLDP 프로토콜을 설계하고, 베이지안 적대자 모델을 통해 LDP와 동등한 프라이버시 보장을 증명한다. 실험에서는 수천 명 수준의 소규모 데이터셋과 Symantec의 실제 사이버 보안 로그를 이용해 기존 LDP 대비 60‑70% 높은 정확도를 달성함을 보인다.
상세 분석
이 논문은 사이버 보안 분야에서 흔히 마주치는 “소규모 사용자 집단”이라는 특수 상황을 정확히 짚어낸다. 기존 LDP는 ε‑LDP 정의에 따라 모든 입력값 v₁, v₂에 대해 출력 y의 확률비가 e^ε 이하가 되도록 설계되지만, 사용자 수가 수천 명 수준이면 통계적 노이즈가 크게 부각돼 빈도 추정이나 헤비히터 탐지와 같은 기본적인 분석 작업조차 신뢰성을 잃는다. 이를 극복하기 위해 저자들은 CLDP라는 개념을 도입한다. CLDP는 ‘압축 확률(Condensed Probability)’을 적용해, 원래 값과 거리가 가까운 출력값에 더 높은 확률을 부여한다. 이는 전통적인 지수 메커니즘(Exponential Mechanism)의 유틸리티 함수에 거리 기반 가중치를 넣은 형태이며, 결과적으로 동일 ε 수준에서도 출력 분포가 실제 값에 더 집중한다.
핵심 이론적 기여는 두 가지다. 첫째, 베이지안 적대자 모델을 사용해 최대 사후 신뢰도(MPC)를 정의하고, CLDP 파라미터(ε, 거리 함수, 압축 계수)를 선택함으로써 LDP와 동일한 MPC 상한을 유지함을 증명한다. 즉, 프라이버시 측면에서는 기존 LDP와 동등하지만, 유틸리티 측면에서는 거리 정보를 활용해 노이즈를 효과적으로 감소시킨다. 둘째, 이 모델을 바탕으로 세 가지 프로토콜을 설계한다.
- Ordinal‑CLDP: 유한 메트릭 공간(예: 정수형 악성코드 감염 수)에서 거리 함수를 ℓ₁ 혹은 ℓ₂로 정의하고, 지수 메커니즘을 적용해 압축된 확률을 산출한다.
- Item‑CLDP: 비순서형 카테고리(예: OS 버전, 트랜잭션 유형)에서는 거리 함수를 0‑1 형태로 두고, 동일한 압축 메커니즘을 사용해 원-핫 혹은 해시 기반 인코딩 후 노이즈를 삽입한다.
- Sequence‑CLDP: 아이템 시퀀스(예: 시스템 콜 시퀀스, 파일 다운로드 로그)에서는 각 위치별 아이템을 독립적으로 압축 처리하고, 전체 시퀀스 길이 자체도 별도의 압축 확률을 부여해 길이와 내용 모두를 보호한다.
실험에서는 합성 데이터와 공개 데이터셋(Adult, Retail)뿐 아니라 Symantec의 실제 사이버 보안 로그를 활용한다. 특히 1,000~5,000명 수준의 사용자 집단에서 기존 GRR, OLH, RAPPOR 대비 L1 오류가 60‑70% 감소했으며, ransomware 발생 탐지, 취약 OS 식별, 의심스러운 행위 패턴 마이닝 등 실제 보안 작업에서도 높은 정확도를 보였다. 또한 파라미터 민감도 분석을 통해 ε와 압축 계수 간의 트레이드오프를 제시하고, 통신 비용(비트 수) 역시 기존 LDP와 비슷하거나 더 낮은 수준임을 입증한다.
이 논문의 한계로는 거리 함수 설계가 도메인에 따라 달라야 한다는 점과, 시퀀스 길이가 매우 긴 경우 압축 메커니즘이 복잡해질 수 있다는 점을 들 수 있다. 향후 연구에서는 자동 거리 함수 학습 및 동적 압축 계수 조정 기법을 탐색할 여지가 있다. 전반적으로 CLDP는 소규모 사이버 보안 데이터 수집에 실용적인 프라이버시‑유틸리티 균형을 제공하는 중요한 진전이다.
댓글 및 학술 토론
Loading comments...
의견 남기기