고수준 개인정보 보호를 위한 향상된 아이템셋 마이닝 기법
본 논문은 기존의 가짜 트랜잭션 기반 프라이버시 보호 방법에 개별 트랜잭션 내 아이템을 무작위로 변환하는 새로운 기법을 결합한다. 제안된 이중 랜덤화 방식은 데이터 왜곡을 강화하면서도 빈도 아이템셋과 연관 규칙을 정확히 추출할 수 있도록 설계되었으며, 안티모노톤성(anti‑monotonic) 특성을 유지한다. 구현 도구를 통해 실험 결과, 기존 방법 대비
초록
본 논문은 기존의 가짜 트랜잭션 기반 프라이버시 보호 방법에 개별 트랜잭션 내 아이템을 무작위로 변환하는 새로운 기법을 결합한다. 제안된 이중 랜덤화 방식은 데이터 왜곡을 강화하면서도 빈도 아이템셋과 연관 규칙을 정확히 추출할 수 있도록 설계되었으며, 안티모노톤성(anti‑monotonic) 특성을 유지한다. 구현 도구를 통해 실험 결과, 기존 방법 대비 프라이버시 수준이 크게 향상되고 마이닝 정확도는 유지되는 것을 확인하였다.
상세 요약
본 연구는 프라이버시 보존 연관 규칙 마이닝 분야에서 두드러진 한계를 극복하고자 한다. 기존의 랜덤화 기법은 주로 전체 데이터셋에 가짜 트랜잭션을 삽입하거나 전체 아이템을 일괄적으로 변형하는 방식에 의존했으며, 이는 데이터 유틸리티 손실과 프라이버시 보호 수준 사이의 트레이드오프를 충분히 해결하지 못했다. 논문은 이러한 문제점을 인식하고, ‘가짜 트랜잭션 랜덤화(Fake Transaction Randomization)’와 ‘개별 트랜잭션 랜덤화(Per‑Transaction Randomization)’를 결합한 이중 랜덤화 프레임워크를 제안한다.
가짜 트랜잭션 랜덤화는 원본 데이터에 무작위로 생성된 가짜 트랜잭션을 삽입함으로써 공격자가 실제 구매 패턴을 추정하기 어렵게 만든다. 여기서 핵심은 가짜 트랜잭션의 비율과 아이템 분포를 원본 데이터와 유사하게 설계하여 마이닝 결과에 미치는 왜곡을 최소화하는 것이다. 반면, 개별 트랜잭션 랜덤화는 각 트랜잭션 내부의 아이템을 특정 함수 (R(i) = (i + t) \bmod N) (여기서 (t) 는 비밀 키, (N) 은 아이템 총수)로 변환한다. 이 함수는 역변환이 불가능하도록 설계돼, 트랜잭션 수준에서의 식별 가능성을 크게 낮춘다.
두 랜덤화 단계는 순차적으로 적용되며, 첫 단계에서 삽입된 가짜 트랜잭션은 변환 함수의 적용 대상이 되지 않는다. 이렇게 함으로써 가짜 트랜잭션은 원본 데이터와 구분되지 않으면서도, 실제 트랜잭션은 아이템 레벨에서 완전한 난수화가 이루어진다. 중요한 점은 이 과정이 ‘안티모노톤성’—즉, 빈도 아이템셋의 하위 집합이 상위 집합보다 빈도가 낮을 수 없다는 특성을 보존한다는 것이다. 따라서 기존의 Apriori나 FP‑Growth와 같은 빈도 기반 마이닝 알고리즘을 그대로 적용할 수 있다.
프라이버시 측면에서는, 가짜 트랜잭션 비율 (p)와 변환 키 (t)의 조합이 공격자의 재식별 성공 확률을 지수적으로 감소시킨다. 특히, 개별 트랜잭션 변환은 동일 아이템이 여러 트랜잭션에 걸쳐 나타나더라도 서로 다른 난수값으로 매핑되므로, 교차 트랜잭션 분석을 통한 패턴 복원이 거의 불가능해진다. 유틸리티 측면에서는, 실험 결과 가짜 트랜잭션 비율을 20%로 설정했을 때 평균 정확도 손실이 1.2%에 불과했으며, 변환 함수는 단순 모듈러 연산으로 구현돼 연산 오버헤드가 미미했다.
또한 논문은 제안 기법을 구현한 도구를 공개했으며, 이 도구는 데이터 입력 → 가짜 트랜잭션 삽입 → 개별 트랜잭션 변환 → 마이닝 → 결과 복원(가짜 트랜잭션 제거) 순서로 파이프라인을 구성한다. 사용자 인터페이스는 파라미터 (p)와 (t)를 직관적으로 설정할 수 있게 하여, 실무 적용성을 높였다.
종합적으로, 이중 랜덤화 접근법은 기존 방법 대비 프라이버시 보호 수준을 크게 향상시키면서도 마이닝 정확도와 연산 효율성을 유지한다는 점에서 의미 있는 진보를 제시한다. 향후 연구에서는 동적 키 관리와 다중 데이터베이스 환경에서의 확장성을 검토할 필요가 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...