결정트리 기반 개인정보 보호를 위한 잡음 추가 기법

초록

본 논문은 원본 데이터의 결정트리를 먼저 구축한 뒤, 수치형 속성에 선택적인 잡음을 삽입해 데이터 자체를 은폐하면서도 유사한 결정트리를 얻을 수 있는 프라이버시 보호 방식을 제안한다.

상세 요약

본 연구는 데이터 마이닝 과정에서 개인정보 유출 위험을 최소화하기 위해 ‘노이즈 추가’라는 간단하면서도 실용적인 방법을 제시한다. 기존 프라이버시 보호 기법들은 주로 전체 데이터에 무작위 잡음을 부여하거나, k‑익명성, 라플라스 메커니즘 등 복잡한 수학적 변환을 적용한다. 이러한 방법들은 데이터 유용성을 크게 저하시킬 위험이 있다. 저자들은 먼저 원본 데이터에 대해 결정트리를 학습하고, 해당 트리에서 분할에 사용된 수치형 속성들을 식별한다. 이후, 각 속성값에 대해 트리 구조와 분할 임계값을 고려한 ‘조건부 잡음’(conditional noise)을 추가한다. 즉, 트리의 분할 경계 근처에 있는 값들은 작은 변동만 허용하고, 경계에서 멀리 떨어진 값들은 더 큰 변동을 허용함으로써 트리 구조 자체는 유지하면서도 원본 값은 숨겨진다. 이 과정에서 잡음의 분포는 가우시안 혹은 균등 분포를 사용하되, 트리의 정보이득(Information Gain) 감소를 최소화하도록 파라미터를 조정한다. 실험에서는 UCI 데이터셋(예: Iris, Adult) 등을 활용해 원본 데이터와 잡음이 삽입된 데이터 각각에 대해 결정트리를 학습하고, 두 트리의 구조적 유사성(노드 수, 깊이, 분할 기준)과 분류 정확도를 비교하였다. 결과는 잡음이 삽입된 데이터에서도 원본 트리와 높은 유사성을 보였으며, 분류 정확도 손실은 2~5% 수준에 머물렀다. 이는 제안 기법이 프라이버시를 보호하면서도 데이터 마이닝 성능을 크게 저하시키지 않음을 시사한다. 또한, 잡음 삽입 단계가 원본 트리 탐색 이후에 수행되므로, 데이터 제공자는 사전에 트리 구조를 알 필요가 없으며, 수신자는 오직 변형된 데이터만을 이용해 자체적인 모델을 구축한다. 이 점은 실무에서 데이터 제공자와 데이터 소비자 간의 신뢰 관계를 최소화하면서도 협업을 가능하게 한다는 장점을 제공한다. 한계점으로는 수치형 속성에만 적용 가능하고, 범주형 속성에 대한 확장성이 부족하다는 점, 그리고 트리 모델에 특화된 방식이므로 다른 머신러닝 모델(예: SVM, 신경망)에는 직접 적용하기 어렵다는 점을 들 수 있다. 향후 연구에서는 잡음 삽입 전략을 범주형 데이터와 비선형 모델에 일반화하고, 동적 잡음 수준을 자동으로 결정하는 메커니즘을 도입함으로써 프라이버시-유용성 트레이드오프를 더욱 최적화할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)