프라이버시 보호와 회귀 분석 일관성을 위한 부동산 거래 데이터 노이즈 추가 기법
초록
본 논문은 부동산 거래 가격이라는 민감한 변수에 잡음(noise)을 추가하면서도 회귀 분석 결과(R², t‑값 등)를 그대로 유지할 수 있는 새로운 방법을 제시한다. 하나의 파라미터 b와 고정된 상수 a = −2만 조정하면 원 데이터와 변형 데이터 사이의 상관계수를 적절히 조절할 수 있어, 개인 식별 위험을 낮추면서도 통계적 유용성을 보존한다. 실험을 통해 b≈0.5~1.0 구간이 실용적임을 확인하였다.
상세 분석
이 연구는 OLS 회귀모형에서 반응변수 y 에 대해 잡음 ε 를 선형 결합 형태로 설계한다. 구체적으로 ε = a·‖e‖₁ + b·(e/‖e‖) + √b·(u/‖u‖) 로 정의되는데, 여기서 e 는 원 데이터의 잔차벡터, u 는 e 와 설계행렬 X 에 직교하는 임의벡터 v 로부터 투영된 성분이다. 핵심 정리는 a = −2 로 고정하고 b > 0 를 자유롭게 선택하면 (1) 평균은 변하지 않고, (2) OLS 추정량 β̂ 그 자체가 변하지 않으며, (3) t‑값과 결정계수 R² 도 그대로 유지된다는 점이다. 이는 Xᵀε = 0 이라는 직교성에 기반한다.
또한 상관계수 r(y, y+ε) = 1 − 2(1−R²)/(1+b) 로 표현되어 b가 클수록 원 데이터와 변형 데이터 간의 차이가 커짐을 보여준다. 따라서 b를 조절함으로써 “프라이버시 보호 수준”(데이터 변형 정도)과 “통계적 일관성”(분석 결과 유지) 사이의 트레이드오프를 정량화할 수 있다.
실험에서는 도쿄 세타가야 구의 신축 주택 1,320건을 대상으로 주요 변수(가격, 접근시간, 면적 등)를 사용해 회귀모형을 적합하였다. b = 0.5, 1.0, 2.0 에 대해 변형 데이터를 생성하고, 회귀계수, R², t‑값은 이론대로 동일하게 유지되었으며, 다변량 분석(주성분, 클러스터링 등)에서는 변형 정도에 따라 약간의 차이가 발생했지만, 실무적 해석에 큰 영향을 주지는 않았다.
이 방법의 장점은 (① 파라미터가 하나뿐이라 적용이 간단, ② OLS 결과를 완벽히 보존, ③ 잡음이 데이터에 직접적인 편향을 주지 않음)이며, 한계는 (① 비선형 모델이나 로짓·프로빗 등에서는 보장되지 않음, ② u 벡터를 생성하기 위한 난수 v 가 충분히 고차원이어야 함, ③ b 값이 너무 작으면 프라이버시 보호 효과가 미미, 너무 크면 데이터 활용도가 떨어짐)이다.
댓글 및 학술 토론
Loading comments...
의견 남기기