분산 데이터에서 안전한 로지스틱 회귀 분석
초록
본 논문은 서로 다른 기관이 보유한 데이터셋을 실제로 합치지 않고도 로지스틱 회귀 모델을 학습할 수 있는 보안 프로토콜을 제안한다. 다중당사자 안전 계산(MPC)과 additive secret sharing을 활용해 중간값을 완전히 은닉하고, 로지스틱 함수 근사를 두 가지 방식(야오 프로토콜 기반과 테일러 전개 기반)으로 구현한다. CPS 데이터를 이용한 실험을 통해 정확도와 실행 시간을 검증하고, 반쯤 정직한(semihonest) 공격자 모델 하에서의 보안성을 이론적으로 증명한다.
상세 분석
이 논문은 기존의 데이터 통합 방식이 초래할 수 있는 프라이버시 침해 위험을 최소화하기 위해, 데이터 소유자들이 자신의 원본 데이터를 절대 공유하지 않으면서도 전체 데이터에 기반한 로지스틱 회귀 파라미터를 공동으로 추정할 수 있는 프레임워크를 설계한다. 핵심 기술은 additive secret sharing으로, 각 데이터 항목과 중간 계산값(그라디언트, 헤시안, 파라미터 벡터 등)을 P개의 무작위 공유값으로 분할하고, 각 파티는 자신에게 할당된 공유만을 보유한다. 이렇게 하면 어느 하나의 파티가 자신의 공유만을 가지고는 원본 값을 복원할 수 없으며, 전체 프로토콜이 “semi‑honest” 모델(즉, 정직하게 프로토콜을 따르지만 전송된 메시지를 기록하는 공격자) 하에서도 중간 메시지가 원본 데이터와 통계적 연관성을 갖지 않도록 설계되었다.
로지스틱 함수 σ(a)=1/(1+e⁻ᵃ)의 비선형성을 안전하게 계산하기 위해 두 가지 접근법을 제시한다. 첫 번째는 야오(Yao)의 “millionaire” 회로를 이용해 비교 연산(> )을 구현하고, 이를 통해 σ(a)≈1/(1+2⁻ᵇ·a) 형태의 근사값을 얻는 방법이다. 이 방식은 정확도가 높지만, 비교 회로를 구현하기 위해 비트 단위 암호화와 다수의 라운드가 필요해 연산 비용이 O(b)·O(n) 정도로 급증한다. 두 번째는 테일러 전개와 오일러 방법을 결합해 σ(a)를 다항식 형태로 근사하고, 오직 덧셈·곱셈만으로 계산하도록 변환한다. 이 경우 비선형 연산을 회피함으로써 프로토콜의 라운드 수와 암호화 연산을 크게 줄일 수 있지만, 근사 정확도는 전자의 방법에 비해 약간 낮으며, 원하는 정밀도에 따라 반복적인 테일러 전개와 파라미터 업데이트가 필요하다.
논문은 또한 데이터 파티션 모델을 일반화한다. 각 파티는 전체 디자인 매트릭스 X와 레이블 벡터 y의 “additive share”를 보유하며, 이는 수평 파티셔닝(케이스 단위 분할)과 수직 파티셔닝(변수 단위 분할) 모두를 포함한다. 겹치는 데이터가 존재할 경우에도 각 파티가 동일한 레코드에 대한 가중 평균 형태의 공유를 제공함으로써, 중복 데이터가 존재하는 상황에서도 정확한 최대우도 추정치를 얻을 수 있다.
보안 분석에서는 시뮬레이터 기반 정의를 채택해, 각 파티의 시점(view)이 입력·출력 외에 추가적인 정보를 제공하지 않음을 증명한다. 이는 기존 연구에서 제시된 “functional security”와 일치하며, 파라미터 자체에 대한 차등 프라이버시(differential privacy) 보장은 다루지 않지만, 계산 과정에서 발생할 수 있는 정보 누출을 원천적으로 차단한다.
실험에서는 미국 Current Population Survey(CPS) 데이터를 두 파티에 나누어 적용했으며, 비밀 공유 기반 프로토콜이 기존의 중앙집중식 로지스틱 회귀와 거의 동일한 추정값을 제공함을 확인했다. 또한, 테일러 기반 근사와 야오 기반 근사의 실행 시간 차이를 정량화했으며, 고차원·대규모 데이터셋에서는 테일러 방식이 실질적인 속도 향상을 가져온다.
결과적으로, 이 연구는 프라이버시 요구가 강한 의료, 금융, 공공 정책 분야에서 데이터 소유자가 직접 데이터를 교환하지 않고도 공동 모델을 구축할 수 있는 실용적인 방법론을 제공한다. 향후 연구 과제로는 차등 프라이버시와 결합한 하이브리드 보안 모델, 비정형 데이터에 대한 확장, 그리고 보다 효율적인 비선형 함수 근사 회로 설계가 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기