데이터 유출 비대칭 역전
초록
본 논문은 중요한 문서를 다수의 자동 생성 가짜 버전으로 채워 공격자가 실제 문서를 찾기 어렵게 만드는 방식을 제안한다. 가짜 문서는 원문과 70% 정도 단어가 겹치도록 교체·삽입하고, 동의어·반의어·연관어, 베른포드 법칙 기반 숫자 변형, 날짜 편향 변형 등을 적용한다. 비밀분할(Shamir)과 파일명 무작위화를 통해 정품을 식별할 수 없게 하며, 탐지 알고리즘은 n‑gram, 새로운 단어 비율, Zipf 법칙, 베른포드 법칙 등을 이용해 가짜를 구분하려 한다. 실험 결과 가짜 문서는 자동 분석으로 식별하기 어려운 수준임을 보였다.
상세 분석
이 연구는 전통적인 경계 방어가 침투 후 데이터 유출을 막기 어렵다는 점에 착안해, “가짜 문서 대량 생성”이라는 전혀 새로운 방어 패러다임을 제시한다. 핵심 아이디어는 공격자가 실제 문서를 찾기 위해서는 모든 가짜를 함께 탈취하거나, 시스템 내부에서 정품을 식별하려는 시도를 해야 하는데, 두 경우 모두 비용이 급격히 상승한다는 점이다.
가짜 문서 생성 알고리즘은 크게 네 단계로 구성된다. 첫째, 원본 문서와 70% 정도 단어가 겹치도록 전체 단어 집합을 유지한다. 이는 단순 무작위 텍스트와 달리 통계적 특성을 보존해 n‑gram 기반 탐지를 회피한다. 둘째, 명사에 대해 동의어·반의어·연관어를 WordNet·Words API를 통해 교체하고, 교체 후 문법 검사 API로 문법 오류를 최소화한다. 셋째, 숫자는 베른포드 법칙에 따라 앞자리 1~9의 발생 확률을 맞추어 생성하고, 신용카드 번호와 같은 체크디지털이 필요한 경우는 별도 처리한다. 넷째, 날짜는 앞뒤로 무작위 변형하되 평균적으로 실제 날짜보다 앞선 값을 만들도록 편향한다. 이러한 변형은 인간이 눈으로는 의미가 흐려 보이지만, 자동화된 통계 분석에서는 정상적인 분포를 유지한다.
정품 식별을 위해서는 시스템이 정답을 직접 보관하지 않는다. Shamir 비밀분할을 이용해 파일명과 매핑되는 비밀을 두 조각으로 나누고, 하나는 시스템, 다른 하나는 사용자에게 보관한다. 사용자가 파일을 열 때 두 조각을 결합해 실제 파일명을 복원한다. 동시에 파일명은 무작위 문자열로 교체되고, 저장 시 파일 순서를 무작위 이름 순서대로 저장해 타임스탬프가 정품과 구분되지 않게 만든다.
공격자는 가짜를 탐지하기 위해 여러 통계적 지표를 활용한다. n‑gram(특히 부사‑동사, 형용사‑명사 쌍)의 빈도 비율, 새로운 단어 등장률(디가마 함수 형태), Zipf 법칙에 따른 단어 빈도 분포, 베른포드 법칙에 따른 숫자 첫 자리 비율 등을 점수화해 종합 의심 점수를 산출한다. 실험에서는 이러한 점수들을 결합해도 정품을 최상위에 배치하기 어려웠으며, 특히 대규모 가짜(수천 개) 환경에서는 탐지 정확도가 급격히 떨어졌다.
결과적으로, 가짜 문서 생성 비용은 저장 공간과 간단한 텍스트 변형 연산에 국한돼 매우 저렴하며, 방어자는 무한에 가까운 작업량을 공격자에게 강제할 수 있다. 다만, 시스템 관리 측면에서 파일 수 증가에 따른 메타데이터 관리, 비밀분할 키 보관, 사용자 인증 절차 등이 추가적인 운영 부담을 초래한다는 점도 논문에서 언급한다.
댓글 및 학술 토론
Loading comments...
의견 남기기