암호화 데이터 구분 및 위치 탐지 방법
본 논문은 하드디스크에 남아 있는 암호화 파일과 일반 파일을 통계적 변화점 검출 기법으로 구분하고, 암호화 구간을 자동으로 찾아내는 두 가지 패시브 알고리즘을 제안한다. 균등 분포 가정에 기반한 χ² 검정(Q‑점수)과 이를 이용한 CUSUM·Shiryaev 알람 함수를 활용해 검출 정확도와 지연 시간을 평가하고, 새로운 성능 지표인 예측값(PV)을 도입한다. 실험 결과는 압축 파일과 암호화 파일을 효과적으로 구분함을 보여준다.
저자: Eric J"arpe, Quentin Gouchet
본 논문은 법집행기관이 압수한 하드디스크에서 암호화된 파일을 빠르게 식별하고 그 위치를 찾아내는 방법을 제시한다. 기존에는 파일 헤더나 메타데이터를 이용한 탐지가 주류였으나, 퀵 삭제(quick delete) 상황에서는 포인터가 사라져 헤더 기반 방법이 무용지물이 된다. 따라서 저자들은 데이터 자체의 통계적 특성을 활용하는 접근법을 고안하였다.
1. **배경 및 문제 정의**
- 암호화 파일은 무작위에 가까운 바이트 분포를 가지며, 비암호화 파일은 파일 형식에 따라 다양한 분포를 보인다.
- 특히 압축 파일은 엔트로피가 높아 암호화 파일과 유사한 분포를 보이지만, 미세한 차이가 존재한다.
- 목표는 전체 디스크 스트림에서 이러한 차이를 실시간으로 감지하고, 암호화 구간이 시작·종료되는 시점을 찾아내는 것이다.
2. **통계적 모델링**
- 데이터를 N=64 바이트 크기의 클러스터로 나누고, 바이트값을 0‑255 구간을 8개의 클래스(K=8)로 구분한다.
- 각 클러스터 t에 대해 클래스 k의 관측 빈도 Oₖₜ를 구하고, χ² 통계량 Qₜ = Σₖ (Oₖₜ−Eₖ)²/Eₖ (Eₖ=N/K) 를 계산한다.
- 암호화 데이터는 Qₜ가 χ²(7) 분포를 따르고, 비암호화(특히 압축) 데이터는 α·X 형태(α>1, X~χ²(7)) 로 모델링한다. 실험을 통해 α≈1.7374가 추정되었다.
3. **변화점 검출 기법**
- 온라인 스트림에서 Qₜ 시퀀스를 관찰하며, 두 종류의 패시브 변화점 검출 방법을 적용한다.
- **CUSUM**: aₜ = max_{1≤s≤t} ln L(s,t) 형태로, 로그우도비 L(s,t) 를 이용해 누적 알람을 계산한다.
- **Shiryaev**: aₜ = Σ_{s=1}^{t} L(s,t) 로, 전체 누적우도비를 사용한다.
- 각각 암호화→비암호화, 비암호화→암호화 전이에 맞는 알람 식을 유도했으며, α와 k(자유도) 값이 파라미터로 들어간다.
4. **성능 평가**
- 주요 지표는 평균 런 길이(ARL₀), 기대 지연(ED), 조건부 기대 지연(CED) 외에 새롭게 제안한 예측값(PV)=P(θ<τ)이다.
- ARL₀를 100, 500, 2500, 10000으로 설정하고, 각 경우에 대한 임계값을 조정해 CUSUM과 Shiryaev의 ED와 PV를 표 1에 제시하였다.
- 결과는 낮은 ARL₀에서도 PV가 0.7~0.9 수준으로 유지돼 허위 경보를 크게 늘리지 않으면서도 암호화 구간을 탐지한다는 것을 보여준다.
- 또한, 5000여 개의 암호화 파일과 압축 파일에 대한 Q점수 분포를 비교한 그림 1·2에서 χ²(7)와 α·χ²(7) 모델이 각각 잘 맞는 것을 확인하였다.
5. **제한점 및 향후 과제**
- 제안 방법은 물리적 섹터가 남아 있는 기계식 HDD에만 적용 가능하며, SSD와 같은 플래시 메모리에서는 파일 삭제 시 데이터가 즉시 소거돼 적용이 불가능하다.
- 클러스터 크기(N)와 클래스 수(K)의 선택이 검출 민감도와 통계적 신뢰도에 큰 영향을 미치므로, 실제 현장에서는 디스크 용량·속도에 맞춰 최적 파라미터를 찾아야 한다.
- 압축 파일과 암호화 파일 사이의 미세한 차이를 더 정밀히 구분하기 위해 다변량 엔트로피 추정이나 머신러닝 기반 보조 모델을 결합하는 방안이 제시된다.
6. **결론**
- 저자들은 파일 헤더가 사라진 퀵 삭제 상황에서도 데이터 자체의 통계적 특성을 이용해 암호화 구간을 자동으로 식별할 수 있는 실용적인 프레임워크를 구축하였다.
- CUSUM과 Shiryaev 두 가지 패시브 변화점 검출 방법 모두 높은 예측값과 적절한 지연을 보였으며, 특히 압축 파일을 ‘거짓 양성’으로 오인할 확률을 최소화했다.
- 이 연구는 디지털 포렌식 현장에서 암호화 파일 탐지 효율을 크게 향상시킬 수 있는 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기