데이터 누수가 비밀 탐지 모델 성능을 과대평가한다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 GitHub 기반 비밀 탐지 벤치마크인 SecretBench에 존재하는 중복 코드가 학습·평가 과정에서 데이터 누수를 일으켜 모델의 실제 일반화 능력을 크게 왜곡한다는 점을 실증한다. 정확·근접 중복을 제거한 후 다양한 모델(RF, LSTM, GraphCodeBERT)과 세 가지 실험 시나리오(Mixed, Near‑Duplicate, Unique)를 적용해 MCC 점수가 0.89→0.65까지 급락함을 보여준다. 데이터 정제와 누수 방지 평가 프로토콜의 필요성을 강조한다.

상세 분석

이 연구는 소프트웨어 보안 분야에서 머신러닝 기반 비밀 탐지 모델이 널리 사용되는 현황을 출발점으로, 데이터셋의 품질 문제가 모델 성능에 미치는 영향을 정량적으로 분석한다. 저자들은 먼저 SecretBench 데이터셋을 200자 전후의 코드 컨텍스트로 정의하고, 정확히 동일한 컨텍스트(C_exact)와 의미적으로 유사하지만 미세하게 다른 컨텍스트(C_near)를 Jaccard 유사도 기반 임계값(t0=0.8, t1=0.7)으로 구분한다. 전체 97,479개 샘플 중 69.3%가 정확 중복, 8.7%가 근접 중복으로, 실제 고유 샘플은 22%에 불과했다. 이러한 높은 중복 비율은 학습·테스트 분할 시 동일하거나 유사한 샘플이 양쪽에 존재하게 만들어 모델이 패턴을 암기하도록 만든다.

실험 설계는 세 가지 시나리오로 구성된다. Mixed 시나리오는 중복을 전혀 제거하지 않은 상태에서 5‑fold 교차검증을 수행해 “베이스라인” 성능을 측정한다. Near‑Duplicate 시나리오는 정확 중복만 제거하고 근접 중복을 그대로 두어, 근접 중복이 모델에 미치는 영향을 분리한다. 마지막 Unique 시나리오는 학습 데이터에 중복(정확·근접)만 포함하고, 테스트는 오직 고유 샘플(C_unique)만 사용해 일반화 능력을 직접 평가한다. 이렇게 일관된 데이터 분할을 5번 반복함으로써 결과의 재현성을 확보하였다.

모델 측면에서는 전통적인 Random Forest(RF), 순차 모델인 LSTM, 그리고 코드 구조를 그래프 형태로 인코딩하는 GraphCodeBERT 두 변형(Full Fine‑Tuning, Feature Extraction + MLP)을 선택했다. 하이퍼파라미터는 Differential Evolution 알고리즘으로 최적화했으며, 평가 지표는 불균형 데이터에 강인한 Matthews Correlation Coefficient(MCC)를 중심으로 Precision, Recall, F1-score를 보조적으로 보고한다.

결과는 모든 모델이 중복이 존재할 때는 높은 MCC(0.89~~0.92)를 기록했지만, 정확 중복을 제거하면 MCC가 평균 0.15~~0.20 포인트 급락한다. 특히 RF는 0.89→0.77→0.65로 가장 큰 감소를 보였으며, LSTM도 0.92→0.77으로 크게 약화된다. 반면 GraphCodeBERT는 전체 파인튜닝 시 7% 정도만 감소해 상대적으로 견고함을 보여준다. 이는 Transformer 기반 모델이 코드의 의미적 특성을 더 잘 포착해 중복에 덜 민감함을 의미한다. 또한 Near‑Duplicate 시나리오에서 근접 중복이 여전히 성능을 끌어올리는 요인으로 작용함을 확인했다.

이러한 실험 결과는 현재 SecretBench를 이용한 비밀 탐지 연구가 데이터 누수로 인해 실제 배포 환경에서 기대하는 성능보다 크게 과대평가되고 있음을 강력히 시사한다. 저자들은 데이터 정제(정확·근접 중복 제거)와 누수 방지 교차검증 프로토콜을 표준화할 것을 권고하고, 특히 새로운 비밀 패턴이나 변형된 시크릿에 대한 강인한 일반화 능력을 평가하기 위해 고유 샘플 위주의 테스트를 도입해야 한다고 강조한다. 또한, 모델 설계 시 중복에 대한 내성을 고려한 아키텍처 선택(예: GraphCodeBERT)과 데이터 증강 기법이 필요함을 제안한다.

데이터 누수가 비밀 탐지 모델 성능을 과대평가한다

초록

상세 분석

댓글 및 학술 토론

의견 남기기