AI 생성 코드 탐지를 위한 종합 벤치마크 AICD Bench

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AICD Bench는 2백만 개 이상의 코드 샘플, 77개의 생성 모델(11개 패밀리), 9개 프로그래밍 언어를 포괄하는 대규모 데이터셋을 기반으로 인간‑AI 코드 구분, 모델 패밀리 귀속, 인간·기계·하이브리드·적대적 코드 4분류 등 세 가지 현실적인 탐지 과제를 제공한다. 기존 벤치마크가 인‑도메인 이진 분류에 머물렀던 반면, 본 연구는 언어·도메인·모델 전이 상황에서 탐지기의 강건성을 체계적으로 평가하고, 현재 사용되는 탐지 방법이 실제 적용 수준에 크게 미치지 못함을 실증한다.

상세 분석

AICD Bench는 AI‑생성 코드 탐지 연구의 현재 한계를 정확히 짚어낸다. 첫째, 데이터 규모와 다양성에서 기존 벤치마크를 압도한다. 2 M 샘플, 77 모델, 9 언어라는 조합은 특히 최신 Reasoning 모델까지 포함해 생성 패턴의 폭을 크게 확장한다. 이는 탐지기가 단일 언어나 도메인에 과적합되는 위험을 최소화한다는 점에서 중요한 설계 선택이다. 둘째, 세 가지 과제 설계는 실제 운영 환경을 단계적으로 모사한다.

Robust Binary Classification은 언어와 도메인 전이를 순차적으로 도입해, “Seen‑Language/Seen‑Domain”, “Unseen‑Language/Seen‑Domain”, “Seen‑Language/Unseen‑Domain”, “Unseen‑Language/Unseen‑Domain” 네 단계로 평가한다. 이는 모델이 코드 스타일, API 사용 패턴, 주석·문서화 방식이 달라지는 상황에서도 일관된 성능을 유지할 수 있는지를 검증한다.
Model Family Attribution은 개별 모델이 아닌 패밀리 수준에서 귀속을 요구한다. 11개 패밀리는 DeepSeek, Qwen, 01‑ai 등 주요 상용·오픈소스 라인을 포함하고, 각 패밀리 내 다수 모델(크기·파인튜닝 차이)을 혼합해 학습·평가한다. 이는 모델 수가 급증하는 현시점에서 실용적인 귀속 방안을 제시한다.
Fine‑Grained Human‑Machine Classification은 인간, 순수 AI, 인간‑AI 하이브리드, 적대적 변조 코드 네 클래스로 확장한다. 특히 적대적 코드(LLM이 탐지를 회피하도록 훈련된 경우)는 기존 탐지기가 쉽게 놓치는 취약점을 드러낸다.

실험에서는 CodeBERT, CodeT5, RoBERTa‑based 탐지기 등 최신 딥러닝 기반 모델과 전통적인 스타일 기반 탐지기를 모두 평가했으며, 전체 평균 F1 점수가 70% 이하, OOD 상황에서는 50% 이하로 급락한다는 결과를 보였다. 특히 하이브리드·적대적 샘플에 대한 정확도는 30% 수준에 머물러, 현재 탐지 기술이 실제 보안·학술 무결성 요구를 충족시키기엔 부족함을 명확히 보여준다.

데이터 품질 관리도 주목할 만하다. 원본 DroidCollection의 필터링 파이프라인을 그대로 적용하고, Min‑Hash 기반 중복 제거(유사도 0.8)와 AST 깊이·라인 길이·알파벳 비율 등 다중 메트릭을 사용해 코드 복잡성을 균형 있게 유지한다. 또한 인간 작성 코드와 하이브리드 샘플을 The Heap, Swallow Code 등 외부 클린 데이터셋에서 추가해, 오염 위험을 최소화했다.

전체적으로 AICD Bench는 (1) 데이터 규모·다양성, (2) 현실적인 과제 설계, (3) 엄격한 품질 관리, (4) 광범위한 베이스라인 평가라는 네 축을 통해 AI‑생성 코드 탐지 연구에 새로운 표준을 제시한다. 향후 연구는 멀티모달(코드·주석·문서) 통합, 메타‑학습 기반 OOD 적응, 그리고 적대적 생성에 대한 방어 메커니즘 개발에 초점을 맞춰야 할 것이다.

AI 생성 코드 탐지를 위한 종합 벤치마크 AICD Bench

초록

상세 분석

댓글 및 학술 토론

의견 남기기