보안 이슈 자동 탐지를 위한 SEBERTIS 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
SEBERTIS는 보안 관련 이슈를 조기에 식별하기 위해, 라벨을 대체할 수 있는 의미적 키워드(semantic surrogates)를 마스크 처리한 뒤 BERT 기반 마스크드 언어 모델을 미세조정하는 방법을 제안한다. 10 000개의 GitHub 이슈 데이터셋에서 F1 = 0.9880을 달성했으며, 기존 ML·LLM 기반 분류기 대비 정밀도·재현율·F1 모두 15 % 이상, 최악의 경우 95 % 이상 향상된 성능을 보였다.
상세 분석
본 논문은 보안 관련 이슈 보고서를 자동으로 분류하는 기존 접근법이 “어휘 단서(lexical cue)”에 과도하게 의존해 복잡하고 은유적인 표현을 놓치는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 SEBERTIS는 두 가지 핵심 아이디어를 결합한다. 첫째, 라벨 명칭(‘security’, ‘non‑security’)을 대체할 수 있는 의미적 동의어 집합을 ‘Semantic Surrogates’라 정의하고, 이들을 사전 구축한다. 구축 과정에서는 WordNet 기반 동의어 추출, Word2Vec 유사어 탐색, 그리고 수작업 검증을 통해 보안·비보안 의미를 명확히 구분한다. 둘째, 이러한 Surrogates가 등장하는 위치를
댓글 및 학술 토론
Loading comments...
의견 남기기