악성 엔트라 OAuth 앱 탐지와 LLM 기반 권한 위험 점수

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Microsoft Graph 권한 769개를 대상으로 8가지 오픈소스 LLM을 이용해 위험 점수를 부여하고, 이를 실시간 탐지 엔진에 통합해 악성 Entra OAuth 애플리케이션 등록을 자동으로 식별·경보하는 프레임워크를 제시한다.

상세 분석

이 연구는 OAuth 기반 클라우드 서비스 남용이 급증하는 현 상황을 배경으로, 권한 스코프 자체에 대한 정량적 위험 평가가 부재함을 지적한다. 저자는 먼저 Microsoft Graph API에 존재하는 769개의 권한·스코프를 체계적으로 수집하고, 각 권한에 대해 “읽기·쓰기·관리·전체 접근” 등 기능적 특성을 메타데이터화한다. 이후 GPT‑OSS‑120B, GPT‑OSS‑Safeguard‑120B, Qwen‑3‑235B 등 8개의 최신 오픈소스 LLM에 동일한 프롬프트를 적용해 위험 점수(1~5)와 설명 텍스트를 자동 생성한다. 모델 간 점수 차이를 N‑gram 및 트라이그램 분석으로 검증해 LLM의 일관성 및 편향을 파악하고, 위험 점수 분포를 통계적으로 정리한다.

탐지 파이프라인은 다섯 단계로 구성된다. 1단계에서는 Entra ID에 등록된 애플리케이션과 사용자 동의 로그를 수집하고, 2단계에서 각 애플리케이션이 요청한 권한 집합에 대해 사전 정의된 위험 점수를 합산·가중 평균한다. 3단계에서는 “Stateful Spike Logic”이라 명명한 시간 기반 이상 감지 기법을 적용해, 짧은 시간 내 위험 점수 급등 현상을 메모리 버퍼에 저장하고, 일정 임계치를 초과하면 스파이크 알림을 발생시킨다. 4단계에서는 Slack Webhook을 통해 보안 운영팀에 실시간 경보를 전송하고, SQLite 데이터베이스에 이벤트 메타데이터를 영구 저장한다. 5단계는 상태 업데이트와 메타데이터 정리를 담당한다.

실험 결과, “.Read.All”, “.Write.All” 등 전역 읽기·쓰기 권한이 가장 높은 위험 점수(5)를 받았으며, “User.Read”, “Group.Read.All” 등 제한된 범위의 권한은 낮은 점수(1~2)를 획득했다. 특히 “CreatedByApp” 권한은 대부분 낮은 위험도로 평가되었지만, 특정 상황에서는 중간 위험도로 상승한다는 nuance를 LLM이 포착했다.

제한점으로는 LLM의 프롬프트 설계에 따라 점수 편향이 발생할 수 있고, 최신 권한이 추가될 경우 데이터베이스 업데이트가 필요함을 들었다. 향후 작업으로는 다중 모델 앙상블, 권한 간 상관관계 기반 위험도 재조정, 그리고 Entra ID 외 Azure AD, Google Workspace 등 다른 클라우드 아이덴티티 플랫폼으로 확장하는 방안을 제시한다.

전반적으로 이 논문은 권한 수준에서 위험을 정량화하고, LLM을 활용해 자동화된 설명과 함께 실시간 탐지를 구현함으로써 클라우드 환경의 OAuth 남용 방어에 새로운 접근법을 제공한다.

악성 엔트라 OAuth 앱 탐지와 LLM 기반 권한 위험 점수

초록

상세 분석

댓글 및 학술 토론

의견 남기기