DeepSight: 통합형 대형 모델 안전 도구킷

DeepSight: 통합형 대형 모델 안전 도구킷
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DeepSight는 안전 평가와 진단을 하나의 파이프라인으로 연결하는 오픈소스 툴킷이다. DeepSafe는 20여 개의 텍스트·멀티모달 안전 벤치마크와 최첨단 AI 위험 데이터셋을 지원하며, 선언형 YAML 설정만으로 대규모 모델을 자동 추론·평가·보고한다. DeepScan은 모델 내부 표현을 비파괴적으로 탐색해 안전 개념이 어떻게 인코딩되는지, 안전 목표 간 충돌이 어디서 발생하는지를 시각·정량적으로 드러낸다. 두 엔진은 동일한 데이터·태스크 프로토콜을 공유해 평가 결과를 진단으로 바로 연결, 블랙박스 평가를 화이트박스 인사이트로 전환한다.

상세 분석

DeepSight는 현재 LLM·MLLM 안전 생태계가 평가, 진단, 정렬을 별도 도구에 의존해 발생하는 ‘검증‑원인 불일치’ 문제를 근본적으로 해결하려는 시도이다. 핵심 설계는 통합 프로토콜레지스트리 기반 모듈화에 있다. DeepSafe는 모델·데이터·평가자를 중앙 레지스트리에 등록하고, YAML 파일 하나로 전체 워크플로우를 정의한다. 이를 통해 로컬 가중치 기반 모델(HFModel, vLLM)과 클라우드 API 모델(APIModel)을 동일 인터페이스로 교체 가능하며, 새로운 벤치마크를 추가할 때는 데이터 로더와 평가 스크립트만 구현하면 된다. 평가 엔진은 네이티브 스크립트, 규칙 기반 매칭, 그리고 ProGuard라는 특화된 LLM‑as‑Judge 모델을 조합해 정밀도를 높인다.

DeepScan은 비파괴 진단을 목표로, 모델의 중간 활성화와 토큰 임베딩을 그대로 추출한다. X‑Boundary, TELLME, MI‑Peaks, SPIN 등 여러 진단 프로토콜을 제공하며, 각 프로토콜은 안전·유해 샘플의 잠재공간 분리도, 경계 정렬, 충돌 지표 등을 계산한다. 특히, ‘지오메트리 구조’ 분석을 통해 과도한 혹은 부족한 분리(separation)가 모델의 견고성에 미치는 영향을 정량화한다.

두 엔진은 공통 레지스트리와 설정 파일을 공유함으로써 평가 결과를 바로 진단 입력으로 전환한다. 예를 들어, DeepSafe에서 특정 벤치마크에서 낮은 안전 점수를 얻으면, 동일 데이터와 모델을 DeepScan에 넘겨 내부 레이어·뉴런 수준에서 위험 원인을 자동으로 탐색한다. 이는 기존에 평가와 진단이 별도 파이프라인으로 흩어져 있던 흐름을 하나의 엔지니어링 루프(Configure → Execute → Summarize)로 통합한다는 점에서 혁신적이다.

실험에서는 30여 개의 최신 LLM·MLLM을 대상으로 텍스트·이미지·멀티모달 시나리오, 그리고 Frontier AI 위험(Manipulation, Deception 등)까지 포괄적으로 평가했다. 결과는 시각적 모달리티가 공격 표면을 확대하고, 폐쇄형 모델이 오픈소스 대비 전반적으로 높은 안전성을 보이며, 추론 능력(Reasoning)과 안전성 사이에 복합적인 트레이드오프가 존재함을 보여준다. 진단 결과는 안전과 유해 표현이 잠재공간에서 어떻게 겹치는지, 과도한 경계 분리가 오히려 일반화에 해를 끼칠 수 있음을 밝혀냈다.

한계점으로는 현재 지원되는 모델 패밀리가 주로 Transformer 기반이며, 비언어형(예: 비디오) 멀티모달에 대한 진단이 미비하고, ProGuard와 같은 특화된 판정 모델이 벤치마크마다 별도 튜닝이 필요할 수 있다는 점을 들 수 있다. 또한, 대규모 클라우드 API 호출 비용을 완전히 없앨 수는 없으며, 평가·진단 결과의 해석을 위해 도메인 전문가의 참여가 여전히 요구된다. 그럼에도 불구하고 DeepSight는 평가‑진단‑정렬을 순환적으로 연결함으로써 안전 연구와 실무 적용 사이의 격차를 크게 줄이는 플랫폼으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기