보장된 인공지능·기계학습을 위한 연구·개발 전략

초록

본 논문은 국방·정보기관이 직면한 적대적 AI·ML 공격에 대비해 신뢰성·보안·구조적 취약성을 중점으로 한 보장된 AI/ML 기술 개발을 촉진하고자 하는 A2I 작업그룹(A2IWG)의 목표와 초기 연구 과제를 제시한다.

상세 분석

본 연구는 적대적 인공지능(Adversarial AI, A2I) 및 적대적 기계학습(Adversarial ML, AML) 위협이 전통적인 사이버 방어 체계와는 다른 특성을 지니고 있음을 강조한다. 첫째, 공격자는 모델의 입력 데이터를 미세하게 변형해 인간이 인식하기 어려운 오류를 유발함으로써, 목표 시스템의 의사결정을 왜곡한다. 이러한 공격은 이미지·음성·신호 처리 등 다양한 도메인에서 발생 가능하며, 특히 방위·정보 분야에서는 목표 식별, 상황 인식, 자동화된 무기 체계 등에 치명적인 영향을 미칠 위험이 크다.

둘째, 기존 보안 메커니즘은 주로 네트워크·시스템 레벨의 침입 탐지와 방어에 초점을 맞추지만, A2I/AML은 모델 자체의 취약점을 공략한다. 따라서 모델 설계 단계부터 강인성(Robustness)과 검증 가능성(Verifiability)을 내재화해야 한다는 요구가 대두된다. 논문은 이를 “AI Trusted Robustness”라는 개념으로 정의하고, 적대적 샘플에 대한 방어, 정규화 기법, 인증 가능한 학습 파이프라인 등을 포함한 다층 방어 체계를 제안한다.

셋째, AI 시스템 보안(AI System Security) 측면에서는 모델 파라미터, 학습 데이터, 추론 엔진 등 전 과정에 대한 무결성 및 기밀성 보호가 필요하다. 데이터 중독(Data Poisoning)이나 모델 추출(Model Extraction) 공격을 방지하기 위해, 데이터 라벨링 검증, 연합 학습(Federated Learning) 시 암호화 프로토콜, 그리고 모델 업데이트 로그의 블록체인 기반 감사 메커니즘을 활용할 것을 제안한다.

넷째, “AI/ML Architecture Vulnerabilities” 항목에서는 현재 군·정보기관에서 활용되는 AI 파이프라인이 종종 레거시 시스템과 결합돼 복합적인 인터페이스를 형성한다는 점을 지적한다. 이러한 이기종 환경은 인터페이스 레이어에서의 버퍼 오버플로, API 남용, 권한 상승 등 전통적인 소프트웨어 취약점과 결합돼 새로운 공격 표면을 만든다. 따라서 아키텍처 설계 시 모듈 간 최소 권한 원칙, 형식 검증 기반 인터페이스 계약, 그리고 동적 런타임 모니터링을 통한 이상 탐지를 필수적으로 포함해야 한다.

마지막으로, A2IWG의 역할을 ‘협업 촉진 플랫폼’으로 규정한다. 국방부와 정보기관, 학계·산업계 간의 공동 연구·시험 환경을 구축해 표준화된 벤치마크와 데이터셋을 제공하고, 결과물을 정책·전략에 빠르게 반영하도록 하는 것이 핵심이다. 이를 위해 정부 차원의 연구 기금, 인재 양성 프로그램, 그리고 국제 협력 네트워크 구축이 필요함을 강조한다.

이러한 분석을 종합하면, 본 논문은 적대적 AI/ML 위협에 대응하기 위한 기술적·조직적 로드맵을 제시하고, 특히 신뢰성 확보, 시스템 보안 강화, 아키텍처 수준의 취약점 최소화를 통해 ‘보장된 AI/ML’이라는 새로운 패러다임을 구축하려는 전략적 비전을 제시한다.