신뢰할 수 있는 에이전트 AI를 위한 결정적 경계 설계

신뢰할 수 있는 에이전트 AI를 위한 결정적 경계 설계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 현재의 자동 회귀 언어 모델이 토큰을 동일하게 처리함으로써 명령‑데이터 경계를 보장하지 못한다는 구조적 한계를 지적한다. 저자는 “트리니티 방어 아키텍처”를 제안하며, 행동 거버넌스, 정보 흐름 제어, 권한 분리라는 세 가지 결정적 메커니즘을 통해 고위험 과학 워크플로우에서 인증 보안을 확보할 수 있음을 증명한다.

상세 분석

이 논문은 에이전트형 AI가 과학적 의사결정에 깊숙이 통합되는 현재 상황을 출발점으로 삼아, 기존의 정렬(Alignment)이나 프롬프트 엔지니어링이 근본적인 보안 문제를 해결하지 못한다는 점을 논리적으로 전개한다. 핵심은 자동 회귀 트랜스포머가 입력 토큰을 모두 동일한 어텐션 메커니즘에 투입하기 때문에, “명령”과 “데이터”를 구분할 수 있는 불변의 메타데이터가 모델 내부에 존재하지 않는다는 사실이다. 따라서 공격자는 숨겨진 텍스트, 이미지 내 텍스트, 혹은 포맷을 교묘히 변형한 문자열을 삽입해 모델이 악의적인 명령을 정상적인 데이터로 오인하도록 만들 수 있다.

논문은 이를 “치명적 삼중고(Lethal Trifecta)”라 명명한다. (1) 외부에서 온 신뢰할 수 없는 입력, (2) 고권한 데이터 접근, (3) 외부 행위 수행 능력(예: 파일 쓰기, 이메일 전송, API 호출) 이 동시에 존재할 때, 인증 보안은 단순히 정책 준수 여부를 검증하는 수준을 넘어, 공격자가 시스템을 직접 탐색하고 취약점을 찾아내는 “익스플로잇 발견 문제”로 전락한다.

이러한 구조적 결함을 보완하기 위해 제안된 트리니티 방어 아키텍처는 세 가지 독립적인 경계 메커니즘을 결합한다. 첫째, 행동 거버넌스는 유한 행동 계산법과 레퍼런스 모니터를 이용해 모든 도구 호출을 사전 검증한다. 둘째, 정보 흐름 제어는 강제 접근 라벨(MAC)을 부여해 데이터가 허가된 채널을 벗어나 전파되는 것을 차단한다. 셋째, 권한 분리는 인식(Perception) 모듈과 실행(Execution) 모듈을 물리적으로 격리시켜, 인식 단계에서 수집된 정보가 직접 실행 단계로 전달되지 않도록 한다. 이 세 계층은 각각 독립적인 검증 경로를 제공하므로, 어느 하나라도 우회되면 전체 시스템이 즉시 차단된다.

논문은 또한 “명령‑데이터 분리의 정의”와 “채널‑바운드 증명 메타데이터”를 형식적으로 제시하고, 트랜스포머가 순수히 학습 기반으로는 불가피하게 위조 가능한 분류기를 만들게 된다는 정리(정리 3.3)를 증명한다. 이는 전통적인 시스템 보안에서 메모리 페이지 보호나 파라미터화된 쿼리와 동일한 논리이며, 모델 내부에 신뢰할 수 있는 증명 메커니즘을 삽입하려면 외부의 결정적 참조 모니터가 반드시 필요함을 강조한다.

결과적으로, 트리니티 방어는 “인증 보안(Authorization Security)”을 결정적으로 보장하지만, “전반적 안전(Safety)”을 완전히 해결하지는 않는다. 즉, 허가된 행동이 악의적인 결과를 초래할 가능성은 여전히 존재하므로, 트리니티는 다층 보안 전략 중 하나로서 다른 안전 메커니즘과 병행돼야 한다는 점을 명시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기