예측형 가드레일 SafePred: 세계 모델을 통한 컴퓨터 에이전트의 미래 위험 선제적 방지
초록
기존 컴퓨터 에이전트(CUA) 보호장치(가드레일)는 즉각적인 단기 위험만 차단하는 반응형 접근법의 한계를 가집니다. 이는 시스템 파이썬 버전 업그레이드와 같이 당장은 합리적이지만 나중에 치명적 결과를 초래하는 장기 위험을 막지 못합니다. 본 연구는 ‘예측형 가드레일’ 접근법을 제안하며, 세계 모델(World Model)을 활용해 에이전트 행동의 미래 위험을 예측하고 현재 결정에 반영하는 SafePred 프레임워크를 소개합니다. SafePred는 단기/장기 위험 예측과 의사결최적화 기능을 통해 에이전트의 안전성을 크게 향상시키며, 실험에서 97.6% 이상의 안전성 성능과 21.4%의 작업 효율 향상을 달성했습니다.
상세 분석
본 논문이 제안하는 SafePred 프레임워크의 기술적 핵심은 ‘세계 모델’을 안전성 평가 도구로 활용하는 데 있습니다. 기존 세계 모델 연구가 주로 작업 성공률 향상에 초점을 맞췄다면, SafePred는 이를 위험 예측이라는 새로운 영역에 적용했습니다. 이 과정에서 해결해야 할 주요 과제는 세 가지였습니다: 첫째, 상태 예측과 위험 평가는 다릅니다. 세계 모델이 미래 상태를 예측하는 것만으로는 그 상태가 ‘위험한지’ 판단할 수 없습니다. SafePred는 명시적인 안전 정책(Policy)을 기반으로 예측된 상태를 평가해 위험 여부를 판단하는 ‘정책 기반 위험 평가’ 메커니즘을 도입했습니다. 둘째, 장기 위험 예측의 어려움입니다. 세계 모델의 다단계 예측은 오차가 누적되어 신뢰도가 낮을 수 있습니다. SafePred는 구체적인 상태를 여러 단계 예측하기보다, 현재 상태와 행동을 바탕으로 ‘고수준의 의미론적 결과(예: 작업 진행 차단, 복구 불가능한 장애 유발)‘를 예측하는 방식으로 이 문제를 우회했습니다. 셋째, 예측 결과의 실행 가능성 문제입니다. 단순히 위험한 행동을 필터링하는 것을 넘어, SafePred는 ‘단계 수준 중재’와 ‘작업 수준 재계획’이라는 계층적 의사결최적화를 수행합니다. 이를 통해 에이전트가 왜 위험한지 이해하고, 대안을 탐색하며, 전체 작업 계획을 수정하도록 유도하는 ‘위험-의사결정 루프’를 완성했습니다.
이러한 접근법의 강점은 반응형 가드레일이 포착할 수 없는 ‘잠복 위험’을 사전에 차단할 수 있다는 점입니다. 또한, 단순 차단이 아닌 최적화를 통해 안전성과 작업 효용을 동시에 높일 수 있습니다. 실험 결과에서 제시된 높은 안전성 수치와 작업 효율 향상은 이론적 타당성을 입증합니다. 마지막으로, 경량 모델 SafePred-8B를 학습시켜 대규모 모델에 필적하는 성능을 달성한 점은 실제 배포 가능성을 보여줍니다. 이는 복잡한 세계 모델 추론을 소형화할 수 있는 길을 제시하며, 실용적 관점에서 매우 의미 있는 기여입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기