능력 제어와 정렬을 별도 목표로 설정해야 하는 이유
초록
본 논문은 대규모 기반 모델의 위험을 줄이기 위해 ‘능력 제어’를 정렬(alignment)과 구분된 독립 목표로 삼아야 함을 주장한다. 데이터, 학습, 시스템 세 단계에 걸친 방어‑인‑깊이(defense‑in‑depth) 접근법을 제시하고, 각 단계별 메커니즘과 한계, 그리고 향후 연구 과제를 제시한다.
상세 분석
이 논문은 최근 급부상한 foundation model, 특히 대형 언어 모델(LLM)의 폭넓은 활용 가능성과 동시에 악용 위험을 동시에 조명한다. 기존 연구에서는 정렬(alignment)을 통해 모델이 인간 의도와 가치에 부합하도록 훈련시키는 것이 주된 안전 전략으로 여겨졌지만, 저자들은 정렬이 ‘맥락‑의존적’이고 ‘소프트’한 제어에 머무를 위험이 있다고 지적한다. 반면 능력 제어(capability control)는 특정 기능 자체를 ‘하드’하게 차단하거나 제거하는 것을 목표로 하며, 이는 악의적 프롬프트나 적대적 유도(adversarial elicitation) 상황에서도 작동해야 한다는 점에서 정렬과 근본적으로 차별된다.
논문은 능력 제어를 모델 수명 주기의 세 계층으로 구분한다. 첫 번째는 데이터 기반 제어로, 훈련 데이터 자체를 필터링·큐레이션·합성하여 위험한 지식이 모델에 학습되지 않도록 한다. 여기서는 데이터 식별 정확도(리콜)와 이중용도(dual‑use) 문제, 그리고 데이터 제거 후 재훈련 비용이 핵심 과제로 제시된다. 두 번째는 학습 기반 제어로, 가중치 수정, 모델 편집, 표현 엔지니어링 등을 통해 이미 습득된 위험 능력을 억제하거나 삭제한다. 여기서는 행동 시연, 인간 선호 학습(RLHF), 직접 언러닝(unlearning) 등 다양한 감독 형태와 그 한계—특히 억제와 완전 삭제 사이의 차이, 잔여 지식(latent trace) 문제—가 상세히 논의된다. 세 번째는 시스템 기반 제어로, 배포 후 입력·출력 필터, 체인‑오브‑생각(CoT) 모니터, 도구 접근 제어 등 외부 가드레일을 적용한다. 시스템 레이어는 즉각적인 차단 효과가 있지만, 적대적 프롬프트 회피, 과도한 거부(over‑refusal) 등 부작용이 발생할 수 있다.
각 계층이 독립적으로 적용될 경우 발생하는 특징적 실패 모드를 저자는 체계적으로 정리한다. 예를 들어 데이터 필터링만으로는 모델이 다른 경로를 통해 동일한 지식을 재구성할 수 있고, 학습 기반 제어만으로는 새로운 상황에서 미처 학습되지 않은 위험 행동을 보일 수 있다. 시스템 기반 제어는 사후 차단에 의존하므로, 완전 차단이 어려운 경우 모델 자체에 위험 능력이 남아 있을 위험이 있다. 따라서 저자는 방어‑인‑깊이(defense‑in‑depth) 전략을 제안한다. 이는 세 계층을 상호 보완적으로 결합해 각각의 약점을 보완하고, 전체 시스템의 안전성을 높이는 접근법이다.
논문 말미에서는 현재 연구가 직면한 핵심 과제를 네 가지로 요약한다. 첫째, 위험 능력과 데이터 간의 정확한 매핑(knowledge‑to‑data attribution) 문제; 둘째, 이중용도 지식의 제거와 유용한 지식 보존 사이의 트레이드오프; 셋째, 모델 편집·언러닝 기술의 완전성 검증 및 잔여 지식 탐지 방법; 넷째, 시스템 레이어에서의 적대적 회피 방지와 거부 정책의 정밀 조정이다. 이러한 과제들은 다학제적 연구와 표준화된 평가 프레임워크가 필요함을 강조한다. 전체적으로 논문은 능력 제어를 독립 목표로 설정하고, 다계층 방어 체계를 구축함으로써 향후 안전한 AI 배포에 기여할 수 있는 로드맵을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기