능력 안전을 Datalog로 풀다: 구조적 등가성의 혁신

본 논문은 AI 안전 분야에서 제안된 능력 하이퍼그래프 모델을 명제형 Datalog(단일 원자, 함수 없음) 평가와 정확히 동등하게 변환함으로써, 기존 프레임워크가 가지고 있던 두 가지 구조적 한계—증분 유지의 부재와 감사 표면 포함 관계 결정 절차의 부재—를 근본적으로 해결한다. 논문은 다음과 같은 흐름으로 전개된다. 1. 서론(Section 1)에서는 능력 안전을 “멀티에이전트 AI 시스템이 현재 보유한 능력 집합과 금지된 상태 집합을 주어졌을 때, 어떤 상태에 도달할 수 있는가”라는 계산 문제로 정의한다. 기존 Spera(2026)의 하이퍼그래프 접근은 폐쇄 연산을 고정점 반복으로 수행하고, 구조적 변화가 있을 때마다 전체를 재계산해야 하는 비효율성을 갖는다. 이를 해결하기 위해 논문은 능력 안전을 Datalog prop 평가와 정확히 일치시킨다. 2. 관련 연구(Section 2)에서는 Datalog 이론(Immerman 1986, Fagin 1974), 증명 세미링(Green et al. 2007), Horn 학습(Cohen 1995, Dalmau et al. 2002) 및 AI 안전 형식화와의 연관성을 정리한다. 특히, Datalog prop이 다항시간 쿼리 평가를 포착한다는 점을 강조해, 능력 안전 문제를 P‑클래스 내에서 다룰 수 있음을 시사한다. 3. 형식적 배경(Section 3)에서는 능력 하이퍼그래프(H=(V,F))와 그 폐쇄 연산 cl_H(A), 안전 영역 R(F), 최소 위험 안티체인 B(F), 그리고 안전 감사 표면 G_F(A)의 정의를 상세히 재현한다. 이어서 명제형 Datalog 프로그램(Π,R,D0)과 최소 모델, 쿼리·최소 증인 개념을 소개한다. 여기서 모든 원자는 상수이며, 규칙은 p1∧…∧pk⇒q 형태를 갖는다. 4. 인코딩 정리(Section 4)에서는 두 방향의 다항식 시간 변환을 제시한다. - 4.1에서는 하이퍼그래프 → Datalog 변환을 정의한다. 각 정점 v는 사실 has(v)로, 각 하이퍼엣지 (S,T)는 전제 S의 원자들을 전제로 하고 결과 T의 원자를 결론으로 하는 Horn 규칙으로 매핑한다. 초기 능력 집합 A는 D0={has(a) | a∈A}가 된다. - 4.2에서는 Datalog → 하이퍼그래프 변환을 정의한다. 프로그램 Π의 각 규칙을 하이퍼엣지 (S,T)로, 쿼리 원자를 목표 정점으로 변환한다. 두 변환 모두 폐쇄(cl_H)와 최소 모델(Π(D0))이 동일함을 증명한다. 또한, 안전 영역 R(F), 최소 위험 안티체인 B(F), 감사 표면 G_F(A)도 각각 Datalog의 파생 집합, 최소 증인, 뷰(view)와 정확히 대응한다. 5. 표현력 정리(Section 5)에서는 이 변환이 “tight”함을 보인다. 즉, Datalog prop보다 더 강력한 구문(예: 다중 원자, 함수 심볼)을 허용하면 하이퍼그래프와 동등하지 않으며, 반대로 제한된 구문만으로도 모든 능력 하이퍼그래프를 표현할 수 있음을 증명한다. 이를 통해 능력 안전이 Datalog prop의 표현력 한계 안에 완전히 포함됨을 확인한다. 6. 로컬리티 격차 정리(Section 11)에서는 가장 중요한 알고리즘적 결과를 제시한다. 기존 하이퍼그래프에서는 안전 감사 표면 G_F(A)를 전체 V에 대해 재계산해야 했으며, 복잡도는 O(|V|·(n+mk))였다. Datalog prop으로 보면 G_F(A)는 정규화된 뷰이며, DRed 알고리즘을 적용하면 업데이트 Δ에 대해 O(|Δ|·(n+mk))만에 증분 유지가 가능함을 보인다. 또한, 특정 하이퍼그래프 패밀리를 구성해 전역 재계산과 증분 유지 사이에 Ω(n) 차이를 보이는 하드 인스턴스를 제시한다. 마지막으로, AND‑inspection 하한을 Oracle 모델과 Yao의 최소극대 원리를 이용해 증명한다. 이는 규칙 활성화를 검증하려면 Φ(u)=S_u∪{v_u}의 모든 k+1 원자를 반드시 조회해야 함을 의미한다. 이 하한은 AND‑조건이 비합성(safety non‑compositionality)의 근본 원인임을 이론적으로 설명한다. 7. 감사 표면 포함 결정 정리(Section 9)에서는 G_F(A)⊆G_F(A′) 문제를 Datalog prop 쿼리 포함 문제로 환원한다. 기존 결과에 따르면, 명제형 Datalog 쿼리 포함은 다항시간에 결정 가능하므로, 처음으로 능력 안전 분야에 효율적인 포함 판정 절차를 제공한다. 8. 증명 세미링 정리(Section 6)와 최소 위험 안티체인 정리(Section 7)에서는 파생 증명이 why‑provenance 증명과 동일함을 보이고, 이를 커뮤터티브 세미링 위에 놓아 압축·합성·검증을 통합한다. B(F)는 해당 Datalog 쿼리의 최소 witness antichain과 일치함을 증명함으로써, 기존의 coNP‑complete 판정 결과를 Datalog 복합성 이론과 연결한다. 9. 열린 문제 매핑(Section 8)에서는 Spera(2026)에서 제시한 여러 열린 문제(예: 최소 위험 추가, 적대적 강건성, VC‑dimension 상한)들을 Datalog 이론의 알려진 문제(예: view update, Datalog learning, bounded treewidth)로 직접 매핑한다. 이를 통해 30년간 축적된 알고리즘·복잡도·학습 결과를 즉시 활용할 수 있음을 강조한다. 10. 실험(Section 10)에서는 Spera(2026)의 900개 트래젝터 데이터를 Datalog 프로그램으로 재구성하고, 파생 트리와 집계 통계를 제시한다. 실험 결과는 이론적 변환이 실제 데이터에도 적용 가능함을 보여준다. 11. 결론(Section 12)에서는 등가성이 해결한 문제와 앞으로의 연구 방향을 정리한다. 등가성은 능력 안전이 새로운 전산 이론을 필요로 하지 않으며, 기존 Datalog 생태계를 그대로 차용해 증분 유지, 포함 판정, 증명 세미링 등을 즉시 활용할 수 있음을 강조한다. 또한, 비합성 현상의 근본 원인 분석, 더 복잡한 하이퍼그래프(예: 비단조적 전제)와의 확장 가능성, 그리고 Datalog 기반 자동 검증 도구 개발을 미래 과제로 제시한다. 요약하면, 논문은 능력 하이퍼그래프와 명제형 Datalog 사이의 정확한 양방향 변환을 제공하고, 이를 통해 증분 유지, 포함 결정, 증명 세미링 등 기존 하이퍼그래프 프레임워크에서 불가능하거나 비효율적이던 문제들을 다항시간 알고리즘으로 해결한다. 이 결과는 AI 안전 연구가 30년 이상의 데이터베이스·논리 이론을 바로 활용할 수 있는 새로운 전환점을 제공한다.

능력 안전을 Datalog로 풀다: 구조적 등가성의 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기