블록 인증 변환기 메커니즘 추출과 편집을 위한 공식 보증

초록

기계적 해석 가능성은 신경망을 명시적 알고리즘으로 역설계하는 것을 목표로 하고, 모델 편집은 재학습 없이 특정 행동을 수정하려는 시도이다. 두 분야 모두 비공식적인 증거와 임시 실험에 의존하며, 추출되거나 편집된 모델이 원본과 얼마나 멀어질 수 있는지에 대한 명시적 보장은 거의 없다. 우리는 BlockCert이라는 프레임워크를 제안한다. 이 프레임워크는 사전 학습된 트랜스포머와 프롬프트 분포를 입력으로 받아, 잔차 블록별로 구조화된 대리 구현을 추출하고, 근사 오차를 제한하는 기계 검증 가능한 인증서, 커버리지 메트릭, 그리고 기반 아티팩트의 해시를 제공한다. 또한 경량 확장을 통해 인증된 로컬 편집도 지원한다. 우리는 Lean 4로 간단한 리프시츠 기반 합성 정리를 형식화하여, 이러한 로컬 보장을 전역 편차 경계로 상승시킨다. 실험적으로 GPT‑2 small, TinyLlama‑1.1B‑Chat, Llama‑3.2‑3B에 적용했으며, 모든 모델에서 높은 블록별 커버리지와 평가된 프롬프트에 대한 작은 잔차 오차를 확인했다. 특히 TinyLlama 설정에서는 완전히 재조립된 모델이 스트레스 프롬프트에 대해 기준 퍼플렉시티와 약 6 × 10⁻⁵ 수준의 차이만을 보였다. 우리의 결과는 실제 트랜스포머 언어 모델에 대해 블록 단위 추출과 명시적 인증이 가능함을 시사하며, 기계적 해석 가능성과 모델 행동에 대한 형식적 추론 사이의 실용적 다리를 제공한다.

상세 요약

BlockCert은 현재 기계적 해석 가능성(Mechanistic Interpretability)과 모델 편집(Model Editing) 분야가 직면한 ‘정량적 보증 부재’ 문제를 해결하려는 시도이다. 기존 연구들은 주로 시각적·정성적 분석에 머물러, 추출된 서브모듈이 원본 모델과 동일한 기능을 수행한다는 것을 경험적으로만 확인한다. 이때문에 모델을 부분적으로 교체하거나 수정했을 때 전체 성능이 어떻게 변할지 예측하기 어렵다. BlockCert은 이러한 공백을 메우기 위해 두 가지 핵심 요소를 도입한다. 첫째, 각 잔차 블록(residual block)에 대해 선형/비선형 근사 함수를 학습하고, 이 근사의 L‑Lipschitz 상수를 계산한다. 둘째, Lean 4와 같은 정형 검증 도구를 이용해 “오차 ≤ ε, 커버리지 ≥ θ”와 같은 형태의 증명 가능한 인증서를 자동 생성한다. 인증서는 해시값을 포함해 원본 파라미터와 대리 구현 사이의 일대일 대응을 보장하므로, 후속 연구자가 동일한 블록을 재현하거나 수정할 때 신뢰성을 유지할 수 있다.

또한 논문은 간단한 합성 정리를 제시한다. 개별 블록이 각각 ε_i의 근사 오차와 L_i의 Lipschitz 상수를 만족한다면, 전체 네트워크의 출력 오차는 ∑i (Π{j<i} L_j)·ε_i 로 상한을 가질 수 있다. 이 식은 블록별 인증을 전역적인 성능 보증으로 확장하는 수학적 근거를 제공한다. 실제 실험에서는 GPT‑2 small(124M 파라미터), TinyLlama‑1.1B‑Chat, Llama‑3.2‑3B 등 다양한 규모의 모델에 적용했으며, 프롬프트 집합(일반 텍스트, 스트레스 테스트, 코드 스니펫 등)에서 평균 커버리지는 92 % 이상, 평균 잔차 오차는 1e‑4 이하를 기록했다. 특히 TinyLlama‑1.1B‑Chat에 대해 전체 블록을 추출·재조립한 모델이 원본과 거의 동일한 퍼플렉시티(Δ≈6×10⁻⁵)를 보인 점은 인증 기반 추출이 실제 언어 모델의 동작을 보존한다는 강력한 증거다.

하지만 몇 가지 한계도 존재한다. 첫째, Lipschitz 상수 추정이 보수적으로 이루어지면 전체 오차 상한이 과도하게 커져 실용성이 떨어진다. 둘째, 현재 구현은 주로 정적 프롬프트 분포에 대해 평가했으며, 동적 대화나 멀티모달 입력에 대한 일반화는 미확인이다. 셋째, Lean 4 기반 증명 과정이 모델 규모가 커질수록 계산 비용이 급증할 가능성이 있다. 향후 연구에서는 더 정교한 Lipschitz 추정 기법(예: 지역적 사전 훈련된 리프시츠 네트워크), 연속적인 프롬프트 스트리밍에 대한 인증, 그리고 증명 자동화 최적화를 통해 이러한 제약을 완화할 수 있다. 궁극적으로 BlockCert은 “해석 가능성 + 형식적 보증”이라는 새로운 패러다임을 제시하며, 안전-critical AI 시스템에서 모델 수정·검증 파이프라인을 구축하는 기반이 될 것으로 기대된다.

초록

상세 요약

📜 논문 원문 (영문)