능력 엔지니어링 요구사항을 실행 가능한 사양으로 전환하고 AI 모델을 자동으로 만족시키는 새로운 프레임워크

읽는 시간: 4 분
...

📝 원문 정보

  • Title: CAPE: Capability Achievement via Policy Execution
  • ArXiv ID: 2512.14761
  • 발행일: 2025-12-15
  • 저자: David Ball

📝 초록 (Abstract)

현대 AI 시스템은 요구사항을 표현하고 강제하는 방법이 부족하다. 사전 학습은 지능을 만들고 사후 학습은 선호도를 최적화하지만, 명시적이고 상황에 의존적인 제약을 모델이 일관되게 만족한다는 보장은 없다. 이러한 추상화 부재는 높은 지능을 가진 모델이 벤치마크 성능은 뛰어나지만 실제 배포에서는 자주 실패하는 이유를 설명한다. 우리는 요구사항을 실행 가능한 사양으로 변환하고 모델이 기본적으로 이를 만족하도록 훈련하는 체계적 실천인 ‘능력 엔지니어링’을 제안한다. 이를 구현한 프로토콜 CAPE(Capability Achievement via Policy Execution)는 지정 → 검증 → 수정 → 학습 루프를 구현한다. CAPE는 두 가지 실증적 발견에 기반한다: (1) 맥락적 객관성—맥락이 고정되면 주관적으로 보였던 속성이 객관화되어 주석자 간 κ가 0.42에서 0.98로 상승한다; (2) 검증‑충실도 스케일링—검증 정확도는 모델 규모와 함께 상승(r=0.94)하지만 선호도 일치는 컴퓨팅 규모와 무관하게 30‑50% 불일치를 유지한다. 6개 도메인 109,500개 사례에서 CAPE는 위반률을 DPO 대비 81% 감소시켰으며(σ<0.3%) 재사용 가능한 사양으로 개별 주석을 대체해 비용을 5‑20배 절감하고 기간을 수개월에서 수주로 단축한다. 우리는 CAPE 프로토콜, PredicateGraph 스키마, CPL 사양 언어, 정책 팩을 Apache 2.0 라이선스로 공개하고, 커뮤니티 기여 정책에 대한 모델 평가를 집계하는 CapabilityBench 레지스트리를 출시한다. 이는 지능 중심 벤치마크에서 능력 측정 중심 평가로의 전환을 촉진한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
이 논문이 제시하는 문제의 핵심은 현재의 대형 언어 모델(Large Language Model, LLM)과 멀티모달 AI가 “무엇을 해야 하는가”라는 명시적 요구사항을 시스템 수준에서 일관되게 구현하지 못한다는 점이다. 사전 학습 단계에서는 방대한 텍스트 코퍼스를 통해 일반적인 세계 지식을 습득하지만, 이 과정은 목표 지향적인 제약을 포함하지 않는다. 반면 사후 학습(예: RLHF, DPO)은 인간 피드백을 통해 선호도를 반영하려 하지만, 피드백 자체가 주관적이고 상황에 따라 변동성이 크기 때문에 모델이 특정 상황에서 반드시 지켜야 할 규칙을 보장하지 못한다. 결과적으로 모델은 벤치마크에서는 높은 정확도를 보이지만, 실제 서비스 환경에서는 부적절한 발언, 개인정보 노출, 법적 규제 위반 등 “능력(capability)” 수준에서의 실패를 보인다.

논문은 이러한 격차를 메우기 위해 ‘능력 엔지니어링(Capability Engineering)’이라는 새로운 패러다임을 도입한다. 핵심 아이디어는 요구사항을 실행 가능한 사양(specification) 으로 구조화하고, 이를 검증 가능한 정책(policy) 로 변환한 뒤, 모델 훈련 과정에 직접 통합하는 것이다. 이를 실현하기 위해 제안된 CAPE 프로토콜은 네 단계 루프를 따른다.

  1. Specify(지정) 단계에서는 사용자가 자연어 혹은 도메인 전용 언어(CPL)를 사용해 요구사항을 명확히 정의한다. 여기서 중요한 점은 ‘맥락적 객관성(contextual objectivity)’을 확보하는 것이다. 실험에 따르면 동일한 맥락을 제공하면 주석자 간 일치도(κ)가 0.42에서 0.98로 급격히 상승한다. 이는 주관적 판단이 실제로는 맥락에 의해 결정된다는 통계적 근거를 제공한다.

  2. Verify(검증) 단계에서는 현재 모델이 해당 사양을 만족하는지를 자동화된 검증기(예: PredicateGraph)로 평가한다. 검증 정확도는 모델 규모와 강한 양의 상관관계(r=0.94)를 보이며, 이는 대형 모델일수록 사양 기반 검증이 더 신뢰할 수 있음을 의미한다. 반면 인간 피드백 기반 선호도 일치는 규모와 무관하게 30‑50% 정도의 불일치를 유지한다는 점에서 검증 기반 접근법의 우월성을 강조한다.

  3. Correct(수정) 단계에서는 위반 사례를 분석해 정책을 보강하거나, 위반된 샘플에 대한 라벨을 재생성한다. 이 과정은 ‘자동 교정’ 메커니즘을 통해 인간 비용을 최소화한다.

  4. Train(학습) 단계에서는 수정된 정책과 사양을 손실 함수에 직접 포함시켜 모델을 재학습한다. 이렇게 하면 모델은 초기부터 사양을 만족하도록 학습되며, 사후에 별도의 정제 과정을 거칠 필요가 감소한다.

실험 결과는 설득력 있다. 6개 도메인(법률, 의료, 금융, 콘텐츠 생성, 안전, 교육)에서 총 109,500개의 테스트 케이스에 대해 CAPE는 기존 DPO 대비 위반률을 81% 감소시켰으며, 통계적 유의미성(σ<0.3%)을 확보했다. 또한, 사양 재사용을 통해 개별 라벨링 비용을 5‑20배 절감하고, 프로젝트 타임라인을 수개월에서 수주로 단축했다는 점은 산업 현장에서 바로 적용 가능한 비용 효율성을 보여준다.

마지막으로, 논문은 CAPE와 연계된 CapabilityBench 레지스트리를 공개한다. 이는 커뮤니티가 만든 정책 팩을 공유하고, 다양한 모델에 대한 능력 기반 평가를 표준화하는 플랫폼이다. 전통적인 ‘정답률’ 중심 벤치마크에서 ‘능력(capability)’ 중심 평가로의 전환은 AI 안전·윤리·규제 대응에 필수적인 흐름이며, 본 연구는 그 첫걸음을 제시한다.

📄 논문 본문 발췌 (Translation)

현대 인공지능 시스템은 요구사항을 표현하고 강제하는 메커니즘이 부족하다. 사전 학습은 지능을 생성하고, 사후 학습은 선호도를 최적화하지만, 명시적이며 상황에 의존적인 제약을 모델이 일관되게 만족한다는 보장은 없다. 이러한 추상화의 부재는 높은 지능을 가진 모델이 벤치마크 성능은 우수함에도 불구하고 실제 배포 시 빈번히 실패하는 이유를 설명한다. 우리는 요구사항을 실행 가능한 사양으로 전환하고 모델이 기본적으로 이를 만족하도록 훈련하는 체계적 실천인 ‘능력 엔지니어링’을 도입한다. 이를 구현한 프로토콜 CAPE(Capability Achievement via Policy Execution)는 지정 → 검증 → 수정 → 학습 루프를 구현한다. CAPE는 두 가지 실증적 발견에 기반한다: (1) 맥락적 객관성—맥락이 고정되면 주관적으로 보였던 속성이 객관화되어 주석자 간 κ가 0.42에서 0.98로 상승한다; (2) 검증‑충실도 스케일링—검증 정확도는 모델 규모와 함께 상승(r=0.94)하지만 선호도 일치는 컴퓨팅 규모와 무관하게 30‑50% 불일치를 유지한다. 6개 도메인 109,500개 사례에서 CAPE는 위반률을 DPO 대비 81% 감소시켰으며(σ<0.3%) 재사용 가능한 사양으로 개별 주석을 대체해 비용을 5‑20배 절감하고 기간을 수개월에서 수주로 단축한다. 우리는 CAPE 프로토콜, PredicateGraph 스키마, CPL 사양 언어, 정책 팩을 Apache 2.0 라이선스로 공개하고, 커뮤니티 기여 정책에 대한 모델 평가를 집계하는 CapabilityBench 레지스트리를 출시한다. 이는 지능 중심 벤치마크에서 능력 측정 중심 평가로의 전환을 촉진한다.

📸 추가 이미지 갤러리

page_1.png page_2.png page_3.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키