체스 생성 모델의 세계 모델 검증을 위한 적대적 시퀀스 분석

체스 생성 모델의 세계 모델 검증을 위한 적대적 시퀀스 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 체스 게임을 정형화된 세계 모델로 삼아, 생성형 시퀀스 모델이 학습 데이터만으로 실제 규칙을 완전히 내재했는지(소리(sound) 여부)를 검증한다. 이를 위해 합법적인 수열을 만들면서 모델이 다음 수를 불법적으로 예측하도록 유도하는 적대적 시퀀스 생성 기법을 제안하고, 다양한 데이터셋·학습 레시피·프로빙 방법을 적용한 10여 개 모델을 실험한다. 결과는 현재 공개된 대부분의 모델이 소리하지 않으며, 데이터 품질·학습 목표·공격 전략에 따라 소리성 차이가 있음을 보여준다. 또한 보드 상태를 예측하는 선형 프로브가 다음 토큰 예측에 인과적 역할을 거의 하지 않음을 확인한다.

상세 분석

이 연구는 “세계 모델(world model)”이라는 개념을 형식 언어 이론과 연결시켜, 생성 모델이 학습 데이터에 내재된 규칙을 얼마나 정확히 재현하는지를 평가한다. 논문은 먼저 체스를 “행동 집합 Σ와 전이 함수 W”로 정의하고, 모델 M이 Σ* → Δ(Σ) 형태의 확률 분포를 출력한다는 수학적 프레임을 제시한다. 여기서 소리(sound)란, 모든 유효한 전이 앞에서 모델이 선택한 다음 행동 m(s)이 실제 세계 모델 W(s) 안에 포함되는지를 의미한다. 이 정의는 기존 연구가 제시한 “완전성(completeness)”과는 달리, 실현 가능한 최소 요건인 소리성만을 검증 대상으로 삼는다.

소리성을 검증하기 위한 핵심 아이디어는 ‘적대적 시퀀스(adversarial sequence)’이다. 적대자는 언제나 합법적인 움직임만을 선택하면서, 모델이 다음 단계에서 불법적인 움직임을 내보이도록 유도한다. 구체적으로, 현재까지의 합법적인 전위 a₁…a_k에 대해, 적대자는 f(M, a₁…a_k a_{k+1})를 최대화하는 a_{k+1}∈W(a₁…a_k) 를 선택한다. 여기서 f는 모델의 불확실성, 보드 상태 예측 오류, 혹은 단순 확률값 등 다양한 설계가 가능하다. 논문은 네 가지 f 구현을 제안한다.

  1. Illegal Move Oracle (IMO) – a_{k+1}을 선택한 뒤, 모델이 다음 단계에서 가장 높은 확률을 부여하는 불법 움직임을 미리 계산한다. 이는 모델이 가장 취약한 지점을 직접 노출시킨다.
  2. Board State Oracle (BSO) – 보드 상태를 예측하는 선형 프로브 B의 손실 L_B를 최대화하는 a_{k+1}을 선택한다. 이는 “보드 상태가 다음 토큰 예측에 인과적 영향을 미친다”는 가설을 실험적으로 검증한다.
  3. Adversarial Detours (AD) – Vafa 등(2024)의 방법을 차용해, 모델이 가장 낮은 확률을 부여하는 합법 움직임을 선택한다. 이는 모델을 분포의 외곽(OOD) 영역으로 끌어들여 오류를 유발한다.
  4. Random Move (RM) – 무작위로 합법 움직임을 선택하는 베이스라인이며, 공격 효율성을 비교한다.

또한, **Sequence Model Move (SMM)**이라는 ‘친절한’ 베이스라인을 도입해, 모델 자체가 스스로 합법적인 움직임을 선택하도록 한다. 이는 적대적 공격이 없을 때 모델의 자연스러운 행동을 측정한다.

실험 설계는 데이터와 학습 목표 두 축으로 구성된다. 데이터는 (1) 고품질 인간 게임(MB‑500k), (2) 엔진 대 엔진 게임(Stockfish‑8M), (3) 대규모 인간 게임(Lichess‑16M) 그리고 무작위 생성 게임(500K, 2M, 10M) 네 종류를 사용한다. 학습 목표는 전통적인 다음 토큰(NT) 예측 외에, 모든 합법 움직임을 한 번에 학습하도록 설계한 확률분포(PD) 목표를 추가한다. 토크나이저는 체스 좌표와 승격 기호를 각각 하나의 토큰으로 처리해, 움직임당 2~3 토큰이 입력된다.

실험 결과는 다음과 같다. 첫째, 모든 모델이 적어도 하나의 적대적 시퀀스에 의해 소리성이 깨졌다. 즉, 현재의 학습 방식만으로는 완전한 세계 모델을 얻을 수 없다는 부정적 결론이다. 둘째, 데이터 품질과 양이 소리성에 미치는 영향은 복합적이다. 고품질 인간 게임보다 무작위 게임을 학습한 모델이 IMO 공격에 대해 약간 더 높은 성공률을 보였으며, 특히 PD 목표를 사용한 경우 소리성이 약간 개선되었다. 셋째, BSO 공격은 IMO에 비해 성공률이 낮았으며, 이는 보드 상태를 예측하는 선형 프로브가 실제 토큰 예측에 큰 인과적 역할을 하지 않음을 시사한다. 마지막으로, AD와 RM은 가장 낮은 성공률을 보였으며, 이는 단순히 확률이 낮은 움직임을 선택하거나 무작위 선택만으로는 모델을 충분히 혼란시키기 어렵다는 점을 보여준다.

이 논문은 또한 “보드 상태 프로브”가 모델 내부 표현에 정보를 담고 있더라도, 그 정보가 다음 토큰 예측에 실제로 활용되는지는 별도의 인과관계 실험이 필요함을 강조한다. 프로브 손실과 모델 오류 사이에 뚜렷한 상관관계가 없었으며, 이는 기존 연구가 프로브 정확도만으로 모델의 세계 모델을 평가하는 것이 한계가 있음을 지적한다.

전반적으로, 적대적 시퀀스 생성이라는 간단하면서도 강력한 검증 도구를 제시함으로써, 생성형 모델의 내재된 규칙 학습 정도를 정량화하고, 데이터·목표·아키텍처 설계에 대한 실용적인 가이드를 제공한다. 향후 연구는 (1) 더 복잡한 게임(예: 바둑)이나 프로그래밍 언어와 같은 형식 언어에 적용, (2) 프로브를 넘어선 인과적 해석 기법 개발, (3) 적대적 훈련(adversarial training)을 통한 소리성 향상 방안을 탐색하는 방향으로 진행될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기