Cadmus: 작은 규모 자동 회귀 프로그램 합성 시스템으로 제어된 연구 환경 구축
초록
Cadmus는 정수 가상 머신과 65개의 고정 토큰을 가진 DSL을 이용해 80 M개의 진짜 프로그램을 생성·학습한 280 M 파라미터 트랜스포머이다. 200 달러 이하의 컴퓨팅 비용으로 훈련됐으며, 동일 DSL에서 GPT‑5(95 % 정확도)를 100 % 정확도로 능가한다. 데이터와 토큰화가 완전히 통제 가능한 작은 모델을 통해 프로그램 완성, OOD 표현, 귀납적 추론, 명령어 따르기 등을 저비용으로 정밀 조사할 수 있다.
상세 분석
Cadmus 시스템은 크게 세 가지 구성 요소로 이루어진다. 첫째, 정수 연산만을 지원하는 스택 기반 가상 머신(VM)이다. 모든 명령은 고정 길이 1‑문자 토큰으로 표현되며, ‘0’‑‘9’, ‘+’, ‘-’, ‘*’, ‘/’, ‘%’, ‘!’, ‘#’, ‘L’, ‘?’ 등 65개의 명령어 집합을 갖는다. 이 설계는 토큰화 복잡성을 완전히 없애고, 어떤 토큰 시퀀스도 실행 가능한 프로그램이 되도록 보장한다(‘NAN’과 0을 제외한 두 가지 false 값만 존재). 둘째, 진짜 프로그램(true‑program)만을 수집한 대규모 데이터셋이다. 진짜 프로그램이란 실행 결과가 하나 이상의 true 값을 반환하는 프로그램을 의미한다. 템플릿 기반 샘플링으로 기본 산술, 비교, 서브루틴 호출, 시퀀스 라벨링 등 10 M~15 M 규모의 서브셋을 만든 뒤, 전체 80 M개의 샘플을 구성한다. 셋째, 18층 디코더‑전용 트랜스포머 모델(Cadmus‑280M‑80M‑v1)이다. 임베딩 차원 1280, 헤드 20, MLP 3600, GELU 활성화 함수를 사용하고, 어휘 크기 65로 고정된다. 학습은 Adam(lr=1e‑4, cosine decay)으로 300 k 스텝, 배치 1024, 8개의 H100 GPU에서 진행돼 총 비용이 $200 이하다.
실험에서는 두 가지 핵심 질문을 다룬다. (1) 작은 모델이 대형 LLM을 능가할 수 있는가? Cadmus는 동일 DSL에서 100 % 정확도를 달성했으며, GPT‑5는 95 %에 머물렀다. 특히 토큰이 재정의된 ‘대체 형태(Alt.Form)’에서는 GPT‑5가 거의 작동하지 못했지만 Cadmus는 동일 성능을 유지한다. 이는 GPT‑5가 사전 학습된 자연어 및 코드 토큰에 내재된 편향을 활용해 문제를 해결한다는 증거이며, 이러한 ‘숨은 사전 지식’은 실험 통제에 방해가 된다. (2) 모델 내부 표현은 어떻게 형성되는가? 최종 레이어의 은닉 표현에 로지스틱 회귀를 적용하면, 각 토큰 단계에서 현재까지 계산된 숫자를 약 70 %~90 % 정확도로 예측할 수 있다. 첫 번째 숫자를 계산하는 단계에서는 높은 정확도가 유지되지만, 두 번째 숫자를 계산하면서 일시적으로 정확도가 떨어졌다가 비교 연산 직후 다시 회복한다. 이는 모델이 중간 결과를 일시적으로 ‘잊어버리지만’ 전체 프로그램 흐름을 고려해 재구성한다는 의미이다. 또한 OOD(훈련에 등장하지 않은 값) 상황에서는 정확도가 급격히 감소해, 현재 모델이 값 자체보다는 값의 분포와 연산 패턴을 학습했음을 시사한다.
Cadmus의 장점은 (i) 데이터와 토큰이 완전히 정의돼 실험 재현성이 높다, (ii) 비용이 저렴해 다양한 연구팀이 접근 가능하다, (iii) 모델 내부를 직접 관찰·조작할 수 있어 귀납적 프로그램 합성, 디스크리트 디퓨전, 커리큘럼 학습 등 새로운 연구 방향을 탐색할 수 있다. 한계로는 (a) 복합적인 합성 프로그램(예: 다중 단계 함수 합성)에서 아직 96 % 이하의 정확도에 머물러 일반화 능력이 제한적이다, (b) 현재 VM이 정수와 기본 연산에만 국한돼 있어 실세계 프로그래밍 언어와의 격차가 크다, (c) 대형 모델과 달리 사전 지식이 거의 없으므로 복잡한 추론(예: 고차원 알고리즘 설계)에는 추가적인 구조적 확장이 필요하다.
전반적으로 Cadmus는 “작은 모델, 큰 통제”라는 패러다임을 제시한다. 대형 LLM이 제공하는 원시적인 성능을 넘어, 연구자가 데이터·모델·실험 조건을 완전히 이해하고 조작할 수 있는 환경을 제공함으로써, 프로그램 합성 분야의 과학적 탐구를 한 단계 끌어올린다.
댓글 및 학술 토론
Loading comments...
의견 남기기