코드 이해를 위한 상태공간 모델의 학습 메커니즘 탐구
초록
본 논문은 코드 이해 작업에 적용된 상태공간 모델(SSM)과 트랜스포머의 내부 표현을 비교 분석한다. 사전학습 단계에서 SSM이 구문·의미 정보를 더 잘 포착하지만, 타입 추론과 같이 짧은 거리 의존성을 요구하는 미세조정 단계에서 성능이 급락한다는 점을 발견한다. 이를 설명하기 위해 제안한 SSM‑Interpret 프레임워크는 주파수 영역에서 커널 스펙트럼이 고주파(단거리) 쪽으로 이동하는 현상을 밝혀내며, 이를 방지하는 아키텍처 수정이 성능 회복에 기여함을 실증한다.
상세 분석
본 연구는 두 가지 주요 질문에 초점을 맞춘다. 첫째, SSM 기반 코드 모델(CodeSSM)이 사전학습 시 트랜스포머(RoCoder) 대비 구문·의미 관계를 어떻게 더 효과적으로 학습하는가? 둘째, 동일 모델이 타입 추론과 같은 미세조정 작업에서 왜 급격히 성능이 저하되는가?
1️⃣ 표현 비교
DirectProbe라는 분류기‑무료 탐색 기법을 활용해 토큰 쌍의 관계(거리, 형제, 데이터 흐름 엣지)를 평가하였다. 사전학습된 CodeSSM은 AST 거리 예측, 형제 예측, DFG 엣지 예측 모두에서 RoCoder보다 높은 정확도를 보였으며, 특히 깊은 층에서 장거리 의존성을 더 잘 포착한다는 점이 두드러졌다. 반면 RoCoder는 최상위 층에서 표현이 약화되는 경향을 보였으며, 이는 기존 트랜스포머 연구와 일치한다.
2️⃣ 미세조정 동역학
SQA(검색)와 타입 추론 두 작업에 대해 미세조정된 모델을 비교했다. SQA에서는 CodeSSM이 여전히 우수했지만, 타입 추론에서는 사전학습 시 확보한 구문·의미 관계가 크게 손실되었다. 층별 거리별 정확도 분석 결과, 타입 추론 미세조정 시 CodeSSM의 초기 층이 고주파(짧은 거리) 성분에 과도하게 편향되어 장거리 정보를 거의 사용하지 않게 된다. 반면 RoCoder는 미세조정 과정에서 짧은 거리 성능이 오히려 향상되어, 두 작업 모두에서 균형 잡힌 표현을 유지한다.
3️⃣ SSM‑Interpret 프레임워크
SSM‑Interpret은 각 레이어의 컨볼루션 커널을 푸리에 변환해 스펙트럼을 시각화한다. 분석 결과, 미세조정 전후에 커널 스펙트럼이 명확히 이동한다는 ‘스펙트럼 시프트’ 현상이 관찰되었다. 초기 레이어의 커널이 저주파(장거리)에서 고주파(단거리)로 이동하면서, 모델이 장거리 의존성을 포기하고 단거리 패턴에만 집중한다. 이는 SSM이 본질적으로 연속적인 상태 전이를 이용해 장거리 정보를 유지하지만, 손실 함수가 단거리 오류를 더 크게 penalize 할 경우 발생하는 현상으로 해석된다.
4️⃣ 아키텍처 개선
스펙트럼 시프트를 억제하기 위해 두 가지 구조적 변형을 제안했다. 첫째, 레이어별 커널 정규화(주파수 가중치)로 고주파 성분을 제한하고, 둘째, 초기 레이어에 짧은 컨볼루션 윈도우와 장거리 전역 토큰 집합을 병렬 연결하는 하이브리드 라우팅을 도입했다. 수정된 모델은 NL‑CodeSearch, Long‑Context Retrieval, 타입 추론 모두에서 MRR·F1 점수가 크게 상승했으며, 특히 타입 추론에서 +1.28 F1 개선을 달성했다.
5️⃣ 시사점
- SSM은 장거리 코드 컨텍스트를 효율적으로 학습하지만, 미세조정 시 손실 설계에 따라 단거리 의존성을 과도하게 강조할 위험이 있다.
- 주파수‑도메인 커널 분석은 이러한 동적 변화를 정량적으로 파악할 수 있는 강력한 도구이며, 트랜스포머와 달리 내부 상태 전이 구조를 직접 해석한다.
- 향후 하이브리드 모델 설계 시, SSM의 장점(효율적 장거리 처리)과 트랜스포머의 강점(단거리 정밀도)을 보완하는 라우팅 메커니즘이 핵심 설계 요소가 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기