NEX 라벨‑프리 사유 흐름 선택과 모델 순위 매기기를 위한 뉴런 탐색‑활용 점수
초록
본 논문은 대규모 언어 모델이 체인‑오브‑쓰(thought) 추론을 여러 번 샘플링하고 선택하는 과정에서 라벨 없이도 탐색‑활용 동역학을 파악해 응답을 평가하는 NEX 프레임워크를 제안한다. 뉴런 활성화의 신규 등장 속도를 ‘novelty‑slope’로 측정하고, 이를 2‑상태 고정(HMM)으로 E‑phase(탐색)와 X‑phase(활용)로 구분한다. 탐색 단계에서 새로 활성화된 뉴런이 이후 활용 단계에서 재사용되면 긍정적 가중치를, 재사용되지 않으면 부정적 가중치를 부여한다. 최종적으로 Good‑Mass Fraction이라는 단일 점수로 후보 응답과 모델 변형을 라벨 없이 순위 매길 수 있다. 실험에서는 다양한 추론 벤치마크와 Qwen3 모델 병합군에서 NEX 점수가 정확도와 강한 선형 상관관계를 보이며, 인간 주석 및 뉴런 전이 실험을 통해 탐색‑활용 신호의 인과적 의미도 검증한다.
상세 분석
NEX는 체인‑오브‑쓰(Chain‑of‑Thought, CoT) 추론을 “탐색‑활용(E‑X) 사이클”이라는 시간적 흐름으로 모델링한다. 핵심 아이디어는 토큰 수준에서 MLP 레이어의 희소 활성 뉴런이 새롭게 등장하는 비율을 ‘novelty‑slope’(새로운 뉴런 수 ÷ 토큰 수)로 정의하고, 이를 로그 변환·디트렌딩·MAD 정규화한 1차원 시계열 zₙ에 적용한다. 이후 2‑상태 가우시안 HMM을 ‘sticky’ 전이 확률(ρ)과 함께 학습해, 평균 방출값이 큰 상태를 E‑phase(탐색)로, 작은 상태를 X‑phase(활용)로 라벨링한다. HMM은 Viterbi 알고리즘으로 최적 경로를 찾으며, 최소 연속 길이(min run=2 rows) 이하의 짧은 구간은 병합한다.
각 E→X 사이클 i에 대해 새로 등장한 뉴런 집합 Nᵢ를 정의하고, 이후 X‑phase에서 이 뉴런들의 활성화 질량 Aₖ,ᵣ을 합산해 재사용 비율 reuse_shareᵢ를 계산한다. 재사용 비율을 전체 사이클 평균의 중앙값으로 중심화해 progressᵢ를 얻으며, 이는 “탐색이 실제로 진행되었는가”를 나타낸다. 또한, E‑phase와 X‑phase 사이의 novelty‑slope 감소 정도를 consᵢ=clip(1−median(s_X)/median(s_E)) 로 정의해 “탐색이 수렴했는가”를 측정한다. 강도 게이트 strengthᵢ는 E‑phase 평균 novelty‑slope가 전체 평균보다 높은 경우에만 사이클을 활성화(Iᵢ=1)한다.
효과적인 사이클은 progressᵢ>0 그리고 consᵢ>0을 만족한다. 이러한 사이클에서 각 뉴런 k에 대해 효과적 질량 m₊ₖ와 비효과적 질량 m₋ₖ를 누적한다. m₊ₖ는 해당 뉴런이 등장한 E‑phase의 활성화 질량 αₖ,ᵢ에 progressᵢ·consᵢ·Iᵢ를 곱해 더하고, m₋ₖ는 |progressᵢ|·Iᵢ를 곱해 더한다. 최종 뉴런 가중치 wₖ는 tanh(log(m₊ₖ+ε) / (m₋ₖ+ε)) 로 정규화돼 -1~1 범위에 위치한다.
응답 y에 대해 각 뉴런 k의 전체 활성화 질량 bₖ(y)=∑ₜ aₖ,ₜ 를 구하고, Good‑Mass Fraction 점수는
Score(y)=PosMass(y)/AbsMass(y)
where PosMass(y)=∑ₖ bₖ(y)·max(wₖ,0) and AbsMass(y)=∑ₖ bₖ(y)·|wₖ| 로 정의된다. 즉, 전체 활성화 질량 중 긍정적 가중치를 가진 뉴런에 할당된 비율을 점수로 사용한다. 모델 점수는 미라벨된 미니셋(≈100문제)에서 평균 Score(y)를 계산한다.
실험에서는 두 종류의 엔드포인트 모델(Instruction‑tuned, Thinking‑tuned)을 기반으로 파라미터‑공간 병합(MI‑λ, SLERP‑t)으로 약 20개의 중간 변형을 생성했다. 다양한 추론 벤치마크(AIME24/25, GPQA, HMMT25, BRUMO25)에서 NEX 점수와 실제 정확도는 강한 양의 선형 상관(r≈0.9) 을 보였으며, 단순 엔트로피 기반 탐색 지표는 inverted‑U 형태로 정확도와 비선형 관계를 나타냈다. 인간 주석 실험에서는 HMM이 추출한 E‑phase와 X‑phase 구간이 인간이 판단한 탐색·활용 구간과 89.6% 일치했으며, 특히 E‑phase 일치율이 98.2%에 달했다. 마지막으로 “Effective‑vs‑Redundant” 뉴런 전이 실험에서 효과적 뉴런을 다른 모델에 삽입하면 정확도가 상승하고, 비효과적 뉴런을 삽입하면 정확도가 감소하는 인과적 증거를 제공한다.
NEX는 라벨이 전혀 없는 상황에서도 내부 뉴런 동역학을 활용해 추론 품질을 정량화하고, 모델 선택·데이터 필터링·체인‑오브‑쓰 선택 등에 실용적으로 적용 가능함을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기