다중입자 노드 프루닝을 통한 회로 발견

읽는 시간: 2 분
...

📝 원문 정보

  • Title: Multi-Granular Node Pruning for Circuit Discovery
  • ArXiv ID: 2512.10903
  • 발행일: 2025-12-11
  • 저자: Muhammad Umair Haider, Hammad Rizwan, Hassan Sajjad, A. B. Siddique

📝 초록 (Abstract)

회로 발견은 대형 언어 모델(LLM)에서 특정 행동을 담당하는 최소 서브네트워크를 찾아내는 작업이다. 기존 방법은 주로 반복적인 엣지 프루닝에 의존해 계산 비용이 크고, 주의 헤드나 MLP 블록과 같은 거친 단위에만 적용돼 개별 뉴런과 같은 미세 구조를 놓친다. 본 연구는 노드 수준 프루닝 프레임워크를 제안해 확장성 및 세분성 문제를 동시에 해결한다. 전체 블록부터 개별 뉴런까지 여러 입자 수준에 학습 가능한 마스크를 도입하고, 입자별 희소성 페널티를 최적화 목표에 포함시켜 단일 파인튜닝 단계에서 종합적인 압축을 수행한다. 실험 결과, 제안 방법은 기존 방법보다 적은 노드 수의 회로를 찾아내며, 거친 방법으로 중요하다고 판단된 많은 뉴런이 실제로는 불필요함을 보여준다. 또한 중간 활성값을 메모리에 저장할 필요가 없어 메모리 사용량이 5~10배 감소한다.

💡 논문 핵심 해설 (Deep Analysis)

본 논문은 대형 언어 모델(LLM) 내부에서 특정 기능을 담당하는 “회로”를 식별하는 문제에 새로운 접근법을 제시한다. 기존의 회로 발견 연구는 주로 ‘엣지 프루닝(edge pruning)’에 초점을 맞추어, 모델의 그래프 구조에서 불필요한 연결을 단계적으로 제거한다. 이러한 방식은 두 가지 근본적인 한계를 가진다. 첫째, 매 단계마다 전체 모델을 순전파하고 역전파해야 하므로 연산 비용이 급격히 증가한다. 특히 수십억 파라미터를 가진 최신 LLM에서는 실용적인 적용이 어려워진다. 둘째, 프루닝 단위가 ‘주의 헤드(attention head)’나 ‘MLP 블록’과 같이 비교적 거친 수준에 머물러, 실제 기능을 담당하는 개별 뉴런 수준의 미세 구조를 포착하지 못한다. 결과적으로 “중요한” 뉴런이라고 판단된 일부가 실제로는 회로와 무관한 잡음일 가능성이 높다.

이를 해결하기 위해 저자들은 ‘노드 수준 프루닝(node‑level pruning)’이라는 개념을 도입한다. 핵심 아이디어는 모델 내부의 모든 레이어를 여러 입자(granularity)로 나누어, 블록‑레벨, 레이어‑레벨, 뉴런‑레벨까지 계층적으로 학습 가능한 마스크를 적용하는 것이다. 각 입자마다 별도의 희소성(sparsity) 페널티를 부여함으로써, 최적화 과정에서 어느 수준의 구조가 더 많이 압축될지를 자동으로 조정한다. 예를 들어, 블록‑레벨 마스크는 전체 블록을 끄거나 켤 수 있고, 뉴런‑레벨 마스크는 개별 뉴런을 선택적으로 비활성화한다. 이러한 다중 입자 마스크는 하나의 손실 함수에 통합되어, 단일 파인튜닝 단계만으로 전체 모델을 동시에 압축한다…

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키