연합 대형 언어 모델을 위한 토큰 수준 기여 추적 ProToken

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ProToken은 연합 학습(FL) 환경에서 대형 언어 모델(LLM)의 자동 회귀 텍스트 생성 과정에 대해 토큰 단위로 기여 클라이언트를 식별하는 방법이다. 변환기 모델의 후반 블록에 작업‑특정 신호가 집중된다는 사실과, 그래디언트 기반 중요도 가중치를 이용해 관련 뉴런만을 추출한다는 두 가지 핵심 아이디어를 결합해 높은 정확도와 계산 효율성을 동시에 달성한다. 실험 결과 98% 이상의 평균 정확도를 기록했으며, 클라이언트 수가 55명까지 늘어나도 92% 이상의 정확도를 유지한다.

상세 분석

ProToken은 연합 학습에서 발생하는 ‘누가 어떤 토큰을 만들었는가’라는 근본적인 질문에 답하기 위해 세 가지 기술적 관점을 통합한다. 첫째, 연합 학습의 파라미터 집계가 선형이라는 점을 이용해 전역 모델의 순전파를 각 클라이언트의 파라미터 가중합으로 분해한다. 이는 전역 모델이 실제로는 여러 클라이언트 모델의 가중 평균이라는 사실을 수학적으로 명시함으로써, 각 토큰이 생성될 때 어느 클라이언트의 업데이트가 얼마나 기여했는지를 정량화할 수 있는 기반을 제공한다.

둘째, 변환기 구조에서 작업‑특정 정보가 주로 상위 레이어, 특히 마지막 몇 개의 self‑attention 출력 투영과 피드‑포워드 네트워크에 집중된다는 최근 연구 결과를 활용한다. 이 통찰을 바탕으로 ProToken은 전체 48개 레이어(예시) 중 2~3개의 후반 레이어만을 선택해 활성화와 그래디언트를 추출한다. 이렇게 하면 계산량을 수십 배 줄이면서도 토큰 생성에 직접적인 영향을 미치는 신경 활성화를 포착한다.

셋째, 그래디언트 기반 중요도 가중치(Integrated Gradients 혹은 Grad‑CAM 변형)를 적용해 선택된 레이어의 뉴런 활성화를 토큰‑레벨 로그잇에 대한 민감도로 변환한다. 이 과정에서 비관련 뉴런은 자연스럽게 낮은 가중치를 받으며, 클라이언트별 파라미터 차이에 의해 발생하는 미세한 활성화 차이가 증폭돼 토큰별 기여 점수(P(i))가 도출된다.

ProToken은 이러한 점수를 토큰별로 누적해 전체 응답에 대한 클라이언트 기여도를 산출한다. 중요한 설계 선택은 (a) 클라이언트 업데이트 자체만을 사용해 원본 데이터에 접근하지 않음으로써 FL 프라이버시를 보장하고, (b) 백도어 트리거‑응답 페어를 이용해 ‘진짜’ 기여 클라이언트를 사전에 정의함으로써 평가용 그라운드 트루스를 제공한다는 점이다. 실험에서는 Gemma, Llama, Qwen, SmolLM 등 네 가지 최신 LLM과 의료·금융·수학·코딩 네 분야 데이터를 조합해 16가지 설정을 테스트했으며, 평균 98.62%의 정확도로 기여 클라이언트를 정확히 식별했다. 클라이언트 수를 9배 이상 확대해도 92% 이상의 정확도를 유지해 확장성도 검증하였다.

이러한 결과는 (i) 토큰‑레벨 기여 추적이 가능함을 입증하고, (ii) 변환기 후반 레이어와 그래디언트 가중치가 연합 LLM의 설명 가능성에 핵심적인 역할을 함을 시사한다. 또한, ProToken은 악성 클라이언트 탐지, 공정 보상 배분, 디버깅 등 실무 적용 시나리오에 바로 활용될 수 있는 실용적인 도구로 평가된다.

연합 대형 언어 모델을 위한 토큰 수준 기여 추적 ProToken

초록

상세 분석

댓글 및 학술 토론

의견 남기기