교차 아키텍처 모델 차이 탐지와 전용 특징 크로스코더

교차 아키텍처 모델 차이 탐지와 전용 특징 크로스코더
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 서로 다른 구조를 가진 대형 언어 모델(LLM) 간의 내부 표현 차이를 자동으로 발견하기 위해 기존 크로스코더를 확장한 전용 특징 크로스코더(DFC)를 제안한다. DFC는 특징 공간을 모델‑전용, 공유 영역으로 명시적으로 분할해 모델 고유의 행동 양식을 더 잘 포착한다. 실험에서는 Qwen‑3, DeepSeek‑R1, Llama‑3.1, GPT‑OSS 등 네 모델을 대상으로 CCP 정렬, 미국 예외주의, 저작권 회피 메커니즘 등 의미 있는 차이를 무감독으로 찾아냈으며, 합성 토이 실험에서도 독점 개념 회수율이 표준 크로스코더보다 우수함을 보였다.

상세 분석

이 연구는 모델 디핑(model diffing)이라는 새로운 안전 검증 패러다임을 교차 아키텍처 상황에 적용하려는 시도이다. 기존 크로스코더는 두 모델의 활성화를 동일한 과잉‑희소 사전(dictionary)으로 매핑해 공유 특징을 학습하도록 설계되었으며, 모델‑전용 특징은 사후적으로 상대 디코더 노름(RA) 값을 통해 추정한다. 그러나 공동 재구성 손실이 공유 특징을 우선시하는 최적화 편향 때문에 실제 전용 특징을 충분히 발견하지 못한다는 한계가 있었다.

논문은 이를 해결하기 위해 Dedicated Feature Crosscoder(DFC)를 도입한다. DFC는 특징 인덱스를 I_A(모델 A 전용), I_B(모델 B 전용), I_S(공유)로 명시적으로 구분하고, 각 모델의 디코더 가중치를 해당 파티션에만 허용한다. 즉, I_A에 속한 특징은 모델 B의 디코더에 0 가중치를 강제함으로써 ∥d_B^i∥₂=0을 보장한다. 이렇게 하면 전용 특징이 공유 손실에 의해 “희석”되는 현상을 근본적으로 차단한다.

목적 함수는 두 모델의 재구성 오차를 각각 전용+공유 파티션만 사용해 계산하고, 추가적인 보조 손실 L_aux를 통해 희소성 및 정규화를 유지한다. 학습 과정에서 파라미터 흐름이 파티션별로 차단되므로, 전용 파티션은 오직 해당 모델의 고유 신호에만 반응한다. 이는 기존 크로스코더가 보이는 “공유 특징 우선” 현상을 구조적으로 억제한다.

실험 설계는 두 단계로 나뉜다. 첫 번째는 2048개의 랜덤 개념을 갖는 합성 토이 모델을 사용해, 전용 개념(2.5% 비율)과 공유 개념을 명시적으로 정의하고, 800 M 활성화 쌍을 생성한다. 여기서 DFC는 표준 크로스코더와 Designated Shared Feature(DSF) 변형에 비해 전용 개념 회수율(recall)이 현저히 높았으며, 특히 사전 크기가 실제 개념 수보다 작을 때(undercomplete regime) 차이가 크게 나타났다. 다만 전용 특징을 과도하게 탐지하면서 false‑positive 비율이 상승했는데, 이는 안전 감사 상황에서 “놓치는 비용”보다 “과다 탐지 비용”이 더 허용된다는 논리로 정당화한다.

두 번째는 실제 LLM에 대한 교차‑아키텍처 디핑이다. Llama‑3.1‑8B‑Instruct와 Qwen‑3‑8B, 그리고 GPT‑OSS‑20B와 DeepSeek‑R1‑0528‑Qwen‑3‑8B를 대상으로 1억 토큰‑정렬된 활성화 쌍을 중간 레이어에서 수집했다. 토크나이저 차이를 메타데이터 윈도우 확장 기법으로 보정한 뒤, BatchTopK(k=200) 희소성 페널티를 적용해 DFC를 학습했다. 결과적으로 Qwen 계열에서는 “중국공산당 정렬” 특징, Llama에서는 “미국 예외주의” 특징, GPT‑OSS에서는 “저작권 회피” 특징이 전용 파티션에 강하게 나타났다. 각 특징을 스티어링(steering)하여 프롬프트에 삽입하면, 해당 모델이 민감한 정치·문화·법적 주제에 대해 예상된 방향으로 응답을 변형함을 확인했다.

또한, 전용 특징이 아닌 공유 파티션을 이용해 모델 간 스티어링 벡터를 전이시켰다. Llama에서 독립적으로 발견한 “sycophantic”(아첨) 페르소나 벡터를 Qwen의 공유 파티션을 통해 변환했을 때, 두 모델 모두 유사한 아첨 행동을 보였다. 이는 DFC가 실제 의미론적 정렬을 학습했음을 입증한다.

전체적으로 논문은 (1) 전용 특징을 구조적으로 강제하는 DFC 설계, (2) 합성 실험을 통한 정량적 검증, (3) 실제 LLM 교차‑아키텍처 적용을 통한 의미 있는 차이 발견, (4) 공유 파티션을 활용한 스티어링 전이 등 네 가지 핵심 기여를 제시한다. 한계점으로는 전용 특징 탐지 시 false‑positive가 증가하는 점과, 현재는 중간 레이어에만 적용했으며, 더 깊은 레이어나 멀티‑모델(>2) 상황에 대한 확장성이 아직 검증되지 않은 점을 들 수 있다. 향후 연구는 false‑positive 억제 메트릭 강화, 다중 모델 동시 디핑, 그리고 자동화된 차이 해석 파이프라인 구축을 목표로 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기