잠재활성 해석을 자연어로: LatentQA와 LIT 기법
초록
본 논문은 대형 언어 모델(LLM)의 내부 활성화를 자연어 질문‑답변 형태로 디코딩하는 LatentQA 프레임워크를 제안한다. 활성화‑QA 쌍을 자동 생성한 대규모 데이터셋을 이용해 디코더 LLM을 미세조정하고, 이를 통해 모델의 은닉 상태를 “읽고”(reading) “조정”(steering)할 수 있다. 실험 결과, 기존 스칼라·단일 토큰 프로브를 크게 능가하며, 데이터·모델 규모가 커질수록 성능이 향상됨을 보였다.
상세 분석
LatentQA는 기존 프로브가 출력할 수 있는 스칼라 혹은 단일 토큰에 머무르는 한계를 극복하고, 활성화 정보를 자연어로 직접 설명하도록 설계된 새로운 디코더 기반 프로브이다. 핵심은 (활성화, 질문, 답변) 삼중항을 포함하는 대규모 데이터셋을 자동으로 구축하는 파이프라인이다. 저자들은 먼저 “control + stimulus” 형태의 프롬프트를 LLM에 입력해 다양한 행동(페르소나, 목표, 추출형 QA 등)을 유도하고, 그 결과물에 대해 GPT‑4와 같은 강력한 모델을 활용해 해당 행동을 설명하는 QA 쌍을 생성한다. 이렇게 얻어진 16,732개의 라벨링된 샘플은 활성화 마스킹, 데이터 증강, 그리고 완성물의 충실도 향상이라는 세 가지 설계 결정을 통해 일반화 능력을 크게 높였다.
활성화 마스킹은 컨트롤 토큰의 임베딩을 직접 읽는 “치트”를 방지하기 위해 컨트롤 부분의 활성화를 가리고, 오직 스티뮬러스 토큰에서 유도된 정보를 남긴다. 이는 어텐션 메커니즘을 통해 컨트롤 정보가 여전히 전달되도록 하면서도 디코더가 표면적인 토큰을 그대로 복제하는 것을 억제한다. 데이터 증강 단계에서는 (컨트롤, 스티뮬러스, 스티뮬러스 + 완성) 세 종류의 입력을 모두 활용해, 질문이 프롬프트 자체에 대한 것인지, 혹은 은닉 상태에 내재된 특성에 대한 것인지 학습한다. 마지막으로, 컨트롤 프롬프트의 표현력을 강화하거나 더 강력한 LLM을 이용해 (프롬프트, 완성) 쌍을 생성함으로써, 완성물과 질문 사이의 의미적 일관성을 높였다.
학습 단계에서는 목표 LLM의 중간 레이어(k=15)에서 추출한 활성화를 디코더 LLM의 첫 레이어(ℓ=0)에 패치하고, 질문‑답변 쌍을 조건부 로그우도 최대화하도록 미세조정한다. 이렇게 훈련된 디코더는 두 가지 주요 기능을 제공한다. 첫째, “INTERPRET” 함수로 활성화와 자연어 질문을 입력하면, 모델이 미래 출력에 반영될 속성(예: 편향, 페르소나, 스타일)을 자연어로 서술한다. 둘째, “STEER” 함수는 질문‑답변 형태의 목표를 손실로 정의하고, 해당 손실에 대한 활성화의 그래디언트를 역전파해 목표 LLM의 파라미터를 직접 수정함으로써 원하는 행동을 유도한다.
실험 결과는 세 가지 측면에서 기존 방법을 크게 앞선다. (1) 은닉 상태에서 숨겨진 시스템 프롬프트를 복원하는 작업에서, LIT는 GPT‑4 프롬프트 기반 베이스라인보다 10.8% 절대 향상을 보였다. (2) 라티언트 속성 추출(관계 질문)에서는 평균 정확도에서 기존 라티언트 QA 시스템 대비 38.2%, 선형 프로브 대비 32.2%p 상승했다. (3) 편향 감소, 새로운 행동(예: Golden Gate Claude 스타일) 유도, 안전 튜닝된 모델에서 금지된 지식 추출 등 제어 실험에서도 LIT만이 통계적으로 유의한 효과를 나타냈다. 또한 데이터와 모델 규모를 늘릴수록 성능이 꾸준히 개선되는 스케일링 법칙을 확인했다.
한계점으로는 (i) 현재는 중간 레이어와 첫 레이어 사이의 분포 이동을 학습으로 보정했지만, 다른 레이어 조합이나 다른 아키텍처에 대한 일반화가 아직 검증되지 않았다. (ii) 디코더 자체가 대규모 LLM을 복제하기 때문에, 실제 적용 시 계산 비용이 높을 수 있다. (iii) 제어 손실이 자연어 질문‑답변 형태에 의존하므로, 복잡한 다중 목표나 연속적인 제어 시나리오에 대한 확장성이 남아 있다. 향후 연구에서는 레이어‑전반적인 다중 스케일 디코딩, 경량 디코더 설계, 그리고 멀티모달 라티언트 QA 데이터 확장을 통해 이러한 제약을 완화할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기