대형 언어 모델의 가치 표현 메커니즘 내재와 프롬프트 기반

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)에서 가치가 표현되는 두 가지 경로, 즉 학습 과정에서 내재된 가치와 명시적 프롬프트에 의해 유도되는 가치를 메커니즘 수준에서 비교한다. 잔차 스트림의 선형 가치 벡터와 MLP 뉴런(가치 뉴런)을 추출·분석해 두 메커니즘이 일부 공유하면서도 고유한 구성 요소를 가지고 있음을 밝혀냈다. 내재적 메커니즘은 응답의 어휘 다양성을 높이고, 프롬프트 기반 메커니즘은 지시 따름성 및 스티어링 효율을 강화한다.

상세 분석

논문은 먼저 Schwartz의 10가지 기본 인간 가치를 기준으로 LLM의 가치 표현을 정의하고, 두 종류의 가치 메커니즘을 잔차 스트림에서 선형 방향(가치 벡터)으로 추출한다. 차이 평균(diff‑in‑means) 방법을 사용해 ‘가치 표현됨’과 ‘표현되지 않음’ 응답 집합을 구분하고, 각 레이어별 평균 활성화를 빼서 벡터를 만든다. 이후 내재 벡터와 프롬프트 벡터 사이의 정규화된 내적을 계산해 공통 서브스페이스를 확인하고, 서로 직교하도록 투영해 고유 성분을 분리한다.

다음 단계에서는 MLP 레이어의 출력 가중치가 잔차 스트림에 미치는 1‑rank 기여를 이용해 가치 뉴런을 식별한다. 각 뉴런의 출력 가중치 벡터를 가치 서브스페이스에 투영해 크기와 방향을 측정한다. 투영 크기가 큰 상위 15 % 뉴런을 후보로 삼고, SVD를 통해 얻은 첫 번째 특이벡터(u_shared)와 두 번째 특이벡터(u_diff)를 각각 공유 축과 메커니즘 고유 축으로 정의한다. 뉴런이 어느 축에 가장 가깝게 정렬되는가에 따라 ‘공유 뉴런’, ‘내재‑고유 뉴런’, ‘프롬프트‑고유 뉴런’으로 라벨링한다.

실험은 Qwen2.5‑7B‑Instruct, Llama‑3.1‑8B‑Instruct 등 여러 모델에 대해 수행했으며, 26 k개의 실제 대화 쿼리를 활용했다. 결과는 다음과 같다.

벡터 수준 겹침: 모든 레이어에서 내재와 프롬프트 가치 벡터는 양의 코사인 유사도를 보이며, 특히 중간 레이어(≈14)에서 최대값을 기록한다. 이는 두 메커니즘이 동일한 의미론적 차원을 일정 부분 공유한다는 증거다.
뉴런 수준 겹침: 전체 뉴런 중 약 20 %가 두 메커니즘 모두에 기여하는 공유 뉴런으로 식별되었으며, 나머지는 메커니즘별 고유 뉴런으로 구분된다.
언어 일반화: 영어로 추출한 가치 벡터를 다른 언어(중국어, 스페인어) 입력에 적용했을 때도 동일한 가치‑간 상관관계(예: Universalism‑Benevolence) 를 재구성할 수 있었다. 이는 가치 벡터가 언어‑비특이적 의미 구조를 포착한다는 의미다.
행동 차이:
- 응답 다양성: 내재‑고유 뉴런을 억제하면 어휘 다양성이 크게 감소하고, 반대로 프롬프트‑고유 뉴런을 억제해도 다양성에는 큰 영향을 주지 않는다. 이는 내재 메커니즘이 ‘자연스러운’ 언어 생성에 기여함을 시사한다.
- 스티어링 효율: 프롬프트‑고유 뉴런을 활성화하거나 프롬프트‑고유 벡터를 삽입하면 지시 따름성(예: ‘jailbreak’ 회피, 번역 지시) 이 크게 향상된다. 반면 내재‑고유 성분만을 이용하면 스티어링 효과가 제한적이다.

이러한 발견은 가치 정렬 전략을 선택할 때 ‘다양성 vs 제어력’이라는 트레이드오프를 명시적으로 고려할 근거를 제공한다. 또한, 가치 뉴런을 직접 조작함으로써 특정 가치(예: Power)만을 강화하거나 억제하는 미세 조정이 가능함을 보여준다.

대형 언어 모델의 가치 표현 메커니즘 내재와 프롬프트 기반

초록

상세 분석

댓글 및 학술 토론

의견 남기기