활성공간 기반 성격 조절: 하이브리드 레이어 선택으로 LLM의 특성 제어 강화
초록
본 논문은 대형 언어 모델(LLM)의 내부 활성화를 이용해 빅파이브(OCEAN) 성격 특성을 저차원 서브스페이스로 추출하고, 정적 진단과 실시간 프롬프트 분석을 결합한 하이브리드 레이어 선택 기법으로 원하는 성격을 안정적으로 스티어링하는 파이프라인을 제안한다.
상세 분석
논문은 먼저 사전 학습된 인과형 트랜스포머(LLaMA‑3‑8B‑Instruct 등)에서 ‘높음/낮음’ 라벨이 부착된 Big‑5‑Chat 데이터 20 000개를 활용해 각 레이어별 residual state를 추출한다. 고·저 라벨 평균 차이를 정규화한 뒤, 레이어별 차이 벡터 d(c)_L을 얻고, 레이어 가중치 w(c)_L을 학습해 각 성격 특성 c∈{O,C,E,A,N}에 대한 가중합 d(c)=∑_L w(c)_L·d(c)_L 를 만든다. 이렇게 얻은 5개의 특성 벡터를 행렬로 쌓아 PCA/SVD를 수행해 차원 k(논문에서는 95 % 에너지 보존 기준) 만큼의 저차원 서브스페이스 U_k 를 도출한다. 각 특성 벡터는 U_k에 투영·정규화되어 b_d(c)=U_kU_kᵀ d(c) /‖U_kU_kᵀ d(c)‖ 로 최종 스티어링 방향이 된다.
핵심 기여는 레이어 선택 단계이다. 기존 연구가 고정된 중간 레이어에 의존하거나 단일 정적 지표만 사용했던 반면, 저자는 두 단계의 하이브리드 전략을 설계한다. (1) 오프라인 사전 진단: 중립 프롬프트에 대해 각 레이어에 미세한 α‑steer(α≪1)를 적용하고, ∆ℓ₂, KL, 플립 비율 ϕ를 결합한 스코어 S(L,c) 로 특성별 최적 레이어 L*₍c₎ 를 선정한다. (2) 런타임 동적 진단: 실제 입력 프롬프트 p에 대해 레이어별 로짓 변화 ‖z_steered^L(p)−z_base(p)‖ 를 계산하고, 가장 큰 변화를 보이는 레이어 R(p,c)를 동적 후보로 잡는다. 최종 injection은 L*₍c₎와 R(p,c)를 0.8:0.2 비율로 혼합해 두 레이어에 b_d(c) 를 스케일링하여 residual stream에 더한다.
실험에서는 다양한 모델(LLaMA‑2‑7B, LLaMA‑3‑8B 등)과 여러 프롬프트 유형(성격 설문, 자유 대화, 일반 추론)에서 OCEAN 특성 점수, 텍스트 유창성, 퍼플렉시티, GLUE‑like 벤치마크를 측정했다. 결과는 (i) 성격 점수 변화가 0.4~0.7 SD 수준으로 유의미하게 상승, (ii) 텍스트 품질 지표는 거의 변동이 없으며, (iii) 저차원 서브스페이스 사용이 노이즈와 변동성을 크게 감소시켜 스티어링 안정성을 확보함을 보여준다. 또한, 레이어 가중치와 동적 선택이 모델 깊이에 따라 달라지는 민감도를 자동 보정함으로써, 기존 고정 레이어 방식보다 재현성·일관성이 크게 향상되었다.
이 접근은 심리학적 성격 모델을 LLM 내부 표현과 연결짓는 최초의 체계적 시도라 할 수 있다. 저차원 공유 서브스페이스가 성격 특성 간 상관관계(예: 개방성‑외향성)까지 포착한다는 점은 향후 다중 특성 복합 제어나 사용자 맞춤형 에이전트 설계에 중요한 기반이 될 것이다. 또한, 정적·동적 레이어 선택 프레임워크는 다른 고차원 개념(예: 윤리성, 창의성)에도 일반화 가능하다는 잠재력을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기