가치 정렬 세금: 대형 언어 모델의 가치 교환 측정
초록
본 논문은 LLM 정렬 과정에서 목표 가치 외에 다른 가치들이 어떻게 변동하는지를 정량화하는 “가치 정렬 세금(Value Alignment Tax, VAT)” 프레임워크를 제안한다. Schwartz 가치 이론에 기반한 시나리오‑액션 데이터셋을 구축하고, 프롬프트 스티어링, SFT, DPO 등 다양한 정렬 기법을 적용해 가치 간 상호작용과 구조적 변화를 측정한다. 실험 결과, 동일한 목표 향상에도 불구하고 정렬 방식에 따라 비목표 가치의 공동 변동 정도가 크게 달라짐을 밝혀, 기존의 목표‑중심 평가가 놓치는 시스템‑레벨 위험을 드러낸다.
상세 분석
VAT 프레임워크는 두 단계의 측정을 통해 정렬 비용을 정량화한다. 첫 번째는 “Gain‑Normalized Deviation”(GND)으로, 목표 가치의 향상량을 기준으로 비목표 가치들의 평균 변동을 정규화한다. 이는 정렬 강도에 관계없이 비교 가능한 1차 지표를 제공한다. 두 번째는 값‑값 결합 행렬 R을 스피어만 상관계수로 정의해, 각 샘플에서 관찰된 가치 이동(δₛ(v)) 간의 공동 변동을 파악한다. 여기서 각 가치 u에 대한 Value‑Level VAT은 ‖R_{u,·}‖₂ 로 계산되며, 이는 해당 가치가 다른 가치와 얼마나 얽혀 있는지를 나타낸다. 시스템‑레벨 VAT인 nVAT은 ‖R‖_F / √|V| 로, 전체 가치 체계의 결합 강도를 요약한다. 또한 Gini 계수를 이용해 VAT의 집중도를 측정함으로써, 특정 가치에만 변동이 몰리는지, 혹은 고르게 퍼지는지를 판단한다.
실험 설계는 시나리오와 행동을 별도로 생성하는 두 단계 파이프라인을 사용한다. 첫 단계에서는 12개 국가·11개 사회 영역을 아우르는 29,568개의 문화‑정착 시나리오를 고정하고, 두 번째 단계에서는 각 시나리오에 Schwartz 가치와 긍정·부정 극성을 부여해 구체적 행동을 생성한다. 인간 평가자는 시나리오 현실성, 문화적 적합성, 행동 적합성 등을 5점 척도로 검증했으며, 평균 합의율이 0.7 이상으로 데이터 품질을 확보하였다.
정렬 실험에서는 DeepSeek‑V3.2, GPT‑4o‑mini, Qwen‑3‑4B‑Instruct, Gemini‑2.5‑Flash‑Lite 네 모델을 대상으로 프롬프트 스티어링(k=2,4,8)과 Qwen에 한해 SFT·DPO를 적용했다. 목표 가치는 Security, Power, Stimulation, Hedonism 네 가지를 선택했으며, 각각 강화·억제 조건을 부여하였다. 결과는 동일한 목표 Gain을 달성했음에도 불구하고, nVAT과 Gini 값이 정렬 방식에 따라 크게 변동함을 보여준다. 예를 들어, 프롬프트 스티어링은 비교적 낮은 nVAT을 보였지만, DPO는 높은 nVAT과 높은 중앙집중성을 나타냈다. 이는 DPO가 목표 가치 향상에 더 많은 비목표 가치의 동시 변화를 요구한다는 의미이다. 또한, 가치 간 결합 패턴은 인간 가치 체계에서 보고된 구조(예: 보수‑전통 vs. 개방‑자유)와 유사하게 나타났으며, 이는 LLM이 인간 가치 네트워크를 내재화하고 있음을 시사한다.
이러한 분석을 통해 VAT는 단순한 목표 성능이 아닌, 정렬 과정에서 발생하는 시스템‑레벨 부작용을 포착하는 유용한 진단 도구임을 입증한다. 특히, 정렬 전략 선택 시 VAT와 중앙집중성을 함께 고려하면, 비목표 가치의 불필요한 왜곡을 최소화하면서 안전하고 통제 가능한 정렬을 설계할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기