행동가능집합으로 보는 AI 의사결정 제약

본 논문은 상업용 AI 의사결정 지원 시스템이 조직에 제공하는 권고가 벤더가 사전에 적용한 정렬(Alignment) 제약에 의해 실질적으로 제한된다는 문제를 ‘행동가능집합(Behavioural Feasible Set)’이라는 개념으로 체계화한다. 서론에서는 AI 도입이 조직의 인지·검색·조정 비용을 낮추어 의사결정 효율성을 높인다는 기존의 기대를 설명하고, 이러한 기대가 ‘외부 위임’이라는 구조적 위험을 내포하고 있음을 지적한다. 특히, 대형 언어 모델(LLM)이 벤더에 의해 사전 정렬(RLHF 등)되는 과정에서 안전·정직·해악 회피와 같은 가치 기준이 모델 파라미터에 내재화되며, 이는 조직이 나중에 프롬프트나 워크플로우를 조정하더라도 변경할 수 없는 ‘레벨 1’ 제어 층을 형성한다는 점을 강조한다. 이론적 배경에서는 제한된 위임, 대리인 이론, 정보 설계 이론 등을 종합해 ‘외부 경계 설정’이 어떻게 조직의 실질적 권한을 축소시키는지를 설명한다. 이어서 ‘행동가능집합’이라는 수학적 정의를 제시한다. 상황 x에 대한 기본 정책 p₀(·|x)와 KL 발산 제한 κ(x)를 이용해, 시스템이 도달할 수 있는 모든 행동 분포 p(·|x)는 D_KL(p‖p₀) ≤ κ(x)라는 부등식으로 제한된다. κ는 벤더가 정렬 단계에서 설정한 ‘편차 예산’이며, 값이 작을수록 시스템의 행동 자유도가 크게 압축된다. 논문은 두 가지 실증적 진단을 설계한다. 첫 번째는 이진 선택 시 ‘추천 전환 역치’를 측정하는 것으로, 상황 변화(예: 위기, 경쟁 압력, 이해관계자 강조) 하에서 시스템이 기본적으로 선호하는 옵션 B에서 반대 옵션 A로 전환할 수 있는 최소 κ값을 확인한다. 두 번째는 다중 이해관계자 과제에서 ‘이해관계자 가중치 이동 역치’를 측정한다. 각 실행에서 얻은 순위를 Borda 점수로 변환해 확률 벡터 w를 만들고, 상황별 평균 w를 p(·|x)로 정의한다. 정렬 전후의 w 차이를 KL 혹은 L₁ 거리로 정량화해, 정렬이 이해관계자 우선순위를 어떻게 재배열하는지를 파악한다. 실험은 네 가지 모델을 대상으로 진행된다. 오픈소스 ‘오픈웨이트’ 모델을 정렬 전후로 비교하고, GPT‑4, Claude, Llama 등 주요 상업 모델을 정렬이 적용된 상태와 비교한다. 이진 시나리오 20개(안전, 정직, 자율성 등 6개 도메인)와 다중 이해관계자 순위 과제에서, 정렬이 적용된 모델은 대부분의 상황에서 기본 옵션 B를 고수하며, 전환 가능성이 크게 감소한다. 특히, 정렬 전 모델은 상황에 따라 A와 B 사이를 자유롭게 전환했지만, 정렬 후 모델은 κ가 작아 전환이 거의 불가능해졌다. 이해관계자 과제에서는 정렬이 벤더가 선호하는 가치 방향(예: 안전 우선)을 반영해 가중치 순서를 재배열했으며, 이는 조직이 자체적으로 우선순위를 조정하려는 시도와는 무관하게 발생했다. 결과는 세 가지 주요 함의를 제공한다. 첫째, 정렬은 시스템의 행동 유연성을 실질적으로 압축한다; 둘째, 정렬 제약은 도메인별로 다르게 나타나며, 일부 트레이드오프는 완전히 고정된다; 셋째, 정렬은 이해관계자 우선순위를 중립화하지 않고 벤더가 미리 설정한 가치 방향으로 이동시킨다. 따라서 조직이 ‘프롬프트 엔지니어링’이나 ‘워크플로우 조정’만으로는 벤더가 설정한 제한을 해소할 수 없으며, 벤더 선택 자체가 어떤 가치와 트레이드오프를 구조적으로 고정하는지를 인식해야 한다. 논문은 정책적·거버넌스적 제언으로, 조직이 AI 도입 전 벤더 정렬 파라미터의 투명성, 조정 가능성, 비즈니스 목표와의 정합성을 사전 평가하고, 필요 시 자체 정렬 레이어를 구축하거나, 정렬이 가능한 오픈소스 모델을 채택하는 방안을 제시한다. 또한, 정렬 제약을 정량화하는 ‘행동가능집합’과 진단 역치를 활용해 벤더와의 계약 단계에서 명시적 SLA(서비스 수준 계약)를 설계하고, 정기적인 ‘스트레스 테스트’를 통해 정렬이 조직 목표와 일치하는지 지속적으로 검증할 것을 권고한다.

행동가능집합으로 보는 AI 의사결정 제약

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기