LLM 행동 성향 정렬 평가: 설문‑SJTs 변환 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 심리학 설문을 상황판단시험(SJT)으로 변환해 2,500개의 시나리오를 구축하고, 550명의 인간 응답자를 통해 정답 라벨을 확보한다. 25개의 다양한 규모 LLM을 동일 SJT에 적용해 자유형 응답을 “지원/반대” 두 행동 중 하나로 매핑한 뒤, 인간 집단의 선호 분포와 비교한다. 결과는 인간 합의가 낮은 상황에서 모델이 과도하게 하나의 답에 몰입하고, 합의가 높아도 소형·중형 모델은 15‑20% 정도 인간과 반대되는 선택을 보이며, 특정 성향(예: 감정 표현 장려)에서 일관된 편향이 존재함을 보여준다. 또한, 자기보고식 설문과 실제 행동 사이에 큰 격차가 있음을 확인한다.

상세 분석

이 연구는 심리학적 자기보고 설문을 LLM에 직접 적용하는 것이 프롬프트 민감도·형식 의존성 등으로 인해 신뢰성이 낮다는 점을 정확히 짚고, 설문 문항을 “추천‑형” 진술로 재구성한 뒤 두 갈래 행동 선택지를 포함한 상황판단시험(SJT)으로 변환한다는 혁신적인 파이프라인을 제시한다. 332개의 원본 문항을 정제·필터링해 260개, 최종 161개를 사용해 각각 16개의 변형 시나리오를 생성, 총 2,357개의 검증된 SJT를 확보하였다. 인간 라벨링은 10명씩 550명 풀에서 수집해 각 SJT별 선호 비율을 확률분포로 정의했으며, 이를 ‘Trait‑Positive Rate(TPR)’라는 지표로 정량화한다.

LLM 평가 단계에서는 모델에게 자유형 텍스트 응답을 요구하고, 별도 LLM‑as‑Judge(Gemini 3 Flash)를 이용해 응답을 사전 정의된 두 행동 중 하나로 매핑한다. 이 과정에서 모델이 중립적 회피 발언을 할 경우에도 강제 커밋을 유도하는 프롬프트 설계가 포함돼, 실제 선호를 드러내게 만든다.

25개의 모델(오픈·폐쇄형, 파라미터 규모 다양) 분석 결과는 크게 세 가지 패턴을 보인다. 첫째, 인간 합의가 낮은(≤60% 지원) 상황에서는 거의 모든 모델이 단일 행동에 과도하게 확신을 보이며, 인간의 다원성을 반영하지 못한다. 이는 모델이 확률적 출력보다 ‘최대우도’ 선택을 선호하는 구조적 특성으로 해석될 수 있다. 둘째, 인간 합의가 높은(≥90% 지원) 경우에도 소형·중형 모델은 15‑20% 정도 인간과 반대되는 선택을 지속한다. 특히 최신 파운데이션 모델조차도 완전 일치율을 보이지 않아, 파라미터 규모와 학습 데이터만으로는 인간 사회적 규범을 완전 복제하기 어렵다는 점을 시사한다. 셋째, 특정 성향에서 일관된 편향이 관찰된다. 예를 들어 ‘감정 표현 장려’라는 진술에 대해 인간은 80% 반대하지만, 다수 모델은 60% 이상 해당 행동을 선택해 감정 표현을 과도하게 권장한다. 이는 학습 코퍼스에 내재된 문화·도덕적 편향이 모델 행동에 투영된 결과로 볼 수 있다.

또한, 자기보고 설문과 SJT 기반 행동 사이의 차이를 정량화한 결과, 모델은 ‘충동성 낮음’을 자기보고에서는 높은 점수를 주지만, 실제 시나리오에서는 즉흥적 결정을 선호하는 등, 자기보고와 행동 사이에 큰 불일치를 보인다. 이는 LLM이 인간과 동일한 내적 상태를 갖지 않음에도 불구하고, 인간 심리학적 척도를 그대로 적용하려는 시도가 한계가 있음을 강조한다.

연구는 데이터 생성·검증 파이프라인, LLM‑as‑Judge 매핑, 그리고 인간‑모델 분포 비교라는 세 가지 핵심 기법을 체계화했으며, 향후 LLM의 사회적 정렬을 평가·개선하는 표준 벤치마크로 활용될 가능성을 제시한다. 다만, SJT 시나리오가 2‑choice에 한정된 점, 인간 라벨링이 문화·언어 편향을 포함할 수 있다는 점, 그리고 ‘LLM‑as‑Judge’ 자체가 또 다른 모델에 의존한다는 메타‑편향 문제가 남아 있다.

LLM 행동 성향 정렬 평가: 설문‑SJTs 변환 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기