규범과 지시가 충돌할 때 LLM의 규범적 추론 평가
초록
본 논문은 인간 검증을 거친 SNIC 데이터셋을 통해 대형 언어모델(LLM)이 물리적·사회적 규범을 이용한 지시 해석(NBRR) 능력을 평가한다. 실험 결과, 현재 최고 성능 모델조차 암묵적·불명확·충돌하는 규범을 일관되게 인식·적용하지 못함을 밝혀, 실세계 로봇·에이전트에 필요한 규범 기반 추론의 현주소와 과제를 제시한다.
상세 분석
본 연구는 ‘규범 기반 지시 해석(Norm‑Based Reference Resolution, NBRR)’이라는 새로운 문제 정의에서 출발한다. 기존의 공동지시 해석이나 Winograd‑Schema와 같은 작업은 주로 상식적 추론에 초점을 맞추었으나, 물리적 환경과 사회적 규범이 동시에 작용하는 상황에서는 규범 자체가 해석의 핵심 전제가 된다. 논문은 이를 검증하기 위해 SNIC(Situated Norms in Context)라는 데이터셋을 설계했으며, 두 단계의 검증 과정을 거친다. 첫 번째는 120개의 수작업 시나리오를 인간 참여자에게 제시해 ‘규범‑지시 매칭’ 여부를 측정하고, 다수표를 얻은 51개를 시드로 선정한다. 두 번째는 이 시드를 기반으로 텍스트 변형·속성 교체·객체 추가 등을 자동화한 9,000개의 확장 샘플을 생성한다. 각 샘플은 (1) 지시 표현이 모호하고, (2) 올바른 해석이 특정 사회적 규범에 의존하도록 설계되었다.
데이터셋에 포함된 규범은 ‘청결 유지’, ‘소유권 존중’, ‘위험 우선 처리’ 등 물리적·일상적 상황에 뿌리를 두고 있다. 특히 규범 충돌 상황(예: 청소 작업 중 위험 물체와 더러운 물체 중 어느 것을 먼저 처리할지)도 포함해 모델이 우선순위 판단까지 요구하도록 구성하였다. 인간 실험 결과는 규범별 매치율이 31%에서 65% 사이이며, Fleiss’ κ는 0.07~0.22 수준으로 전반적으로 낮은 일관성을 보였다. 이는 동일 규범이라도 상황에 따라 인식 차이가 크다는 것을 의미한다.
LLM 평가에서는 GPT‑4, Claude, Llama‑2 등 최신 모델을 ‘one‑shot’ 프롬프트로 테스트했으며, 모델들은 규범이 명시적으로 제시된 경우에는 비교적 높은 정확도를 보였지만, 암묵적 규범이나 충돌 상황에서는 일관된 선택을 하지 못했다. 특히 ‘partial match’가 높은 경우는 모델이 다중 후보를 제시하거나, 규범을 부분적으로만 적용했음을 나타낸다. 결과적으로 현재 LLM은 “규범을 인코딩”은 할 수 있으나, “규범을 상황에 맞게 동적으로 적용”하는 능력이 부족함을 확인했다.
이 논문의 주요 기여는 (1) 물리·사회적 규범을 중심으로 한 NBRR 테스트베드 SNIC을 공개하고, (2) 인간 검증을 통해 규범‑지시 매핑의 신뢰성을 확보했으며, (3) 최신 LLM이 규범 기반 추론에서 보이는 한계와 구체적 오류 패턴을 체계적으로 제시했다는 점이다. 향후 연구는 (a) 규범을 형식화·논리화하는 방법론(예: 탈도틱 논리와 결합)과 (b) 멀티모달(시각·촉각) 정보와 연계한 규범 인식 모델을 개발함으로써, 로봇·에이전트가 실제 환경에서 인간과 자연스럽게 협업할 수 있는 기반을 마련해야 함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기