오프라인 세계 모델을 통한 인간·AI 상상 네트워크 비교

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 인간과 대형 언어 모델(LLM)의 상상 생생도 평가를 네트워크 분석으로 변환해, 목표와 무관하게 작동하는 ‘오프라인 세계 모델’의 구조적 일관성을 검증한다. 2,743명의 인간 참가자와 6종 LLM을 대상으로 VVIQ‑2·PSIQ 설문을 이용해 노드(상상 상황)와 엣지(생생도 상관관계)를 구축했으며, 인간 집단 간 높은 중심성 상관과 뚜렷한 군집을 보인 반면 LLM은 군집이 약하고 인간과의 상관도 낮았다. 결과는 인간과 AI가 내부 표현을 조직하는 방식에 근본적 차이가 있음을 시사한다.

상세 분석

이 논문은 ‘오프라인 세계 모델’이라는 개념을 도입해, 즉각적인 보상이나 목표와 무관하게 지속되는 기억 구조를 정량화한다. 인간은 VVIQ‑2(환경 장면 8개, 4항목씩)와 PSIQ(감각 양식 7개, 3항목씩) 설문을 통해 상상 생생도를 측정했으며, 총 2,743명의 데이터를 지리적·언어적 다양성을 반영해 네 개 이상의 하위 집단으로 나누었다. LLM은 Gemma3‑12B/27B, Llama3.3‑70B, Llama4‑16x17B 등 6가지 변형을 사용해 1,000개의 시뮬레이션을 생성했으며, ‘무상상(aphantasia)’부터 ‘초상상(hyperphantasia)’까지 5가지 이미지 능력 프롬프트와 ‘독립’·‘누적’ 두 대화 조건을 조합했다.

네트워크는 EBIC‑glasso 기반 스피어만 부분상관으로 추정했으며, 노드 중심성은 기대 영향(expected influence)과 강도(strength)로, 군집은 Louvain 알고리즘 등으로 파악했다. 인간 집단 간 기대 영향 상관은 r≈0.7~1.0으로 매우 높았으며, 특히 인구가 겹치는 복합 집단에서는 r≈0.99에 달했다. 강도 중심성에서도 유사한 패턴이 나타났다. 반면 LLM 네트워크는 인간과의 중심성 상관이 r<0.3 수준에 머물렀고, 군집 구조는 거의 발견되지 않았다. 대화형 누적 조건이 약간의 상관 증가(≈5%)를 보였지만, 구조적 일관성에서는 인간에 미치지 못했다.

통계적으로는 VVIQ‑2 총점이 모델 크기·프롬프트·대화 조건에 따라 유의미하게 변했으며(Kruskal‑Wallis p<10⁻⁷), LLM의 총점 분포는 Kolmogorov‑Smirnov 검정에서 인간 집단과 모두 D>0.15, p<0.001로 차이를 보였다. 이는 LLM이 인간과 유사한 평균 생생도는 재현할 수 있어도, 개별 항목 간 상관 구조는 전혀 다르다는 것을 의미한다.

이러한 결과는 인간의 오프라인 세계 모델이 다중 감각·신체 경험에 기반한 풍부한 연결망을 형성한다는 가설을 뒷받침한다. 반면 현재 LLM은 텍스트 통계에 기반한 파라미터 공간을 가지고 있어, 상상 시나리오 간 의미적 연관성을 충분히 구축하지 못한다는 점을 드러낸다. 연구는 또한 ‘프롬프트만으로도 감각적 이미지 처리’를 유도할 수 있음을 보여주지만, 구조적 재현성은 제한적이다. 한계로는 설문 기반 자기보고가 주관적이며, LLM의 ‘가상 인격(persona)’ 설정이 실제 인지적 차이를 완전히 반영하지 못한다는 점, 그리고 네트워크 추정 방법이 부분상관에 의존해 비선형 관계를 놓칠 가능성이 있다. 향후 연구는 뇌영상 기반 연결망과 LLM 내부 표현(예: attention map) 간 직접 비교, 멀티모달 모델을 통한 오프라인 세계 모델 구축, 그리고 강화학습이 아닌 ‘자연스러운’ 상상 과정을 모사하는 새로운 평가 프레임워크 개발을 제안한다.

오프라인 세계 모델을 통한 인간·AI 상상 네트워크 비교

초록

상세 분석

댓글 및 학술 토론

의견 남기기