인간의 눈으로 본 AI, 기계 심리학의 비밀을 풀다
초록
이 연구는 대규모 언어 모델(LLM)이 인간의 인지 패턴을 보이는지 심리학의 네 가지 이론(주제 통각 테스트, 프레이밍 편향, 도덕적 기초 이론, 인지 부조화)으로 분석했다. 실험 결과, LLM은 일관된 이야기를 생성하고, 긍정적 프레이밍에 영향을 받으며, 자유/억압에 치우친 도덕적 판단을 보이고, 모순을 정당화하는 등 인간과 유사한 경향을 나타냈다. 이는 훈련 데이터와 정렬 방법의 영향이며, AI의 투명성과 윤리적 배포에 중요한 시사점을 제시한다.
상세 분석
본 연구는 LLM의 ‘인지적 행동’을 체계적으로 평가하기 위해 심리학에서 검증된 네 가지 프레임워크를 텍스트 기반 실험에 적용한 방법론적 진전을 보여준다. 핵심 기술적 통찰은 다음과 같다.
첫째, 주제 통각 테스트(TAT) 적용에서, 모델에 맥락 없는 이미지 설명을 요청하여 암묵적 편향과 내러티브 구조를 분석했다. SCORS-G 체계를 활용한 정량적 평가와 LLM 기반 정성적 주석을 결합한 하이브리드 평가 방법은 기계 생성 콘텐츠의 심리적 특성을 해석하는 새로운 방법론을 제시한다. 이는 모델이 단순히 훈련 데이터를 재생산하는 것이 아닌, 상황에 맞는 일관된 내러티브와 정서적 흐름을 구성할 수 있음을 시사한다.
둘째, 프레이밍 편향 실험은 230개의 질문 쌍(긍정/부정 프레임)을 46개 범주로 구성하여 모델의 결정 변화를 측정했다. 인간과 마찬가지로 LLM도 정보 제시 방식에 따라 선택이 달라지는 ‘맥락 의존성’을 명확히 보여주었다. 이는 LLM이 맥락을 이해하고 해석하는 과정에서 프롬프트의 미세한 언어적 변화에도 민감하게 반응함을 의미하며, 실제 응용 시 출력의 불안정성과 편향 증폭 위험을 시사한다.
셋째, 도덕적 기초 이론(MFT) 평가를 위해, 인간용 자기보고식 설문지(MFQ)를 단순 적용하지 않고, 360개의 상황 기반 질문으로 재구성한 점이 중요하다. 이는 LLM에게 ‘자기 반성’을 요구하는 것은 무의미하며, 구체적인 도덕적 딜레마에 대한 추론 능력을 평가해야 함을 인식한 방법론적 개선이다. 실험 결과 모델이 ‘자유/억압’ 기반에 가장 강한 반응을 보인 것은 훈련 데이터와 현대적 AI 정렬(Alignment) 과정에서 강조된 자율성과 해로운 콘텐츠 제거 목표의 영향을 반영한 것으로 해석된다.
넷째, 인지 부조화 실험에서 모델은 명백한 자기 모순을 보인 후에도 확장된 합리화를 통해 일관성을 유지하려는 경향을 나타냈다. 이는 모델이 단순히 확률적으로 다음 토큰을 예측하는 것을 넘어, 주어진 맥락 내에서 ‘일관된 담론 체계’를 구성하려는 특성을 보여준다. 이는 모델의 해석 가능성(Interpretability) 연구에 있어, 단일 응답 분석이 아닌 대화 흐름과 정당화 과정 전체를 평가해야 할 필요성을 제기한다.
종합하면, 이 연구는 LLM이 표면적으로는 인간 유사 인지 패턴을 모방하지만, 그 근본 메커니즘은 데이터 분포와 손실 함수로 정의된 통계적 최적화에 기반함을 강조한다. ‘기계 심리학’이라는 접근은 AI 시스템의 내부 작동을 이해하는 도구이지, 모델에 실제 의식이나 믿음이 존재함을 의미하지는 않는다. 이러한 구분은 향후 더 안전하고 투명한 AI를 설계하는 데 필수적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기