AI가 만든 관계 조언, 사람은 어떻게 공감한다
초록
**
본 연구는 인간이 쓴 관계 조언과 대형 언어 모델(LLM)이 생성한 조언을 비교하여, 독자들이 인지·감정·동기적 공감 요소와 전반적 만족도를 어떻게 평가하는지 조사했다. 두 차례의 사전등록 실험(총 n≈1,141)에서 라벨(‘인간’, ‘AI’, ‘라벨 없음’)과 실제 저작자(인간 vs. AI)의 효과를 다중 수준 모델로 분석한 결과, AI가 만든 텍스트가 전반적 품질, 인지적·동기적 공감에서 더 높은 점수를 받았으며, ‘AI 라벨’에 대한 부정적 편향은 제한적이었다. 감정적 공감에서는 출처 차이가 일관되지 않았다. 개인의 AI 태도는 평가에 약간의 영향을 미쳤지만 전체 패턴을 바꾸지는 못했다.
**
상세 분석
**
이 논문은 인간‑AI 공감 인식 연구에서 흔히 제기되는 ‘부정성 편향(negativity bias)’을 검증하기 위해 실험 설계를 정교화했다. 먼저, 기존 연구에서 사용된 관계 조언 텍스트 2,170개 중 인간·AI 각각 50개를 ‘인간성’ 점수가 높은 순으로 선정했으며, 이는 라벨 조작에 따른 기대 효과를 최소화한다는 점에서 강점이다. 실험 1은 3×2 혼합 설계(라벨: 인간/AI/없음 × 실제 출처: 인간/AI)로, 각 텍스트에 대해 5점 척도로 전반적 만족도와 세 가지 공감 차원을 평가하도록 했다. 라벨은 실제 출처와 무관하게 조작했으며, 라벨 정보는 실험 전·중·후에 반복적으로 강조해 라벨 인지도를 높였다.
통계 분석은 lme4 패키지를 이용한 다층 모델링으로, 텍스트와 평가자를 각각 랜덤 효과로 포함해 중첩된 평가 구조를 적절히 통제했다. 고정 효과는 라벨, 출처, 그리고 그 상호작용이며, 다중 비교는 Benjamini‑Hochberg 절차로 FDR을 제어했다. 결과는 가설과 부분적으로 일치했는데, 전반적 만족도와 인지·동기적 공감에서는 라벨보다 실제 출처가 더 큰 영향을 미쳤다. 특히 AI‑생성 텍스트가 인간 텍스트보다 평균적으로 높은 점수를 받았으며, 이는 ‘AI가 더 객관적·논리적’이라는 인식이 작용했을 가능성을 시사한다.
감정적 공감에서는 라벨·출처 모두 유의미한 차이를 보이지 않아, 감정적 공감은 언어적 특성(예: 감정 어휘, 서술 방식)보다 독자의 개인적 감정 이입 능력에 더 의존한다는 해석이 가능하다. 개인 차원 변수(ATI, AIAS‑4, ECQ) 분석에서는 AI에 대한 긍정적 태도가 전반적 평가를 약간 상승시켰지만, 효과 크기가 작아 실질적 변인으로는 제한적이었다.
실험 2에서는 ‘라벨 없음’ 조건을 제거하고 라벨을 인간·AI 두 가지로만 구성해, 라벨 효과를 보다 명확히 검증했다. 결과는 실험 1과 일관되었으며, 라벨에 따른 부정성 편향이 기대보다 약함을 재확인했다. 이는 사용자가 텍스트 자체의 품질을 더 중시하고, 라벨 정보가 사전 기대와 일치할 때만 편향이 나타난다는 점을 뒷받침한다.
전반적으로, 이 연구는 (1) LLM이 생성한 관계 조언이 실제로 높은 인지·동기적 공감 점수를 얻을 수 있음을, (2) 라벨에 의한 부정성 편향이 상황·텍스트 유형에 따라 변동성이 크며 반드시 발생하지 않음을, (3) 감정적 공감은 텍스트 내용보다 독자의 감정 이입 능력에 좌우된다는 점을 실증적으로 보여준다. 다층 모델을 통한 정교한 통계 처리와 사전등록을 통한 연구 투명성 확보는 향후 AI‑지원 상담 시스템 설계에 중요한 근거를 제공한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기