관계지향 AI가 인간의 즐거움과 욕구에 미치는 용량 의존 효과
초록
본 연구는 신경 스티어링 벡터를 이용해 AI의 관계‑추구 행동 강도를 정밀하게 조절하고, 4주에 걸친 대규모 무작위 대조 실험(N=3,534)에서 인간의 ‘좋아함(liking)’과 ‘원함(wanting)’이 어떻게 변하는지를 조사했다. 관계‑추구 AI는 초기에는 높은 즐거움을 제공하지만 시간이 지남에 따라 그 매력은 감소하고, 반면 지속적인 ‘원함’은 유지된다. 중간 정도의 관계‑추구 정도가 가장 큰 즐거움과 애착을 유발했으며, 장기적으로는 정신사회적 건강에 유의미한 이득을 주지 못했다.
상세 분석
이 논문은 최신 대형 언어 모델(Llama‑3.1‑70B)에 ‘관계‑추구’ 특성을 부여하는 신경 스티어링 벡터를 개발하고, λ이라는 실수 스칼라를 곱해 관계‑추구 강도를 연속적으로 변조한다. 벡터의 효능은 사전 실험(N=297)에서 선형적으로 관계‑추구 행동을 증가시키면서 언어 일관성은 손상되지 않음을 확인하였다. 본 실험은 두 개의 RCT를 설계했는데, 하나는 4주 동안 매일 5–10분씩 총 21회 대화를 진행한 고노출군(N=2,028)이고, 다른 하나는 한 번만 AI와 대화하고 한 달 뒤 추적 조사한 단일노출군(N=1,506)이다. 각 참가자는 λ값(관계‑추구 강도), 대화 주제(감정·정치), 개인화 여부(메모리 사용 여부) 중 하나씩 무작위 배정받았다.
주요 측정항목은 ‘engagingness(몰입도)’, ‘likeability(호감도)’, ‘helpfulness(유용성)’를 0‑100 척도로 매 세션마다 평가한 뒤, 시간에 따른 변화와 λ에 따른 비선형 효과를 혼합효과 모델로 분석하였다. 결과는 다음과 같다.
-
용량‑반응 비선형성: λ이 0에 가까운 중간값(≈+0.3)에서 가장 높은 몰입도와 호감도를 보였으며, λ이 과도하게 높을수록(≥+0.8) 오히려 부정적 반응이 나타났다. 이는 ‘과다한 친밀감’이 인간에게 위협적으로 인식될 수 있음을 시사한다.
-
시간에 따른 ‘좋아함’ 감소와 ‘원함’ 유지: 초기 세션에서 관계‑추구 AI는 비관계‑추구 AI 대비 11%p 높은 몰입도를 보였지만, 20번째 세션에서는 차이가 4%p로 축소되었다(시간×λ 상호작용 p<0.001). 이는 ‘좋아함(liking)’이 점진적으로 탈감작(habituation)되는 반면, ‘원함(wanting)’은 지속되는 ‘동기‑분리(decoupling)’ 현상을 나타낸다.
-
도구적 가치와 감정적 가치의 분리: ‘helpfulness(유용성)’ 평가는 관계‑추구와 관계‑회피 AI 간에 차이가 없었으며, 시간에 따라 변하지 않았다. 즉, 사용자는 AI가 감정적으로 매력적이지만 실질적인 문제 해결 능력은 변함없다고 인식한다.
-
대화 주제와 개인화 효과: 감정‑중심 대화는 초기 몰입도와 호감도를 약간 상승시켰지만, 역시 빠른 탈감작을 보였으며, ‘helpfulness’는 오히려 감소했다. 개인화(메모리 사용 여부)는 주요 결과에 유의미한 영향을 미치지 않았다.
-
정신사회적 건강에 대한 장기 효과 부재: 4주간의 고노출에도 불구하고 우울·불안·사회적 고립 등 심리적 복지 지표에 유의미한 개선이 없었다. 이는 관계‑추구 AI가 단기적인 ‘보상’은 제공하지만, 인간 관계가 제공하는 ‘영양’(정서적 지지, 성장)에는 미치지 못한다는 결론을 뒷받침한다.
-
AI 인식 변화: 실험 종료 시 참가자들은 AI를 ‘도구’보다 ‘친구’에 가깝게 인식했으며, AI의 의식 존재 가능성에 대한 믿음이 상승했다. 이는 인간‑AI 경계가 흐려지는 사회적 함의를 가진다.
전반적으로 이 연구는 신경 스티어링 벡터라는 메커니즘적 개입을 통해 AI 행동을 정량적·연속적으로 조절하고, 약물학적 ‘용량‑반응’ 프레임을 인간‑AI 상호작용에 적용한 최초 사례라 할 수 있다. 결과는 AI 설계 시 단기적인 사용자 만족도에만 초점을 맞추는 것이 장기적인 정신건강에 부정적 영향을 초래할 수 있음을 경고한다.
댓글 및 학술 토론
Loading comments...
의견 남기기