인간‑로봇 상호작용에서 윤리 비대칭 가설 검증: 스패로우 가설의 실증적 평가
초록
본 연구는 스패로우가 제시한 “윤리 비대칭” 가설을 검증하기 위해, 인간이 로봇에게 가하는 행동의 도덕적 허용성(MPA)을 조작하고, 네 가지 기본 덕목(신중, 정의, 용기, 절제)에 대한 인지된 덕점(PVS)을 측정하였다. 온라인 설문을 통해 146명의 미국 성인 참가자를 대상으로 혼합 설계 실험을 수행했으며, MPA가 도덕적 허용성(PMPA)과 인지된 덕점 모두에 유의한 영향을 미침을 확인했다. 그러나 PMP A와 PVS 사이의 관계는 대칭적인 3차식 모델이 가장 적합했으며, 비대칭 가설은 지지되지 않았다.
상세 분석
이 논문은 인간‑로봇 상호작용(HRI) 분야에서 윤리적 판단이 어떻게 형성되는지를 탐구하기 위해, 기존 윤리학 이론(의무론, 결과주의, 덕윤리) 중 덕윤리를 중심으로 연구 설계를 구성하였다. 핵심 가설은 스패로우가 제시한 “윤리 비대칭”으로, 부정적 행동(예: 로봇을 때리는 행위)에 대한 비난이 동일한 정도의 긍정적 행동(예: 로봇을 쓰다듬는 행위)에 대한 찬양보다 과도하게 강하다는 주장이다. 이를 검증하기 위해 연구자는 두 차원의 측정 도구를 자체 개발·수정하였다. 첫째, 네 가지 기본 덕목을 평가하기 위해 기존의 ‘Questionnaire on Cardinal Virtues(QCV)’를 선택하고, 각 덕목당 6문항(10점 Likert)으로 구성한 인지된 덕점(PVS) 척도를 만들었다. 신뢰도 분석 결과, 모든 하위 척도에서 Cronbach’s α와 McDonald ω가 0.94 이상으로 매우 높아 측정 타당성이 확보되었다. 둘째, 행동의 도덕적 허용성을 평가하기 위해 Malle et al.의 도구를 기반으로 3문항(10점 Likert)으로 구성한 인지된 도덕 허용성(PMPA) 척도를 도입하였다.
실험은 10개의 MPA 수준(1~10점)으로 구분된 그룹 간 설계와, 네 가지 덕목을 각각 within‑subject 요인으로 조합한 혼합 설계(mixed within/between)로 진행되었다. 총 40개의 시나리오(각 덕목당 10개)를 텍스트 기반 vignette 형태로 제작했으며, 기존 인간‑인간 상호작용 vignette를 로봇 상황에 맞게 변형하고, 추가 21개를 새로 작성하였다. 각 vignette는 사전 파일럿 테스트를 통해 MPA 점수가 고르게 분포하도록 조정되었다.
통계 분석에서는 먼저 MPA가 PMP A와 PVS에 미치는 주효과를 확인했으며, 이는 모두 p < .001 수준에서 유의했다. 이어서 PMP A와 PVS 간의 관계를 탐색하기 위해 선형, 2차, 3차 회귀 모델을 비교했으며, 결정계수(R²)와 AIC 기준에서 3차(큐빅) 모델이 가장 적합함을 발견했다. 중요한 점은 이 3차 모델이 대칭적인 형태를 띠어, 긍정적·부정적 행동에 대한 덕점 변화가 동일한 비율로 나타났다는 것이다. 따라서 스패로우가 예상한 “비대칭”—즉, 부정적 행동에 대한 비난이 과도하게 강하고 긍정적 행동에 대한 찬양은 약하게 나타나는 현상—은 실증적으로 지지되지 않았다.
연구는 몇 가지 제한점을 인정한다. 첫째, 참가자를 미국 내 영어 원어민으로 제한함으로써 문화적 일반화에 한계가 있다. 둘째, vignette 기반 설계는 실제 로봇과의 물리적 상호작용을 대체하지 못하므로, 행동의 감정적 강도가 실제 상황보다 낮을 가능성이 있다. 셋째, PVS와 PMP A 모두 자기보고식 척도이므로 사회적 바람직성 편향이 존재할 수 있다. 마지막으로, 비대칭 가설을 검증하기 위해서는 부정적·긍정적 행동의 “동등한 도덕적 무게”를 정량화하는 보다 정교한 매개변수가 필요하다.
그럼에도 불구하고, 본 연구는 HRI 윤리 연구에 실증적 도구를 제공한다는 점에서 의미가 크다. 특히 QCV 기반 PVS 척도의 적응본은 향후 로봇 윤리 연구에서 덕목별 평가를 표준화하는 데 활용될 수 있다. 또한, 비대칭 가설이 부정확함을 밝혀낸 것은 윤리적 판단이 기본적인 부정·긍정 편향보다 보다 균형적인 인지 과정을 거친다는 새로운 시각을 제시한다. 향후 연구는 실제 로봇을 이용한 행동 실험, 문화 간 비교, 그리고 감정적 반응(예: 피부전도, 뇌파)과 같은 생리적 지표를 결합함으로써 현재의 설문 기반 결과를 보완할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기