거짓말 탐지를 위한 다중모달 기계학습: 스웨덴 집단의 dyadic 상호작용 연구
초록
본 연구는 스웨덴어 원어민을 대상으로 한 dyadic 대화에서, 말하는 사람과 듣는 사람 양측의 음성·영상 데이터를 결합한 다중모달 머신러닝 모델을 적용해 거짓말을 탐지한다. Early fusion과 Late fusion 방식을 비교했으며, Action Units와 시선 정보를 포함한 영상과 음성 특징을 모두 활용했을 때 가장 높은 정확도(71%)를 기록했다. 특히 양측 데이터를 동시에 이용한 Late fusion이 가장 효과적이었다는 점이 주요 결과이다.
상세 분석
이 논문은 기존의 단일 화자 혹은 단일 모달리티 기반 거짓말 탐지 연구와 달리, dyadic 상호작용에서 ‘보내는 사람(Deceiver)’과 ‘받는 사람(Deceived)’ 양쪽의 데이터를 동시에 활용한다는 점에서 혁신적이다. 데이터는 스웨덴어 원어민 80쌍(총 160명)으로 구성됐으며, 각 쌍은 감정적으로 의미 있는 주제에 대해 진실 혹은 거짓을 말하도록 설계되었다. 영상에서는 OpenFace를 이용해 17개의 Facial Action Units와 시선 좌표를 추출했으며, 음성에서는 MFCC, 피치, 에너지 등 13개의 저수준 특징을 추출했다.
모델링 단계에서는 세 가지 융합 전략을 실험했다. Early fusion은 모든 모달리티의 특징을 사전 정규화 후 하나의 벡터로 결합해 SVM, Random Forest, XGBoost 등 전통적 분류기에 입력하였다. Late fusion은 각 모달리티·각 화자별로 별도의 분류기를 학습시킨 뒤, 그 예측값을 메타‑분류기(다중 클래스 로지스틱 회귀)로 결합했다. Joint fusion은 두 모달리티를 각각 별도 CNN‑LSTM 스트림에 입력하고, 중간 레이어에서 결합하는 구조를 사용했지만, 과적합 위험과 연산 복잡도 때문에 성능이 다소 낮았다.
실험 결과는 다음과 같다. 단일 모달리티(음성만 혹은 영상만)에서는 평균 정확도가 58~63%에 머물렀다. 두 모달리티를 결합한 Early fusion은 66% 수준을 보였으며, Late fusion은 71%로 가장 높은 성능을 기록했다. 특히 ‘양측 데이터 포함’ 여부가 성능에 큰 영향을 미쳤는데, 화자 하나만 사용할 경우 Late fusion 정확도가 64%에 그쳤다. 이는 Interpersonal Deception Theory(IDT)가 제시하는 바와 같이, 거짓말을 하는 사람은 상대방의 반응을 모니터링하고 조절한다는 심리학적 가설을 실증적으로 뒷받침한다.
또한, 특징 중요도 분석을 통해 AU17(턱 올림)과 AU20(입술 스트레처) 같은 특정 얼굴 움직임이 거짓말과 강하게 연관됨을 확인했으며, 음성에서는 초반 피치 변동과 말 속도 감소가 주요 신호로 작용했다. 시선 데이터는 특히 ‘시선 고정 지속 시간’이 진실과 거짓을 구분하는 데 유의미한 정보를 제공했다.
한계점으로는 데이터 규모가 비교적 작아 일반화에 제약이 있으며, 실험 환경이 실험실 기반이므로 실제 상담 현장과는 차이가 있을 수 있다. 또한, 문화적 특성이 스웨덴어 화자에 국한돼 있어 다른 언어·문화권에 대한 적용 가능성은 추가 연구가 필요하다.
향후 연구 방향으로는 (1) 고차원 시계열 모델(LSTM, Transformer) 적용을 통한 시간적 상관관계 강화, (2) 심리생리학적 신호(심박수, 피부 전도도)와의 멀티모달 통합, (3) 실제 심리치료 세션에서의 실시간 거짓말 탐지 시스템 구현 등이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기