인터뷰 음성 특성으로 면접자의 태도와 몸짓 예측하기
본 연구는 인터뷰 중 대화 주제가 음성의 비언어적 특성에 미치는 영향을 분석하고, 이러한 음성 지표만으로 면접자의 자기보고식 태도와 관찰된 몸짓을 예측할 수 있는지를 검증한다. 세 가지 주제(자기소개, 업무일과, 위험 상황 가정)에서 수집된 69명의 여성 직원 인터뷰 297개 샘플을 대상으로 20여 개의 음성 특징(프로소디, 음질, 스펙트럼/MFCC)을 추출하였다. 통계적으로 주제 전환에 따라 여러 음성 파라미터가 유의하게 변했으나, 주제에 관…
저자: Yosef Solewicz (1), Chagay Orenshtein (2), Avital Friedl
**연구 배경 및 목적**
인간의 감정·태도는 시각·청각·생리적 신호 등 다중 모달리티를 통해 전달된다. 기존 연구는 시각(얼굴 표정, 몸짓)과 청각(음성) 정보를 결합하면 감정 인식 정확도가 높아진다고 보고했지만, 실제 인터뷰와 같이 한 채널만 이용 가능한 상황에 대한 체계적 분석은 부족했다. 본 연구는 인터뷰 중 대화 주제가 음성의 비언어적 특성에 미치는 영향을 조사하고, 이러한 음성 특성만으로 면접자의 자기보고식 태도와 관찰된 몸짓을 예측할 수 있는지를 검증한다.
**데이터 수집 및 전처리**
- 대상: 이스라엘 저소득 가정 보육원에서 근무하는 여성 직원 69명(평균 연령 45세)
- 인터뷰: 각 참가자는 3개의 주제(자기소개, 업무일과, 위험 상황 가정)로 1분씩 말하도록 지시받았다.
- 총 297개의 1분 녹음(99명 × 3주제) 중 품질이 낮은 녹음과 부정확한 설문을 제외하고 69명의 완전 데이터만 분석에 사용하였다.
- 음성 파일은 mp3→wav 변환 후 11 kHz로 다운샘플링하고, 자동 음소 인식기를 이용해 모음만을 추출했다. 가장 긴 절반의 모음은 ‘강세 모음’으로 정의하고, 80 ms(프로소디·음질)와 40 ms(스펙트럼) 윈도우를 적용해 특징을 계산하였다.
**음성 특징 설계**
총 26개의 특징을 세 그룹으로 구분하였다.
- **프로소디(P)**: 모음 비율, 평균·표준편차 pause, 리듬, 모음 길이·강도·F0 통계 등 9개
- **음질(Q)**: 하모닉-노이즈 비율, jitter, shimmer 및 파생 지표 6개
- **스펙트럼/CEP(S)**: 3개의 포먼트(F1‑F3, B1‑B3)와 8개의 MFCC 평균값, 총 11개
**주제별 음성 변화 분석**
통계적으로 paired‑t와 Wilcoxon 검정을 모두 적용해 주제 전환 간 차이를 검증하였다. 대부분의 프로소디와 스펙트럼 특성은 일관된 방향(증가 혹은 감소)으로 변했으며, 특히 ‘총 모음 비율’, ‘리듬’, ‘F0 평균·표준편차’가 강하게 변했다. 반면 음질 지표(jitter, shimmer)는 주제에 따라 방향이 상이해 정서적 미묘함을 포착하는 데 민감함을 보여준다. 코사인 유사도 분석을 통해 Topic 1→2와 Topic 1→3 전이의 음성 변동이 높은 유사성을 보였으며, Topic 2→3 전이는 상대적으로 낮은 유사도를 나타냈다.
**태도·몸짓 예측 모델**
면접관과 면접자가 각각 7점 척도로 평가한 ‘전면 몸짓’, ‘반응성’, ‘신뢰감’ 등 10여 개의 태도·몸짓 항목을 목표 변수로 설정하였다. 회귀·분류 모델(선형 회귀, SVM, 랜덤 포레스트 등)을 사용해 5‑fold 교차검증을 수행했으며, 훈련·테스트 데이터를 서로 다른 주제(예: Topic 1 훈련, Topic 2 테스트)로 교차시켰다. 결과는 주제에 관계없이 평균 R²≈0.45, 정확도≈70% 수준으로, 주제별 차이가 미미함을 확인했다. 이는 음성 특성이 ‘내재적 중복성(redundancy)’을 가지고 있어, 특정 상황에 국한되지 않고 일관된 비언어적 신호를 제공한다는 가설을 뒷받침한다.
**의의, 한계 및 향후 연구**
본 연구는 음성만으로도 인터뷰 대상자의 비언어적 태도와 몸짓을 어느 정도 추정할 수 있음을 실증적으로 보여준다. 이는 전화 인터뷰, 원격 채용, 혹은 시각 정보가 제한된 상황에서 자동화된 평가 시스템 설계에 직접적인 활용 가능성을 제시한다. 그러나 표본이 여성 직원으로 제한돼 성별·연령·문화적 다양성을 반영하지 못한다는 한계가 있다. 또한, ‘위험 상황’이라는 주제가 실제 감정(공포·불안)과 정확히 일치하는지는 검증되지 않았다. 향후 연구에서는 멀티모달 융합(음성 + 시각) 모델을 구축하고, 실시간 스트리밍 환경에서 짧은 윈도우 기반 특징 추출 및 연속 예측을 시도하며, 다양한 인구통계학적 배경과 다국어 환경에서 일반화를 검증할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기