스마트폰 센서로 보는 성격 예측: 머신러닝 기반 빅파이브 인사이트

본 연구는 iPhone 가속도계 데이터를 활용해 144명의 LSE 학생에게서 추출한 83개의 행동 특성을 머신러닝(Random Forest, XGBoost)으로 분석하였다. 이진 분류에서는 외향성 예측에서 F1 = 0.78까지 도달했으며, 다중 클래스에서는 개방성 예측에서 F1 = 0.47을 기록했다. 특징 중요도 분석을 통해 정지 시간, 야외 이동, 계단 이용, 수면 패턴 등이 각각의 빅파이브 요인과 연관됨을 확인하였다.

저자: Wun Yung Shaney Sze, Maryglen Pearl Herrero, Roger Garriga

스마트폰 센서로 보는 성격 예측: 머신러닝 기반 빅파이브 인사이트
본 논문은 “스마트폰 센서로 보는 성격 예측: 머신러닝 기반 빅파이브 인사이트”라는 제목 아래, 모바일 센서를 이용해 개인의 성격을 설문 없이 추정할 수 있는 가능성을 탐구한다. 연구 배경으로는 기존 심리학에서 빅파이브(외향성, 친화성, 성실성, 신경증, 개방성) 모델이 널리 사용되지만, 설문 방식은 시간·비용이 많이 들고 응답 편향이 존재한다는 점을 들었다. 최근 디지털 행동 흔적이 심리적 특성을 반영한다는 연구가 늘어나면서, 스마트폰의 가속도계와 위치 기반 데이터가 새로운 측정 도구로 주목받고 있다. 데이터는 2021년 3월부터 5월까지 144명의 런던경제대학(LSE) 학생으로부터 iPhone을 통해 수집된 3,282개의 이벤트(활동 기록)와 일일 거리·계단·수면 추정치를 포함한다. 각 이벤트는 정지, 걷기, 달리기, 사이클링, 운전 등 5가지 활동 라벨이 부여돼 있다. 참가자들은 또한 50문항으로 구성된 빅파이브 인벤토리(BFI)를 작성했으며, 이 설문 점수를 기반으로 각 성격 요인의 연속형 점수를 얻었다. 특징 추출 과정은 다음과 같다. 먼저 달리기·사이클링을 합친 ‘신체 활동’ 라벨과 나머지를 ‘비신체 활동’ 라벨로 재구성했다. 이후 일별로 각 활동별 총 시간, 발생 횟수, 거리, 계단 수, 추정 수면 시간 등을 집계하고, 이를 주중·주말으로 구분해 평균값을 계산했다. 최종적으로 83개의 피처가 생성되었다. 차원 축소를 위해 재귀적 피처 제거(RFE‑CV)를 적용했으며, Random Forest와 XGBoost 각각에 대해 별도로 최적 피처 집합을 선정했다. 목표 변수는 두 가지 형태로 변환되었다. 이진 분류는 각 성격 점수의 50 % 분위수를 기준으로 상위·하위 그룹을 라벨링했고, 다중 클래스는 33 %·67 % 분위수를 이용해 하위·중간·상위 세 그룹으로 나누었다. 이러한 라벨링은 기존 연구(Lima & de Castro, 2014; Teli & Chachoo, 2023)와 일관된다. 모델링에서는 Random Forest와 XGBoost 두 가지 트리 기반 알고리즘을 선택했다. 트리 모델은 표형 데이터에서 높은 해석 가능성과 성능을 제공한다는 점을 근거로 삼았다. 모델 학습은 stratified k‑fold 교차검증을 통해 수행했으며, 클래스 불균형을 완화하기 위해 층화 방식을 적용했다. 하이퍼파라미터 튜닝은 베이지안 최적화를 사용해 F1 점수를 최적화하도록 설계했다. 성능 결과는 표 1에 요약된다. 이진 분류에서는 외향성 예측에서 가장 높은 F1 = 0.78을 기록했으며, 전체 평균은 0.56~0.78 사이였다. Random Forest가 외향성·친화성·신경증에서, XGBoost가 성실성·개방성에서 우수한 성능을 보였다. 반면 3‑클래스 다중 분류에서는 전체적으로 낮은 점수(0.25~0.47)이며, 가장 높은 점수는 개방성(F1 = 0.47)이다. 이는 라벨링 구간이 좁아질수록 모델이 구분하기 어려워지는 현상을 반영한다. 특징 중요도 분석은 각 성격 요인별 상위 3개 피처를 도출했다. 외향성은 ‘정지 시간 감소’와 ‘자동차·달리기·사이클링 등 야외 활동 비중 증가’가 핵심이었다. 친화성은 ‘계단 오르내림 횟수’, ‘평균 활동 속도’, ‘누적 걸음 수’와 연관되었다. 성실성은 ‘주말 수면 시간’, ‘주말 사이클링·걸음 수’가 중요한 예측 변수였으며, 이는 규칙적인 생활 습관과 연관된 것으로 해석된다. 신경증은 ‘주중 계단 이용’, ‘이동 거리’, ‘신체 활동 지속 시간’이 주요 피처였으며, 스트레스 관리와 일상 변동성에 대한 반응을 시사한다. 개방성은 ‘전체 수면량’과 ‘주말 사이클링 빈도’가 핵심으로, 새로운 경험을 추구하는 성향과 연관된 것으로 보인다. 연구는 또한 LSE 학생 집단이 일반 영국 인구와 비교해 개방성·친화성이 높고 신경증이 낮다는 점을 BBC 빅파이브 테스트와 비교해 제시했다. 이는 표본 특성이 결과에 미치는 영향을 강조한다. 한계점으로는 (1) 표본 규모와 구성(학생 144명)으로 인한 일반화 가능성 제한, (2) iPhone 가속도계와 거리·계단 정보만 사용해 다른 디지털 흔적(통화·앱 사용·소셜 미디어)과의 통합 미비, (3) 분위수 기반 라벨링이 연속형 성격 점수의 미묘한 차이를 손실, (4) 피처 선택이 교차검증 내부에서 수행되지 않을 경우 발생할 수 있는 데이터 누수, (5) 개인정보 보호와 윤리적 문제(동의 없이 행동 데이터로 성격 추론) 등이 있다. 결론적으로, 본 연구는 스마트폰 센서 데이터와 머신러닝을 결합해 빅파이브 성격 요인을 예측할 수 있음을 실증했으며, 특히 행동 기반 피처가 심리학적 이론과 일치한다는 점에서 의미가 크다. 향후 연구는 (①) 더 큰 규모와 다양한 문화권 표본, (②) 통화·앱·소셜 미디어 등 다중모달 데이터 통합, (③) 연속형 회귀 모델 및 딥러닝 기반 시계열 분석, (④) 프라이버시‑보호 기술(예: 차등 개인정보 보호) 적용, (⑤) 실제 서비스 적용 시 윤리적 가이드라인 마련 등을 통해 연구를 확장할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기