인간 행동 아틀라스: 심리·사회 행동 이해를 위한 통합 벤치마크
초록
본 논문은 텍스트·음성·영상 3가지 모달리티를 아우르는 10만 개 이상의 샘플로 구성된 “Human Behavior Atlas”를 제시한다. 정서, 인지, 병리, 사회 과정 등 네 가지 행동 차원을 정의하고, 13개 공개 데이터셋을 통일된 프롬프트‑타깃 형식과 평가 지표로 정규화한다. 이를 기반으로 7B 파라미터 규모의 Omnisapiens 모델 3종(SFT, BAM, RL)을 학습시켜 기존 멀티모달 LLM을 전반적으로 능가함을 보이며, 사전학습이 새로운 행동 데이터셋에 대한 전이 성능을 크게 향상시킴을 입증한다.
상세 분석
Human Behavior Atlas는 심리·사회 행동 연구에서 가장 큰 걸림돌 중 하나였던 데이터·태스크의 파편화를 근본적으로 해결한다는 점에서 의의가 크다. 먼저 저자들은 ‘정서(Affective)’, ‘인지(Cognitive)’, ‘병리(Pathology)’, ‘사회(Social)’라는 네 축을 기반으로 행동 차원을 체계화하고, 이 차원에 맞는 13개의 공개 멀티모달 데이터셋을 선정하였다. 각 데이터셋은 원래 비디오·오디오·텍스트 등 다양한 입력 형식을 가지고 있었지만, 논문에서는 모든 샘플을 “
데이터 규모는 101,964개의 샘플(비디오 35,046개, 오디오 10,287개, 텍스트 25,385개)로, 기존 단일 도메인 데이터셋보다 10배 이상 크며, 83.6%가 비디오를 포함한다는 점에서 시각·청각 정보를 활용한 행동 이해에 최적화돼 있다. 또한 MediaPipe와 OpenSMILE을 이용해 행동 디스크립터(얼굴 행동, 음성 특징 등)를 추출, 이를 ‘Behavioral Adapter Module(BAM)’이라는 잔차형 어댑터에 입력함으로써 모델이 저차원 신호를 효과적으로 활용하도록 설계했다.
세 가지 모델 변형은 각각 다른 학습 전략을 적용한다. Omnisapiens‑7B SFT는 단순 지도학습으로 전체 데이터셋을 fine‑tune하고, Omnisapiens‑7B BAM은 SFT 모델에 행동 디스크립터를 residual 방식으로 결합해 특정 태스크(예: 감정 인식, 병리 진단)에서 평균 2~4%p의 성능 향상을 달성했다. 마지막으로 Omnisapiens‑7B RL은 GRPO 기반 강화학습을 도입해 LLM‑judge 평가에서 텍스트‑응답 정확도를 높였으며, 특히 ‘IntentQA’와 ‘MimeQA’ 같은 생성형 태스크에서 기존 멀티모달 LLM 대비 6%p 이상의 개선을 보였다.
전이 학습 실험에서도 Human Behavior Atlas 사전학습이 큰 효과를 발휘한다. 저자들은 별도 수집한 ‘MMPsy’(우울·불안)와 ‘PTSD‑in‑the‑Wild’ 데이터에 대해 0‑shot 및 few‑shot 설정으로 평가했으며, 사전학습된 모델이 비학습 모델 대비 평균 8%p 이상의 F1 점수 상승을 기록했다. 이는 행동 디스크립터와 통합된 멀티모달 표현이 일반화 능력을 크게 강화한다는 증거다.
한계점으로는 데이터 편향(주로 서구·북미 중심)과 라벨링 일관성 문제가 남아 있다. 또한 7B 규모 모델은 실제 현업 적용 시 연산 비용이 높아, 경량화 및 효율적인 추론 기법이 필요하다. 그럼에도 불구하고, 이 벤치마크는 행동 과학과 AI가 교차하는 연구에 표준화된 토대를 제공하며, 향후 대규모 행동 이해 모델 개발을 가속화할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기