시각‑언어 모델로 이미지 감정 예측: 효과와 한계
초록
본 연구는 최신 비전‑언어 모델 9종을 IAPS, NAPS, LAI‑GAI 등 심리학적 검증을 거친 이미지 데이터셋에 적용해, 인간이 부여한 감정 라벨과 연속적 평점과의 일치도를 평가한다. 제로샷 설정에서 감정 분류 정확도는 60 %‑80 % 수준이며, 연속 평점의 상관계수는 r > 0.75에 달한다. 그러나 각성(arousal) 예측이 약하고, 분노·놀람 등 특정 감정에 편향이 존재한다. 인구통계 메타데이터를 활용한 rater‑conditioned 프롬프트는 예측 개선에 미미한 영향을 미쳤다.
상세 분석
이 논문은 비전‑언어 모델(VLM)이 인간의 감정 평가와 얼마나 일치하는지를 체계적으로 검증한 최초의 대규모 벤치마크 중 하나이다. 모델 선정은 최신 상용 모델(GPT‑4.1, Gemini‑2.5‑Flash)과 오픈소스 모델(예: CLIP‑ViT‑L/14, BLIP‑2 등) 총 9종으로, 모두 zero‑shot 프롬프트만을 사용해 사전 학습된 파라미터를 그대로 활용하였다. 평가 데이터는 심리학 분야에서 표준으로 사용되는 IAPS(692 이미지), NAPS(504 이미지), 그리고 AI‑생성 이미지 라이브러리인 LAI‑GAI(480 이미지)로 구성돼, 각각 6‑12개의 이산 감정 라벨과 valence·arousal 등 연속 차원을 포함한다.
Task 1에서는 각 이미지에 대해 인간 평균 평점이 가장 높은 감정을 하나 선택하도록 모델에 요청했으며, 온도 0.0, 시드 42로 deterministic 출력을 강제했다. 결과는 6가지 감정(anger, disgust, fear, happiness, sadness, surprise) 기준 60 %‑80 %의 정확도를 보였으며, 12가지 감정 확장에서도 60 %‑75 % 수준을 유지했다. 특히 분노와 놀람은 모든 모델에서 일관되게 낮은 정확도를 보였는데, 이는 해당 감정이 시각적 단서보다 맥락적·문화적 요소에 크게 의존한다는 점을 시사한다.
Task 2에서는 인간이 사용한 Likert 스케일(1‑7 또는 1‑9)에 맞춰 정수형 평점을 직접 출력하도록 설계했다. n‑sampling = 50, 온도 = 0.5, 시드 = 42를 적용해 모델 출력의 평균을 인간 평균 평점과 비교했으며, Pearson r이 0.75 ~ 0.88 사이로 나타났다. 그러나 arousal 차원에서는 r이 0.60 ~ 0.68로 다른 차원에 비해 현저히 낮았으며, 전반적으로 모델이 감정 강도를 과대평가하는 경향이 관찰되었다. 이는 VLM이 이미지의 시각적 자극을 감정 강도와 직접 매핑하기보다 “감정적” 텍스트를 생성하는 데 최적화돼 있기 때문일 가능성이 있다.
Task 3은 LAI‑GAI 데이터에만 적용 가능한 rater‑conditioned 프롬프트 실험이다. 연령, 성별, 국가, 초기 감정 상태 등 탈식별화된 메타데이터를 프롬프트에 삽입해 개별 인간 평점과 모델 예측을 매칭시켰다. 결과는 평균적으로 1 ~ 3 %포인트 수준의 정확도 향상에 그쳤으며, 통계적으로 유의미한 차이는 거의 없었다. 이는 현재 VLM이 메타데이터를 효과적으로 활용해 개인화된 감정 추론을 수행하기 위한 구조적 한계가 있음을 보여준다.
전체적으로 모델들은 “감정의 큰 흐름”을 포착하는 데는 성공했지만, 미세한 차이와 문화·맥락 의존성을 반영하는 데는 부족하다. 특히 arousal와 같은 차원적 특성, 그리고 분노·놀람 같은 부정적 감정에 대한 편향은 실용적 응용(예: 정신건강 챗봇, 감정 기반 콘텐츠 필터링)에서 신뢰성을 저해할 수 있다. 향후 연구는 (1) 프롬프트 엔지니어링을 통한 감정‑특화 지시어 설계, (2) 멀티모달 어텐션 메커니즘을 감정 레이블에 맞게 재조정, (3) 대규모 인간‑모델 상호작용 데이터를 활용한 미세 튜닝 등을 통해 정밀도를 높이는 방향으로 진행되어야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기