다중모달 도덕 스케일: 스칼라 판단과 리스트형 정렬을 통한 VLM 정렬

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MM‑SCALE은 5점 스칼라 도덕 평점과 텍스트·이미지·양쪽 근거 라벨을 포함한 32 212개의 이미지‑시나리오 쌍을 제공한다. 인간 주석자는 각 시나리오에 대해 도덕 수용성을 1‑5로 평가하고, 판단이 텍스트, 이미지, 혹은 둘 모두에 기반했는지를 표시한다. 리스트형(ListMLE) 선호 최적화를 적용해 VLM을 미세조정하면, 기존의 이진·쌍별 학습보다 순위 일관성과 안전 캘리브레이션이 크게 향상된다.

상세 분석

MM‑SCALE은 기존 멀티모달 안전·도덕 벤치마크가 갖는 두 가지 근본적 한계를 극복한다. 첫째, 기존 데이터셋은 대부분 이진 라벨(안전/비안전)이나 두 모델 응답 간의 쌍별 선호만을 제공한다. 이는 인간 도덕 판단이 상황에 따라 연속적인 스칼라 값을 갖는다는 사실을 무시한다. MM‑SCALE은 5점 척도의 스칼라 평점을 도입해 미세한 차이를 학습 신호로 활용한다. 둘째, 기존 데이터는 ‘텍스트 기반’인지 ‘이미지 기반’인지 구분하지 않아, 멀티모달 모델이 어느 모달리티에 주목해야 하는지에 대한 명시적 지도학습이 불가능했다. MM‑SCALE은 각 평점에 ‘텍스트’, ‘이미지’, ‘양쪽’ 중 하나의 근거 라벨을 부착함으로써, 모델이 시각적 단서와 언어적 단서를 적절히 결합하도록 유도한다.

데이터 구축 파이프라인은 크게 세 단계로 구성된다. (1) Commonsense NormBank에서 사회 규범 상황을 추출하고, 이를 텍스트‑투‑이미지 모델(Stable Diffusion v1.5, DALL·E 3)으로 시각화한다. (2) 인간 주석자는 동일 이미지에 대해 3~4개의 변형 시나리오를 생성하고, 각 시나리오에 대해 1‑5 점 스칼라 점수와 근거 모달리티 라벨을 부여한다. (3) 모델‑인‑루프 인터페이스(MORAL‑E)를 통해 모델 예측과 인간 판단 사이의 차이를 자동으로 감지하고, 차이가 1점 이상일 경우 재검증 및 추가 시나리오 생성을 유도한다. 이 과정에서 Krippendorff’s α가 0.74(스칼라)와 0.71(모달리티)로 높은 일관성을 보이며, 68 % 이상의 시나리오가 이미지 혹은 이미지+텍스트에 의해 판단이 변함을 확인했다.

학습에서는 리스트형 선호 최적화인 ListMLE를 사용해 전체 시나리오 순위를 직접 학습한다. 이는 기존의 쌍별 로스나 RLHF 방식보다 적은 라벨로도 순위 정보를 풍부하게 활용한다는 장점이 있다. 실험 결과, MM‑SCALE로 미세조정된 CLIP‑B/ViT‑G 기반 VLM은 NDCG@5, Kendall’s τ, 그리고 Unsafe Rate 등 다중 지표에서 기존 이진·쌍별 학습 모델보다 평균 6 %~12 % 향상을 보였다. 특히, 동일 이미지 내 여러 시나리오에 대한 순위 일관성이 크게 개선돼, 모델이 상황적 맥락을 더 잘 파악함을 입증한다. 또한, 합성 이미지와 실제 이미지(Visual Genome) 간 성능 차이가 Δ≤0.02에 불과해, 데이터가 생성 이미지에 편향되지 않았음을 시사한다.

한계점으로는 (1) 이미지 생성에 사용된 텍스트‑투‑이미지 모델의 편향이 여전히 일부 라벨에 영향을 미칠 수 있다는 점, (2) 스칼라 라벨이 1‑5라는 제한된 해상도 때문에 극히 미세한 차이를 포착하기엔 부족할 수 있다는 점, (3) 현재는 주로 서구 문화권의 규범을 기반으로 했으므로 문화적 다양성 확보가 필요하다는 점을 들 수 있다. 향후 연구에서는 다문화·다언어 규범을 포함한 확장, 라벨 해상도 확대(예: 10점 척도), 그리고 라벨링 비용을 낮추는 자동화된 프롬프트 생성 기법을 탐색할 여지가 있다.

다중모달 도덕 스케일: 스칼라 판단과 리스트형 정렬을 통한 VLM 정렬

초록

상세 분석

댓글 및 학술 토론

의견 남기기