SITUATE: 공간 제약을 고려한 합성 객체 카운팅 데이터셋

SITUATE: 공간 제약을 고려한 합성 객체 카운팅 데이터셋
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SITUATE는 Blender와 BlenderProc을 이용해 4가지 기본 도형(큐브, 구, 원뿔, 실린더)과 색상, 위치 정보를 조합한 3D 렌더링 이미지와 질문‑답변 쌍을 제공한다. 0‑15개의 객체가 배치된 장면을 5가지 카메라 각도에서 촬영해 총 23 252개의 이미지‑질문‑정답 트리플을 만든다. 데이터는 색상·형태·위치·복합·대항 질문 등 6가지 유형으로 구성되며, 색 대비 검증(ΔE)과 겹침 방지를 위한 격자 배치를 적용한다. Qwen VL 2.5 7B를 SITUATE로 파인튜닝한 결과, Pixmo Count 테스트에서 정확도가 상승했지만 반대 방향(픽셀 데이터→SITUATE)에서는 향상이 없었다. 이는 SITUATE가 공간·색상 제약을 학습시키는 데 특화된 데이터임을 시사한다.

상세 분석

본 논문은 VLM(Vision‑Language Model)의 정량적 추론, 특히 객체 카운팅과 공간 관계 이해에 대한 한계를 짚고, 이를 보완하기 위한 합성 데이터셋 SITUATE를 제안한다. 기존 데이터셋인 VLMCountBench은 2D 그래픽에 국한되고, TallyQA·Pixmo Count은 실제 사진 기반이지만 occlusion·배경·질문 설계가 불명확해 학습 신호가 잡음에 취약하다. SITUATE는 이러한 문제를 해결하기 위해 다음과 같은 설계 원칙을 채택했다.

  1. 합성 3D 렌더링: Blender와 BlenderProc 파이프라인을 활용해 물리적으로 일관된 조명·재질·배경을 자동 생성한다. 이는 데이터 품질을 일관되게 유지하면서 대규모 생성이 가능하도록 한다.

  2. 공간 제약 제어: 테이블 위에 객체를 배치하고, X‑축을 균등한 bin으로 나눈 뒤 각 bin에 하나씩 객체를 할당한다. 이를 통해 객체 간 겹침을 최소화하고, ‘under’, ‘on top of’, ‘in front of’ 등 명시적인 위치 관계를 강제한다.

  3. 색 대비 검증: 객체와 배경의 Lab 색공간 ΔE 값을 계산해 12.5 이하인 경우 재질·조명을 재조정한다. 이는 인간 시각과 유사한 색 대비 기준을 적용해 모델이 객체를 명확히 구분하도록 돕는다.

  4. 다양한 질문 유형: 색상, 형태, 위치, 복합(색+형태+위치), 객체 전체 카운트, 그리고 존재하지 않는 객체를 묻는 대항 질문을 각각 템플릿 기반으로 생성한다. 질문 템플릿은 ‘short’, ‘numeric’, ‘verbose’ 등 3가지 답변 형식을 제공해 모델이 다양한 출력 스타일에 적응하도록 설계되었다.

  5. 데이터 규모와 균형: 총 23 252개의 이미지‑질문‑답변 트리플을 5가지 카메라 시점에서 6 875장의 이미지로 확장했으며, 0‑15 객체 수를 골고루 배치해 클래스 불균형을 완화했다. 또한, Pixmo Count와 동일한 수량·분포를 갖는 서브셋을 별도로 추출해 교차 실험에 활용했다.

실험에서는 Qwen VL 2.5 7B 모델을 LoRA(랭크 16, α = 32) 방식으로 파인튜닝했으며, Verbose, Non‑verbose, Pixmo‑Sub, Mixed 네 가지 변형을 비교했다. 주요 결과는 다음과 같다.

  • SITUATE 파인튜닝 → Pixmo Count 테스트: 정확도가 유의미하게 상승(약 +7 %p)했으며, 특히 6‑15 객체 구간에서 큰 개선을 보였다. 이는 SITUATE가 고차원 공간·색상 제약을 학습시켜 일반화 능력을 강화함을 의미한다.
  • Pixmo Count 파인튜닝 → SITUATE 테스트: 정확도 향상이 미미하거나 오히려 감소했다. Pixmo Count는 실제 사진 기반이지만 배경·조명·객체 배치가 무작위이며, 공간 제약이 약해 SITUATE의 구조적 질문에 대응하기 어렵다.
  • 다른 베이스라인: Qwen VL 3 32B(대형)와 Molmo 7B‑D0924를 동일 조건으로 평가했을 때, 대형 모델은 전체 정확도에서 약간 앞섰지만, 10‑15 객체 구간에서 SITUATE 파인튜닝 모델이 더 높은 정확도를 기록했다.

이러한 결과는 “합성 데이터가 실제 데이터보다 더 효과적으로 특정 인지 능력(공간·색상 제약 카운팅)을 학습시킬 수 있다”는 가설을 뒷받침한다. 또한, 데이터 생성 단계에서 색 대비·격자 배치·다양한 질문 템플릿을 적용한 것이 모델의 정밀 카운팅 능력 향상에 핵심적인 역할을 했음을 시사한다.

한계점으로는 현재 4가지 기본 도형에 국한되어 있어 실제 세계의 복잡한 형태(예: 비정형 물체)로 확장하기 어렵다는 점, 그리고 질문 템플릿이 규칙 기반이라 자연어 다양성을 충분히 포괄하지 못한다는 점을 들 수 있다. 향후 연구에서는 도형 종류를 확대하고, GPT‑4o와 같은 대형 LLM을 활용해 질문을 자동 생성·다변화함으로써 데이터 다양성을 높이는 방향을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기