시각이 텍스트를 대체할 수 있을까 멀티모달 워킹 메모리 n백 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트와 이미지 두 형식으로 제시된 공간 n‑백 과제를 Qwen2.5와 Qwen2.5‑VL 모델에 적용해, 시각 입력이 텍스트 입력에 비해 워킹 메모리 성능이 현저히 낮음을 확인한다. 로그 확률 기반 증거 분석을 통해 모델이 명시된 n‑백 간격 대신 최근성에 기반한 비교 전략을 사용함을 밝혀냈으며, 격자 크기 변화가 최근 반복 구조와 간섭 패턴에 미치는 영향을 추가 실험으로 제시한다.

상세 분석

본 연구는 멀티모달 워킹 메모리 평가를 위해 공간 n‑백 과제를 텍스트‑그리드와 이미지‑그리드 두 형태로 동일하게 설계하였다. 실험에 사용된 Qwen2.5‑7B 텍스트 전용 모델과 Qwen2.5‑VL‑7B 비전‑언어 모델은 동일한 프롬프트와 시퀀스를 공유하되, 입력 형식만을 달리하였다. 주요 결과는 세 가지 차원에서 일관되게 나타난다. 첫째, 텍스트 입력이 시각 입력보다 정확도·히트율·d′ 모두에서 우수했으며, 특히 2‑back·3‑back 조건에서 시각 모델은 히트율이 급격히 감소하고 거짓 경보율은 낮은 수준을 유지하면서 전반적인 민감도가 거의 제로에 수렴했다. 이는 모델이 “Match” 라벨을 거의 선택하지 않음으로써 증거 구분력이 약해진 결과로 해석된다. 둘째, 로짓 기반 증거 점수 sₜ를 활용한 라그 스캔 분석에서, 명시된 n‑back 간격(1,2,3)보다 최근 1‑step(Recency)과의 일치 여부에 더 높은 상관성을 보였다. 즉, 모델은 명시된 메모리 요구를 무시하고 최근에 나타난 위치와의 비교에 의존하는 전략을 채택했다는 증거다. 셋째, 격자 크기(N=3,4,5,7)를 변형했을 때, 상태 공간이 확대될수록 최근 반복(lure) 발생 빈도가 감소하고, 이에 따라 텍스트·시각 모두에서 d′가 상승하는 경향을 보였다. 특히 시각 조건에서는 큰 격자일수록 성능 회복이 뚜렷했지만, 여전히 텍스트 조건에 미치지는 못했다.

프로세스 수준에서 두 가지 추가 분석이 수행되었다. (i) 결정 기준 편향 여부를 검증하기 위해 ROC 곡선 아래 면적(AUC)을 계산했으며, 텍스트와 시각 모두에서 AUC가 낮은 경우는 증거 구분력이 약해 판단이 불확실함을 의미한다. (ii) 모델 규모와 패밀리를 확대한 실험(Llama3.1‑8B/11B‑Vision, Qwen2.5‑32B/‑VL‑32B)에서도 동일한 모달리티 격차와 로드 효과가 재현되었다. 규모가 커질수록 텍스트‑그리드와 이미지‑그리드 간 차이가 확대되는 경향이 관찰되었으며, 이는 시각 토큰화 과정에서 발생하는 정보 손실이나 토큰 수 차이가 모델 내부의 시계열 바인딩 메커니즘에 영향을 미친 것으로 추정된다.

결론적으로, 동일한 n‑back 규칙이라도 입력 코드(텍스트 vs. 비전)가 바뀌면 모델이 수행하는 연산 자체가 변한다는 점을 실증하였다. 이는 멀티모달 시스템 설계 시 “시각을 메모리 저장소로 활용한다”는 가정이 반드시 동일한 작업 기억 메커니즘을 보장하지 않으며, 모달리티별로 별도의 전략 검증이 필요함을 시사한다.

시각이 텍스트를 대체할 수 있을까 멀티모달 워킹 메모리 n백 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기