시각‑언어 모델 환각 해석과 억제를 위한 대비 뉴런 스티어링

시각‑언어 모델 환각 해석과 억제를 위한 대비 뉴런 스티어링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 시각‑언어 모델(LVLM) 내부 표현을 희소 자동인코더(SAE)로 분해해 해석 가능한 뉴런 단위로 전환한다. 항상 활성화되는 ‘always‑on’ 뉴런과 이미지‑특이적 ‘image‑specific’ 뉴런을 구분하고, 후자는 잡음이나 교란에 의해 쉽게 변동되어 환각을 유발한다는 사실을 밝혀낸다. 이를 기반으로 깨끗한 이미지와 잡음이 섞인 이미지를 대비 분석해 이미지‑특이적 뉴런을 식별·강화하고, 비유의적 뉴런을 억제하는 ‘Contrastive Neuron Steering(CNS)’을 제안한다. CNS는 프리‑필 단계에서 작동해 기존 디코딩‑레벨 방법과 호환되며, 다양한 멀티모달 벤치마크에서 환각을 현저히 감소시키면서 전체 성능을 유지한다.

상세 분석

본 연구는 LVLM의 내부 시각 표현이 어떻게 환각을 일으키는지를 메커니즘 수준에서 규명하고, 이를 제어할 수 있는 새로운 방법론을 제시한다. 먼저, 저자들은 사전 훈련된 LVLM(예: LLaVA‑1.5)의 시각 인코더 출력에 Matryoshka SAE를 삽입해 고차원 dense feature를 65 000 차원의 희소 latent space로 변환한다. Top‑K 제약을 통해 각 이미지당 최대 K개의 뉴런만 활성화되며, 이때 활성화된 뉴런은 시각 개념을 직접적으로 반영한다는 점을 시각화와 정량 분석을 통해 확인하였다. 두 종류의 뉴런이 발견되었다. ① ‘always‑on’ 뉴런은 10개 정도에 불과하고, 모든 이미지에서 Top‑20에 지속적으로 등장하지만 색·텍스처와 같은 저수준 정보를 담고 있어 의미적 기여가 적다. ② ‘image‑specific’ 뉴런은 수천 개에 달하며, 특정 객체(고양이, 풀, 보우 타이 등)나 장면 요소에 강하게 반응한다.

다음으로, 저자들은 이미지에 점진적인 가우시안 노이즈를 주입해 시각 표현의 변화를 추적한다. 노이즈 강도가 증가할수록 ‘image‑specific’ 뉴런의 Top‑K 교체 비율(ΔK)이 급격히 상승하고, 동시에 POPE benchmark에서 모델의 정확도와 F1 점수가 하락한다. 반면 ‘always‑on’ 뉴런은 거의 변하지 않아, 환각이 주로 이미지‑특이적 뉴런의 불안정성에서 비롯된다는 결론에 도달한다.

이러한 인사이트를 활용해 ‘Contrastive Neuron Steering(CNS)’을 설계한다. CNS는 동일 이미지의 클린 버전과 노이즈 버전을 동시에 인코딩한 뒤, 두 표현 간의 차이를 기반으로 이미지‑특이적 뉴런을 정량적으로 식별한다. 식별된 뉴런에 대해 가중치를 증폭하고, 노이즈에 의해 활성화된 비의도적 뉴런은 억제한다. 또한, ‘Always‑on Neuron Suppression(ANS)’ 모듈을 도입해 의미 없는 always‑on 뉴런의 영향을 감소시켜 신호‑대‑노이즈 비율을 향상시킨다. CNS는 프리‑필 단계에서 한 번의 추가 인코딩만 수행하면 되므로 연산 비용이 낮고, 기존 디코딩‑레벨 환각 억제 기법과 병행 사용이 가능하다.

실험에서는 (1) POPE와 같은 환각‑중점 벤치마크, (2) VQAv2, COCO‑Caption 등 일반 멀티모달 이해 벤치마크를 대상으로 CNS와 기존 방법을 비교하였다. CNS 적용 시 POPE에서 hallucination rate이 평균 27% 감소했으며, 정확도와 F1 점수는 0.3~0.5% 수준으로 거의 유지되었다. 일반 벤치마크에서도 이미지‑텍스트 정합도와 설명 품질이 소폭 개선되었다. Ablation study에서는 ANS 없이 CNS만 적용했을 때보다 전체 성능이 더 낮았으며, Top‑K 값과 대비 샘플 수가 결과에 민감하게 작용함을 확인했다.

마지막으로, 논문은 LVLM 내부 표현을 희소 뉴런 단위로 해석함으로써 ‘시각‑언어’ 모델의 블랙박스성을 크게 낮추고, 환각을 직접적인 뉴런 조작으로 억제할 수 있음을 입증한다. 향후 연구에서는 더 큰 규모의 SAE와 다중 모달리티(오디오·텍스트) 간의 교차 해석, 그리고 실시간 인터랙션 환경에서의 CNS 적용 가능성을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기