시각질문답변을 위한 설명과주의 적대 게임

본 논문은 시각질문답변(VQA) 과제에서 주의(attention) 메커니즘의 품질을 향상시키기 위한 새로운 자기지도 학습 방법을 제안한다. 기존 VQA 모델은 질문과 이미지의 결합 표현을 통해 정답을 예측하지만, 인간이 질문에 답할 때 집중하는 이미지 영역과 모델이 실제로 주목하는 영역 사이에 큰 차이가 존재한다는 점이 여러 연구에서 밝혀졌다. 이러한 차이를 메우기 위해서는 주의 맵에 대한 명시적인 감독이 필요하지만, 인간 주의 데이터를 수집하는 비용과 규모의 한계로 인해 실용적인 라벨링이 어렵다. 저자들은 이 문제를 해결하기 위해 Grad‑CAM(Gradient‑Weighted Class Activation Mapping)이라는 시각 설명 기법을 활용한다. Grad‑CAM은 특정 클래스에 대한 네트워크의 기울기를 이용해 해당 클래스에 가장 크게 기여한 이미지 영역을 시각화한다. VQA에서는 정답 라벨이 항상 제공되므로, 정답 클래스에 대한 Grad‑CAM을 손쉽게 얻을 수 있다. 이러한 시각 설명은 “네트워크가 실제로 어떤 영역을 사용했는가”에 대한 정보를 제공하므로, 주의 맵의 대리 감독으로 활용될 가능성이 있다. 하지만 Grad‑CAM과 기존 주의 맵은 분포가 다르다. 주의 맵은 질문‑이미지 상호작용을 반영해 학습되는 반면, Grad‑CAM은 순수히 클래스 예측에 기반한다. 따라서 두 맵을 단순히 L2 손실로 맞추려 하면, 주의 맵이 Grad‑CAM에 과도하게 종속되어 질문에 대한 세밀한 차이를 놓치게 된다. 이를 해결하기 위해 저자들은 두 네트워크를 ‘생성기(generator)’와 ‘구분기(discriminator)’로 구성한 제로섬 적대 게임을 설계한다. 구체적인 구조는 다음과 같다. 이미지와 질문은 각각 CNN과 LSTM을 통해 임베딩(g_i, g_q)으로 변환된다. 이 임베딩은 기존의 Stacked Attention Network(SAN) 혹은 MCB(Multimodal Compact Bilinear) 모듈에 입력되어 주의 맵 A_f를 생성한다. 동시에, 동일 이미지와 정답 라벨을 이용해 Grad‑CAM을 계산하고, 이를 ‘진짜’ 시각 설명 G_g라 명명한다. 구분기 D는 A_f와 G_g를 입력받아 이진 분류를 수행한다. 구분기의 손실은 바이너리 교차 엔트로피이며, 생성기(주의 네트워크)는 구분기를 속이는 방향으로 역전파한다. 전체 목표는 min_G max_D L(G,D) = E_{x∼G_g}

시각질문답변을 위한 설명과주의 적대 게임

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기