브라질 포르투갈어 이미지 캡션 트랜스포머 성능 비교와 번역 영향 분석
초록
본 연구는 Flickr30K 데이터셋의 원어민이 직접 작성한 브라질 포르투갈어 캡션과 자동 번역된 캡션을 각각 사용해 Vision‑Encoder‑Decoder 트랜스포머 모델들을 학습·평가한다. 교차‑데이터셋 테스트, CLIP‑Score 기반 이미지‑텍스트 정렬 평가, 그리고 어텐션 맵 시각화를 통해 번역 품질이 모델 일반화와 편향에 미치는 영향을 정량·정성적으로 분석한다. Swin‑DistilBERTimbau가 전반적으로 가장 높은 성능을 보였으며, ViTucano는 전통적인 텍스트 메트릭에서 다국어 대형 모델을 앞섰다. GPT‑4 계열은 CLIP‑Score에서 최고점을 기록했다.
상세 분석
본 논문은 저자들이 브라질 포르투갈어 이미지 캡션 분야에서 가장 흔히 겪는 데이터 부족 문제를 두 가지 접근법으로 해결하고자 한다. 첫 번째는 기존 영어 Flickr30K 데이터를 브라질 포르투갈어 원어민이 직접 번역·작성한 데이터셋을 구축한 것이며, 두 번째는 자동 번역 파이프라인(예: LibreTranslate)을 이용해 동일 이미지에 대한 기계 번역 캡션을 생성한 것이다. 이렇게 만든 두 데이터셋을 각각 ‘네이티브’와 ‘번역’으로 명명하고, 모델 학습·평가 시 교차‑컨텍스트 실험을 설계했다. 즉, 네이티브 데이터로 학습한 모델을 번역 데이터에, 반대로 번역 데이터로 학습한 모델을 네이티브 데이터에 적용해 번역 품질이 모델 일반화에 미치는 영향을 정량화했다.
모델 아키텍처는 Vision‑Encoder‑Decoder 형태로, 이미지 인코더로 ViT‑base, Swin‑Transformer‑base, DeiT‑base 세 가지 최신 트랜스포머를 사용했으며, 텍스트 디코더로는 BERTimbau, DistilBERTimbau, GPT‑Portuguese‑2(=GPorTuguese‑2) 세 가지 포르투갈어 전용 언어 모델을 조합했다. 총 3×3=9개의 VED 조합을 구축하고, 각 조합을 네이티브와 번역 두 데이터셋 각각에 파인튜닝했다. 실험 결과, Swin‑DistilBERTimbau 조합이 가장 일관된 성능을 보였으며, 특히 교차‑테스트 상황에서도 BLEU, METEOR, CIDEr 등 전통적인 텍스트 기반 메트릭에서 큰 성능 저하가 없었다. 이는 Swin 인코더가 지역‑전역 어텐션을 효율적으로 결합해 이미지 특징을 풍부히 표현하고, DistilBERTimbau가 경량화된 구조임에도 불구하고 포르투갈어 문맥을 충분히 포착한다는 점을 시사한다.
텍스트 기반 메트릭 외에도, 저자들은 CLIP‑Score를 도입해 이미지‑텍스트 정렬을 직접 측정했다. 여기서는 GPT‑4o와 LLaMa 3.2‑Vision 같은 대형 멀티모달 모델이 가장 높은 점수를 기록했으며, 이는 대규모 사전학습이 이미지‑텍스트 연관성을 학습하는 데 유리함을 보여준다. 그러나 이러한 모델은 파인튜닝 없이 그대로 사용했기 때문에, 언어 특수성(예: 포르투갈어 어순, 관사 사용)에서는 ViTucano와 같은 포르투갈어 전용 VLM이 BLEU·ROUGE·METEOR에서 더 우수한 결과를 냈다.
어텐션 맵 분석에서는 몇 가지 체계적인 편향이 드러났다. 첫째, 성별 명시가 부족한 이미지에서 모델이 남성/여성 대명사를 임의로 할당하는 경향이 있었으며, 이는 학습 데이터에 존재하는 사회적 편향을 반영한다. 둘째, 다중 객체가 존재하는 장면에서 모델이 객체 순서를 잘못 열거하거나, 일부 객체를 누락하는 오류가 빈번히 관찰되었다. 셋째, 공간 관계(예: “왼쪽에”, “위에”)를 표현할 때, 어텐션이 실제 위치와 불일치하는 경우가 있었는데, 이는 이미지 패치 토큰화 과정에서 위치 인코딩이 충분히 보존되지 못한 것이 원인일 가능성이 있다. 이러한 오류는 향후 데이터 증강 및 위치‑감지 메커니즘 강화의 필요성을 강조한다.
전체적으로, 논문은 (1) 네이티브 캡션이 자동 번역 캡션보다 텍스트 품질과 문화적 적합성에서 우수함을 실증하고, (2) 번역 데이터만으로 학습한 모델도 교차‑테스트에서 어느 정도 일반화 가능함을 보여준다. 특히, Swin‑DistilBERTimbau와 ViTucano 같은 경량‑고성능 조합이 저자들이 제시한 두 데이터셋 모두에서 경쟁력 있는 결과를 제공한다는 점은 실무 적용 가능성을 높인다. 마지막으로, 어텐션 맵과 CLIP‑Score를 결합한 다중 평가 프레임워크는 향후 저자들이 제안한 방법론을 다른 저자어(예: 스페인어, 아프리카어)에도 확장할 수 있는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기