자동화된 선체 바이오오염 평가: 컴퓨터 비전·멀티모달 LLM 융합 벤치마크
초록
본 연구는 뉴질랜드 해양청이 제공한 전문가 라벨링 이미지 762장을 활용해 선체 바이오오염 심각도(Level of Fouling, LoF)를 자동 분류한다. ResNet‑18/50, SegFormer 등 전통적인 컴퓨터 비전 모델과 GPT‑4V 기반 멀티모달 LLM을 비교 평가했으며, CV 모델은 극단적 LoF(0·5)에서 높은 정확도를 보였지만 중간 단계는 데이터 불균형과 이미지 구도 문제로 성능이 저하된다. 반면 LLM은 사전 학습된 상태에서 구조화 프롬프트와 RAG를 이용해 경쟁력 있는 결과와 해석 가능한 설명을 제공한다. 두 접근법의 장점을 결합한 하이브리드 시스템이 향후 실용적인 바이오오염 모니터링에 유망함을 제시한다.
상세 분석
본 논문은 해양 바이오오염(바이오푸징) 감시의 현안인 인력·안전·확장성 문제를 해결하고자, 이미지 기반 자동 분류 파이프라인을 두 축으로 설계하였다. 첫 번째 축은 전통적인 컴퓨터 비전(CV) 접근법으로, ResNet‑18과 ResNet‑50이라는 두 가지 CNN 백본을 사용해 전역 특징을 추출하고, SegFormer라는 트랜스포머 기반 시맨틱 세그멘테이션 모델을 도입해 픽셀 수준의 마크업(물, 청정, 슬라임, 대형오염)까지 수행한다. 데이터는 LoF 0–5 등급으로 라벨링된 762장의 수중 사진이며, 클래스 분포는 0(7장), 1(263), 2(70), 3(113), 4(126), 5(183)으로 심각히 불균형한다. 이 불균형은 특히 중간 등급(LoF 2‑4)에서 모델이 과소표현되는 원인으로 작용한다. 실험 결과, ResNet‑50은 높은 표현력으로 LoF 5(중대 오염)와 LoF 0(청정) 구분에서 94 % 이상의 정확도를 기록했지만, LoF 2와 LoF 3에서는 58 % 수준으로 급격히 떨어졌다. SegFormer는 세그멘테이션 마스크를 통해 슬라임·대형오염 면적을 정량화하고, 이를 LoF 임계치(5 %‑16 % 등)와 매핑함으로써 해석 가능성을 크게 향상시켰다. 다만, 물의 혼탁도와 조명 변화에 민감해 마스크 품질이 저하되는 경우가 관찰되었다.
두 번째 축은 멀티모달 대형 언어 모델(LLM) 활용이다. OpenRouter API를 통해 GPT‑4V와 같은 최신 비전‑언어 모델에 접근했으며, 구조화된 프롬프트(“이미지에 나타난 슬라임과 대형오염의 비율을 추정하고 LoF 등급을 제시하라”)와 Retrieval‑Augmented Generation(RAG) 기법을 결합해 도메인 지식(LoF 결정 트리)을 삽입하였다. LLM은 사전 학습된 상태에서 zero‑shot으로 테스트했음에도 불구하고, 전체 평균 정확도 81 %를 달성했고, 특히 중간 등급에서 CV 모델보다 12 % 높은 정확도를 보였다. 중요한 점은 LLM이 “슬라임이 약 8 % 차지한다”와 같은 정량적 설명과 함께 등급 판단 근거를 제공한다는 점이다. 그러나 이미지 해상도가 낮거나 색 왜곡이 심한 경우, 모델이 “슬라임과 대형오염을 혼동한다”는 hallucination 현상이 발생했으며, 이는 신뢰성 확보를 위해 후처리 검증이 필요함을 시사한다.
핵심 인사이트는 다음과 같다. ① 데이터 불균형은 CV 모델의 중간 등급 성능을 크게 제한하므로, SMOTE‑like 오버샘플링이나 클래스‑별 가중 손실 적용이 필요하다. ② 세그멘테이션 기반 커버리지 추정은 LoF 임계치와 직접 매핑 가능해 해석성을 제공하지만, 전처리(HSV, 엣지 강조)와 도메인 적응이 성능 향상의 열쇠다. ③ 멀티모달 LLM은 사전 학습된 풍부한 세계 지식과 텍스트‑이미지 결합 능력으로, 라벨이 부족한 상황에서도 경쟁력 있는 결과와 인간 친화적 설명을 제공한다. ④ 하이브리드 접근법—CV 모델이 제공하는 정밀한 픽셀 마스크와 LLM이 제공하는 추론·설명 능력을 결합—이 향후 실시간 선체 검사 시스템에 가장 적합한 방향이다.
댓글 및 학술 토론
Loading comments...
의견 남기기