스틸디펙트X 거친에서 섬세한 텍스트 기반 강판 결함 탐지 데이터셋
초록
SteelDefectX는 7,778장의 강판 결함 이미지를 25개 카테고리로 묶고, 각 클래스와 샘플에 대해 거친 수준의 클래스 설명과 섬세한 5가지 속성(형태·크기·깊이·위치·대비) 기반 텍스트를 제공한다. 비전‑언어 모델을 위한 네 가지 벤치마크(비전 전용 분류, 비전‑언어 매칭, few/zero‑shot 인식, zero‑shot 전이)를 제시하고, 다양한 베이스라인 실험을 통해 텍스트 주석이 해석성·일반화·전이 성능을 크게 향상시킴을 입증한다.
상세 분석
본 논문은 산업 현장에 적용 가능한 비전‑언어 모델 학습을 위해 데이터 수준을 ‘거친‑섬세(coarse‑to‑fine)’ 텍스트 주석으로 확장한 점이 가장 큰 혁신이다. 먼저 4개의 공개 강판 결함 데이터셋(NEU, GC10, X‑SDD, S3D)을 통합·정제하여 25개의 통합 카테고리를 만든 뒤, 클래스 수준에서는 결함명, 대표 시각적 속성, 잠재적 원인이라는 세 가지 요소를 자연어 문장으로 기술한다. 이는 기존의 단순 라벨링에 비해 도메인 지식을 텍스트에 명시적으로 포함시켜, CLIP‑계열 모델이 이미지‑텍스트 정합성을 학습할 때 풍부한 의미적 힌트를 제공한다.
샘플 수준 주석은 GPT‑4o 기반 자동 생성 파이프라인을 설계해 5가지 핵심 차원(형태, 크기, 깊이, 위치, 대비)을 모두 포괄하도록 한다. 후보 문장을 고온(temperature=0.9)으로 다수 생성한 뒤, Sentence‑BERT 임베딩 기반 중복 제거와 차원 커버리지를 정량화하는 5‑비트 벡터를 활용해 의미적 완전성을 평가한다. 스코어링 함수 S(d_i)=λ₁·‖b_i‖₁/5+λ₂·D(d_i)에서 λ₁=0.6, λ₂=0.4를 적용해 차원 충실도와 다양성을 동시에 최적화한다. 최종적으로 인간 검수를 거쳐 용어 일관성과 문법 품질을 보장한다. 이러한 구조화된 텍스트는 모델이 “왜 이 결함이 발생했는가”, “어디에 위치하는가”와 같은 질문에 답하도록 유도한다.
벤치마크는 네 가지 과제로 구성된다. ① 비전 전용 분류에서는 ResNet‑50, ViT‑B/16 등 기존 이미지 분류기와 선형 프로브를 사용해 기본 성능을 측정한다. ② 비전‑언어 매칭에서는 CLIP, SLIP, BLIP‑2 등 텍스트‑이미지 정합 모델을 훈련·평가하여 텍스트 주석이 미세 조정에 미치는 영향을 분석한다. ③ few/zero‑shot 인식은 일부 클래스만 학습에 사용하고 나머지를 테스트함으로써 텍스트 기반 일반화 능력을 검증한다. ④ zero‑shot 전이는 SteelDefectX에서 학습한 모델을 알루미늄 결함 데이터(MSD‑Cls)와 무관한 강관 결함 데이터(CGFSDS‑9)로 직접 적용해 도메인 간 전이력을 평가한다.
실험 결과는 텍스트 주석이 없는 라벨‑전용 모델 대비 평균 7.3%p의 정확도 향상을 보이며, 특히 zero‑shot 전이에서 12.5%p 이상의 성능 상승을 기록한다. 클래스 수준 설명만 사용했을 때보다 샘플 수준 섬세한 설명을 포함했을 때가 더 큰 이득을 얻는 것으로 나타났다. 이는 모델이 세부 속성을 학습함으로써 미묘한 시각적 차이를 구분하고, 새로운 도메인에서도 의미적 매핑을 유지한다는 것을 의미한다.
한계점으로는 텍스트 생성 과정에서 GPT‑4o에 의존함에 따라 비용과 API 제한이 존재하고, 자동 생성된 문장의 품질이 도메인 전문가에 비해 아직 완전하지 않을 수 있다. 또한 256×256 해상도로 통일한 것이 고해상도 결함 분석에 제약을 줄 가능성이 있다. 향후 연구에서는 더 큰 해상도와 다중 스케일 주석, 그리고 도메인 특화 언어 모델을 활용한 자체 생성 파이프라인을 구축해 비용 효율성을 높이고, 텍스트‑이미지 정합을 위한 멀티모달 사전학습 전략을 확장할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기