그레인 크기 등급을 위한 가이드형 자기주의와 일반화된 필수 구별 벡터 탐색
초록
본 논문은 강재 미세구조 사진에서 자동으로 입도(그레인 사이즈)를 판별하기 위해, 가이드형 자기주의(guided self‑attention)와 삼중 스트림 병합을 결합한 하이브리드 네트워크인 GSNets를 제안한다. 픽셀‑단위 선형 독립성을 강화하고, 전역‑국부 정보를 동시에 포착함으로써 14개의 등급을 구분하는 3,599장 데이터셋에서 정확도 90.1%를 달성했으며, 기존 Swin Transformer V2 대비 1.9%p 향상하였다.
상세 분석
GSNets는 크게 세 가지 핵심 모듈로 구성된다. 첫 번째는 픽셀‑와이즈 선형 독립성 강화 인코더이다. 여기서는 DenseNet 블록과 Swin Transformer 단계가 교차 결합되어, 로컬 컨볼루션의 강점(고해상도 텍스처 포착)과 트랜스포머의 전역 관계 모델링을 동시에 수행한다. DenseNet 블록은 특징 맵의 채널 간 상관관계를 감소시켜, 각 픽셀이 보다 독립적인 표현을 갖도록 만든다. 이는 후속 자기주의 연산에서 중복 정보를 최소화하고, 보다 풍부한 의미적 표현을 확보한다는 점에서 중요한 설계 선택이다.
두 번째는 가이드형 자기주의 모듈이다. 기존 자기주의는 모든 토큰을 동등하게 취급하지만, GSNets는 “일반화된 필수 구별 벡터(Necessarily Distinct Vectors, NDV)”를 찾는 것을 목표로, 입력 특징 맵에 대한 가이드 신호를 삽입한다. 구체적으로, IA‑WCA(Improved Adaptive Weighted Channel Attention) 메커니즘을 통해 채널별 중요도를 동적으로 조정하고, 이를 W‑MSA(Regular Multi‑Head Self‑Attention)와 SW‑MSA(Shifted Window Self‑Attention)에 전달한다. 결과적으로 먼 거리의 입자 간 상호작용을 강화하면서도, 국소 영역의 세밀한 텍스처는 유지한다. 이 과정에서 “일반화된 NDV”는 서로 다른 입자 군집을 구분하는 고유한 벡터 집합으로 학습되며, 이는 곧 그레인 크기 등급을 판별하는 핵심 특징이 된다.
세 번째는 삼중 스트림 병합 모듈이다. 인코더‑자기주의 흐름 외에, 별도의 로컬‑전역 혼합 스트림과 채널‑가중치 스트림을 병렬로 구성한다. 각 스트림은 서로 다른 스케일(예: 1×1, 3×3 컨볼루션, 풀링)에서 추출된 특징을 제공하고, 최종 단계에서 Concatenation 및 가중치 합산을 통해 다중 스케일 정보를 통합한다. 이 설계는 모델이 다양한 입자 크기와 형태 변이를 포괄적으로 학습하도록 돕는다.
실험 결과는 두드러진데, GSNets는 사전 학습 없이도 Swin Transformer V2(이미지넷‑22K 사전 학습 기반)보다 1.9%p 높은 90.1% 정확도를 기록했다. 특히 파라미터 수가 비교적 적음에도 불구하고, 픽셀‑와이즈 선형 독립성 강화와 가이드형 자기주의가 결합된 효과가 크게 작용한 것으로 판단된다. Ablation study에서는 IA‑WCA를 제외했을 때 정확도가 2~3%p 하락하고, 삼중 스트림 병합을 제거했을 때도 유사한 성능 저하가 관찰되었다.
이 논문의 주요 기여는 (1) 픽셀‑와이즈 선형 독립성을 명시적으로 강화한 인코더 설계, (2) NDV를 목표로 하는 가이드형 자기주의 메커니즘, (3) 다중 스케일 정보를 효율적으로 결합하는 삼중 스트림 병합, (4) 이러한 요소들을 결합해 소규모 전문 데이터셋에서도 강력한 일반화 능력을 입증한 점이다. 또한, 제안된 IA‑WCA와 가이드형 자기주의는 객체 검출·세그멘테이션 등 다른 비전 과제에도 확장 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기