경량형 멀티태스크 세그멘테이션을 위한 트윈믹싱: 드라이버블 영역·차선 인식을 위한 효율적 피라미드 믹싱 모델

** 본 논문은 자율주행 차량의 핵심 인식 과제인 드라이버블 영역(segmentation)과 차선 라인(segmentation)을 동시에 수행할 수 있는 경량 멀티태스크 네트워크인 TwinMixing을 제안한다. 기존의 고성능 세그멘테이션 모델들은 대규모 백본과 복잡한 연산으로 인해 차량 내 저전력 임베디드 시스템에 적용하기 어려웠으며, 반면 경량 모델들은 정확도에서 한계를 보였다. 이러한 문제점을 해결하고자 저자는 공유 인코더와 작업별 디코더 구조를 채택하고, 인코더 내부에 Efficient Pyramid Mixing(EPM) 모듈을, 디코더에는 Dual‑Branch Upsampling(DBU) 블록을 도입하였다. **1) 연구 배경 및 관련 연구** Semantic segmentation은 자율주행에서 환경 인식을 담당하지만, 전체 클래스에 대한 정밀 분류는 실시간 제어에 불필요한 오버헤드를 발생시킨다. 따라서 실제 ADAS(Advanced Driver Assistance Systems)에서는 도로 표면(드라이버블 영역)과 차선만을 빠르게 인식하는 것이 중요하다. 기존 경량 모델들은 주로 그룹드 컨볼루션, 채널 셔플(ShuffleNet), 깊이별 팽창 합성곱 등을 활용했지만, 다중 스케일 컨텍스트와 채널 간 상호작용을 동시에 최적화하지 못했다. 또한 디코더 단계에서 전치 합성곱만을 사용하면 checkerboard artifact이 발생하고, 단순 업샘플링만으로는 세밀한 경계 복원이 어렵다. **2) TwinMixing 아키텍처** 전체 구조는 Figure 3에 요약되어 있다. 입력 RGB 이미지가 공유 인코더를 통과하면서 H×W → H/8×W/8까지 다운샘플링된다. 인코더는 기본 Conv 레이어 → Shuffle Unit → EPM → Shuffle Unit → Stride‑EPM 순으로 쌓이며, 마지막에 Partial Class Activation Attention(PCAA) 모듈을 삽입해 클래스별 중요 영역을 강조한다. - **EPM 모듈**은 Reduce‑Split‑Transform‑Merge 방식을 따른다. 1×1 Conv(그룹드)로 차원을 축소한 뒤, 여러 병렬 브랜치에 서로 다른 dilation(2,4,8,16)·depthwise Conv를 적용한다. 각 브랜치의 출력은 Hierarchical Feature Fusion(HFF)으로 합쳐져 다중 스케일 특징을 하나의 텐서로 재구성한다. Stride‑EPM 변형은 1×1 Conv에 stride = 2를 적용해 다운샘플링까지 수행, 인코더 깊이를 효율적으로 감소시킨다. - **DBU 블록**은 두 개의 병렬 업샘플링 경로로 구성된다. Fine Branch는 전치 합성곱(transposed Conv)으로 학습 가능한 파라미터를 통해 고해상도 특징을 복원하고, Coarse Branch는 파라미터가 없는 bilinear interpolation을 사용해 빠르게 공간을 확대한다. 두 경로의 출력을 element‑wise addition으로 결합함으로써 세밀한 경계와 부드러운 전체 형태를 동시에 얻는다. - **멀티태스크 손실**은 각각의 디코더에 대해 Cross‑Entropy 기반 mIoU 손실을 적용하고, 전체 손실은 두 작업의 가중합으로 최적화한다. **3) 실험 설정** BDD100K 데이터셋(도로 이미지, 드라이버블 영역 라벨, 차선 라인 라벨)을 사용해 Tiny, Base, Large 세 가지 모델을 학습하였다. 학습은 Adam optimizer, 초기 학습률 1e‑3, 200 epoch을 기준으로 진행했으며, 데이터 증강으로 random flip, color jitter 등을 적용하였다. **4) 주요 결과** - **정확도**: Base 모델은 드라이버블 영역 92.0 % mIoU, 차선 32.3 % IoU를 달성했다. Large 모델은 각각 92.8 % mIoU와 34.2 % IoU로 약간의 향상을 보였지만, 파라미터와 FLOPs가 크게 증가한다. - **효율성**: Tiny 모델은 0.10 M 파라미터·1.08 GFLOPs로 30 FPS 이상을 유지하며, Base 모델은 0.43 M·3.95 GFLOPs에서도 20 FPS 수준을 기록한다. 이는 기존 경량 모델(YOLOP, DFFM, TwinLiteNet 등) 대비 2‑3배 적은 연산량으로 비슷하거나 높은 정확도를 제공한다. - **Ablation Study**: EPM 없이 기본 Conv만 사용하면 mIoU가 2‑3 % 감소하고, DBU 대신 전치 Conv만 사용하면 checkerboard artifact이 눈에 띄게 증가한다. 또한 Shuffle Unit을 제거하면 채널 간 상호작용이 감소해 전체 성능이 약 1 % 하락한다. **5) 논의 및 한계** TwinMixing은 채널 셔플과 다중 팽창 합성곱을 결합해 연산 효율성을 크게 높였지만, 현재는 RGB 단일 모달리티에 국한된다. 멀티모달(LiDAR, 레이더) 통합 시 설계 확장이 필요하다. 또한 EPM의 dilation 비율과 그룹 수가 고정돼 있어, 다양한 도로 환경(복잡한 교차로, 야간 등)에 대한 적응성이 제한적이다. 실시간 차량 내 전력 소비와 메모리 사용량에 대한 정량적 분석이 부족하므로, 실제 ECU 적용을 위한 추가 최적화가 요구된다. **6) 결론** TwinMixing은 Efficient Pyramid Mixing과 Dual‑Branch Upsampling이라는 두 핵심 모듈을 통해 경량화와 정확도 사이의 전통적인 트레이드오프를 크게 완화한다. 0.43 M 파라미터·3.95 GFLOPs라는 작은 규모에서도 드라이버블 영역 92 % mIoU와 차선 32 % IoU를 달성함으로써, 자율주행 시스템의 실시간 인식 요구를 만족시키는 실용적인 솔루션으로 평가된다. 향후 멀티모달 확장과 동적 하이퍼파라미터 튜닝을 통해 더욱 다양한 주행 시나리오에 적용 가능할 것으로 기대된다. **

경량형 멀티태스크 세그멘테이션을 위한 트윈믹싱: 드라이버블 영역·차선 인식을 위한 효율적 피라미드 믹싱 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기