위성영상과 XGBoost‑KRR을 활용한 어획량 정밀 추정
초록
본 연구는 Sentinel‑2 MSI와 Sentinel‑3 OLCI의 다중스펙트럼 데이터를 이용해 XGBoost‑커널을 적용한 Kernel Ridge Regression(KRR) 모델로 어획량을 예측한다. 실험 결과 XGBoost‑KRR이 기존 선형·RBF 커널보다 RMSE가 크게 낮고 상관계수가 높아 비선형 해양‑어류 관계를 효과적으로 포착함을 확인하였다.
상세 분석
본 논문은 해양 환경 변수와 어획량 사이의 복합적인 비선형 관계를 정량화하기 위해 두 종류의 고해상도 위성센서(Sentinel‑2 MSI, Sentinel‑3 OLCI)를 결합하고, 최신 머신러닝 기법인 XGBoost‑커널 기반 Kernel Ridge Regression(KRR)을 적용한 점이 핵심이다. 먼저, KRR의 기본 수식과 정규화 파라미터 λ를 통한 편향‑분산 균형을 설명하고, 전통적인 선형·RBF 커널 대신 XGBoost 트리 모델에서 추출한 리프 인덱스의 원-핫 임베딩을 커널 행렬 K= (1/P) ZZᵀ 로 정의한다. 이는 트리 기반 모델이 학습한 복잡한 비선형 특성을 커널 공간에 그대로 투영함으로써, KRR이 데이터의 고차원 구조를 보다 정밀하게 포착하도록 만든다.
데이터 측면에서는 2019년까지 대만 연안에서 수집된 어획 로그북(위치, 시기, 어획량 등)과 해당 시점의 위성 영상(해상도 10 m, 300 m)을 매칭하였다. Sentinel‑2는 10개의 반사율 밴드(B2B9)를, Sentinel‑3는 6개의 방사량 밴드(Oa03Oa10)를 선택해 각각 0.1 kg~0.8 kg 범위의 어획량에 대응하도록 전처리하였다. 통계적으로는 각 밴드의 분포를 바이올린 플롯으로 시각화해, Sentinel‑2가 미세한 공간 변동성을, Sentinel‑3가 보다 부드러운 평균값을 제공함을 확인했다.
모델 평가에서는 RMSE, 피어슨 상관계수(ρ), p‑value, Kolmogorov‑Smirnov D‑value 네 가지 지표를 사용하였다. Sentinel‑2 데이터에 대해 KRR‑XGB는 RMSE 0.085, ρ = 0.924, D‑value = 0.952를 기록했으며, 이는 선형(KRR‑Lin, RMSE = 0.218, ρ ≈ ‑0.032)와 RBF(KRR‑RBF, RMSE = 0.210, ρ = 0.069) 대비 60 % 이상 오류 감소와 200 % 이상 상관성 향상을 의미한다. Sentinel‑3에서도 KRR‑XGB가 RMSE = 0.116, ρ = 0.731, D‑value = 0.771을 달성해, 해상도 차이에도 불구하고 비선형 커널의 우수성을 입증하였다.
시각화 결과(그림 3)는 실제 어획량과 예측값 사이에 높은 일치도를 보이며, 특히 저어획량 구간에서 분산이 작고, 고어획량 구간에서는 약간의 과대예측 경향이 있음을 확인한다. 마지막으로, 추정된 어획량 지도를 동해 연안에 적용해 공간적 패턴을 시각화했으며, 해안 근처에서 높은 어획량이 집중되는 현상을 포착했다.
본 연구는 (1) XGBoost 트리 구조를 커널로 전이함으로써 KRR의 비선형 표현력을 크게 강화, (2) 고해상도 멀티스펙트럼 위성 데이터와 현장 어획 로그를 효과적으로 결합, (3) 두 센서의 공간·스펙트럼 특성을 비교 분석하여 각각의 적용 범위를 명확히 제시한다는 점에서 의미가 크다. 또한, 어업 자원 관리와 지속 가능한 해양 정책 수립에 필요한 정량적 도구를 제공함으로써 UN SDG 2(Zero Hunger)와 SDG 14(Life Below Water) 달성에 기여한다는 사회적 파급효과도 강조된다.
댓글 및 학술 토론
Loading comments...
의견 남기기