남방거주범고래 음향 데이터 대규모 구축을 위한 PU‑활성학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 30년 이상 축적된 공개 수중 음향 기록을 대상으로, 양성‑미라벨(Positive‑Unlabelled) 학습과 활성학습을 결합한 약한 지도 학습 파이프라인을 설계한다. 트랜스포머 기반 탐지기와 종·생태형 분류기를 훈련시켜, 기존 최고 성능 모델을 능가하는 정확도와 에너지 효율을 달성하였다. 최종적으로 SRKW(남방거주범고래) 919시간, 빅스고래 230시간, 혹등고래 1501시간 등 총 5,000시간 이상에 달하는 다종 해양 포유류 데이터셋을 구축했으며, 이는 기존 DCLDE‑2026, Ocean Networks Canada, OrcaSound 데이터를 모두 합친 규모보다 크다.

상세 분석

이 연구는 해양 음향 데이터의 라벨링 비용이 천문학적이라는 현실적 제약을 PU‑학습과 활성학습으로 극복한다는 점에서 혁신적이다. 먼저 260 000시간에 달하는 원시 하이드로폰 데이터를 5분 단위로 분할하고, Whisper‑tiny(39 M 파라미터) 인코더를 이용해 32 kHz 고역통과 후 1 kHz 고역필터링된 임베딩을 추출한다. 임베딩당 전력 소모는 0.000045 kWh로, 전체 처리 전력은 153 kWh에 불과해 친환경 AI 구현에 기여한다.

양성 샘플은 기존 ONC 라벨과 전문가가 직접 확인한 고신호‑SNR 구간을 사용하고, 나머지 데이터는 무작위로 선택해 부정 샘플로 활용한다. 여기서 핵심은 SCAR(Completely‑At‑Random) 가정 하에 양성 비율 eₘ를 추정하고, Massart 마진 h를 고려한 이론적 수렴 속도 O(V n·eₘ·h) 를 적용해 학습 안정성을 보장한다.

활성학습 단계에서는 (1) Positive‑only 샘플링, (2) 엔트로피 기반 샘플링, (3) 다양성‑보존 샘플링 등 세 가지 전략을 순차 적용한다. 각 라운드마다 모델을 재학습하고, 새로 라벨링된 고신호 구간을 긍정 샘플에 추가함으로써 eₘ가 1에 수렴하도록 설계했다. 이 과정에서 라벨링 인력은 비전문가 청취자를 활용했으며, 평균 정확도 42.1% (11‑class 종 분류)와 43.0% (4‑class 생태형 분류)를 달성했다.

탐지 모델은 12‑layer 트랜스포머 기반 구조에 경량화된 어텐션 메커니즘을 적용해, DEEP‑AL, DCLDE‑2026, 그리고 자체 구축한 두 개의 전문가 라벨 데이터셋에서 기존 SOTA 모델 대비 3‑5% 높은 정확도와 0‑28.8%의 특이도(95% 민감도) 를 기록한다. 특히 에너지 효율 면에서 GPU‑시간당 0.12 kWh 이하로, 대규모 배치 처리에 적합함을 입증한다.

데이터셋 구축 결과는 SRKW 919 h, 빅스고래 230 h, 미라벨 생태형 고래 1 374 h, 혹등고래 1 501 h, 바다사자 88 h, 백상어돌고래 246 h, 미확인 포유류 784 h 등 총 5 152 시간에 달한다. 라벨은 CC‑BY 4.0, 원본 오디오 파일은 각각 원소유자의 라이선스를 유지한다. 이렇게 구축된 DORI(Data for Orca Resident Interpretation) 데이터는 비지도 기계 번역, 서식지 이용 조사, 보전 정책 수립 등 다목적 연구에 활용 가능하다.

한계점으로는 (1) SCAR 가정이 실제 고신호 샘플에 편향될 위험, (2) 엔트로피 기반 샘플링이 희소 종(예: 빅스고래) 탐지에 충분히 민감하지 않을 수 있음, (3) 트랜스포머 모델이 5 분 구간에 국한돼 장기적인 호출 패턴을 포착하지 못한다는 점을 들 수 있다. 향후 연구에서는 멀티‑스케일 시계열 모델과 라벨 프라이어리티를 동적으로 조정하는 베이지안 PU‑학습을 도입해 이러한 문제를 보완할 예정이다.

남방거주범고래 음향 데이터 대규모 구축을 위한 PU‑활성학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기