다양한 지구물리학 연구를 위한 대규모 2D 해양 지진 이미지 데이터셋, Unicamp‑NAMSS
초록
Unicamp‑NAMSS는 미국 국립 해양 지진 조사(NAMSS)에서 추출한 2 588개의 2D 시간‑이동 지진 섹션을 포함한다. 122개 조사 구역을 9개의 매크로‑지역으로 나누어 훈련·검증·시험을 지역‑중복 없이 분할했으며, 각 조사당 최대 300 MB로 균형을 맞추었다. 데이터는 4 ms 시간 샘플링, 다양한 수평 간격을 유지하고 TIFF 형식으로 저장돼 자기‑지도 학습, 전이 학습, 초해상도 등 다양한 머신러닝 작업에 활용 가능하다.
상세 분석
본 논문은 대규모 지진 이미지 데이터셋 구축 과정에서 흔히 간과되는 ‘다양성’과 ‘균형성’ 문제를 체계적으로 해결한다는 점에서 의미가 크다. 먼저 NAMSS라는 공공 데이터베이스는 1970년대부터 1990년대까지 수십 년에 걸친 해양 조사 데이터를 보유하고 있으나, 검색 인터페이스가 지도 기반이며 API가 부재해 자동화가 어려운 구조였다. 저자들은 수작업으로 2D 멀티채널 데이터를 식별하고, 메타데이터와 파일명 패턴을 활용해 9 350개의 이동 데이터 파일을 추출한 뒤, 자동 스크립트로 300 MB 이하로 균형을 맞추는 샘플링 전략을 적용했다. 이는 특정 조사에 데이터가 편중되는 현상을 방지하고, 모델이 지역·시대·획득 조건에 과도하게 적응하는 위험을 크게 낮춘다.
데이터 정제 단계에서는 SEG‑Y 포맷을 직접 파싱해 트레이스 순서를 보존하고, 전역 절대값으로 정규화한 뒤 TIFF(4바이트 부동소수점)로 변환했다. 59개의 손상 파일과 중복 파일을 제거하고, 4 ms 시간 샘플링을 기준으로 91 %를 차지하는 파일만 남겨 수직 해상도를 일관되게 유지했다. 최종적으로 2 588개의 이미지가 122개 조사 구역에서 추출되었으며, 수평 트레이스 간격은 12.5 m~50 m가 70 %를 차지한다.
데이터 분할은 9개의 매크로‑지역(아틱, 알래스카, 북대서양 등)으로 구분해 훈련(≈80 %), 검증·시험(각≈10 %) 비율을 맞췄다. 지역‑중복이 없도록 설계했기 때문에, 모델이 새로운 지질·획득 환경에 대해 얼마나 일반화되는지를 객관적으로 평가할 수 있다. 또한, 저자는 CNN과 Vision Transformer 기반 모델을 이용해 임베딩 공간 분석을 수행했으며, 기존 Parihaka·F3 블록 데이터와 비교해 외관 공간(appearance space) 커버리지가 현저히 넓음을 확인했다. 이는 사전학습(pre‑training)용 ‘기초 모델’ 구축에 유리한 특성이다.
한편 데이터 품질은 조사 연도·장비·처리 파이프라인 차이에 따라 편차가 존재한다. 저자는 고품질 데이터가 필요한 경우 전문가 검증을 권고했으며, 데이터셋 자체가 지속적으로 업데이트될 수 있는 구조임을 명시했다. 전체적으로, 데이터 수집·정제·균형·분할까지 일관된 파이프라인을 제시함으로써 지진 이미지 분야에서 재현 가능하고 확장 가능한 데이터베이스 구축의 표준을 제시한다는 점이 큰 공헌이다.
댓글 및 학술 토론
Loading comments...
의견 남기기