시뮬레이션 가시성 데이터 무손실 압축 기법 Sisco
초록
본 논문은 관측 데이터와 달리 잡음이 없는 모델 가시성 데이터를 대상으로, 복소 부동소수점 값을 예측·잔차 압축하고 Deflate 알고리즘으로 인코딩하는 무손실 압축 프레임워크 Sisco를 제안한다. 다양한 LOFAR, MeerKAT, MWA 데이터셋에 적용한 결과 평균 24 %까지 데이터 용량을 감소시켰으며, 베이스라인‑종속 평균(BDA)과 결합하면 추가 절감이 가능하다.
상세 분석
Sisco는 네 단계로 구성된다. 첫 번째 단계는 시간·주파수 두 차원에서 0차부터 3차까지의 다항식 외삽을 이용해 현재 가시성 값을 예측한다. 여기서는 1차(선형)와 2차(이차) 예측을 조합한 것이 가장 효율적이며, 예측에 필요한 이전 샘플 수가 적어 메모리 오버헤드가 최소화된다. 두 번째 단계에서는 예측값과 실제값을 부동소수점 형식(부호·지수·가수)으로 분해하고, 지수를 맞춘 뒤 가수 차이를 정수 연산으로 계산한다. 이 과정은 부동소수점 연산의 반올림 오류를 방지하고, 압축·복원 시 정확히 역전될 수 있도록 설계되었다. 세 번째 단계는 잔차 데이터 스트림을 ‘지수 바이트’와 ‘가수 바이트(부호 포함)’ 4개 그룹으로 나누어 유사값이 연속하도록 재배열한다. 이렇게 그룹화하면 Deflate가 내부 사전(dictionary)과 허프만 코딩을 적용할 때 중복 패턴을 더 많이 포착하게 된다. 마지막 단계에서는 libdeflate 라이브러리를 이용해 각 그룹을 독립적으로 압축한다. 압축 레벨은 1~12로 조정 가능하지만, 실험에서는 레벨 6이 I/O 한계가 지배적인 환경에서 최적의 처리량(≈534 MB/s)과 압축률을 제공한다.
Sisco는 Casacore 스토리지 매니저에 플러그인 형태로 구현돼, 기존 Measurement Set(MS) 포맷을 그대로 사용하면서 투명하게 압축·해제한다. DP3와 WSClean 같은 파이프라인 툴에 옵션만 추가하면 바로 적용 가능하다. 또한, 베이스라인‑종속 평균(BDA)과 결합했을 때 데이터 양을 추가로 30 % 정도 절감할 수 있음을 보였다.
실험 결과는 데이터의 스무스 정도에 따라 압축률이 크게 달라진다. 주파수·시간 축에서 변동이 적은 ‘스무스’ 데이터는 13 %까지 압축되었고, 변동이 큰 경우는 38 % 수준에 머물렀다. 순수 잡음(노이즈) 데이터는 예측이 거의 불가능해 84 % 정도만 압축되었다. 이는 Sisco가 모델 가시성처럼 잡음이 없고 연속적인 특성을 가진 데이터에 최적화된 것을 의미한다.
향후 연구에서는 현재의 무손실 구조를 기반으로 허용 오차를 도입해 손실 압축 버전을 개발하고, 다중 스케일(멀티그리드) 예측이나 가중치 기반 외삽을 적용해 예측 정확도를 높이는 방안을 모색한다. 또한, GPU 가속을 통한 예측·잔차 계산 가속화와, 대규모 SKA 파이프라인에 적용 가능한 스트리밍 압축 모델도 제안하고 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기