빈도 패턴 마이닝 기반 이미지 압축
초록
본 논문은 이미지 압축에 빈도 패턴 마이닝(FPM)을 적용한 새로운 프레임워크를 제안한다. RGB 이미지의 각 채널을 k‑means 클러스터링으로 군집화하고, 군집 식별자를 시퀀스로 변환한 뒤 폐쇄 빈도 시퀀스 마이닝을 수행한다. 수정된 지원값을 이용해 중복 시퀀스를 제거하고, 최종적으로 허프만 코딩으로 압축한다. 실험 결과, 기존 JPEG 대비 45 % 높은 압축률을 달성하면서 PSNR·SSIM 지표에서 시각적 품질 저하가 거의 없음을 보였다.
상세 분석
이 논문은 전통적인 JPEG 파이프라인에서 DCT·양자화 단계 대신 데이터 마이닝 기법을 도입한다는 점에서 독창적이다. 먼저 입력 이미지를 RGB 3채널로 분리하고, 각 채널을 k‑means 알고리즘으로 k개의 클러스터로 나눈다. 클러스터 중심값을 평균 픽셀값으로 사용하고, 각 픽셀을 해당 클러스터 식별자(ID)로 대체함으로써 원본 비트 수를 |C| ≤ |P| 로 감소시킨다. 여기서 중요한 점은 클러스터 식별자가 연속된 시퀀스로 나타나며, 이러한 시퀀스가 빈도 패턴 마이닝의 입력이 된다는 것이다.
폐쇄 빈도 시퀀스 마이닝(CFSM)은 GSP(Generalized Sequential Pattern) 알고리즘을 변형하여 수행한다. 기존 GSP는 모든 빈도 시퀀스를 생성한 뒤 후처리로 비폐쇄 시퀀스를 제거하지만, 저자는 레벨‑와이즈 방식에서 바로 비폐쇄 시퀀스를 차단한다. 또한, 시퀀스 간 겹치는 빈도(overlap)를 고려해 ‘수정된 지원(modified support)’을 정의한다. 구체적으로, 가장 긴 시퀀스를 우선적으로 매칭하고 해당 인스턴스를 데이터베이스에서 제거한 뒤, 남은 시퀀스들의 지원을 재계산한다. 이 과정은 모든 시퀀스가 소멸할 때까지 반복되며, 결과적으로 코드 테이블의 크기를 최소화한다.
지원값이 조정된 폐쇄 시퀀스 집합 S′에 대해 허프만 코딩을 적용한다. 허프만 트리는 시퀀스 길이와 지원을 고려해 가중치를 부여하므로, 긴 시퀀스가 짧은 시퀀스보다 짧은 비트 길이로 인코딩된다. 최종 압축 비트 수는 원본 8 × 8 × 8 = 512 bit 대비 129 bit으로, 압축 비율 3.968배를 기록한다.
실험에서는 Lena, Peppers, Baboon, Boat 등 512 × 512 BMP 이미지에 대해 k와 최소 지원 α를 변동시켜 압축률과 품질을 분석한다. k가 클수록 군집 식별자의 비트 수가 증가해 품질이 향상되지만 압축률은 감소한다. 반면 α를 높이면 빈도 시퀀스가 줄어들어 코드 테이블이 작아지지만, 지나치게 높은 α는 압축 효율을 저하시킨다. PSNR과 SSIM 결과는 대부분 30 dB 이상, SSIM > 0.95 수준을 유지해 시각적 손실이 거의 없음을 확인한다.
전체적으로 이 접근법은 이미지 데이터를 ‘패턴’으로 재구성하고, 데이터 마이닝 기법을 통해 중복을 효율적으로 제거한다는 점에서 기존 변환 기반 압축과 차별화된다. 다만, k‑means와 CFSM 단계가 계산량이 크고, 색상 채널별 독립 처리로 인한 색상 상관관계 손실 가능성이 있다. 향후 연구에서는 클러스터링 비용 감소, 다채널 공동 마이닝, 실시간 적용을 위한 하드웨어 가속 등을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기