온라인 해밍 거리 계산의 셀 프로브 한계

초록

이 논문은 고정된 문자열과 스트림의 최신 n 심볼 사이의 해밍 거리를 실시간으로 계산하는 문제를 셀‑프로브 모델에서 분석한다. 입력 심볼당 d 비트가 필요하고 워드 크기가 w인 경우, 평균 출력당 Ω((d/w)·log n) 시간 하한을 증명하고, 기존 알고리즘이 이를 Θ((d/w)·log n)으로 달성함을 보여 상한과 하한이 일치함을 입증한다. 하한은 무작위화와 암묵적 평균(아모르타이제이션) 모두에 적용된다.

상세 요약

논문은 온라인 해밍 거리 문제를 셀‑프로브 모델에 정형화함으로써, 메모리 접근 비용만을 고려한 순수한 복잡도 한계를 도출한다. 입력 심볼은 d 비트로 표현되며, 워드당 w 비트를 한 번에 읽고 쓸 수 있다. 저자들은 정보 전달 기법(information‑transfer technique)을 활용해, 특정 시점에 이전 입력이 현재 출력에 미치는 정보를 최소한 (d·log n)/w 워드 만큼 전달해야 함을 보인다. 이를 위해 “hard” 입력 시퀀스를 구성하고, 각 타임스텝에서 발생하는 셀‑프로브를 추적한다. 핵심은 두 단계 사이에 발생하는 셀‑프로브 집합이 충분히 큰 경우, 평균적으로 Ω((d/w)·log n) 비용이 발생한다는 점이다. 하한 증명은 무작위화된 알고리즘에도 적용되며, 기대값 기준으로 동일한 하한을 유지한다. 또한, 암묵적 평균(아모르타이제이션) 모델을 고려해, 전체 실행 동안 발생하는 총 셀‑프로브 수가 n·Ω((d/w)·log n) 이하가 될 수 없음을 보인다. 상한 측면에서는 기존의 비트‑패킹 기반 알고리즘을 변형해, 각 입력 심볼을 워드에 적절히 압축하고, 비트 연산을 통해 해밍 거리를 업데이트함으로써 Θ((d/w)·log n) 시간 복잡도를 달성한다. 따라서 제시된 하한과 상한이 정확히 일치해, 주어진 모델에서 온라인 해밍 거리 계산의 복잡도가 완전히 규정된다. 이 결과는 문자열 매칭, 데이터 스트림 모니터링, 실시간 오류 검출 등 다양한 응용 분야에 직접적인 영향을 미친다.

초록

상세 요약

📜 논문 원문 (영문)