카이제곱 통계로 찾는 가장 의미 있는 문자열

카이제곱 통계로 찾는 가장 의미 있는 문자열
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 메모리리스 베르누이 모델에서 생성된 문자열에 대해, 관측된 문자 빈도가 기대값과 가장 크게 차이나는 부분 문자열을 찾는 문제를 다룬다. 통계적 유의성을 정량화하기 위해 피어슨 카이제곱 통계를 사용하며, 기존 O(n²) 알고리즘을 개선해 고확률적으로 O(n³⁄²) 시간에 최적 부분 문자열(MSS)을 찾는 새로운 알고리즘을 제시한다. 또한 top‑t, 임계값 초과, 최소 길이 제한 등 여러 변형 문제에 대한 확장과 실험적 검증, 암호학·금융·스포츠 데이터 적용 사례를 제공한다.

상세 분석

본 연구는 문자열 S(길이 n)가 고정된 알파벳 Σ와 확률 분포 P에 따라 독립적으로 생성된다는 가정 하에, 모든 가능한 연속 부분 문자열 S


댓글 및 학술 토론

Loading comments...

의견 남기기