토라 문자 배열과 알고리즘 전환
초록
본 논문은 토라의 일부 구절을 2차원 배열로 재배열한 뒤, 재귀적 결정론적 알고리즘을 적용해 문자 순열을 생성한다. 생성된 15 억 개의 2단계 순열 중 800개가 사전 정의된 확률적·결정론적 필터를 통과하여, 읽을 수 있는 히브리어와 유사한 텍스트를 만든다. 결과물은 공개되어 추가 연구에 활용될 수 있다.
상세 분석
이 연구는 토라 텍스트의 85문자를 5×17 형태의 격자에 배치하고, 행·열을 교차시키는 단순 재귀 알고리즘을 적용한다. 첫 번째 재귀 단계에서는 행을 순환시키고, 두 번째 단계에서는 열을 순환시켜 총 15 억(5! × 17!)개의 가능한 순열을 생성한다. 각 순열은 네 가지 필터를 거친다. 첫 번째 확률적 필터는 히브리어 2‑그램·3‑그램 빈도 모델을 사용해 언어적 일관성을 점수화한다. 두 번째 필터는 사전(약 8 천 단어) 기반 매칭률을 평가한다. 세 번째 필터는 의미론적 연속성을 추정하기 위해 단어 간 거리와 어미 변화를 분석한다. 마지막 결정론적 필터는 특정 키워드(예: “אל”, “יהוה”)의 최소 출현 횟수를 검증한다. 각 필터는 사전 설정된 임계값을 초과해야 하며, 이를 만족한 800개의 순열이 최종 후보가 된다.
기술적 관점에서 주목할 점은(1) 재귀적 순열 생성이 완전 탐색이 아니라 제한된 조합을 선택하도록 설계돼 계산량을 크게 줄였다는 점, (2) 확률적 필터가 현대 자연어 처리(NLP)에서 사용되는 n‑gram 모델을 차용했음에도 불구하고 히브리어 고전 텍스트에 적용된 방식이 독특하다는 점, (3) 필터 임계값이 사전 정의된 ‘가설적’ 기준에 의존한다는 점에서 결과의 통계적 유의성을 평가하기 위해 추가적인 부트스트랩 검증이 필요하다는 점이다. 또한, 800개의 후보 중 다수가 실제 의미 있는 구절이 아니라 무작위적 패턴에 불과할 가능성이 존재한다. 이는 필터가 언어적 ‘유사성’만을 측정하고, 문맥적·신학적 의미를 포착하지 못한다는 한계와 연결된다.
보안·암호학적 관점에서는 이 절차가 일종의 ‘키스트림 생성기’로 볼 수 있다. 입력 배열이 고정되어 있기 때문에 재현성이 높으며, 필터를 통과한 순열은 일종의 ‘가짜 텍스트’로서 스테가노그래피에 활용될 여지가 있다. 그러나 필터 설계가 공개된 상태이므로 외부 공격자가 동일한 필터를 적용해 동일한 결과를 재현할 수 있다. 따라서 이 방법이 실제 암호학적 강도를 제공한다고 보기는 어렵다.
전체적으로 이 논문은 텍스트 재배열과 통계적 필터링을 결합한 실험적 프레임워크를 제시하지만, 결과 해석에 있어 통계적 검증과 의미론적 평가가 부족하다. 향후 연구에서는(가) 무작위 생성 모델과의 비교, (나) 인간 독자에 의한 가독성 테스트, (다) 보다 정교한 언어 모델(예: BERT 기반 히브리어 모델) 적용 등을 통해 결과의 신뢰성을 강화할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기