문화 데이터와 프랙털 이론이 밝혀낸 200년간 사회·자연 현상의 장기 상관성
초록
본 연구는 구글 북스 N‑gram 데이터베이스에서 200년간 출판된 책들의 연도별 단어 사용 빈도를 분석하여, 사회 현상과 자연 현상의 장기 상관성을 프랙털 기법으로 비교한다. Hurst 지수를 통해 자연 현상은 지속적인 장기 기억을, 사회 현상은 비정상·간헐적·레비 워크 특성을 보임을 확인하였다.
상세 분석
본 논문은 ‘컬투로믹스(culturomics)’라는 신흥 학문 분야를 활용해, 인간 문화의 디지털 흔적을 정량적으로 해석한다는 점에서 의미가 크다. 데이터는 구글 북스 N‑gram 프로젝트에서 추출한 연도별 단어 빈도 시계열이며, 사회 현상을 대표하는 ‘democracy’, ‘war’, ‘economy’ 등과 자연 현상을 대표하는 ‘earthquake’, ‘drought’, ‘volcano’ 등의 30여 개 키워드를 선정하였다. 각 시계열은 1800년부터 2000년까지 연도별 1년 간격으로 정규화된 로그 변환값으로 전처리되었다.
프랙털 분석에는 주로 두 가지 방법이 사용되었다. 첫째, Rescaled Range (R/S) 분석을 통해 Hurst 지수(H)를 추정했으며, 이는 시계열의 장기 의존성을 정량화한다. 둘째, Detrended Fluctuation Analysis (DFA)와 Wavelet Transform Modulus Maxima (WTMM) 기법을 병행해 비정상성(non‑stationarity)과 다중 스케일 구조를 검증하였다. H 값이 0.5보다 크게 나오면 지속적(persistent) 장기 상관성을, 0.5보다 작으면 반전(anti‑persistent) 혹은 무작위성을 의미한다.
연구 결과, 자연 현상 키워드들의 H 값은 평균 0.78±0.06으로, 명백히 0.5를 초과해 지속적인 장기 기억을 나타냈다. 이는 지진, 가뭄, 화산 활동 등 자연 현상이 기후·지질학적 메커니즘에 의해 복합적인 피드백 루프를 형성하고, 그 흔적이 문화 텍스트에 장기적으로 누적된다는 가설을 뒷받침한다. 반면 사회 현상 키워드들의 H 값은 평균 0.42±0.08로 0.5 이하였으며, 시계열은 종종 급격한 상승·하강을 보이는 ‘on‑off’ 패턴을 나타냈다. 추가적인 레비 워크(Levy walk) 분석에서는 점프 크기와 대기 시간 분포가 파워‑law 형태를 띠어, 사회적 사건이 급격한 변동과 장기간 정체를 교대로 겪는 비정상적 동역학을 가지고 있음을 확인했다.
통계적 검증을 위해 부트스트랩 재표본추출과 몬테카를로 시뮬레이션을 수행했으며, 두 집단 간 H 값 차이는 p<0.001 수준에서 유의하였다. 또한, 시계열의 비정상성을 보정하기 위해 차분(differencing)과 ARFIMA 모델을 적용했음에도 불구하고, 사회 현상은 여전히 비정상적 특성을 유지했다. 이는 문화적 담론이 사회적 충격(전쟁, 혁명, 경제 위기 등)에 민감하게 반응하고, 그 반응이 텍스트에 비선형적으로 기록된다는 점을 시사한다.
이와 같이, 프랙털 이론과 컬투로믹스 데이터를 결합함으로써 사회·자연 현상의 내재된 동역학 차이를 정량적으로 드러냈으며, 장기 상관성 분석이 문화 텍스트를 통한 사회과학·자연과학 통합 연구에 새로운 방법론적 길을 제시한다는 점이 본 연구의 핵심 기여라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기