정보 처리의 본질과 텍스트 기반 접근

초록

본 논문은 “정보”를 데이터 내 관찰 가능한 구조의 기술로 정의하고, 물리적 정보와 의미적 정보를 구분한다. 콜모고로프 복잡도 이론에 따라 정보는 언어적 텍스트 형태로 표현되어야 하며, 따라서 정보 처리는 본질적으로 텍스트 처리와 동일하다고 주장한다. 기존 “Computing With Words” 접근이 부진한 이유를 정의의 모호성에 돌리고, 명확한 개념 정립을 통해 연구 방향을 재정립할 필요성을 제시한다.

상세 분석

논문은 먼저 “정보 처리”라는 용어가 최근에 과도하게 사용되면서도 그 의미가 불분명해졌음을 지적한다. 저자는 이 근본적인 혼란의 원인을 “정보” 자체에 대한 정의 부재로 규정한다. 이를 해결하기 위해 콜모고로프의 알고리즘적 복잡도 이론을 차용한다. 콜모고로프는 어떤 객체를 가장 짧게 기술할 수 있는 프로그램 길이를 그 객체의 복잡도로 정의했으며, 여기서 “기술”은 본질적으로 언어적 서술이다. 저자는 이 관점을 데이터에 적용하여, 데이터 집합 안에 존재하는 두 종류의 구조—물리적 구조와 의미적 구조—를 각각 물리적 정보와 의미적 정보라 명명한다. 물리적 정보는 데이터 자체의 통계적·수학적 패턴, 예를 들어 픽셀값의 연속성이나 신호의 주파수 스펙트럼 등 객관적인 특성을 의미한다. 반면 의미적 정보는 인간이 해당 물리적 패턴에 부여하는 해석, 즉 개념, 범주, 상황적 맥락 등을 포함한다.

이러한 구분은 정보가 단순히 비트의 집합이 아니라, 그 비트를 해석하는 언어적 서술이라는 점을 강조한다. 따라서 정보 처리는 “텍스트 처리”와 동일시될 수 있다. 텍스트 처리란 자연어 문장을 구문·의미 분석하고, 추론·요약·생성 등을 수행하는 일련의 과정이다. 저자는 인간의 인지 과정이 언어 기반임을 근거로, 컴퓨터도 동일한 방식으로 정보를 다루어야 한다고 주장한다.

그런데 기존의 “Computing With Words”(CWW) 연구는 이론적 매력에도 불구하고 실용화에 실패했다. 논문은 그 원인을 두 가지로 진단한다. 첫째, CWW가 “단어”라는 추상적 단위만을 다루고, 그 단어가 실제 어떤 물리적 데이터와 연결되는지 명확히 규정하지 못했다. 둘째, 의미적 정보의 복잡성을 정량화하거나 계층화하는 방법론이 부족했다는 점이다. 결과적으로 연구 로드맵이 모호해지고, 목표 설정이 비현실적이게 되었다.

저자는 이러한 문제를 해결하기 위해, 먼저 정보의 정의를 명확히 하고, 물리적·의미적 정보를 각각 별도의 텍스트 서술로 변환하는 프레임워크를 제안한다. 물리적 정보는 데이터의 통계적 특성을 기술하는 “기술 텍스트”로, 의미적 정보는 인간 전문가가 부여하는 “해석 텍스트”로 표현된다. 이후 두 텍스트를 자연어 처리(NLP) 기법—예를 들어 토큰화, 의미역 분석, 텍스트 요약—에 적용함으로써 전통적인 신호 처리와 고차원 의미 추론을 통합한다.

이 접근법은 몇 가지 장점을 가진다. 첫째, 정보의 모든 단계가 언어적 형태로 존재하므로, 기존의 데이터베이스·지식베이스와 연계가 용이하다. 둘째, 텍스트 기반 모델은 최신 딥러닝 언어 모델(LM)과 직접 호환되어, 복잡한 의미적 관계를 학습·생성할 수 있다. 셋째, 물리적 정보와 의미적 정보를 명시적으로 구분함으로써, 오류 전파를 최소화하고, 각 단계별 검증이 가능해진다.

결론적으로, 논문은 “정보 처리 = 텍스트 처리”라는 명제를 제시하고, 이를 구현하기 위한 구체적 방법론과 연구 방향을 제시한다. 이는 정보 과학, 인공지능, 인간-컴퓨터 상호작용 분야에 새로운 패러다임을 제공할 수 있다.