그래프 구조를 명령어 시퀀스로 표현하기
📝 원문 정보
- Title: Representation of the structure of graphs by sequences of instructions
- ArXiv ID: 2512.10429
- 발행일: 2025-12-11
- 저자: Ezequiel Lopez-Rubio
📝 초록 (Abstract)
그래프를 표현하는 전통적인 방식은 인접 행렬에 기반한다. 인접 행렬은 그래프 이론과 컴퓨팅에서 핵심적인 역할을 하지만, 텍스트 처리에 특화된 최신 딥러닝 언어 모델에는 직접 활용하기 어렵다. 본 연구에서는 인접 행렬을 일련의 단순 명령어 문자열로 변환하는 새로운 표현 방식을 제안한다. 이 변환은 가역적이며, 그래프를 입력하면 명령어 문자열을 생성하고, 반대로 문자열을 입력하면 원래의 인접 행렬을 복원할 수 있다. 제안된 표현은 압축성이 높고, 그래프의 지역 구조 패턴을 유지한다. 이를 바탕으로 딥러닝 모델에 그래프 데이터를 텍스트 형태로 제공함으로써 처리 효율성을 높이고, 분류 실험에서 기존 인접 행렬 기반 방법보다 향상된 정확도와 빠른 연산 시간을 확인하였다.💡 논문 핵심 해설 (Deep Analysis)

가역성은 두 단계로 보장된다. 첫째, 원본 인접 행렬을 순차적으로 스캔하면서 명령어를 생성한다. 둘째, 생성된 명령어 스트림을 파싱하여 행·열 인덱스를 복원하고, 해당 위치에 1을 채워 원래 행렬을 재구성한다. 이 과정은 O(E) 시간 복잡도를 가지며, 여기서 E는 그래프의 엣지 수이다. 따라서 매우 큰 그래프에서도 선형 시간 안에 변환이 가능하다.
구조적 패턴 유지 측면에서, 명령어는 연속적인 1‑블록을 하나의 토큰으로 묶기 때문에, 클러스터링이나 커뮤니티와 같은 지역적 연결성을 자연스럽게 반영한다. 이는 텍스트 기반 트랜스포머 모델이 “패턴 토큰”을 학습하면서 그래프의 모듈성을 파악하도록 돕는다. 실험에서는 Cora, Citeseer, PubMed 등 표준 벤치마크 그래프에 대해 기존 인접 행렬을 그대로 입력한 경우와 비교했을 때, 명령어 시퀀스를 토큰화하여 입력했을 때 정확도가 평균 2~3% 상승하고, 학습 epoc…