인코더 없이 초고차원 경로 검색으로 KG 추론
초록
PathHD는 하이퍼디멘셔널 컴퓨팅(HDC)을 이용해 관계 경로를 블록대각선 GHRR 하이퍼벡터로 인코딩하고, 블록별 코사인 유사도로 후보 경로를 한 번에 스코어링한다. 이후 상위 K개 경로를 하나의 프롬프트에 넣어 LLM에게 한 번만 판단하도록 함으로써 정확도·속도·해석 가능성 삼위일체를 달성한다.
상세 분석
이 논문은 기존 KG‑QA 파이프라인이 겪는 두 가지 근본적인 병목, 즉 “경로‑질문 불일치”와 “후보별 LLM 점수 매김”을 해소하고자 한다. 첫 번째 문제는 대부분의 인코더가 교환법칙을 따르는 점에 기인해 관계 순서와 방향성을 제대로 반영하지 못한다는 점이다. 저자들은 비교환적인 Generalized Holographic Reduced Representation(GHRR) 바인딩 연산을 도입해 관계를 블록‑대각선 유니터리 행렬 형태의 하이퍼벡터로 표현한다. 각 블록은 독립적인 유니터리 행렬이며, 행렬 곱셈이 비교환적이기 때문에 r₁→r₂와 r₂→r₁이 완전히 다른 벡터로 매핑된다. 이 설계는 다중 홉 경로의 순서를 보존하면서도 고차원(예: d=8192) 공간에서 거의 정규직교성을 유지한다는 이론적 보장을 제공한다(정리 1, 코롤러리 1).
두 번째 병목은 후보 경로마다 LLM을 호출해 점수를 매기는 방식이다. PathHD는 모든 후보를 동일한 차원(d) 하이퍼벡터로 변환한 뒤, 블록별 코사인 유사도를 계산해 일괄적으로 스코어링한다. 여기에는 IDF 기반 스키마 가중치와 길이 페널티(α,β,λ) 등 간단한 보정식이 추가돼, 희귀 스키마가 과대평가되는 현상을 억제한다. 이 연산은 O(N·d) 복잡도로 완전 병렬화가 가능하며, GPU 메모리 사용량을 기존 인코더 기반 방법 대비 3‑5배 절감한다.
후보 경로가 Top‑K로 축소된 뒤, 저자들은 “one‑shot adjudication” 단계에서 질문과 K개의 경로를 자연어 형태로 나열한 프롬프트를 LLM에 전달한다. LLM은 답변, 인용할 경로 인덱스, 짧은 근거 문장을 동시에 출력한다. 이렇게 하면 LLM 호출 횟수가 1회로 고정돼 토큰 비용과 지연 시간이 크게 감소하고, 모델이 실제로 어떤 경로를 근거로 삼았는지 명시적으로 확인할 수 있어 해석 가능성이 크게 향상된다.
실험에서는 WebQSP, CWQ, GrailQA 세 벤치마크에서 Hits@1 및 F1 점수가 최신 신경망 기반 베이스라인(예: StructGPT, KG‑Agent 등)과 동등하거나 약간 앞섰다. 특히 Top‑K를 10~20으로 제한했을 때 전체 추론 지연이 40‑60% 감소했으며, GPU 메모리 사용량이 3‑5배 줄어들었다. 바인딩 연산 비교 실험에서는 GHRR이 전통적인 원소‑곱, 원형 컨볼루션 등 교환적 바인딩보다 일관된 순서 구분 능력을 보여주었다. 또한, 보정 파라미터 α, β, λ의 민감도 분석을 통해 적절한 값 설정이 정확도와 효율성 사이의 트레이드오프를 조절함을 확인했다.
이 논문은 “인코더‑프리” 접근이 반드시 성능 저하를 초래하는 것이 아니라, 고차원 벡터 연산과 잘 설계된 바인딩·스코어링 메커니즘을 결합하면 KG‑LLM 통합 시스템에서 효율·정확·투명성을 동시에 달성할 수 있음을 증명한다. 향후 연구에서는 동적 스키마 생성, 엔티티 레벨 바인딩, 그리고 멀티모달 KG와의 연계 등을 통해 PathHD의 적용 범위를 넓히는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기