동적 소수샷 소셜미디어 텍스트 분류를 위한 그래프 기반 온라인 검색 강화 생성
초록
본 논문은 라벨이 지속적으로 변하고 학습 데이터가 제한된 소셜미디어 환경에서, 키워드‑라벨 그래프와 최소비용 신장 트리를 활용해 동적으로 정보를 검색하고 LLM에 제공함으로써 분류 성능을 크게 향상시키는 GORAG 프레임워크를 제안한다.
상세 분석
GORAG은 기존 RAG 모델이 직면한 세 가지 핵심 문제—균일한 인덱싱, 비적응적 검색, 제한된 정보원—를 해결하기 위해 그래프 기반 접근을 채택한다. 먼저 라벨이 부착된 텍스트에서 키워드를 추출하고, 각 키워드와 해당 라벨 사이에 가중치를 부여한 에지를 생성한다. 이 가중치는 (1) 키워드의 전체 코퍼스 내 빈도와 TF‑IDF 기반 중요도, (2) 라벨과의 의미적 연관성을 측정하는 임베딩 유사도, (3) 추출 신뢰도(예: NER 모델의 confidence) 등을 종합해 산출한다. 이렇게 구축된 가중 그래프는 라운드마다 온라인으로 업데이트되며, 새로운 쿼리 텍스트의 키워드 집합을 그래프에 매핑한다.
검색 단계에서는 매핑된 키워드들을 모두 포함하는 최소비용 신장 트리(MST)를 구한다. MST는 NP‑hard인 스티어너 트리 문제의 근사해로, 그리디 알고리즘을 이용해 효율적으로 구성된다. MST에 포함된 라벨 노드들은 후보 라벨 집합 ˆY 로 추출되며, 이는 전체 라벨 집합 Y에 비해 훨씬 작고, 키워드와 직접적인 연관성을 가진 라벨만을 포함한다. 따라서 LLM에게 전달되는 프롬프트는 불필요한 토큰을 최소화하면서도 핵심 증거를 충분히 제공한다.
분류 단계에서는 GPT‑3.5‑Turbo와 같은 사전학습된 LLM을 사용해, 후보 라벨과 라벨 설명을 프롬프트에 삽입하고, 각 라벨에 대한 확률 점수를 얻는다. 최종 라벨은 최고 점수를 받은 라벨로 결정한다. 중요한 점은, 라벨이 새롭게 추가되는 라운드에서도 기존 그래프에 새로운 키워드와 라벨을 삽입함으로써 그래프가 지속적으로 진화한다는 것이다. 이는 “온라인 인덱싱”이라 불리며, 라벨 추가 시 발생할 수 있는 라벨 간 충돌이나 정보 손실을 방지한다.
실험에서는 HateXplain(혐오 발언)과 COVID‑19 Fake News 데이터셋을 사용해, 기존 BERT‑fine‑tuning, 데이터 증강 기반 소수샷, 그리고 Long‑Context RAG와 비교하였다. GORAG은 평균 F1 점수에서 4~7%p 향상을 보였으며, 특히 라운드가 진행될수록 라벨 수가 늘어날 때도 성능 저하가 거의 없었다. 토큰 비용 측면에서도, MST 기반 후보 라벨 추출 덕분에 평균 입력 길이가 30% 이하로 감소하였다.
한계점으로는 (1) 키워드 추출 품질에 크게 의존한다는 점, (2) 그래프 규모가 매우 커질 경우 MST 계산 비용이 증가할 수 있다는 점, (3) 라벨 설명이 충분히 풍부하지 않을 경우 LLM이 여전히 오답을 생성할 위험이 있다는 점을 들 수 있다. 향후 연구에서는 멀티모달 노드(이미지, 메타데이터) 통합, 그리고 그래프 압축 기법을 도입해 확장성을 높이는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기