ScienceDB AI 대규모 과학 데이터 공유를 위한 LLM 기반 에이전트형 추천 시스템
초록
ScienceDB AI는 대규모 과학 데이터베이스에 특화된 LLM‑driven 에이전트형 추천 시스템이다. 자연어 대화를 통해 연구자의 과학적 의도를 파악하고, 과학적 실험 요소를 구조화된 형태로 추출한다. 다중 턴 대화를 효율적으로 관리하는 메모리 압축기와 두 단계 검색·생성(RAG) 구조를 결합해 신뢰성 높은 데이터셋을 제시한다. 실험 결과, 기존 키워드 기반 검색 대비 클릭률이 200 % 이상 상승하고, 오프라인 지표에서도 30 % 이상의 개선을 보였다.
상세 분석
본 논문은 과학 데이터 공유 플랫폼의 특수성을 고려한 최초의 LLM 기반 대화형 추천 시스템을 제안한다는 점에서 학술적·실용적 의미가 크다. 기존 협업 필터링이나 키워드 매칭 방식은 과학 데이터가 내포하는 복합적인 실험 설계, 변수, 측정 방법 등을 충분히 포착하지 못한다. ScienceDB AI는 이러한 한계를 극복하기 위해 세 가지 핵심 모듈을 설계하였다. 첫째, Scientific Intention Perceptor는 사용자의 자연어 질의를 파싱하여 ‘연구 목적’, ‘실험 대상’, ‘측정 변수’, ‘조건’ 등 4‑5개의 구조화된 요소로 변환한다. 이를 위해 사전 학습된 LLM에 도메인 특화 프롬프트와 라벨링된 과학 질의 데이터셋을 fine‑tuning 하였으며, 추출된 요소는 이후 검색 단계의 필터링에 직접 활용된다. 둘째, Structured Memory Compressor는 다중 턴 대화에서 발생하는 메모리 폭증 문제를 해결한다. 대화 히스토리를 트리 구조로 정리하고, 중요도 기반 요약 및 압축 알고리즘을 적용해 핵심 컨텍스트만을 보존한다. 이는 LLM의 토큰 제한을 초과하지 않으면서도 사용자의 의도 변화를 지속적으로 추적할 수 있게 한다. 셋째, Trustworthy Retrieval‑Augmented Generation (Trustworthy RAG) 프레임워크는 두 단계 검색 메커니즘을 도입한다. 초기 단계에서는 구조화된 의도 요소와 메타데이터 기반의 BM25·벡터 검색을 결합해 후보 데이터셋을 빠르게 선별하고, 두 번째 단계에서는 후보군에 대해 LLM‑based re‑ranking 및 설명 생성 과정을 거친다. 특히, 추천 결과에 Citable Scientific Task Record (CSTR) 식별자를 부착해 데이터셋 출처와 재현성을 보장한다. 실험에서는 1,000만 건 이상의 실제 데이터셋 메타데이터와 200만 건 이상의 사용자 질의를 활용해 오프라인 지표(NDCG, MAP)에서 기존 RAG·BM25 기반 베이스라인 대비 각각 30 % 이상, 온라인 A/B 테스트에서는 클릭‑through‑rate(CTR)가 200 % 이상 향상되었다. 이러한 성과는 LLM이 도메인 지식을 효과적으로 활용하고, 구조화된 의도 파악 및 메모리 관리가 대규모 실시간 서비스에 적용 가능함을 입증한다. 다만, 현재 시스템은 영어와 중국어 중심의 데이터에 최적화돼 있어 다국어 지원 및 희귀 분야 데이터셋에 대한 일반화 성능은 추가 연구가 필요하다. 또한, LLM의 hallucination 문제를 완전히 억제하지 못했으며, CSTR 식별자 관리와 메타데이터 표준화 작업이 지속적으로 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기