다중소스 바이오메디컬 검색 프레임워크 BioMedSearch
초록
BioMedSearch는 LLM 기반 질의 응답에 권위 있는 생물학 데이터베이스와 웹 검색을 실시간으로 연동하여, 질의‑하위질의 분해·키워드 추출·DAG 기반 검색 계획을 통해 문헌·단백질·웹 정보를 다중소스에서 정밀히 필터링한다. 새롭게 구축한 3,000문항 BioMedMCQs 벤치마크에서 기존 모델 대비 30% 이상 정확도가 향상되었다.
상세 분석
본 논문은 최신 대형 언어 모델(LLM)의 “환각”(hallucination) 문제를 완화하기 위해, 도메인 특화된 권위 데이터베이스와 실시간 웹 검색을 결합한 다중소스 검색 프레임워크인 BioMedSearch를 제안한다. 핵심 기술은 네 단계로 구성된다. 첫째, 사용자가 입력한 자연어 질의를 LLM과 사전 정의된 프롬프트를 이용해 의미적 차원(발달, 내분비, 임상, 분자 등)별 하위 질의 집합 S={q₁,…,qₙ} 로 분해한다. 둘째, 각 하위 질의에 대해 세밀한 키워드 Kᵢ={kᵢ₁,…,kᵢₑ} 를 추출하고, 이 키워드들을 정점으로 하는 유향 비순환 그래프(DAG) G=(V,E)를 구축한다. DAG는 검색 경로와 도구 할당을 명시적으로 표현함으로써, 어떤 하위 질의가 문헌(PubMed, PMC, ScienceDirect), 단백질 데이터베이스(Uniprot, AlphaFold) 혹은 일반 웹 엔진(구글, Bing)으로 전달될지를 자동 결정한다. 셋째, 검색 실행기에서는 각 소스별 특화된 필터링 전략을 적용한다. 문헌 검색에서는 80% 이상의 키워드 커버리지를 사전 조건으로 두고, PubMedBERT 임베딩 기반 코사인 유사도로 상위 k(기본 10) 논문을 선정한다. 단백질 검색은 먼저 UniProt ID를 조회하고, 기능·상호작용·서열 정보를 추출한 뒤, 구조가 요구될 경우 AlphaFold API를 호출해 PDB 파일을 생성한다. 웹 검색은 최신 연구·임상 사례를 포착하기 위해 실시간 검색 결과를 수집하고, LLM 기반 텍스트 요약과 관련성 점수를 통해 최종 후보를 선정한다. 넷째, 정제된 자료들을 LLM에 입력해 종합 보고서를 생성하고, 답변 가능성 검증 단계에서 증거와 정답의 일치도를 평가한다. 평가를 위해 저자는 3,000개의 다중 선택형 질문으로 구성된 BioMedMCQs 데이터셋을 설계했으며, 이는 (1) 메커니즘 식별, (2) 비인접 의미 통합, (3) 시간적 인과 추론이라는 세 수준의 복합 추론 과제를 포함한다. 실험 결과, BioMedSearch는 기존 RAG 기반 모델과 일반 LLM 대비 레벨 1에서 91.9% (↑32.8%), 레벨 2에서 81.0% (↑34.0%), 레벨 3에서 73.4% (↑37.1%)의 정확도를 달성했다. 이는 다중소스 연동과 DAG 기반 계획이 복잡한 생물학 질의에서 정보 검색 정확도와 추론 일관성을 크게 향상시킴을 입증한다. 또한, 코드와 데이터셋을 공개함으로써 재현 가능성을 확보하고, 향후 생의학 AI 연구에 대한 표준 벤치마크 역할을 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기