구조 기반 LLM 프레임워크를 활용한 문맥 인식 스키마 매칭
초록
ConStruM은 기존 LLM 기반 스키마 매칭에서 발생하는 “전체 스키마를 제공하기엔 토큰 한계”와 “필요한 문맥이 묻혀 있어 모델이 활용 못함” 문제를 해결한다. 오프라인에 경량화된 컨텍스트 트리와 전역 유사성 하이퍼그래프를 구축하고, 매칭 시 후보 열 집합에 대해 예산 내에서 가장 판별력 있는 다계층 문맥과 혼동 열 그룹을 추출해 프롬프트에 추가한다. 실험 결과 HRS‑B 벤치마크에서 0.935의 정확도를 달성하며, 기존 ReMatch 대비 크게 향상됨을 보인다.
상세 분석
ConStruM은 스키마 매칭을 “증거 포장(evidence packing)” 문제로 재정의한다. 기존 로컬 프롬프트 방식은 열 이름·설명만을 제공해 주변 열이 제공하는 구분 정보를 놓치고, 글로벌 프롬프트는 토큰 예산을 초과하거나 모델이 핵심 정보를 찾지 못한다는 두 가지 한계가 있다. 이를 해결하기 위해 ConStruM은 두 단계의 중간 구조를 만든다. 첫 번째는 컨텍스트 트리로, 각 테이블을 열 단위 리프와 내부 노드(요약)로 구성한 뒤, 테이블 간 유사성을 기반으로 클러스터링해 데이터베이스 전체 트리를 형성한다. 이 트리는 루트‑리프 경로를 따라 다중 레벨 요약을 제공하므로, 제한된 토큰 안에서 ‘넓은 스코프 → 세부 내용’ 순으로 정보를 전달한다. 두 번째는 전역 유사성 하이퍼그래프이다. 모든 열을 노드로 두고, 높은 의미적·통계적 유사도를 가진 열들을 하이퍼엣지로 연결해 그룹을 만든다. 이렇게 형성된 그룹은 후보 열 집합(C0) 내에서 혼동 가능성이 높은 열들을 자동으로 식별하고, 각 그룹에 대해 “구분 단서(differentiation cue)”를 요약한다. 온라인 매칭 단계에서는 (1) 후보 집합을 하이퍼그래프에서 조회해 혼동 그룹을 찾고, (2) 각 후보와 소스 열에 대해 컨텍스트 트리에서 예산에 맞는 레벨의 요약을 추출한다. 최종 프롬프트는 “소스 열 + 후보 열 + 그룹 대비 단서 + 다계층 컨텍스트” 형태로 구성돼, LLM이 비교적 짧은 텍스트 안에서 핵심 증거를 직접 비교하도록 유도한다. 실험에서는 MIMIC‑2‑OMOP와 새로 만든 HRS‑B 두 벤치마크를 사용했으며, 특히 HRS‑B는 열 간 순서가 뒤섞여 있어 주변 열 정보가 매칭에 결정적이다. ConStruM은 0.935의 정확도로 기존 ReMatch(0.503)보다 두 배 이상 향상되었고, MIMIC‑2‑OMOP에서도 Top‑1 59.69%, Top‑3 76.92% 등 경쟁력을 유지했다. Ablation 연구에서는 (a) 다계층 컨텍스트 없이 단일 레벨만 제공했을 때 정확도가 크게 떨어지고, (b) 하이퍼그래프 기반 대비 단서를 제거했을 때 혼동 후보를 구분하지 못해 성능이 감소함을 확인했다. 이러한 결과는 “문맥을 어떻게 선택·구조화하느냐”가 LLM 기반 스키마 매칭 성능에 핵심적인 영향을 미친다는 점을 실증한다. ConStruM은 기존 매처 파이프라인에 플러그인 형태로 쉽게 삽입될 수 있어, 기존 시스템을 크게 변경하지 않고도 문맥 기반 정확도를 크게 끌어올릴 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기