대규모 온톨로지 모델을 통한 기업 지식 관리 혁신
초록
본 논문은 구조화된 데이터와 비정형 텍스트를 통합한 이중 레이어 기업 온톨로지를 구축하고, 온톨로지‑텍스트 정렬과 단계별 명령 튜닝을 결합한 “구축‑정렬‑추론” 프레임워크(Large Ontology Model, LOM)를 제안한다. 4 B 파라미터 모델이 19가지 그래프 추론 과제에서 89.47% 정확도를 달성하며, 기존 대형 언어 모델을 능가한다.
상세 분석
이 논문은 기업 수준 지식 관리에서 데이터 이질성·관계 암시·복합 질의 응답이라는 세 가지 핵심 난제를 동시에 해결하고자 한다. 첫 번째로, 구조화 DB와 비정형 문서를 각각 전용 파이프라인으로 처리한 뒤, 메타‑태그와 설명 매칭을 이용해 두 소스를 교차 정렬함으로써 ‘스키마 레이어’와 ‘인스턴스 레이어’가 결합된 이중 레이어 온톨로지를 만든다. 특히, 외래키가 누락된 레거시 DB에 대해 스키마 메타데이터와 데이터 내용 겹침을 분석하는 다중 요인 관계 발견 알고리즘을 도입해 암시적 관계를 자동 추출한다는 점이 주목할 만하다. 두 번째로, 온톨로지‑텍스트 정렬 단계에서는 그래프 토큰과 텍스트 토큰 사이의 intra‑type·inter‑type 정렬 데이터를 생성하고, 이를 기반으로 그래프‑언어 정렬 프로젝트를 학습한다. 이 과정에서 그래프 토큰을 LLM 입력으로 변환하고, 텍스트 설명을 예측하도록 교차 엔트로피 손실을 최소화함으로써 구조와 의미를 일관되게 매핑한다. 세 번째 단계인 다중 과제 명령 튜닝에서는 온톨로지‑언어 쌍을 활용한 다양한 프롬프트(예측, 추론, 생성)를 커리큘럼 학습으로 점진적으로 난이도를 높여 모델이 복합 다중 홉 추론과 자연어 생성 모두를 수행하도록 훈련한다. 데이터 측면에서는 19개의 그래프 추론 작업(DFS, BFS, 최단 경로, MST, PageRank 등)을 포함한 115 k 샘플의 CoT‑강화 데이터셋을 구축했으며, 각 샘플은 문제 서술, 단계별 사고 과정, 최종 답을 포함한다. 실험 결과, 4 B 파라미터 LOM은 89.47% 정확도로 DeepSeek‑V3.2를 크게 앞서며, 특히 복합 그래프 연산(예: 최소 신장 트리, 위상 정렬)에서 현저한 우위를 보인다. 이는 온톨로지 구조 정보를 언어 모델에 효과적으로 주입함으로써, 기존 GNN‑LLM 혼합 방식보다 더 깊은 의미 추론이 가능함을 증명한다. 전체적으로 데이터 통합, 정렬, 학습 파이프라인이 일관된 설계 철학 아래 결합돼, 기업 환경에서의 실시간 질의·응답 및 의사결정 지원 시스템에 바로 적용 가능한 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기