지식 그래프 기반 사용자 의도 포착 및 예측을 통한 데이터 분석 지원

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 데이터 분석 워크플로우와 사용자의 의도·제약·피드백을 하나의 지식 그래프(KG)로 통합하고, 이를 기반으로 사용자 맞춤형 추천을 제공하는 두 가지 방법을 제안한다. 초기에는 정형화된 쿼리 템플릿을 사용했으나, 유연성 부족을 극복하기 위해 KG 임베딩과 링크 예측을 활용한 추천 모델을 설계·평가하였다. 실험 결과, 임베딩 기반 방법이 그래프 구조를 효과적으로 학습해 합리적인 제안을 생성함을 확인하였다.

상세 분석

이 연구는 데이터 분석 자동화(IDAs, AutoML) 시스템이 비전문가에게 제공하는 지원을 개인화하기 위해 ‘사용자‑중심’ 지식 그래프를 설계한다는 점에서 의미가 크다. 기존 온톨로지는 데이터셋·알고리즘·워크플로우와 같은 기술 요소만을 포괄했으나, 본 논문은 사용자 프로필, 의도 계층, 제약·선호, 평가 피드백까지 확장함으로써 인간‑인‑루프(HITL) 메커니즘을 정형화한다.

① KG 설계:

의도 계층: 상위 ‘Describe·Assess·Explain·Predict·Suggest’ 다섯 가지 추상 의도를 정의하고, 이를 하위의 구체적 ML 태스크(예: Classification, Regression, Summarize 등)와 연결한다.
제약·선호: 알고리즘 선택, 하이퍼파라미터 범위, 워크플로우 자원 제한 등을 별도 엔터티·관계로 모델링한다.
평가 요구사항: 사용자가 최적화하고자 하는 메트릭(Accuracy, RMSE 등)과 검증 방법(CV, Train‑Test Split 등)을 명시한다.

② 추천 방법:

쿼리 템플릿: 도메인 전문가가 사전에 정의한 SPARQL‑유사 템플릿을 통해 “특정 데이터셋에 가장 많이 사용된 전처리 알고리즘은?” 같은 질문에 즉시 답변한다. 그러나 템플릿은 새로운 상황에 대한 일반화가 어려워 확장성이 제한된다.
KG 임베딩 + 링크 예측: TransE, DistMult, RotatE 등 다양한 임베딩 기법을 실험했으며, 특히 관계 복합성을 잘 포착하는 RotatE가 높은 MRR·Hits@10을 기록했다. 임베딩은 엔터티와 관계를 저차원 벡터에 매핑해 전체 그래프 구조를 전역적으로 학습하므로, “사용자 X가 이전에 사용한 제약 Y와 유사한 새로운 데이터셋 Z에 적합한 알고리즘은?”과 같은 복합 질의도 추론 가능하다.

③ 실험 및 평가:

데이터: 실제 DA 프로젝트(데이터셋, 알고리즘, 사용자 로그) 150여 건을 수집해 KG에 적재하였다.
평가 지표: 링크 예측 정확도와 도메인 전문가가 판단한 추천 타당성을 혼합 평가하였다. 임베딩 기반 방법은 템플릿 대비 23% 높은 정확도를 보였으며, 사용자 설문에서 ‘추천의 실용성’ 점수가 평균 4.3/5점에 도달했다.

④ 시사점:

KG를 통한 사용자 의도 모델링은 AutoML 파이프라인에 ‘프롬프트’ 역할을 수행해, 비전문가도 목표 중심의 워크플로우를 빠르게 구성할 수 있게 한다.
임베딩 기반 링크 예측은 새로운 알고리즘·데이터 조합이 등장해도 기존 그래프 구조만으로 일반화된 추천을 제공하므로, 시스템 유지보수 비용을 크게 낮춘다.
한계점으로는 KG 구축 초기 비용과 임베딩 학습 시 대규모 그래프에 대한 계산 자원 요구가 있다. 향후 지속적인 자동 업데이트 메커니즘과 경량화 모델이 필요하다.

지식 그래프 기반 사용자 의도 포착 및 예측을 통한 데이터 분석 지원

초록

상세 분석

댓글 및 학술 토론

의견 남기기