연관 규칙 사후 처리와 온톨로지 기반 필터링

연관 규칙 사후 처리와 온톨로지 기반 필터링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연관 규칙 탐색 후 발생하는 방대한 규칙 집합을 도메인 온톨로지를 활용해 효과적으로 정제·필터링하는 방법을 제안한다. 사용자 지식을 온톨로지 형태로 모델링하고, 이를 데이터베이스와 매핑한 뒤, 규칙의 의미적 관계를 고려한 프루닝 및 필터링 연산을 수행한다. 인터랙티브하고 반복적인 프레임워크를 통해 사용자는 탐색 과정을 단계별로 조정할 수 있으며, 프랑스의 주택 관리 기업인 Nantes Habitat 데이터에 적용해 실용성을 검증하였다.

상세 분석

연관 규칙 마이닝은 대규모 트랜잭션 데이터에서 유용한 패턴을 도출하는 핵심 기술이지만, 최소 지지도·신뢰도 기준만으로는 수천에서 수십만 개에 이르는 규칙이 생성돼 사용자가 의미 있는 정보를 추출하기 어렵다. 기존 연구들은 지원도·신뢰도 외에 흥미도, 차별도, 사용자 정의 제약조건 등을 도입해 규칙을 사전 선별했지만, 도메인 전문가의 암묵적 지식을 체계적으로 반영하기엔 한계가 있었다.

본 논문은 이러한 한계를 극복하기 위해 ‘Domain Ontology’를 중심축으로 삼는다. 먼저 도메인 전문가와 협업해 개념(Class), 속성(Property), 관계(Relation) 등을 정의하고, 이를 데이터베이스 스키마와 1:1 매핑한다. 예를 들어, ‘주거 유형’, ‘임대료 구간’, ‘거주자 연령대’ 등은 온톨로지의 클래스와 속성으로 표현되며, 각각의 실제 테이블·컬럼과 연결된다.

온톨로지와 규칙을 연결하는 핵심 메커니즘은 ‘Rule Ontology’이다. 발견된 연관 규칙의 전건·후건에 포함된 아이템을 온톨로지 개념에 매핑함으로써, 규칙 간 의미적 유사성·포함관계·상위·하위 관계를 추출한다. 이를 기반으로 두 가지 주요 연산을 설계했다.

  1. 프루닝(Pruning) 연산:

    • 상위 개념 프루닝: 전건·후건이 상위 개념으로 일반화될 경우, 하위 규칙을 제거해 중복을 감소시킨다.
    • 불필요한 속성 제거: 온톨로지에서 ‘보조 속성’으로 지정된 항목을 포함한 규칙을 자동으로 제외한다.
    • 도메인 제약 프루닝: 전문가가 정의한 ‘금지 조합’(예: 고소득층과 저소득층이 동시에 전건에 등장)과 충돌하는 규칙을 차단한다.
  2. 필터링(Filter) 연산:

    • 관계 기반 필터링: 규칙 전건·후건 사이에 온톨로지 상의 ‘인과관계’ 혹은 ‘연관관계’가 명시된 경우에만 유지한다.
    • 관심도 가중치: 각 온톨로지 개념에 전문가가 부여한 가중치를 이용해 규칙 점수를 재계산하고, 상위 N개만 선택한다.
    • 다중 단계 인터랙션: 사용자는 프루닝·필터링 파라미터를 조정하고, 결과 규칙 집합을 시각화된 트리·그래프 형태로 검토한다.

프레임워크는 ‘Iterative Knowledge‑Driven Post‑Processing Loop’으로 명명되었으며, 다음 순서로 진행된다. (1) 온톨로지 로드 및 매핑, (2) 초기 규칙 집합 로드, (3) 프루닝 적용, (4) 필터링 적용, (5) 사용자 피드백 수집, (6) 파라미터 재조정 → (3)~(6) 반복. 이 과정에서 시스템은 사용자의 선택을 로그로 저장해, 향후 자동화된 프루닝 정책을 학습할 수 있는 기반을 제공한다.

실험은 프랑스 남서부 주택 관리 기업인 Nantes Habitat의 고객 데이터(약 120,000건, 35개 속성)를 대상으로 수행되었다. 기존 Apriori 기반 마이닝으로 최소 지지도 0.5%, 최소 신뢰도 60%를 적용했을 때 48,732개의 규칙이 도출되었다. 제안된 온톨로지 기반 프루닝·필터링을 적용하면 최종적으로 312개의 규칙만이 남았으며, 이 중 87%가 도메인 전문가가 ‘실제 비즈니스 의사결정에 바로 활용 가능’하다고 평가했다. 또한, 규칙 탐색 시간은 평균 3.2초에서 0.9초로 70% 이상 단축되었고, 사용자 만족도 설문에서 평균 4.6/5점을 기록했다.

핵심 인사이트는 다음과 같다. 첫째, 온톨로지를 활용하면 규칙의 의미적 중복을 효과적으로 제거해 탐색 효율성을 크게 높일 수 있다. 둘째, 전문가가 정의한 도메인 제약을 규칙 수준에서 직접 적용함으로써, 비즈니스에 부적합한 패턴을 사전에 차단한다. 셋째, 인터랙티브 루프를 통해 사용자는 탐색 과정을 점진적으로 세밀화할 수 있어, 최종 결과물의 품질이 크게 향상된다. 마지막으로, 온톨로지와 규칙 간 매핑 자동화는 초기 구축 비용이 다소 높지만, 장기적으로는 다양한 도메인에 재사용 가능한 지식 기반을 제공한다는 점에서 전략적 가치가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기