관심 아이템셋 기반 선택적 연관 규칙 생성
본 논문은 전문가가 정의한 “흥미로운” 아이템셋 집합에 대해서만 연관 규칙을 효율적으로 생성하는 방법을 제안한다. 기존의 최소 지지도·신뢰도 조정이나 사후 필터링 방식은 규칙 수를 크게 줄이면서도 중요한 정보를 놓칠 위험이 있다. 저자들은 전처리 단계에서 관심 아이템셋을 선정하고, 전용 프리픽스 트리를 이용해 필요한 서브셋의 지지도를 한 번의 데이터 스캔으로 수집한 뒤, 선택된 아이템셋에 대해 바로 규칙을 생성한다. 실험 결과, 제안 방법은 전…
저자: Michael Hahsler, Christian Buchta, Kurt Hornik
연관 규칙 마이닝은 대규모 거래 데이터에서 변수 간의 흥미로운 관계를 발견하는 데 널리 활용된다. 전통적인 방법은 최소 지지도와 최소 신뢰도라는 두 개의 전역 임계값을 설정하고, 이를 만족하는 모든 빈번 아이템셋을 먼저 찾은 뒤, 각 아이템셋에 대해 가능한 모든 규칙을 생성한다. 그러나 지지도와 신뢰도 임계값을 낮게 잡을 경우, 빈번 아이템셋과 파생되는 규칙의 수가 급증해 분석이 불가능해진다. 이를 해결하기 위해 연구자들은 임계값을 점진적으로 올리거나, 사후에 추가적인 흥미도 측정값을 이용해 규칙을 필터링하는 방식을 사용해 왔다. 이러한 접근법은 규칙 수를 줄이는 데는 성공하지만, 중요한 정보를 놓칠 위험이 있다.
본 논문은 이러한 한계를 극복하기 위해 “관심 아이템셋”이라는 개념을 도입한다. 즉, 전문가 지식, 도메인 제약, 혹은 추가적인 마이닝 결과 등을 통해 사전에 의미 있는 아이템셋 집합 X 를 정의하고, 오직 이 집합에 포함된 아이템셋에 대해서만 규칙을 생성한다. 이를 위해 저자들은 두 단계의 프로세스를 제시한다. 첫 번째 단계는 기존의 빈번 아이템셋 마이닝 기법을 그대로 사용하거나, 별도의 필터링·전문가 정의를 통해 X 를 만든다. 두 번째 단계는 선택적 규칙 생성을 수행하는데, 여기서 핵심은 효율적인 서포트 카운팅을 위한 프리픽스 트리 구조이다.
프리픽스 트리는 각 노드가 아이템 집합의 접두사를 나타내며, 해당 접두사가 데이터베이스에 등장한 횟수를 카운터로 저장한다. 기존의 트리 구축 방식과 달리, 이 논문에서는 X 와 그 서브셋(각 아이템을 하나씩 제외한 집합)만을 포함하도록 트리를 사전 생성한다. 그런 다음 각 트랜잭션을 재귀적으로 탐색하면서, 트리 내에서 해당 아이템 순서와 일치하는 경로의 카운터를 증가시킨다. 아이템은 역빈도 순으로 정렬해 링크드 리스트 탐색 비용을 최소화한다. 카운팅이 완료되면, 각 아이템셋 Z∈X 에 대해 Z\{x}⇒{x} 형태의 규칙을 만들고, 서포트와 신뢰도를 트리 노드에 저장된 값으로 즉시 계산한다. 최소 신뢰도 기준을 만족하는 규칙만을 최종 결과에 포함한다.
실험에서는 세 개의 데이터셋(Adult, T10I4D100K, POS)을 사용해 제안 방법의 성능을 평가했다. 각 데이터셋에서 400,000~500,000개의 빈번 아이템셋을 미리 마이닝한 뒤, 무작위로 1~20,000개의 아이템셋을 선택해 X 를 구성하고, 최소 신뢰도 0.8을 적용하였다. 실행 시간은 X 의 크기에 따라 서브선형적으로 증가했으며, 특히 X 가 수천 개에 달할 때도 기존 Apriori 기반 방법보다 현저히 빠른 결과를 보였다. Apriori는 최소 서포트를 조정해 전체 규칙을 먼저 생성한 뒤, 필요 없는 규칙을 필터링하는 과정이 필요해 시간적 오버헤드가 크다. 반면 제안 방법은 처음부터 필요한 서포트만을 카운트하고, 불필요한 규칙 생성을 아예 수행하지 않음으로써 효율성을 크게 향상시킨다.
결론적으로, 이 논문은 관심 아이템셋을 사전에 정의하고, 전용 프리픽스 트리를 이용해 한 번의 데이터 스캔으로 필요한 서포트 정보를 수집함으로써, 대규모 데이터에서도 선택적 연관 규칙 생성을 효율적으로 수행할 수 있음을 입증한다. 이는 규칙 폭발 문제를 완화하고, 도메인 전문가가 직접 지정한 의미 있는 규칙만을 빠르게 추출하고자 하는 실무 환경에 매우 유용한 접근법이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기