웹사이트 추천을 위한 인공 면역 시스템

본 논문은 인공 면역 시스템(AIS)을 활용해 웹사이트 북마크 데이터를 분석하고, DMOZ 분류 체계를 이용해 사용자 프로파일 간 유사성을 측정함으로써 새로운 사용자를 위한 맞춤형 웹사이트 추천을 구현하는 방법을 제안한다.

저자: Tom Morrison, Uwe Aickelin

웹사이트 추천을 위한 인공 면역 시스템
논문은 인공 면역 시스템(AIS)을 웹사이트 추천에 적용하는 새로운 프레임워크를 제시한다. 서론에서는 기존 영화 추천 연구에서 AIS가 성공적으로 사용된 사례를 소개하고, 웹사이트 추천이 검색 엔진과 차별화되는 “놀라움” 요소를 제공해야 함을 강조한다. 이를 위해 사용자의 북마크 파일(프로파일)을 수집하고, URL을 DMOZ(오픈 디렉터리 프로젝트) 분류 체계에 매핑한다. DMOZ는 다중 레벨 트리 구조를 가진 대규모 온톨로지이며, 각 노드는 고유한 분류 코드와 하위 카테고리를 포함한다. 초기 구현에서는 단순히 분류 코드와 해당 코드에 속한 페이지 수만을 사용했지만, 이는 트리 구조의 위계 정보를 활용하지 못한다는 한계를 가졌다. 다음으로 인간 면역 시스템의 기본 원리를 요약한다. 선천 면역과 적응 면역의 차이, T세포와 B세포의 역할, 항원‑항체 매칭, 클론 선택(clonal selection) 및 체세포 고변이(somatic hypermutation) 등을 설명한다. 특히 Jerne의 이디오타입 네트워크 이론을 인용해 항체 간 상호 억제와 자극 메커니즘을 소개한다. 이러한 생물학적 메커니즘을 AIS에 적용하면, 항체(데이터베이스 사용자) 풀을 목표 사용자(항원)와 유사한 방향으로 진화시키면서도 다양성을 유지할 수 있다. 논문은 기존 영화 추천 연구(Cayzer & Aickelin)와의 차이점을 분석한다. 영화 데이터베이스에서는 사용자를 그대로 항체로 사용하고, 정확한 복제만을 수행했으며 변이를 적용하지 않았다. 웹사이트 추천에서도 동일하게 정확한 복제만을 사용하지만, 향후 변이를 도입해 새로운 가상의 프로파일을 생성하는 방안을 제시한다. 이는 데이터 수집 비용이 높거나 사용자가 개인정보 제공을 꺼리는 상황에서 특히 유용할 수 있다. 핵심 알고리즘은 Figure 2에 제시된 메인 루프를 따른다. 1) 목표 사용자를 항원으로 인코딩한다. 2) 데이터베이스에서 새로운 사용자를 항체로 추가하고, 항원‑항체 매칭 점수와 항체‑항체 매칭 점수를 계산한다. 3) AIS가 포화 상태에 도달하고 안정화될 때까지 반복한다. 반복 과정에서는 항체 농도 변화를 다음 식으로 업데이트한다: dx_i/dt = k1·Σ_j m_ij·x_i·x_j – k2·Σ_j m_ij·x_i·x_j – k3·x_i, 여기서 k1은 억제, k2는 자극, k3는 사멸률을 의미한다. 최종적으로 농도가 높은 항체들의 웹사이트를 가중합해 상위 N개의 추천 리스트를 생성한다. 웹사이트 추천의 특수성을 다루기 위해 URL 전처리 과정을 상세히 설명한다. 원시 북마크 파일에는 중복, 오타, 불필요한 파라미터 등이 포함될 수 있다. 따라서 URL을 정규화하고, 도메인 수준에서 트렁케이션하거나 DMOZ 분류 코드로 매핑한다. 예시로 BBC와 Guardian의 다양한 서브 페이지가 동일 카테고리(예: 스포츠, 날씨)로 묶이는 과정을 보여준다. 이렇게 하면 서로 다른 구체적인 주소라도 같은 관심사를 반영하도록 유사도 계산이 가능해진다. 마지막으로 기존 협업 필터링(피어슨 상관계수 기반)의 한계—데이터 희소성, 공통 아이템 부족, 유사도 과대·과소 평가—를 지적하고, AIS가 이러한 문제를 완화할 수 있음을 주장한다. 특히 이디오타입 억제 메커니즘은 과도히 유사한 항체들의 농도를 낮춰 다양성을 확보함으로써 “놀라움” 요소를 제공한다. 결론에서는 현재 구현은 계층적 DMOZ 정보를 완전히 활용하지 못했으며, 향후 연구에서는 트리 구조를 반영한 거리 기반 유사도와 변이 연산을 도입해 성능을 개선할 계획임을 밝힌다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기