데이터 기반 임베딩을 활용한 유사도 학습 프레임워크

본 논문은 비정형 데이터에 적용 가능한 유사도/거리 함수의 “좋음(goodness)”을 데이터에 맞게 정의하고, 이를 학습 가능한 형태로 전환한다. 전통적인 고정 기준을 넘어 전이 함수(transfer function)와 가중치 함수를 통해 유연한 좋은 기준을 학습하고, 랜드마크 기반 임베딩과 다양성 기반 랜드마크 선택 기법을 제안한다. 이론적 일반화 경계와 실험 결과를 통해 기존 방법보다 높은 정확도를 달성한다.

저자: Purushottam Kar, Prateek Jain

본 논문은 비정형 데이터에서 흔히 사용되는 유사도·거리 함수가 반드시 양의 반정밀도(PSD) 커널 형태일 필요는 없다는 현실적 문제에서 출발한다. 기존 연구는 (1) 비 PSD 커널을 PSD 로 변환하는 스펙트럼 클리핑, (2) k‑NN 등 전통 알고리즘을 비 PSD에 적용하는 비효율적 방법, (3) 랜드마크 기반 저차원 임베딩을 이용해 선형 분류기를 학습하는 접근으로 크게 세 갈래로 나뉘었다. 특히 세 번째 접근은 Balcan‑Blum과 Wang et al.이 제시한 “goodness” 조건에 의존했으며, 이 조건이 고정되어 있어 실제 데이터에 맞지 않을 경우 성능 저하가 발생한다는 한계를 가지고 있었다. 저자들은 이러한 한계를 극복하기 위해 “전이 함수(transfer function)”와 “가중치 함수”라는 두 개의 자유도를 도입한다. 전이 함수 f는 실수값을 반환하는 안티대칭 함수이며, K(x,x′)−K(x,x′′)의 차이에 적용되어 유사도 차이를 비선형적으로 변환한다. 가중치 함수 w는 두 입력 쌍에 대해 실수값을 부여하며, 범위

데이터 기반 임베딩을 활용한 유사도 학습 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기