순서 일치 기반 새로운 유사도 지표 recos와 코사인 유사도의 한계 극복
초록
본 논문은 코사인 유사도가 내포한 선형 의존성 한계를 지적하고, 정렬된 벡터 성분을 이용한 재배열 부등식 기반 상한을 도출한다. 이를 정규화에 적용한 ‘recos’는 순서 일치(ordinal concordance)만으로 완전 유사도를 달성하도록 설계돼, 기존 코사인보다 넓은 관계를 포착한다. 11종의 정적·맥락적·범용 임베딩에 대해 STS 벤치마크에서 인간 평가와의 상관관계를 비교한 결과, recos가 일관되게 우수함을 보였다.
상세 분석
이 논문은 코사인 유사도가 Cauchy‑Schwarz 부등식에 기반해 “벡터가 선형 종속일 때만 1에 도달한다”는 제한을 갖는 점을 명확히 지적한다. 저자들은 Rearrangement Inequality(재배열 부등식)를 활용해 |u·v| ≤ ⟦u↑·v↕⟧ 라는 더 타이트한 상한을 증명하고, 이를 정규화 분모로 삼아 새로운 유사도 recos(u,v)=u·v/⟦u↑·v↕⟧ 를 정의한다. 여기서 u↑는 u를 비감소 정렬한 벡터, v↕는 u·v의 부호에 따라 v를 비감소·비증가 정렬한 벡터이다.
핵심 이론적 기여는 세 가지 상한(재배열 기반, Cauchy‑Schwarz, 평균‑제곱 평균) 사이의 계층 구조를 제시하고, 각각이 유사도 측정에 미치는 포화 조건을 명시한 점이다. recos는 “순서 일치”만으로도 1에 도달할 수 있어, 비선형이지만 단조적인 관계를 포착한다. 반면 기존 cos는 선형 종속, decos는 완전 동일(또는 반대) 관계만을 허용한다. 이론적 정리와 정리 1·정리 2·정리 3을 통해 |decos| ≤ |cos| ≤ |recos| 라는 포함 관계를 증명하고, 특수 경우(단위벡터)에서는 cos와 decos가 동일해지는 점을 강조한다.
실험에서는 11개의 임베딩(Word2Vec, GloVe, FastText, BERT, RoBERTa, Sentence‑BERT 등)을 사용해 STS‑12, STS‑13, STS‑14, STS‑15, STS‑16, STS‑B 등 7개의 벤치마크에서 인간 평균 점수와의 피어슨·스피어만 상관을 측정했다. 전반적으로 recos가 cos보다 평균 2~4%p 높은 상관을 보였으며, 특히 고빈도 단어와 문맥적 임베딩에서 큰 개선을 기록했다.
복잡도 측면에서는 recos가 정렬 단계 때문에 O(d log d) 시간이 소요되지만, d가 수천 차원인 실제 임베딩에서도 정렬 비용이 크게 부담되지 않으며, GPU 가속을 통한 배치 정렬이 가능함을 언급한다.
비판적으로 보면, recos는 순서 정보에 크게 의존하기 때문에 작은 노이즈가 순서를 뒤바꾸면 급격히 점수가 감소한다. 고차원에서 순위가 거의 동일하더라도 미세한 변동이 전체 정렬에 영향을 미칠 수 있다. 또한, 정렬 기반 정규화는 스파스한 벡터(예: TF‑IDF)에서 의미가 달라질 가능성이 있다. 논문은 이러한 한계에 대한 정량적 분석이 부족하고, 정렬 전후의 벡터 분포 차이를 시각화하거나, 노이즈 강건성을 평가하는 추가 실험이 필요하다.
전반적으로, 코사인 유사도의 수학적 한계를 명확히 제시하고, 재배열 부등식을 이용한 새로운 정규화 방식으로 순서 일치를 포착하는 recos를 제안한 점은 의미 있다. 다만 실제 시스템에 적용할 때는 정렬 비용, 노이즈 민감도, 그리고 기존 파이프라인(특히 단위 정규화된 임베딩)과의 호환성을 고려해야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기