대형 언어 모델을 이용한 범주형 데이터 클러스터링의 의미적 간극 해소

읽는 시간: 9 분
...

📝 원문 정보

- Title: Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models
- ArXiv ID: 2601.01162
- 발행일: 2026-01-03
- 저자: Zihua Yang, Xin Liao, Yiqun Zhang, Yiu-ming Cheung

📝 초록

범주형 데이터는 의료, 마케팅, 바이오정보학과 같은 분야에서 패턴 발견의 기본 도구로 클러스터링을 사용합니다. 범주형 데이터 클러스터링의 핵심 과제 중 하나는 내재적인 순서나 거리가 없는 속성 값 간의 유사성을 측정하는 것입니다. 적절한 유사성 지표 없이 값을 등거리로 취급하면 의미론적 격차가 발생하여 잠재 구조를 가리고 클러스터링 품질을 저하시킵니다. 기존 방법들은 데이터셋 내에서의 공발생 패턴으로부터 값 간 관계를 추론하지만, 샘플이 제한적일 때 이러한 추론은 신뢰할 수 없게 되어 데이터의 의미론적 맥락이 충분히 탐색되지 않습니다. 이 격차를 메우기 위해 우리는 ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)를 제시합니다. ARISE는 대형 언어 모델(LLMs)로부터 외부 의미론적 지식을 끌어와 범주형 데이터의 거리 공간을 보완하는 의미론 인식 표현을 구성하여 정확한 클러스터링을 실현합니다. 즉, LLM은 표현 강화를 위해 속성 값을 설명하고, LLM으로 향상된 임베딩은 원래 데이터와 결합되어 의미론적으로 중요한 클러스터를 탐색합니다. 8개의 벤치마크 데이터셋에 대한 실험에서 ARISE는 대표적인 일곱 가지 방법보다 19-27% 향상된 성능을 보여주며, 코드는 https://github.com/develop-yang/ARISE에서 이용 가능합니다.

💡 논문 해설

1. **작은 샘플 문제 해결:** ARISE는 LLMs를 사용해 통계 신호가 부족한 경우 외부 의미론적 정보를 제공하여 작은 샘플에서도 유의미한 클러스터링을 가능하게 합니다. 이는 마치 빗속에서 길을 찾기 위해 GPS를 사용하는 것과 같습니다. 2. **주의 가중 인코딩:** ARISE는 생성된 설명에서 중요한 토큰을 강조하여 정보가 집약적인 의미 임베딩을 생성합니다. 이는 영화 리뷰에서 가장 중요한 평가 포인트만 추출해 요약하는 것과 유사합니다. 3. **LLMs의 전통적 클러스터링 향상:** ARISE는 다양한 벤치마크에서 기존 방법보다 19-27% 더 좋은 성능을 보여줍니다. 이는 새로운 도구를 사용해 오래된 문제에 새로운 해결책을 제시하는 것과 같습니다.

📄 논문 발췌 (ArXiv Source)

/>
범주적 클러스터링의 의미론적 간극. (a) 비의미 표현은 모든 값을 동일한 거리(d = 1)로 처리하여 겹치는 클러스터를 생성합니다. (b) 의미론적 인식 표현은 잠재적인 근접성을 포착: "타원형"과 "원형"이 매우 유사(d = 0.2)하고, "타원형"은 "비정형"에 더 가깝습니다(d = 0.7), 반면 "원형"은 그렇지 않습니다(d = 1)는 것과 같은 방식으로, 이는 개선된 클러스터 분리를 제공합니다.

서론

범주적 데이터는 의료 진단, 고객 세분화 및 생물학 연구와 같은 실제 세계의 응용 프로그램에서 널리 사용됩니다. 이러한 도메인에서는 잠재 패턴을 찾아내는 클러스터링이 환자 구분, 시장 분석 및 유전자 기능 주석과 같은 중요한 후속 작업을 가능하게 합니다. 클러스터링은 비감독 학습 방법으로 원시 관찰로부터 숨겨진 구조를 직접 밝혀내는 데 필요한 비용이 많이 드는 레이블 데이터가 필요하지 않습니다. 그러나 수치형 데이터와 달리 거리를 자연스럽게 정의하는 메트릭 공간에서 발생하는 반면, 범주적 데이터는 어떤 거리 메트릭도 적용하기 전에 존재합니다. 이 기본적인 차이는 비슷한 측정을 범주적 클러스터링의 핵심 도전 과제로 만듭니다. 그림 1(a)에서 보듯이 적절한 메트릭 설계 없이는 모든 값들이 동일한 거리로 처리되어 잠재 구조를 흐리게 하고 클러스터링의 품질을 저하시킵니다.

이 간극을 극복하기 위해, 기존 방법은 데이터셋 내부에 있는 통계 정보로부터 값을 관계 추론하려고 시도합니다. 거리기반 방법은 객체 간 불일치를 직접 측정합니다. 초기 접근 방식인 $`k`$-modes 는 각 속성 불일치가 동등하다고 처리하지만, 더 정교한 기법들은 속성 결합 또는 다중 메트릭 공간 융합을 활용하여 값의 종속성을 포착합니다. 임베딩 기반 접근 방식은 연속적인 표현을 학습하는 다른 길을 따릅니다. 이러한 방법들이 차이점이 있지만, 데이터셋 자체에서 모든 필요한 의미론적 관계를 유도할 수 있다는 공통 가정을 공유합니다. 그러나 이 가정은 제한된 샘플 하에서는 실패합니다. 희귀 질병 진단이나 특수 시장 분석과 같은 전문 도메인에서는 데이터셋이 종종 수십 개에서 수백 개의 샘플만 포함하므로 신뢰할 수 있는 값 간 연관성을 구축하는 것이 어려워집니다. 이러한 조건 하에서는 통계 신호가 약해지고 의미론적으로 관련된 값들이 구별되지 않아 클러스터링 성능이 저하됩니다.

이 한계를 극복하기 위해서는 부족한 통계 신호를 보완할 외부 의미론적 지식이 필요합니다. LLMs은 대규모 코퍼스에 미리 학습되어 풍부한 의미론적 지식을 인코딩하고 데이터셋 이상의 외부 증거를 제공합니다 . 최근 작업들인 ClusterLLM 와 TabLLM 는 LLMs이 텍스트 클러스터링 및 표 분류에 효과적임을 보여주었습니다. 그러나 이러한 방법들은 텍스트 데이터나 감독 학습 작업을 대상으로 하며, 비감독 범주적 클러스터링에는 직접 적용할 수 없습니다. LLMs를 이 설정에 적응시키는 것은 몇 가지 도전 과제를 제기합니다. LLMs를 쿼리하는 것은 상당한 계산 비용을 초래하며, 특히 각 데이터 인스턴스를 개별적으로 처리할 때 더욱 그렇습니다. LLM 생성의 확률적 특성은 일관되지 않은 표현을 생성하여 동일 범주 값이 여러 쿼리에서 다른 임베딩을 받는 경우가 생기게 하여 클러스터링 안정성을 저하시킵니다. LLM 생성 설명은 종종 길거나 구별력이 떨어지는 내용을 포함하여 유용한 의미론적 신호를 희석하고 노이즈를 도입할 수 있습니다. 또한 외부 지식은 데이터 특정 패턴과 균형을 이루어야 하며, LLM 출력에 과도하게 의존하면 데이터셋에서 학습된 통계 신호가 무시될 위험이 있습니다.

따라서 이 논문에서는 ARISE (Attention-weighted Representation with Integrated Semantic Embeddings)라는 프레임워크를 제안합니다. 이를 통해 LLMs에서 유래한 의미론을 범주적 클러스터링에 통합하고 있습니다. 효율성과 일관성을 보장하기 위해 ARISE는 속성-값 수준에서 LLMs을 쿼리하여 계산 비용을 줄이면서 동일 값이 동일한 표현을 받도록 합니다. 생성된 설명에서 구별력 있는 특징을 추출하기 위해 주의 가중 인코딩 메커니즘은 학습 가능한 매개변수 없이 정보가 풍부한 토큰에 중점을 둡니다. 외부 지식과 데이터 특정 패턴 사이의 균형을 맞추기 위해 클러스터 품질에 기반하여 의미론적 임베딩의 기여도를 조정하는 적응 융합 모듈이 있습니다. 그림 1(b)에서 보듯이 의미론적 근접성을 활용하면 비의미 접근 방식에 비해 개선된 클러스터 분리를 얻을 수 있습니다. 여덟 가지 벤치마크 데이터셋과 네 가지 주요 LLMs에 대한 실험은 ARISE가 모든 평가된 데이터셋에서 일관되게 최신 방법들보다 우수한 성능을 보임을 확인합니다. 주요 기여는 다음과 같습니다:

  1. 작은 샘플 문제를 해결하기 위해, 속성-값 수준에서 LLMs을 쿼리하고 통계 신호가 부족할 때 데이터셋 외부의 의미론적 정보를 통합하는 프레임워크를 제안합니다.
  2. 생성된 설명에서 중요한 토큰에 중점을 두는 주의 가중 인코딩 방법을 제안하여 범주형 데이터 클러스터링에 더 구별력 있는 정보가 집약적인 의미 임베딩을 생성합니다.
  3. 이 연구는 LLMs이 전통적 범주형 클러스터링을 충분히 향상시킬 수 있다는 첫 번째 경험적 검증을 제공합니다. 여덟 가지 벤치마크를 통해 일관된 개선 사항을 보여주며, 모든 평가된 데이터셋에서 19-27%의 성능 향상을 확인하여 범주형 클러스터링에 외부 의미론적 지식의 가치를 입증합니다.

관련 연구

범주형 데이터 표현과 클러스터링

범주 속성의 이산성은 내재적인 순서나 거리가 없음을 특징으로 하며, 유사도 측정을 명시적으로 구성해야 합니다. 통계 추론은 이 영역에서 주류 접근 방식입니다. 초기 접근 방식은 불일치를 기반으로 했지만, 거리기반 방법은 정보이론적 메트릭으로 진화했습니다. 최근 연구들은 그래프 기반 관점을 도입하거나 속성 중요도를 조정하기 위해 학습 가능한 속성 가중치를 도입하고 있으며, 다른 연구는 강건한 클러스터링을 위한 다중 메트릭 공간 융합을 탐구하고 있습니다. 메트릭 학습과 병행하여 표현 학습은 이산 기호를 연속 벡터 공간으로 매핑하려고 합니다. 혼합형 데이터에 대해 Het2Hom 와 QGRL 는 속성을 동질한 개념 공간이나 쿼터니언 그래프로 투영하고, 계층적 병합 메커니즘을 통해 클러스터링을 수행하는 적응적 분할 전략이 있습니다.

이러한 방법론적 발전에도 불구하고 기본적인 한계가 지속됩니다. 최근 조사 에서 언급했듯이 범주형 데이터에 대한 유사도 측정은 잘 정립된 거리 메트릭의 부족으로 인해 여전히 어렵습니다. 샘플이 제한적일 때 공동 발생 신호가 희박해져 값 간 관계를 추론하는 것이 어려워지며, 이로 인해 표현력이 저하됩니다.

대규모 언어 모델을 통한 클러스터링

LLMs의 최근 발전은 다양한 데이터 이해 작업에서 놀라운 능력을 보여주었습니다 . 대규모 오픈 도메인 코퍼스에 미리 학습된 LLMs은 세계 지식을 널리 인코딩하여 닫힌 세계 제약을 극복할 수 있는 잠재력이 있습니다. 텍스트 클러스터링에서 ClusterLLM 과 최근의 few-shot 접근 방식들은 LLMs을 이용해 triplet 제약 조건을 생성하거나 클러스터 경계를 정교화하여 외부 지식이 구조적 분할에 크게 기여함을 보여주었습니다. 표 데이터의 맥락에서 LLMs은 주로 감독 학습 예측과 생성에 초점을 맞추고 있습니다. TabLLM 와 GReaT 는 직렬화 기반 패러다임을 사용하여 표 로우를 자연어 문장(예: “색상은 빨강입니다…")으로 변환하여 LLMs의 추론 능력을 활용합니다. 마찬가지로 TaBERT 와 TAPAS 와 같은 사전 학습 프레임워크는 텍스트 및 표 데이터에 대한 결합 표현을 학습하고 스키마와 컨텍스트 간의 깊은 정렬이 필요한 의미 해석 작업에 사용됩니다.

그러나 텍스트 클러스터링 방법은 자연어 데이터를 대상으로 하며, 표 방법들은 주로 감독 학습 작업을 목표로 합니다. 이러한 접근 방식을 비감독 범주형 클러스터링에 적응시키는 것은 추가적인 도전 과제를 제기합니다. 로우 레벨 직렬화는 데이터셋 크기에 선형적으로 확장($`\mathcal{O}(N)`$)하여 반복적 클러스터링을 급격히 비용이 많이 드게 합니다. 또한 표준 풀링 전략(예: 평균 풀링 또는 CLS 토큰 )은 생성된 설명 내에서 구별력 있는 단어를 가리게 될 수 있습니다. 현재까지 LLM 의미론을 범주형 클러스터링에 효과적으로 통합하는 프레임워크가 없습니다.

제안 방법

범주적 데이터셋 $`\mathcal{X} = \{x_1, \ldots, x_N\}`$에서 각 객체는 $`M`$ 속성으로부터 값을 취하며, 이 값은 $`\mathcal{V} = \bigcup_{j=1}^{M} V_j`$에서 옵니다. 클러스터링 문제는 거리가 의미론적 유사성을 반영하도록 임베딩 공간에 매핑하는 함수 $`\Phi: \mathcal{X} \rightarrow \mathbb{R}^{D}`$를 학습하는 것으로 정의됩니다. 그러나 범주형 값은 내재적인 거리 메트릭이 없기 때문에 원시 기호와 의미론적 표현 사이에 간극을 만듭니다. 이 간극을 극복하기 위해서는 세 가지 상호 연관된 도전 과제를 해결해야 합니다: 공존 통계에서 감지할 수 없는 의미론적 지식 추출, 가변 길이 설명을 구별력 있는 벡터로 인코딩 및 임베딩 공간에서 서로 다른 값을 붕괴시키는 것을 방지합니다. 이러한 도전 과제들은 각 단계가 이전 단계에 의존하는 파이프라인을 형성하며, 의미론적 추출은 인코딩의 입력을 제공하고 인코딩 품질은 의미론과 범주적 정체성을 균형을 맞추는 데 결정적인 역할을 합니다.

따라서 ARISE는 이러한 도전 과제를 해결하기 위해 LLMs을 외부 지식 원으로 활용합니다. 그림 2에서 보듯이 프레임워크는 세 가지 구성 요소로 이루어져 있습니다. 즉, 값 수준 LLM 쿼리를 통해 설명을 생성하는 의미론적 표현 풍부화, 정보성 있는 토큰에 중점을 둔 주의 가중 인코딩 및 의미론적 표현을 정체성 보존 특징으로 고정시키는 적응 융합입니다.

| 기호 | 설명 | |:---|:---| | $`\mathcal{X} = \{x_1, \ldots, x_N\}`$ | $`N`$ 개체를 가진 범주적 데이터셋 | | $`x_i = [x_{i,1}, \ldots, x_{i,M}]`$ | $`M`$ 속성 값으로 구성된 객체 | | $`\mathcal{A} = \{A_1, \ldots, A_M\}`$ | 범주적 속성 세트 | | $`V_j`$; $`\mathcal{V} = \bigcup_{j} V_j`$ | $`A_j`$의 값 도메인; 모든 고유값 | | $`\mathcal{M}`$; $`\mathcal{E}`$ | LLM; 사전 학습된 Transformer 인코더 | | $`T_v`$; $`e_v \in \mathbb{R}^d`$ | 설명; 값 $`v`$의 임베딩 | | $`E^{sem} \in \mathbb{R}^{N \times Md}`$ | 의미론적 표현 행렬 | | $`E^{anc} \in \mathbb{R}^{N \times d_s}`$ | 정체성 고정 행렬($`d_s = |\mathcal{V}|`$) | | $`\alpha \in [0,1]`$; $`Z \in \mathbb{R}^{N \times D}`$ | 융합 가중치; 융합된 표현($`D = d_s + Md`$) | | $`K`$; $`\mathcal{Y}`$ | 클러스터 수; 클러스터 할당 |

주요 기호 요약.

/>
ARISE 개요. 프레임워크는 의미론적 관점(위쪽)과 정체성 관점(아래쪽)을 통합합니다. 의미론적 관점은 구조화된 프롬프트를 사용하여 LLM 쿼리를 통해 표현을 풍부하게 하고 주의 가중 인코딩을 수행합니다. 정체성 관점은 카테고리적 차이를 유지하기 위해 정체성 인코딩을 활용합니다. 두 관점은 클러스터 품질에 기반하여 융합 가중치 α*가 선택되는 적응 특징 융합을 통해 통합되어 구별력 있는 표현을 생성합니다.

의미론적 표현 풍부화

범주 값은 통계 공존에서 감지할 수 없는 잠재적인 관계(예: “낮음” 대비 “높음"의 순서성)를 포함하는 경우가 많습니다. 이러한 관계는 LLMs을 활용하여 외부 의미론적 지식으로 포착됩니다.

연속 도메인과 달리 모든 인스턴스가 고유한 반면, 범주 속성은 높은 중복성을 나타냅니다. 따라서 값 수준 쿼리 전략을 사용하여 고유 어휘 집합 $`\mathcal{V}`$를 처리합니다. 이를 통해 동일한 값을 항상 동일한 설명으로 받으며 계산 비용을 크게 줄입니다.

이러한 설명 생성을 위해, 구조화된 프롬프트 $`\mathcal{P}`$는 정의, 지표, 맥락 및 대조라는 네 가지 측면으로 설명을 조직합니다. 속성 $`A_j`$에 속하는 값 $`v`$와 도메인 $`V_j`$를 갖는 값 $`v`$의 설명은 다음과 같이 얻습니다:

MATH
\begin{equation}
    T_v = \mathcal{M}(\mathcal{P}(v, A_j, V_j)),
\end{equation}
클릭하여 더 보기

이로부터 하류 인코딩에 사용되는 완전한 세트 $`\mathcal{T} = \{T_v : v \in \mathcal{V}\}`$가 생성됩니다.

**계산 분담.** LLM 쿼리의 단위 비용을 $`\mathcal{C}_{query}`$로 둔다고 가정할 때, 고유 값 집합 $`\mathcal{V}`$를 처리하면 총 추출 비용은 $`\mathcal{O}(|\mathcal{V}| \cdot \mathcal{C}_{query})`$입니다. 인스턴스 수준 처리는 속성-값 쌍당 하나의 쿼리(총 $`N \times M`$개)가 필요하지만, 값 수준 처리는 단지 $`|\mathcal{V}|`$ 개의 쿼리만 필요합니다. 감소 비율은 $`\rho = 1 - \frac{|\mathcal{V}|}{N \times M}`$입니다. 표준 테이블 벤치마크에서 $`N \gg |\mathcal{V}|`$일 때, 우리는 $`\rho \to 1`$(실제로는 단위에 가깝게)을 얻어 LLM의 높은 추론 비용을 무시할 수준으로 분담합니다.

주의 가중 인코딩

설명 집합 $`\mathcal{T}`$가 주어졌을 때, 다음 도전 과제는 가변 길이 텍스트를 클러스터링에 사용하기 위한 고정 차원 벡터로 변환하는 것입니다. 섹션 2.2에서 논의한 것처럼 CLS 토큰 임베딩 은 시퀀스 수준 의미론을 단일 표현으로 집약시키며, 평균 풀링 은 모든 토큰을 균등하게 가중치를 부여합니다. 이러한 접근 방식은 LLM 생성 설명 내에서 구별력 있는 단어를 가리게 할 수 있습니다. 따라서 활성화 수준에 따라 토큰을 가중치를 부여하는 적응적 풀링 전략이 채택됩니다.

설명 $`T_v`$가 주어졌을 때, 사전 학습된 Transformer 인코더 $`\mathcal{E}`$는 토큰 표현 $`[h_1, \ldots, h_L] = \mathcal{E}(T_v) \in \mathbb{R}^{L \times d}`$를 생성합니다. 여기서 $`L`$은 시퀀스 길이이고 $`d`$는 은닉 차원입니다. 토큰 중요도는 평균 활성화로 측정됩니다:

MATH
\begin{equation}
    s_t = \frac{1}{d} \sum_{k=1}^{d} h_{t,k},
\end{equation}
클릭하여 더 보기

임베딩은 주의 가중 합으로 계산됩니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키