LLM 기반 혼합 데이터 복구 프레임워크 LLMDR

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 결측률이 높은 혼합형(수치·범주·텍스트) 데이터셋을 저자원 환경에서 복구하기 위해 두 단계로 구성된 LLMDR 프레임워크를 제안한다. 첫 단계에서는 DBSCAN과 Gower 거리로 대표 샘플을 추출하고, 두 번째 단계에서는 로컬·글로벌 두 개의 대형 언어 모델을 RAG와 결합해 후보값을 생성한 뒤 합의 알고리즘으로 최종 값을 결정한다. 실험은 전자상거래, 휴대폰, 레스토랑 데이터에 대해 10‑30% 결측을 가정하고 정확도, KS‑Statistic, SMAPE, MSE 등 네 가지 지표로 평가하였다.

상세 분석

LLMDR은 혼합형 데이터의 결측값 복구라는 실용적 문제에 대해 기존 방법들의 한계를 극복하고자 설계된 두 단계 파이프라인이다. 첫 번째 단계인 대표 샘플 추출에서는 DBSCAN 클러스터링을 활용한다. DBSCAN은 밀도 기반 알고리즘으로 잡음(노이즈) 데이터에 강인하며, 임의 형태의 클러스터를 탐지할 수 있다는 점에서 고차원·다양한 타입의 특성을 가진 데이터에 적합하다. 특히 Gower 거리를 사용해 수치형과 범주형 변수를 동일하게 취급함으로써 혼합 데이터에 대한 거리 계산의 편향을 최소화한다. 클러스터 중심점(centroid)을 로컬 대표 샘플(LES)로 선정하고, 각 중심점의 t개의 최근접 이웃을 추가해 글로벌 대표 샘플(GES)을 구성한다. 이 과정은 전체 데이터셋을 직접 탐색하는 비용을 크게 낮추어 저자원 환경에서도 실행 가능하도록 만든다.

두 번째 단계에서는 추출된 LES와 GES를 각각 RAG(Retrieval‑Augmented Generation) 인덱스로 구축한다. RAG는 벡터 스토어에 저장된 샘플을 질의와 연관된 컨텍스트로 빠르게 검색하고, 이를 프롬프트에 삽입해 LLM이 답변을 생성하도록 한다. 여기서는 두 개의 LLM을 병렬로 운용한다. ‘LLM local’은 LES만을 활용해 보다 좁은 컨텍스트에서 값을 예측하고, ‘LLM global’은 GES를 활용해 보다 넓은 컨텍스트를 반영한다. 이렇게 서로 다른 스코프의 모델이 생성한 후보값을 합의(Consensus) 알고리즘에 투입해 최종 복구값을 결정한다. 논문에서는 기존 연구

LLM 기반 혼합 데이터 복구 프레임워크 LLMDR

초록

상세 분석

댓글 및 학술 토론

의견 남기기