지식 경계 탐색 인터랙티브 에이전트 프레임워크

지식 경계 탐색 인터랙티브 에이전트 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 내재된 지식 한계를 체계적으로 탐색하기 위해, 네 가지 적응형 탐색 정책과 3단계 지식 처리 파이프라인을 결합한 인터랙티브 에이전트 프레임워크를 제안한다. 실험 결과, 재귀적 분류법이 가장 효율적이며 모델 규모가 클수록 추출 가능한 지식량이 증가함을 확인하였다. 또한 도메인 특화 모델은 초기 정확도가 높지만 장기 추출에서는 급격히 성능이 저하되는 반면, 범용 모델은 안정적인 성능을 유지한다는 Pass@1‑vs‑Pass@k 트레이드오프를 발견하였다.

상세 분석

이 연구는 “지식 경계”라는 개념을 “주어진 토픽 내에서 제한된 프롬프트와 검증 단계로 신뢰성 있게 회수할 수 있는 지식 집합”으로 정의하고, 이를 정량화하기 위한 새로운 평가 프레임워크를 설계하였다. 핵심은 (1) 네 가지 탐색 정책—순차 연관 탐색, 자기반성 정제, 재귀적 분류 탐색, 다관점 병렬 탐색—을 통해 모델의 출력 관성을 깨고 다양한 수준의 지식을 끌어내는 점이다. 특히 재귀적 분류 탐색은 토픽을 Bloom’s Taxonomy 기반의 트리 구조로 분해하고, 각 리프 노드에서 병렬 에이전트를 배치해 깊이·넓이 모두를 탐색함으로써 장기 기억에 저장된 희귀 지식까지 도달한다.

두 번째 핵심은 3단계 지식 처리 파이프라인이다. 첫 단계에서는 qwen3‑8b‑emb 임베딩을 이용해 코사인 유사도 0.92 이상인 문장을 즉시 중복으로 간주해 빠르게 필터링한다. 두 번째 단계에서는 유사도 0.70~0.92 구간의 애매한 쌍에 대해 DeepSeek‑V3.1을 ‘판사’ 모델로 활용해 의미적 동일성을 판단한다. 이는 단순 벡터 기반 중복 제거가 놓치기 쉬운 부정 표현이나 미묘한 기술적 차이를 정확히 구분한다. 마지막 단계에서는 Bloom’s Taxonomy(사실·개념·절차) 기준에 따라 유효 지식과 메타·잡음 문장을 구분한다. 이 과정을 통해 최종 추출된 지식은 중복·오류·불필요한 내용이 최소화된 고품질 집합이 된다.

실험에서는 다양한 규모와 파인튜닝 방식의 모델(예: GPT‑4, LLaMA‑2, Claude 등)을 대상으로 4가지 탐색 정책을 적용하고, 토큰 비용 대비 지식 수율(Yield)과 성장률(gₜ), 효율성(eₜ) 지표를 측정하였다. 결과는 (1) 재귀적 분류 탐색이 가장 높은 파레토 효율을 보이며, (2) 모델 크기가 클수록 추출 가능한 지식량이 선형 혹은 약간 초선형적으로 증가하는 ‘지식 스케일링 법칙’을 확인했다. 또한 도메인 특화 파인튜닝 모델은 Pass@1에서 높은 정확도를 보이지만, 추가 프롬프트를 진행할수록 중복·오류 비율이 급증해 전체 Recall이 감소하는 반면, 범용 모델은 초기 정확도는 다소 낮지만 장기적으로 안정적인 Recall을 유지한다는 Pass@1‑vs‑Pass@k 트레이드오프를 제시하였다. 마지막으로, 훈련 데이터 구성 차이가 모델 패밀리 간에 뚜렷한 지식 프로파일 차이를 만든다는 사실을, 각 모델군의 지식 집합을 합친 ‘지식 유니온’ 대비 Recall 분석을 통해 입증하였다.

이러한 설계와 결과는 기존 정적 벤치마크가 포착하지 못한 LLM의 ‘잠재 지식 용량’을 동적으로 탐색·정량화하는 새로운 패러다임을 제공한다. 특히, 지식 추출을 ‘포화 기반’으로 정의하고, 자동화된 에이전트와 고도화된 중복·유효성 검증을 결합함으로써, 모델 해석, 정렬, 안전성 평가 등에 실용적인 도구로 활용될 가능성을 열어준다.


댓글 및 학술 토론

Loading comments...

의견 남기기