대규모 데이터 레이크를 위한 LLM 기반 멀티에이전트 블랙보드 시스템

대규모 데이터 레이크를 위한 LLM 기반 멀티에이전트 블랙보드 시스템
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모·이질적인 데이터 레이크에서 필요한 데이터를 효율적으로 찾아내기 위해, 중앙 에이전트가 요청을 블랙보드에 게시하고, 각 서브 에이전트가 자신의 전문성에 따라 자발적으로 응답하는 블랙보드 아키텍처 기반 멀티에이전트 시스템을 제안한다. 기존의 마스터‑슬레이브 방식이 요구하는 중앙 컨트롤러의 사전 지식 필요성을 없애고, 확장성과 유연성을 크게 향상시킨다. KramaBench, DSBench, DA‑Code 변형 세 벤치마크에서 13 %‑57 %의 상대적 성공률 향상과 데이터 발견 F1 점수에서 최대 9 %의 개선을 기록한다.

상세 분석

이 연구는 LLM을 데이터 과학 워크플로에 적용할 때 가장 큰 병목인 “데이터 탐색” 문제를 근본적으로 재구성한다. 기존 접근법은 단일 LLM이 전체 파일 집합을 컨텍스트에 넣어 직접 탐색하거나, 마스터‑슬레이브 형태의 멀티에이전트가 사전에 정의된 작업을 하위 에이전트에 할당한다. 전자는 컨텍스트 제한과 파일 이질성으로 인해 확장성이 급격히 떨어지고, 후자는 중앙 조정자가 각 에이전트의 역량을 정확히 파악해야 한다는 비현실적인 전제가 있다. 논문은 이러한 한계를 블랙보드 아키텍처로 극복한다. 중앙 메인 에이전트는 “무엇을 필요로 하는가”를 서술한 요청을 블랙보드에 올리고, 파일 클러스터링에 기반한 파일 에이전트와 웹 검색 에이전트가 독립적으로 해당 요청을 검토한다. 자신이 담당하는 클러스터에 해당 파일이 있거나, 외부 지식이 필요하면 응답 보드에 결과를 기록한다. 메인 에이전트는 이 응답들을 집합적으로 받아 다음 행동을 결정한다. 이 설계는 (1) 중앙 조정자가 하위 에이전트의 상세 역량을 알 필요가 없으므로 시스템 구축 비용이 크게 감소하고, (2) 에이전트가 자율적으로 참여·불참을 선택하므로 중복 작업이나 역량 불일치 문제가 자연스럽게 해결된다. 또한, 파일 클러스터링 단계에서 파일명만을 이용해 LLM(Gemini‑2.5‑Pro)으로 군집을 생성함으로써 사전 전처리 비용을 최소화하고, 필요 시 임베딩 기반 K‑Means 등 다른 클러스터링 기법으로도 확장 가능함을 보인다. 실험에서는 KramaBench(신규 데이터 탐색 전용 벤치마크)와 기존 DSBench·DA‑Code에 데이터 탐색 요소를 추가한 변형을 사용했으며, RAG, 기존 마스터‑슬레이브 멀티에이전트, 최신 데이터 과학 파이프라인 등 강력한 베이스라인과 비교했다. 결과는 모든 설정에서 블랙보드 방식이 성공률을 13 %‑57 % 향상시키고, 특히 파일 식별 정확도(F1)에서 최대 9 % 상승을 보였다. 이득은 프로프라이어터리 LLM뿐 아니라 오픈소스 모델에서도 일관되게 나타나, 접근 방식의 일반화 가능성을 뒷받침한다. 전체 시스템은 ReAct 프레임워크를 기반으로 메인 에이전트가 “계획·추론·코드 실행·도움 요청·답변”의 다섯 가지 행동을 순환하며, 블랙보드와 응답 보드를 통해 비동기적 협업을 구현한다. 이러한 설계는 데이터 과학 작업이 복잡하고 파일 규모가 수천 개에 달할 때도 효율적인 탐색·처리를 가능하게 하며, 향후 더 큰 데이터 레이크와 다양한 도메인에 적용할 수 있는 기반을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기