마이크로서비스 전환을 위한 분해 프레임워크 비교 평가

마이크로서비스 전환을 위한 분해 프레임워크 비교 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 정적·동적·하이브리드 방식의 최신 마이크로서비스 분해 도구들을 동일한 벤치마크와 메트릭 파이프라인으로 재평가한다. JPetStore, AcmeAir, DayTrader, Plants 네 개의 오픈소스 모놀리식 애플리케이션을 대상으로 구조적 모듈성(SM), 인터페이스 수(IFN), 파티션 간 통신(ICP), 비극단적 분포(NED) 등을 측정하였다. 결과는 계층적 클러스터링 기반인 HDBScan이 가장 균형 잡힌 분해를 제공함을 보여준다.

상세 분석

이 연구는 마이크로서비스 전환 과정에서 가장 핵심적인 문제인 서비스 경계 식별을 자동화하는 다양한 프레임워크를 체계적으로 비교한다. 먼저 기존 연구에서 사용된 정적 분석 도구(Bunch, MEM, CoGCN, HDBScan, a‑BMSC, MonoEmbed)와 동적 분석 도구(FoSCI, Mono2Micro), 그리고 정·동적을 결합한 하이브리드 도구(CHGNN)를 선정하였다. 각 도구는 코드 의존성, 실행 트레이스, 혹은 두 정보를 혼합해 그래프를 구축하고, 클러스터링 혹은 최적화 알고리즘을 적용해 파티션을 생성한다.

평가 메트릭은 구조적 모듈성(SM), 인터페이스 수(IFN), 파티션 간 통신 비율(ICP), 서비스 크기 균형(NED) 네 가지로 정의된다. SM은 파티션 내부 결합도와 파티션 간 결합도를 동시에 고려한 복합 지표이며, 값이 클수록 높은 응집도와 낮은 결합도를 의미한다. IFN은 서비스당 평균 API 수를 측정해 과도한 인터페이스 노출을 억제한다. ICP는 런타임 호출 중 파티션 간 호출 비율을 나타내어, 마이크로서비스 간 통신 비용을 직접적으로 반영한다. NED는 서비스 크기의 분포가 극단적으로 치우치지 않았는지를 평가해, 지나치게 큰 서비스가 전체 시스템을 좌우하는 상황을 방지한다.

벤치마크 선정에서도 일관성을 강조한다. JPetStore는 계층적 구조와 중간 규모 코드베이스를, AcmeAir는 동적 트레이스가 풍부한 클라우드 기반 예약 시스템을, DayTrader는 고부하 트랜잭션 워크로드를, Plants는 비교적 단순한 도메인 모델을 제공한다. 이러한 다양성은 정적, 동적, 하이브리드 접근법의 강점과 약점을 폭넓게 드러낸다.

실험은 여러 개발자 워크스테이션에서 분산 실행했으며, 실행 시간과 처리량은 연구 범위에서 제외하고 오직 분해 품질에만 초점을 맞췄다. 도구별 결과는 직접 재현 가능한 패키지를 이용해 얻은 경우와 기존 논문에서 보고된 값을 그대로 인용한 경우로 구분하였다. 각 메트릭은 동일 벤치마크 내 모든 도구에 대해 z‑score 정규화를 거친 뒤, 가중치( SM = +3, IFN = ‑1, ICP = ‑1, NED = ‑1) 를 적용해 종합 점수를 산출하였다.

핵심 결과는 HDBScan이 네 개의 벤치마크 모두에서 높은 SM 점수와 낮은 ICP, IFN, NED 값을 동시에 달성했으며, 특히 서비스 크기 균형(NED)에서 가장 안정적인 분포를 보였다는 점이다. 반면, 순수 동적 분석 기반인 FoSCI와 Mono2Micro는 ICP가 낮은 편이지만 SM이 상대적으로 낮아 내부 결합도가 높은 경향을 보였다. 하이브리드 CHGNN은 동적 정보와 정적 의존성을 결합했음에도 불구하고, 가중치 적용 결과 전체 점수에서 HDBScan에 미치지 못했다.

이 논문의 의의는 (1) 평가 파이프라인을 통일함으로써 기존 연구 간 결과의 직접 비교를 가능하게 한 점, (2) 정적·동적·하이브리드 접근법의 상대적 강점을 동일 메트릭 체계에서 명확히 드러낸 점, (3) 재현성을 강조하기 위해 가능한 경우 실험을 직접 수행했다는 점이다. 그러나 제한점도 존재한다. 첫째, 실행 환경이 통제되지 않아 하드웨어 차이가 미세한 영향을 미칠 수 있다. 둘째, IFN과 ICP를 동일한 가중치(‑1)로 처리했는데, 실제 운영 비용에서는 인터페이스 복잡도와 네트워크 호출 비용이 다르게 평가될 수 있다. 셋째, 벤치마크가 네 개에 불과해 산업 현장의 다양한 규모와 도메인을 완전히 포괄하지 못한다. 향후 연구에서는 더 큰 규모의 시스템, 클라우드 네이티브 환경, 그리고 실제 운영 로그를 활용한 실시간 평가를 포함시켜야 할 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기