LeJOT : Databricks 비용 절감 지능형 작업 오케스트레이션 솔루션

LeJOT : Databricks 비용 절감 지능형 작업 오케스트레이션 솔루션
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LeJOT은 머신러닝 기반 실행 시간 예측과 수학적 최적화 솔버를 결합해 Databricks 워크플로우의 자원 할당을 실시간으로 조정한다. 예측된 실행 시간을 바탕으로 비용 최소화 모델을 풀어, 평균 20 % 이상의 클라우드 비용 절감과 분당 수준의 스케줄링 속도를 달성한다.

상세 분석

본 논문은 Databricks와 같은 데이터 레이크하우스 환경에서 발생하는 비용 최적화 문제를 정량적 모델링과 예측 기반 스케줄링이라는 두 축으로 접근한다. 첫 번째 축은 작업 실행 시간 예측이다. 저자들은 CPU 코어 수, 메모리 크기, 작업 병렬도, 서브태스크 수, 테이블 수, 코드 길이·내용, 입력 데이터 볼륨, I/O·계산 유형 등 10여 개의 특징을 선정하고, 이들 특징과 과거 실행 로그를 매핑한다. 모델 선택 단계에서는 선형 회귀, 라쏘, 엘라스틱넷 등 7개의 회귀 모델을 비교한 뒤, 과적합 방지를 위한 정규화 효과와 예측 정확도(평균 절대 오차 < 5 %)를 고려해 Ridge Regression을 최종 모델로 채택한다. 이 경량 모델은 실시간 추론이 가능하도록 설계돼, 다양한 자원 구성(k)마다 h_i,d,k(예상 실행 시간)를 빠르게 산출한다.

두 번째 축은 비용 최소화 최적화 모델이다. 논문은 워크플로우 집합 W, 장치 유형 D, 각 장치의 구성 K_d, 사전 구매량 A_d, 사용량 임계치 u1_d 등을 변수로 정의하고, 총 비용을 (c0_d·u_d)+(c1_d−c0_d)·max(0, u_d−A_d) 형태의 선형식으로 표현한다. 제약식은 (1) 각 워크플로우는 하나의 장치·구성을 선택, (2) 전체 사용량은 각 작업의 예상 실행 시간·필요 장치 수의 합으로 계산, (3) 사용량이 임계치를 초과하면 추가 비용이 발생, (4) 시작·종료 시간, 최우선 순위, 마감시간, 선행 관계 등을 모두 만족하도록 설계됐다. 이 MILP(Mixed‑Integer Linear Programming) 문제는 상용 솔버(Gurobi, CPLEX)로 1분 이내에 해결 가능하도록 구현돼, 실시간 스케줄링에 적합함을 보인다.

실험에서는 Lenovo 내부에서 수집한 실제 Databricks 작업 로그(수천 건, 다양한 클러스터 크기와 작업 유형)를 사용했다. 정적 할당 전략(고정 CPU·메모리)과 비교했을 때, LeJOT은 평균 20 % 이상의 비용 절감과 동시에 작업 마감시간 위반률을 2 % 이하로 유지했다. 특히 피크 타임에 과잉 프로비저닝을 방지하고, 저부하 구간에서는 사전 구매량(A_d)을 활용해 비용을 최소화하는 전략이 돋보였다.

한계점으로는(1) 예측 모델이 과거 로그에 크게 의존하므로, 급격한 워크로드 변동이나 새로운 코드 패턴에 대한 적응성이 떨어질 수 있다. (2) 비용 모델이 단순히 시간당 요금과 임계치 기반이므로, 스팟 인스턴스, 예약 인스턴스 등 복합 요금 구조를 완전히 포착하지 못한다. (3) 최적화 문제 규모가 워크플로우 수가 수천 개 이상으로 확대될 경우, 솔버의 계산 시간 증가가 우려된다. 향후 연구에서는 온라인 학습 기반 예측, 다중 요금 모델 통합, 그리고 휴리스틱·메타휴리스틱을 결합한 스케일러블 솔버를 탐색할 필요가 있다.

전반적으로 LeJOT은 데이터 레이크하우스 환경에서 비용 효율성을 실시간으로 확보할 수 있는 실용적인 프레임워크이며, 머신러닝 예측과 수학적 최적화를 결합한 접근법이 실제 클라우드 비용 절감에 유의미한 효과를 가져올 수 있음을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기