밴디크 다중과제 분해의 새 지평

2026년 02월 04일

읽는 시간: 9 분

...

#paper #AI 요약

📝 원문 정보

- Title: BandiK Efficient Multi-Task Decomposition Using a Multi-Bandit Framework
- ArXiv ID: 2512.24708
- 발행일: 2025-12-31
- 저자: András Millinghoffer, András Formanek, András Antos, Péter Antal

📝 초록

다중 작업 간에 효과적으로 지식을 전이하는 과제는 중요하며, 기반 모델의 하류 작업에서도 존재합니다. 그러나 전이의 이동성 비이동성 성질은 여전히 개방적인 문제이며, 부정적 전이는 중요한 장애물입니다. 다중 작업 학습에서 유익한 보조 작업 집합을 선택하는 것은 그 평가에 따른 높은 계산 비용, 가능한 후보 보조 작업 집합의 큰 수량, 그리고 대상 작업 간 복잡성 차이로 자주 방해받습니다. 이러한 제약 조건을 해결하기 위해 우리는 다중 밴딧을 사용한 세 단계 다중 작업 보조 작업 부분 선택 방법인 BandiK을 소개합니다. 각 팔 당 후보 보조 작업 집합은 단일 무작위 학습-테스트 데이터셋 분할에서 다중 출력 신경망의 학습과 테스트를 통해 평가됩니다. 첫 번째로, BandiK은 작업 간 쌍방향 전이를 추정하여 공동 학습으로부터 이익을 얻을 가능성이 높은 작업들을 식별하는 데 도움을 줍니다. 두 번째 단계에서는 초기 추정에 기반해 각 대상 작업에 대해 보조 작업 후보 집합의 선형 수(전체 작업 수에서)를 생성하여 잠재적인 보조 작업 집합의 지수적 수량을 크게 줄입니다. 세 번째로, BandiK은 각 작업에 대해 다중 팔 밴딧(MAB) 프레임워크를 사용하며, 이때 팔들은 후보 보조 작업 집합이 학습-테스트 데이터셋 분할에서 다중 출력 신경망으로 구현된 성능을 대응합니다. 효율성을 높이기 위해 BandiK은 각각의 작업별 MAB를 다중 밴딧 구조로 통합합니다. 제안된 다중 밴딧 솔루션은 동일한 신경망이 주어진 후보 집합에 대한 개별 밴딧들의 다양한 팔을 실현한다는 점에서 이점을 활용합니다. 이러한 부분 겹침 팔 특성은 BandiK에서 사용되는 새로운 형태의 다중 밴딧 비용/수익 구조를 정의합니다.

💡 논문 해설

1. **주요 기여**: 다중 작업 학습 문제에 대한 새로운 접근법을 제시합니다. BandiK은 복잡한 전이 효과를 분석하고 최적의 보조 작업 집합을 선택하는 방법입니다.

비교: 이전 연구에서는 각 타겟 작업에 대해 모든 가능성을 평가해야 했지만, BandiK은 선별적인 접근법으로 시간과 자원을 절약합니다.
메타포: 이를 이해하기 쉽게 설명하면, BandiK은 복잡한 전이 효과를 분석하는 ‘도시 지도’와 같은 역할을 합니다. 이 지도는 각 작업 간의 관계를 이해하고 최적의 경로를 찾는데 도움을 줍니다.

📄 논문 발췌 (ArXiv Source)

소개

여러 도메인에서 기본 모델의 사용은 비전부터 언어 작업에 이르기까지 멀티태스크 학습의 범위를 인공 일반 지능으로 향한 옴니태스크 학습으로 재정의했습니다. 그럼에도 불구하고, 멀티태스크 학습의 자세한 정량적 평가는 음성 전이 효과 즉, 특정 작업들이 다른 작업들에 대한 복잡하고 어려운 긍정적인/부정적인 영향을 가질 수 있다는 문제를 자주 겪고 있습니다. 이것은 전이 학습의 본성이 다인자적이며 전이 효과는 공유된 데이터, 은닉 표현, 최적화 과정에 기인할 수 있기 때문에 당연한 결과입니다. 따라서 전이 효과는 컨텍스트에 따라 샘플 크기, 작업 유사성, 은닉 표현의 충분성 및 최적화 단계에 달려있습니다.

대안적인 패러다임은 각 타겟 작업에 대한 이점 있는 보조 작업 하위 집합을 선택하거나 해롭한 보조 작업을 제거하는 것을 제안합니다. 그러나 후보 보조 작업 하위 집합의 평가는 계산적으로 요구사항이 높고 다중 가설 검정으로 인해 통계적 능력 상실을 초래할 수 있습니다.

이러한 제약 조건을 해결하기 위해, 우리는 Multi-Armed Bandit (MAB) 프레임워크를 사용하는 새로운 세 단계 멀티태스크 보조 작업 하위 집합 선택 방법인 BandiK을 소개합니다. 여기서 각 팔 당기는 동작은 후보 보조 집합을 평가하기 위해 단일 무작위 학습-테스트 데이터셋 분할에서 다중 출력 신경망을 학습하고 테스트하는 것을 의미합니다 (문제 설정은 Figure 1에 표시됨).

멀티태스크 하위 집합 선택 문제를 멀티 밴딧으로 표현: 멀티태스크 신경망의 선택은 타겟 세트와 그들의 각각의 보조 작업 세트를 함께 선택하는 것을 의미합니다.

첫째, BandiK은 작업 간의 쌍방향 전이 효과를 추정하여 공동 학습에서 이점을 얻을 가능성이 있는 작업들을 식별하는 데 도움을 줍니다. 두 번째 단계에서는 초기 추정을 기반으로 각 타겟 작업에 대해 보조 작업 집합의 선형 수를 구성하여 잠재적인 보조 작업 집합의 지수적 수를 크게 줄입니다. 세 번째로, 그는 모든 작업을 포함하는 MAB 프레임워크를 사용하고 팔은 후보 보조 집합이 다중 출력 신경망에서 학습-테스트 데이터셋 분할에 대해 실현된 성능을 나타냅니다. 주요 단계들은 Algorithm [alg:MBS4MTL]에서 요약되어 있습니다.

: 작업 간의 쌍방향 전이 학습 효과 추정 및 다른 테스트를 통해 얻은 양성 및 음성 전이 그래프 구성 : 각 작업에 대한 후보 보조 집합 구축을 위한 그래프에서 검색 방법 적용 : 자가 적응 GapE-V 방법을 사용한 멀티 밴딧 정의 및 시뮬레이션; 각 타겟 작업에 대해 최상의 성능을 가진 멀티태스크 신경망 선택.

이 논문에서는 하드 파라미터 공유 네트워크를 사용한 보조 작업 하위 집합 선택 접근법을 채택하고 (1) 보조 집합 구성 방법, (2) 멀티 밴딧 접근법의 효율성, 및 (3) 새로운 반 중복 팔에 대한 효과를 조사합니다. 다음 질문들에 답합니다:

기준 성능: 각 작업에 대해 단일, 쌍방향, 그리고 멀티태스크 학습 시나리오의 최고 성능은 무엇인가?
쌍방향 타겟-보조 학습 시나리오의 성능: 각 작업에 대한 쌍방향 타겟-보조 학습 시나리오의 성능은 어떻게 되는가?
작업 성능의 불확실성 및 이질성: 작업 성능의 변동 범위는 무엇인가? 그들의 이질성과 작업 속성, 예를 들어 샘플 크기와의 관계는 어떠한가?
후보 보조 집합을 위한 휴리스틱: 그리디 쌍방향, 필터링된 쌍방향, 쌍방향 기반 전이 폐쇄 및 클릭, 증감 접근법 등을 사용한 후보 보조 집합의 경로는 어떠한가?
멀티 밴딧 동적: 학습 과정에서 각 밴딧에 대한 풀과 수렴 속도의 분포는 어떻게 되며, 특히 그들의 성능 차이와 변동 범위에 대해 어떻게 나타나는가?
반 중복 팔: 밴딧 간 반 중복 팔 즉, 공유 네트워크 및 풀이의 대량 복수 존재 효과는 어떠한가?
후보 보조 작업 집합의 성능: 후보 보조 작업 집합의 성능은 어떤가? 특히 그들의 유형과 공유 가능성이 있는 후보(교차 이익이 있는가?)에 대해 어떻게 되는가?
전이의 본질: 결과는 전이 즉, 샘플 공유, 은닉 특징 또는 최적화를 통한 전이의 본질에 어떤 의미를 제공하는가?
기초 모델의 적용성: 특히 약물-대상 상호작용 예측과 같은 특정 정량 도메인에서 기초 모델에 대한 의미는 무엇인가?

우리는 약물-대상 상호작용 (DTI) 예측 문제에서 우리의 방법을 시연합니다.

문제 설정

$`M`$ 작업이 있는 멀티태스크 학습 문제를 고려해봅시다. 각 $`\mathop{\mathrm{task}}_m`$에 대해 최적의 성능을 달성하기 위해 $`K=2^{M-1}`$ 개의 옵션 중에서 보조 작업 집합을 선택해야 합니다 ($`2^{M-1}`$는 반드시 $`\mathop{\mathrm{task}}_m`$를 포함하는 가능한 집합의 수이며, 이를 BandiK의 첫 두 단계에서 크게 줄이려고 제안합니다). 이 문제는 각 타겟 작업이 멀티 팔 밴딧을 대응하며 해당 $`\mathop{\mathrm{task}}_m`$를 포함하는 작업의 전체 집합에 있는 각 세트가 팔로 간주되는 $`M`$ 개의 멀티 팔 밴딧 위에서 최상의 팔 식별 문제로 표현될 수 있습니다 (밴딧에는 인덱스 $`m`$, $`p`$, $`q`$를 사용하고 팔에는 $`k`$, $`i`$, $`j`$를 사용합니다). 팔을 당기는 것은 해당 작업 집합에서 신경망을 학습하는 것을 유발하며, 주어진 수의 당기기(예산) 후 각 밴딧에 대한 팔 추천이 필요합니다.

이 설정은 멀티 밴딧 최상의 팔 식별 문제의 특수한 경우입니다. $`\mathop{\mathrm{arm}}_{mk}`$의 보상을 얻으려면 $`\mathop{\mathrm{armset}}_{mk}`$에 포함된 작업 집합에서 신경망을 학습합니다 (항상 적어도 $`\mathop{\mathrm{task}}_m`$ 자체를 포함해야 합니다). 특정 작업 하위집합 $`\mathcal{T}`$가 주어진 경우, $`\mathop{\mathrm{bandit}}_m`$에서 팔 $`\mathop{\mathrm{arm}}_{mk}`$를 당기고 그 목표 작업이 $`\mathop{\mathrm{task}}_m\in\mathcal{T}`$인 경우 동일한 네트워크가 구성될 수 있습니다. 그러나 $`\mathcal{T}`$에서의 타겟 작업과 보조 작업 집합의 다양성에 따라 다릅니다. 따라서, 만약 $`\mathop{\mathrm{armset}}_{mk}=\mathop{\mathrm{armset}}_{pi}`$, 팔 $`\mathop{\mathrm{arm}}_{mk}`$와 $`\mathop{\mathrm{arm}}_{pi}`$의 학습 비용은 한번만 발생하지만, 목표 작업($`\mathop{\mathrm{task}}_m`$ vs. $`\mathop{\mathrm{task}}_p`$)에 따라 다른 보상이 발생합니다. 그러므로 우리는 이러한 $`\mathop{\mathrm{arm}}_{mk}`$와 $`\mathop{\mathrm{arm}}_{pi}`$를 반 중복 팔이라고 부릅니다 (전체적으로 중복되는 팔과 같은 보상을 가진 것, 예: ). 따라서 우리의 경우 공동 최적화는 단순히 밴딧 간의 자원 할당을 위한 것이 아니라 각 $`\mathop{\mathrm{bandit}}_p`$가 반 중복 팔 $`\mathop{\mathrm{arm}}_{pi}`$를 가질 수 있으므로, $`\mathop{\mathrm{arm}}_{mk}`$가 당겨진 경우 해당 팔의 보상에 대해 업데이트할 수 있습니다. 왜냐하면 한번 학습된 신경망은 포함된 모든 작업에 대한 평가가 가능하기 때문에 보상 비용은 단 한 번만 지불되기 때문입니다.

, 표기법을 따르면 $`M`$이 밴딧의 수이고 각 밴딧의 가능한 팔의 수는 $`K=2^{M-1}`$이라고 합시다. 각 $`\mathop{\mathrm{arm}}_{mk}`$은 $`[0, 1]`$에 경계를 가진 분포 $`\nu_{mk}`$로 특징지어져 있으며 평균값은 $`\mu_{mk}`$. 우리는 $`\mu^*_m`$을 최상의 팔의 평균이고 $`k^*_m`$은 $`\mathop{\mathrm{bandit}}_m`$의 최상의 팔의 인덱스로 표기합니다. 각 $`\mathop{\mathrm{bandit}}_m`$, 우리는 각 팔에 대한 갭을 다음과 같이 정의한다: $\Delta_{mk} = \lvert \max_{j \neq k} \mu_{mj} - \mu_{mk} \rvert.

게임의 각 라운드 $`t = 1, \dots, n`$, 예측자가 밴딧-팔 쌍 $`I(t)=(m,k)`$를 당기고 $`\{ \nu_{pi} : \mathop{\mathrm{armset}}_{pi} = \mathop{\mathrm{armset}}_{mk}\}`$에서 독립적으로 추출된 샘플을 관찰한다. $`T_{mk}(t)`$는 라운드 $`t`$까지 $`\nu_{mk}`$로부터 관찰된 샘플 수를 의미하고, 만약 $`\mathop{\mathrm{armset}}_{mk} = \mathop{\mathrm{armset}}_{pi}`$이라면 전체 게임에서 $`T_{mk}(t)=T_{pi}(t)`$. 비중복 경우와는 달리, 마지막 수 $`n`$은 모든 $`m`$, $`k`$에 대해 $`T_{mk}(n)`$의 합과 같지 않기 때문에 상대 예산이 크게 증가합니다. 우리는 [^3]에서 도출된 것과 같은 값을 가진 adaptive GapE-V 알고리즘을 사용합니다.

각 $`t`$ 시간 단계에서 $`\mathop{\mathrm{arm}}_{mk}`$를 당기고, 무작위 초기화로부터 하드 파라미터 공유 신경망 $`f(t)=f(D_{\rm train}(t), \mathcal{T}(t))`$을 학습합니다. 무작위 학습 분할의 데이터를 사용하여 $`\mathcal{T}(t)=\mathop{\mathrm{armset}}_{mk}`$ 작업 집합을 예측합니다. Monte Carlo Subsampling은 각 라운드에서 데이터셋을 $`D_{\rm train}(t)`$와 $`D_{\rm test}(t)`$로 80%와 20%의 크기로 분할하는데 사용됩니다. 모든 $`\mathop{\mathrm{bandit}}_p`$는 $`\mathop{\mathrm{task}}_p\!\in\!\mathcal{T}(t)`$에 대응하여 네트워크 성능을 독립적으로 평가하여 샘플 $`X_{pi}(t)`$를 받습니다: $`X_{pi}(t)=L_{p}(f(t), D_{\rm test}(t))`$, 여기서 $`i`$는 $`\mathop{\mathrm{armset}}_{pi} = \mathcal{T}(t)`$가 되도록 선택됩니다. Monte Carlo 교차 검증은 점진적으로 일관성이 있다는 것이 증명되었습니다 . $`L_m(\mathcal{T})=L_m(f(D_{\rm train}(u), \mathcal{T}), D_{\rm test}(u))`$는 무작위 데이터 분할에서 학습 및 평가된 네트워크에 해당하는 손실을 나타냅니다. $`\mathop{\mathrm{task}}_m`$은 작업 집합 $`\mathcal{T}`$를 예측합니다. $`L`$는 표준 손실 함수일 수 있지만, 본 논문에서는 AUROC($`L^{AUR}`$) 및 AUPR($`L^{AUP}`$) 메트릭을 사용합니다.

데이터와 방법

데이터셋

은 NURA-2021 데이터셋을 ‘강한 바인더’ 대비 다른 레이블로 이진화하여 사용합니다. 이는 22개의 타겟과 31,006개의 화합물을 포함하고 있습니다. 완전히 무작위 학습/테스트 분할은 화합물 시리즈 편향을 일으키고 성능 추정이 과도하게 낙관적일 수 있으므로, 더 현실적인 지지대 기반의 학습/테스트 분할을 사용하여 6441개의 지지대를 얻었습니다.

모델 및 계산

네트워크 학습이 언급될 때마다 SparseChem 다중 출력 MLP가 사용됩니다. 아키텍처와 다른 하이퍼파라미터는 그리드 서치로 결정되었으며 마지막 층의 뉴런 수를 제외하고 항상 동일했습니다. 따라서 ADAM 최적화기는 학습률 $`10^{-4}`$과 가중치 감소 $`10^{-6}`$을 사용합니다. 학습은 25 에폭에 대해 10% 배치 비율로 수행되었습니다. 32,000 뉴런 넓이의 입력 층을 따르고 두 개의 1,000 뉴런 넓이의 은닉 층을 거쳐 출력 층의 너비는 항상 $`|\mathcal{T}|`$였습니다. 은닉층에서 ReLU 활성화와 0.7 드롭아웃 비율을 사용했습니다. 마지막 층에서는 시그모이드와 0.2 드롭아웃을 사용했습니다.

BandiK

Section 3에서 설명한 것처럼 멀티태스크 보조 작업 하위 집합 선택 문제를 해결하기 위한 새로운 세 단계 방법인 BandiK을 소개합니다.

쌍방향 전이 효과 추정 및 전이 그래프 구축

첫 번째 단계에서는 여러 기본 사례 후보 작업 집합에 대해 학습하여 멀티태스크 전이 효과를 발견합니다. 네 가지 주요 학습 시나리오가 있습니다: 단일 작업 학습(STL, $`\mathcal{T}_m=\{m\}`$), 쌍방향 학습(PW, $`\mathcal{T}_{pq}=\{p, q\}`$), 완전 멀티태스크 학습(FMTL, $`\mathcal{T}_{F}=\{1, \dots, M\}`$) 및 하나를 제외한 학습(LOO, $`\mathcal{T}_{m-}=\mathcal{T}_{F} \setminus \{m\}`$). 우리는 가능한 모든 시나리오에 대해 500개의 무작위 데이터셋 분할을 사용하여 네트워크 성능 샘플을 얻습니다.

기본 사례 결과를 사용하여 방향성 양성 전이 그래프($`P^{metric, test}`$)와 음성 전이 그래프($`N^{metric, test}`$)를 구성합니다. 주어진 그래프에서 $`(p,q)`$ 방향 엣지의 존재는 $`\mathop{\mathrm{task}}_p`$가 $`\mathop{\mathrm{task}}_q`$에 (양성 또는 음성) 전이 효과가 있음을 의미합니다. 양성 전이 효과 행렬을 구성하기 위해 PW 옵션이 STL보다 더 좋은 성능을 보이는지 확인합니다. 음성 전이 행렬의 엣지는 LOO와 FMTL을 비교하여 도출됩니다, 예를 들어 $`task_q`$가 $`\mathcal{T}_{p-}`$로 학습했을 때 $`\mathcal{T}_F`$로 학습한 것보다 더 좋은 성능을 보이면, 이는 $`\mathop{\mathrm{task}}_p`$가 $`\mathop{\mathrm{task}}_q`$에 명확한 개별 음성 전이 효과가 있음을 의미합니다.

$P^{AUP, diff}_{pq} = 1 \iff L^{AUP}_q(\mathcal{T}_{pq}) - L^{AUP}_q(\mathcal{T}_{q}) > 0
$P^{AUR, diff}_{pq} = 1 \iff L^{AUR}_q(\mathcal{T}_{pq}) - L^{AUR}_q(\mathcal{T}_{q}) > 0
$N^{AUP, diff}_{pq} = 1 \iff L^{AUP}_q(\mathcal{T}_{p-}) - L^{AUP}

ArXiv 원문 PDF 보기