Resp‑Agent: 멀티모달 호흡음 생성·진단을 위한 자율형 에이전트 시스템

읽는 시간: 7 분
...

📝 Abstract

Deep learning-based respiratory auscultation is currently hindered by two fundamental challenges: (i) inherent information loss, as converting signals into spectrograms discards transient acoustic events and clinical context; (ii) limited data availability, exacerbated by severe class imbalance. To bridge these gaps, we present Resp-Agent, an autonomous multimodal system orchestrated by a novel Active Adversarial Curriculum Agent (Thinker-A $^2 $CA). Unlike static pipelines, Thinker-A $^2 $CA serves as a central controller that actively identifies diagnostic weaknesses and schedules targeted synthesis in a closed loop. To address the representation gap, we introduce a Modality-Weaving Diagnoser that weaves EHR data with audio tokens via Strategic Global Attention and sparse audio anchors, capturing both long-range clinical context and millisecond-level transients. To address the data gap, we design a Flow Matching Generator that adapts a text-only Large Language Model (LLM) via modality injection, decoupling pathological content from acoustic style to synthesize hard-to-diagnose samples. As a foundation for these efforts, we introduce Resp-229k, a benchmark corpus of 229k recordings paired with LLM-distilled clinical narratives. Extensive experiments demonstrate that Resp-Agent consistently outperforms prior approaches across diverse evaluation settings, improving diagnostic robustness under data scarcity and long-tailed class imbalance. Our code and data are available at https://github.com/zpforlove/Resp-Agent .

💡 Analysis

**

1. 연구 배경 및 문제 정의

  • 표현 병목: 기존 오디오 파이프라인은 멜‑스펙트로그램으로 변환해 이미지‑CNN에 입력하지만, 위상 정보와 짧은 순간 이벤트(크랙클, 휘슬 등)를 소실한다.
  • 데이터 병목: 공개 호흡음 데이터셋은 규모가 작고 클래스가 제한적이며, 메타데이터(연령·증상 등)와의 정형화된 결합이 부족하다.

이 두 병목을 동시에 해결하려는 시도는 아직 부족했으며, 특히 멀티모달(음성 + 텍스트) 통합과 데이터 증강(합성) 전략을 결합한 연구는 드물다.

2. 핵심 기여

번호내용의의
Resp‑229k (229 101 샘플, 16 클래스) 공개대규모 멀티모달 학습·평가 기반 제공, 기존 소규모 데이터셋 한계 극복
Thinker‑A²CA (Active Adversarial Curriculum Agent)진단 오류를 실시간으로 탐지·우선순위 지정, 합성 예산을 효율적으로 할당
Modality‑Weaving Diagnoser (전략적 글로벌 어텐션 + 오디오 앵커)텍스트와 오디오를 입력 단계에서 결합, 초단기 음향 이벤트와 장기 임상 컨텍스트를 동시에 학습
Flow‑Matching Generator (LLM + 모달리티 인젝션)텍스트‑LLM을 그대로 유지하면서 스타일·내용을 분리, 고품질 호흡음 합성 가능
통합 평가 프로토콜 (인‑도메인 + 아웃‑오브‑도메인, 클래스 불균형, LoSO)실제 임상 현장에 가까운 일반화 성능을 검증

3. 방법론 상세

3.1 Thinker‑A²CA

  • 플래너: DeepSeek‑V3.2‑Exp 기반 LLM이 “진단 의도 → 플랜 → 툴 라우팅”을 수행.
  • 피드백 루프: 진단기(Diagnoser)의 오류 프로파일, 신뢰도, 라벨별 F1 점수를 활용해 합성 대상 라벨·도메인을 선택.
  • 예산 관리: 합성 샘플 수 B를 제한하고, 고가치 샘플을 우선 생성하도록 정책 최적화.

3.2 Modality‑Weaving Diagnoser

  • 입력 결합: 텍스트 토큰 뒤에 `

📄 Content

호흡 청진은 임상 진단의 기본 요소이며, 폐 건강을 평가하기 위한 중요한 음향 증거를 제공합니다(Heitmann et al., 2023; Bohadana et al., 2014). 호흡음의 정확하고 자동화된 분석은 호흡기 질환의 조기 선별, 진단 및 모니터링에 큰 임상적 가치를 지니고 있습니다(Rocha et al., 2019). 딥러닝이 이 분야에 큰 진전을 가져왔지만, 기존 방법들은 성능과 실제 적용을 저해하는 근본적인 한계에 여전히 묶여 있습니다(Huang et al., 2023; Xia et al., 2022; Coppock et al., 2024).


1. 단일 모달 표현 병목

오디오 모델은 흔히 신호를 멜‑스펙트로그램으로 변환한 뒤 이미지‑스타일 CNN에 입력합니다(Bae et al., 2023; He et al., 2024). 이 과정에서 위상 정보가 사라지고 미세한 시간 구조가 흐려져, 파열음과 같은 순간적인 이벤트가 가려집니다(Paliwal et al., 2011). 반면 텍스트‑전용 모델은 전자의무기록(EHR) 맥락을 포착하지만 객관적인 음향 증거가 부족해, 서술은 비슷하지만 청진 패턴이 다른 질환을 구분하기 어렵습니다. 다중 모달 융합이 없으면 성능과 신뢰성은 한계에 도달합니다.

2. 대규모 고품질 다중 모달 데이터 부족

공개된 호흡음 코퍼스는 대부분 규모가 작고, 다루는 질환이 제한적이며, 체계적인 큐레이션이 이루어지지 않았습니다(Zhang et al., 2024a). 인구통계학적 정보나 증상과 같은 보조 메타데이터가 존재하더라도, 기존 접근법은 기본적인 융합 기법과 특정 작업에 맞춘 설계에 머물러 있어, 일반화 가능한 다중 모달 모델 개발을 저해합니다(Zhang et al., 2024b).


Resp‑229k 데이터셋 소개

우리는 Resp‑229k 를 제안하여 다중 모달 감독의 부족과 호흡음 분석에서의 교차‑도메인 평가 부재 문제를 해결합니다. 기존 데이터셋과 달리 RESP‑229K는 오디오와 표준화된 임상 요약을 쌍으로 제공하며, 다양한 메타데이터를 다중 모달 모델링에 적합한 형식으로 변환합니다. 또한 모델 일반화를 명시적으로 검증하기 위해 엄격한 도메인‑외 평가 프로토콜을 구축했습니다.

  • 규모: 5개의 공개 데이터베이스에서 수집한 229,101개의 품질‑관리된 샘플
  • 클래스: 15개의 질환 + 1개의 대조군, 총 16개 클래스
  • 텍스트 감독: 전체 전자의무기록이 아닌, 표준화된 임상 요약(concise paragraph)과 오디오를 매칭
    • 메타데이터가 충분할 경우 인구통계·증상 등을 포함
    • 청진 이벤트와 획득 맥락만 존재하면 해당 내용에 집중

텍스트 요약 생성 방식

우리는 DeepSeek‑R1‑Distill‑Qwen‑7B(Guo et al., 2025)를 경량 데이터‑투‑텍스트 엔진으로 활용해, 이질적인 CSV/TXT/JSON 필드와 파일명 기반 코드를 표준화된 요약으로 변환했습니다. 모델은 오디오를 직접 해석하지 않으며, 기존 메타데이터를 스키마에 맞는 단락으로 정리합니다. 이를 통해 재현 가능하고 저비용인 주석 갱신이 가능하면서도 진단에 필요한 이질성을 유지합니다.

환각 방지 및 거버넌스

생성된 모든 임상 요약은 2단계 감사 파이프라인을 거칩니다.

  1. 규칙 기반 일관성 검사
  2. 더 강력한 추론 모델을 검증자로 활용한 비판적 검토
  3. 샘플링 기반 인간 검토

이 과정을 통과하거나, 플래그된 경우 재작성·재검증 후에만 RESP‑229K에 포함됩니다. 감사 파이프라인 상세 내용은 부록 E에 기술되어 있습니다.


평가 과제 및 메트릭

두 가지 주요 과제와 측정 지표를 정의했습니다.

  1. 다중 모달 질환 분류 – 정확도와 macro‑F1 점수 보고
  2. 질환 의미에 조건화된 오디오 생성 – 객관적 음향 유사도와 임상 이벤트 충실도 보고

각 과제에 대해 도메인‑내 검증 결과와 도메인‑외 테스트 결과를 모두 제시합니다.

교차‑도메인 분할

  • 학습/검증: ICBHI, SPRSound, UK COVID‑19
  • 테스트: (Coppock et al., 2024; Budd et al., 2024; Pigoli et al., 2022) ICBHI, SPRSound, COUGHVID, KAUH

이와 같이 엄격히 구분된 스플릿을 통해 모델의 일반화 능력을 명확히 평가합니다.


Resp‑Agent 아키텍처

Figure 1에 나타난 바와 같이, Resp‑Agent는 **중심 계획자(Planner)**와 두 개의 작업‑전문 에이전트(Generator, Diagnoser)로 구성된 멀티‑에이전트 시스템입니다.

1) 중앙 계획자 – Thinker‑A2 CA

  • 모델: DeepSeek‑V3.2‑Exp(Guo et al., 2025)
  • 역할: 의미 의도 파싱, 도구 라우팅, 구조화된 인자(오디오 경로, EHR 테이블, 목표 클래스) 전달
  • 특징: 결정론적 I/O 스키마 적용, 간결한 로그 출력, 이전 실행의 합리성·오류 프로파일·신뢰도 정보를 활용해 후속 행동을 편향

2) Generator (Section 4.1)

  • 목표: 병리 내용(무엇을 생성할지)과 음색 스타일(어떻게 들릴지)을 분리한 조건부 호흡음 합성
  • 두 단계 설계
    1. 멀티모달 유닛 생성기 – 텍스트‑전용 백본(Qwen3‑0.6B‑Base) 를 스타일 프로젝터와 함께 재구성, Resp‑MLLM이라 명명
    2. 고품질 오디오 복원 – 조건부 흐름 매칭(CFM)과 신경 보코더(Vocos) 사용

유닛 생성기 상세

  • 입력: 10 s, 16 kHz 레퍼런스에서 추출한 BEATS 프레임( T = 496) → 스타일 디스크립터 K개 → 2‑layer MLP → 스타일 임베딩 E
  • 프롬프트에 [AUDIO 0] … [AUDIO K‑1] 자리표시자를 삽입하고, 해당 임베딩을 E의 행으로 교체
  • 언어 모델은 질환 의미 d와 스타일을 결합해 이산 음향 유닛 y = (y₁,…,y_L) 을 자동 회귀적으로 예측

마스크 입력 전략

  • 목표 유닛 구간 T 중 무작위 부분집합 M(≈10%)을 선택
  • M에 속한 시점 t에 대해 앞선 입력 임베딩을 [BEATs MASK] 벡터로 교체, 모델이 이전 토큰을 미리 볼 수 없게 함

CFM 디코더

  • 조건 c는 (i) 유닛 인덱스 임베딩을 멜 프레임 레이트에 보간한 콘텐츠 스트림과 (ii) BEATS 특징을 시간 평균 후 전체에 브로드캐스트한 전역 음색 스트림으로 구성
  • 흐름 매칭은 선형 경로를 따라 속도장 v_θ 를 학습하고, 평균 제곱 오차를 최소화

3) Diagnoser (Section 4.2)

  • 핵심 아이디어: 입력 단계에서 **모달리티 위빙(Modality Weaving)**을 수행, 텍스트 토큰과 고정된 오디오 블록을 하나의 시퀀스로 결합해 초반부터 교차‑모달 종속성을 학습
  • 구현
    • EHR 텍스트 토큰 뒤에 [AUDIO EMBED] 자리표시자 T = 496개 삽입
    • 원시 파형 x(16 kHz, 10 s) → 사전 학습된 BEATS 특징 Φ_BEATS(x) → 정해진 길이 T 로 크롭/패딩
    • Longformer 임베딩 레이어에서 오디오 자리표시자를 학습 가능한 프로젝션으로 교체

Longformer 주의 패턴

  1. 글로벌 토큰:
    • 분류 토큰 [CLS]
    • EHR 컨텍스트 토큰 [DESCRIPTION]
    • 오디오 앵커 – stride = 4 로 샘플링된 전역 토큰, 약 80 ms 간격
  2. 지역 토큰: 나머지 토큰은 슬라이딩‑윈도우 주의 적용

이 구조는 선형 메모리를 유지하면서도 텍스트 증상(예: “wheeze”)이 순간적인 청진 이벤트와 직접 연결될 수 있게 하여, 20 ms 프레임 수준의 세밀한 시간 구조를 80 ms 정도의 전역 해상도로 포착합니다.


실험 결과 요약

(i) 다중 모달 진단 성능

  • ICBHI 4‑class: Resp‑Agent는 정확도 72.7 %(Sp = 79.3, Se = 66.1) 를 달성, 기존 최고 오디오 모델보다 5 점 이상 향상
  • RESP‑229K: 다양한 도메인‑외 테스트에서 일관된 성능 향상 확인 (표 3, 4 참조)

(ii) Thinker‑Guided 합성 효용

  • 샘플 효율: B = 10k(합성 클립 수)에서 Macro‑F1 = 0.412 (전체 이득의 52 %) 달성, 클래스‑우선 재균형(0.378)·무작위 샘플링(0.331)보다 우수
  • 비합성 대비: 클래스 가중 교차 엔트로피와 focal loss는 Macro‑F1를 각각 0.248, 0.267 로 끌어올리지만, Thinker + 합성(B = 50k)에서 0.598을 기록, 합성 데이터가 주요 개선 요인임을 입증

(iii) 교차‑소스 일반화 (Leave‑One‑Source‑Out)

  • 평균 Macro‑F1:
    • 무합성 베이스 = 0.237
    • 클래스‑우선 재균형 = 0.473
    • Thinker‑A2 CA = 0.532
  • 모든 소스에서 Thinker‑A2 CA > 클래스‑우선 > 무합성 순서가 유지돼, 플래너의 이점이 특정 데이터셋에 국한되지 않음을 확인

(iv) Generator의 내용·스타일 분리 검증

  • 스타일‑스왑: 희귀 라벨 “Bronchiolitis”에 대해 4개의 서로 다른 스타일을 적용, Style‑Sim = 0.89‑0.92, Pathology‑Acc ≈ 98 %, FAD ≈ 1.2
  • **콘텐츠‑

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키