전파 인식·판단을 위한 멀티모달 LLM 기반 기초 모델 PReD
PReD는 전자기(EM) 신호의 인식·판단을 위한 최초의 멀티모달 대형 언어 모델이다. 원시 IQ 파형, 스펙트로그램, 별자리 다이어그램 등 4가지 시각적 표현을 통합하고, 신호 검출·변조 인식·파라미터 추정·프로토콜 식별·발신기 지문·대항 재밍 전략 등 6가지 핵심 작업을 하나의 통합 프레임워크에서 수행한다. 1.3 M 규모의 고품질 멀티태스크 데이터셋(PReD‑1.3M)과 평가 벤치마크(PReD‑Bench)를 구축했으며, 다단계 학습과 언어…
저자: Zehua Han, Jing Xiao, Yiqi Duan
본 논문은 전자기(EM) 신호 인식·판단을 위한 최초의 멀티모달 대형 언어 모델(PReD)을 제안한다. 기존 멀티모달 LLM은 이미지·텍스트·음성 등 인간이 일상적으로 인식하는 매체에 최적화돼 있어, 복소수 IQ 파형, 스펙트로그램, 별자리 다이어그램 등 전자기 신호 고유의 물리적 특성을 직접 다루기 어렵다. 이를 해결하기 위해 저자들은 네 가지 시각적 표현(시간 영역 파형, FFT 스펙트럼, STFT 스펙트로그램, I/Q 별자리)을 모두 이미지 형태로 변환하고, 하나의 비전 인코더에 입력한다. 이렇게 다중 뷰를 결합함으로써 모델은 신호의 시간·주파수·위상 정보를 동시에 학습한다.
데이터 구축 단계에서는 공개 데이터셋(RadioML, Hisar‑Mod 등)과 자체 시뮬레이션·실험 데이터를 혼합해 1.3 M 개의 질문‑답변 쌍을 만든다. 각 샘플은 인간 어노테이터가 제공한 “질문‑답변+태그” 형식으로, MCQA(다중 선택)와 OpenQA(자유 서술) 두 가지 형태를 포함한다. 특히 “Unable to answer” 옵션을 도입해 모델이 불확실한 경우 과도한 자신감을 보이는 것을 방지한다.
학습 파이프라인은 세 단계로 구성된다. 첫 번째 단계에서는 대규모 이미지‑텍스트 사전학습 모델을 EM 이미지에 맞게 미세조정한다. 두 번째 단계에서는 6가지 핵심 작업(신호 구간 검출, 파라미터 추정, 변조 인식, 프로토콜 식별, 발신기 지문, 대항 재밍 전략) 모두를 하나의 지시 템플릿으로 통합해 멀티태스크 학습을 수행한다. 세 번째 단계에서는 모델이 생성한 언어 답변을 다시 신호 파라미터와 연결해 폐쇄‑루프 검증을 수행한다. 이 과정은 저 SNR·고 간섭 환경에서도 물리적 일관성을 유지하도록 돕는다.
평가를 위해 PReD‑Bench이라는 독립적인 벤치마크를 구축했다. 각 작업별 정확도, F1, 평균 절대 오차(MAE) 등을 측정한 결과, 변조 인식에서 99.2% 정확도, 파라미터 추정에서 평균 절대 오차 0.8 µs 이하, 프로토콜 식별에서 98.7% 정확도 등 기존 RF‑ML 모델 대비 20~30% 이상 성능 향상을 보였다. 특히 대항 재밍 전략 생성에서는 모델이 제시한 전략이 실제 시뮬레이션 환경에서 재밍 억제율을 12%p 상승시키는 등 실용적인 가치를 입증했다.
논문의 주요 기여는 다음과 같다. (1) 전자기 도메인 전용 최초의 통합 기초 모델을 제시하고, 인식·판단·결정의 폐쇄‑루프를 구현하였다. (2) 시간·주파수·별자리 네 가지 시각화를 포함하는 대규모 멀티태스크 데이터셋(PReD‑1.3M)을 구축하였다. (3) 다단계 학습과 언어‑주도 지시 정렬을 통해 일반 멀티모달 능력을 유지하면서 EM 전문성을 크게 향상시켰다. (4) 광범위한 실험을 통해 모든 핵심 작업에서 최첨단 성능을 달성했으며, 데이터·코드·모델을 공개해 향후 연구를 촉진한다.
한계점으로는 고주파 레이더 데이터 부족, 실시간 추론 속도 문제, 라벨링 비용 및 품질 의존성을 들었다. 향후 연구에서는 경량화 모델, 온라인 학습, 실제 전장 환경에서의 현장 테스트, 그리고 더 다양한 전파 환경(예: 다중 경로·다중 사용자)으로 확장하는 것이 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기