규제 위험 개념의 국경 간 전이: 설명가능 AI로 측정한 의료기기 분류 차이

**연구 배경 및 목적** 의료기기 규제는 미국(FDA), 중국(NMPA), 유럽(EU MDR) 등 주요 관할구역에서 위험 기반 분류 체계를 채택하고 있다. 그러나 각 체계는 구조적으로 다르다: EU MDR은 명시적 규칙(22개)으로 위험 클래스를 정의하고, FDA는 기존 시장에 존재하는 ‘동등 기기’와의 관계를 기반으로 하는 ‘predicate’ 방식을, NMPA는 제품 설명과 카탈로그 매칭을 이용한 ‘catalogue‑based’ 방식을 사용한다. 이론적으로는 “침습성”, “이식성” 등 공통 위험 용어가 존재하지만, 이러한 용어가 실제 분류 로직에 동일하게 작용하는지는 검증되지 않았다. 본 연구는 설명가능 AI(Explainable AI, XAI)를 ‘규제 구조의 경험적 탐침’으로 활용해, 한 관할구역에서 도출한 위험 요인이 다른 관할구역의 분류에 얼마나 기여하는지를 정량화한다. **데이터 및 전처리** 총 141,942건의 의료기기 레코드를 FDA(53,745건), NMPA(65,703건), EU MDR(22,494건)에서 수집했다. 각 레코드에는 제품명·설명·분류 코드 등이 포함된다. EU MDR은 규칙 자체에 위험 요인이 명시돼 있어, 규칙‑요인 매핑을 통해 7가지 위험 요인(이식성, 침습성, 사용 기간(30일 초과), 활성 기기, 멸균 여부, 측정·진단 기능, 재사용 가능성)을 추출했다. FDA와 NMPA는 각각 제품 코드와 키워드 매칭을 통해 동일 요인을 추정했으며, 언어 차이를 고려해 다국어 키워드 사전을 사용했다. 텍스트 특징은 문자 n‑gram(1‑2) 기반 TF‑IDF를 500개 토큰으로 제한하고, 차원 축소를 위해 truncated SVD로 42차원으로 압축했다. 최종 피처 벡터는 7개의 위험 요인 + 42개의 텍스트 특징으로 구성된다. **모델 및 실험 설계** 분류 모델은 클래스 불균형을 보정하기 위해 역클래스 빈도 가중치를 적용한 Random Forest였다. 각 관할구역별로 세 가지 조건을 비교했다: (1) 텍스트+위험 요인, (2) 텍스트만, (3) 위험 요인만. 5‑fold stratified cross‑validation을 10개의 랜덤 시드에 대해 반복해 ΔF1(성능 향상)을 계산하고, 평균과 95 % CI를 보고했다. 두 가지 추가 실험을 수행했다. 첫째, ‘대칭적 추출 파이프라인’에서는 모든 관할구역에 동일한 EU‑기반 요인 추출 방식을 적용해 편향을 최소화했다. 둘째, ‘관할구역 특화 파이프라인’에서는 각 관할구역에 맞는 최적화된 요인 추출 방식을 사용했다. 또한, (i) 제로샷 전이 실험—FDA·NMPA 데이터만으로 학습한 모델을 EU MDR 데이터에 바로 적용—(ii) 교란 기반 재분류 탐색—단일·다중 요인 변형으로 목표 클래스로 전환 가능한지 탐색—을 수행했다. **주요 결과** 1. **대칭적 파이프라인**: 모든 관할구역에서 ΔF1 < 0.01, 즉 위험 요인이 거의 기여하지 않음. 이는 “청정”한 교차‑전이 신호가 거의 없음을 의미한다. 2. **관할구역 특화 파이프라인**: EU MDR→NMPA 방향에서만 +0.024(95 % CI: 0.018‑0.030)의 미미한 향상이 관찰되었지만, 다중언어 임베딩을 사용한 민감도 분석에서는 이 효과가 크게 감소했다. 다른 방향(FDA→EU, NMPA→EU, EU→FDA 등)에서는 ΔF1가 0에 수렴했다. 3. **역방향 비대칭성**: FDA‑기반 요인은 어떤 관할구역에서도 전이되지 않았으며, NMPA‑기반 요인 역시 EU MDR에 전이되지 않았다. 4. **제로샷 전이**: EU Class I(잔류 위험)에서 F1 = 0.001에 불과했으며, 이는 EU와 다른 관할구역이 위험 등급을 정의하는 기준(잔류 vs. 위치 기반)의 근본적 차이를 반영한다. 5. **교란 기반 재분류**: 500개 샘플(각 관할구역별 클래스 균등) 중 다수는 단일·다중 요인 변형으로 목표 클래스로 전환되지 못했으며, 이는 모델이 학습한 결정 경계가 실제 규제 로직과 일치하지 않을 가능성을 시사한다. **제한점** - EU MDR 요인 추출이 규칙 자체를 부분적으로 인코딩하므로 순환성(circularity) 문제가 존재한다. - 텍스트 특징이 언어별 문자 n‑gram 기반이라 언어 간 의미 공유가 제한적이며, SVD 차원 축소가 언어 정체성을 암묵적으로 학습한다. - 클래스 압축(EU MDR 4‑class → 3‑class) 과정이 일부 성능 차이에 영향을 미칠 수 있다. - 레이블은 공식 데이터베이스 필드에서 추출했으며, 실제 인간 심사자의 판단과는 차이가 있을 수 있다. **시사점 및 결론** 공통 위험 용어가 존재한다 하더라도, 규제 체계가 구조적으로 다르면 해당 개념이 다른 관할구역의 분류에 이식되지 않는다. 특히, 규칙 기반(EU MDR)과 카탈로그·동등성 기반(NMPA, FDA) 사이의 비대칭성은 AI 기반 규제 지원 시스템이 관할구역별 맞춤형 설계가 필요함을 강조한다. 설명가능 AI를 단순히 투명성 도구로 쓰는 것이 아니라, 규제 구조의 겹침 정도를 정량화하는 ‘진단 도구’로 활용할 수 있음을 보여준다. 향후 연구는 (1) 다국어 의미 임베딩을 통한 텍스트 특징 통합, (2) 규제 논리 자체를 모델링하는 그래프 기반 접근, (3) 인간 심사자의 판단을 포함한 라벨링을 통한 ‘구조적 호환성’ 검증 등을 제안한다.

규제 위험 개념의 국경 간 전이: 설명가능 AI로 측정한 의료기기 분류 차이

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기