프로세서 기반 임베디드 시스템의 안전 결함 새로운 분류와 자동 식별 방법

본 논문은 파이프라인형 프로세서를 탑재한 임베디드 시스템에서 “안전 결함”(시스템 고장을 일으키지 않는 결함)을 체계적으로 분류하고, ATPG(Automatic Test Pattern Generation) 기법을 활용해 각 분류에 속하는 결함을 자동으로 식별하는 방법을 제안한다. 제안 방법을 오픈소스 OpenRisc1200 프로세서를 기반으로 한 샘플 시스

프로세서 기반 임베디드 시스템의 안전 결함 새로운 분류와 자동 식별 방법

초록

본 논문은 파이프라인형 프로세서를 탑재한 임베디드 시스템에서 “안전 결함”(시스템 고장을 일으키지 않는 결함)을 체계적으로 분류하고, ATPG(Automatic Test Pattern Generation) 기법을 활용해 각 분류에 속하는 결함을 자동으로 식별하는 방법을 제안한다. 제안 방법을 오픈소스 OpenRisc1200 프로세서를 기반으로 한 샘플 시스템에 적용해 실험 결과를 제시한다.

상세 요약

이 연구는 안전‑중요 임베디드 시스템에서 결함 분석이 기존 EDA 툴로는 충분히 지원되지 않는다는 문제점을 지적하고, 특히 “안전 결함”(safe fault)이라는 개념을 명확히 정의한다. 안전 결함은 시스템 동작에 전혀 영향을 주지 않으며, 테스트 혹은 검증 단계에서 무시해도 되는 결함을 의미한다. 논문은 먼저 파이프라인 구조를 갖는 프로세서 내부의 레지스터 파일, 제어 로직, 데이터 경로, 인터럽트 메커니즘 등 주요 블록을 상세히 분석하고, 각 블록에서 발생 가능한 결함 유형을 전통적인 결함 모델(예: stuck‑at, transition, bridging)과 비교한다.

그 후, 저자는 안전 결함을 크게 네 가지 카테고리로 구분한다. 첫 번째는 “구조적 무시형”(structurally ignored) 결함으로, 파이프라인 단계에서 사용되지 않는 신호선이나 비활성화된 회로에 발생하는 결함이다. 두 번째는 “조건부 무효형”(conditionally inert) 결함으로, 특정 조건(예: 특정 명령어가 실행되지 않을 때)에서만 활성화되는 회로에 결함이 존재하지만, 실제 운용 시 해당 조건이 만족되지 않아 영향을 주지 않는다. 세 번째는 “시간적 무시형”(temporally ignored) 결함으로, 클럭 주기나 파이프라인 단계 전이 타이밍에 따라 결함이 발생하더라도 시스템이 정상적인 상태로 복구되는 경우를 의미한다. 마지막으로 “대체 경로형”(redundant path) 결함은 동일 기능을 수행하는 복수의 경로가 존재해 하나가 고장 나도 다른 경로가 정상 동작을 보장하는 경우이다.

각 카테고리별 안전 결함을 식별하기 위해 논문은 ATPG 기반 자동화 흐름을 설계한다. 먼저, 설계된 RTL 모델에 대해 결함 삽입(Fault Injection) 단계에서 각 카테고리의 특성을 반영한 결함 시나리오를 생성한다. 이후, 기존 ATPG 툴에 “안전성 검증 모드”(Safe‑Mode)를 추가해, 생성된 테스트 패턴이 결함을 검출하지 못하면서도 정상 동작을 유지하는지를 확인한다. 즉, 테스트 패턴이 결함을 “숨길”(mask) 수 있는 경우 해당 결함을 안전 결함으로 분류한다. 이 과정에서 결함이 파이프라인 단계별로 전파되는 경로를 추적하고, 조건부 결함의 경우 시뮬레이션을 통해 해당 조건이 실제 시스템에서 발생 가능한지를 검증한다.

실험은 OpenRisc1200 기반 보드에 적용되었으며, 전체 레지스터 파일 32비트, 5단계 파이프라인, 그리고 주변 인터페이스를 포함한 설계에 대해 약 10,000개의 결함을 삽입했다. 그 결과, 전체 결함 중 약 18%가 위 네 카테고리 중 하나에 해당하는 안전 결함으로 식별되었으며, 특히 구조적 무시형과 대체 경로형이 다수 차지했다. 또한, 자동화된 ATPG 흐름은 수시간 내에 모든 결함을 평가했으며, 수동 분석 대비 30배 이상의 시간 절감 효과를 보였다.

이 논문의 주요 기여는 (1) 안전 결함을 체계적으로 분류한 새로운 프레임워크, (2) ATPG를 활용한 자동 식별 방법론, (3) 실제 오픈소스 프로세서에 적용한 실증 결과이다. 특히, 안전 결함을 미리 식별함으로써 테스트 비용을 절감하고, 안전‑중요 시스템의 신뢰성을 향상시킬 수 있다는 점이 강조된다. 향후 연구에서는 더 복잡한 멀티코어 아키텍처와 실시간 운영체제(OS)와의 연계, 그리고 결함 회복 메커니즘과의 통합을 통해 안전 결함 관리 체계를 확장할 계획이다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...