- Title: Vision-Based Early Fault Diagnosis and Self-Recovery for Strawberry Harvesting Robots
- ArXiv ID: 2601.02085
- 발행일: 2026-01-05
- 저자: Meili Sun, Chunjiang Zhao, Lichao Yang, Hao Liu, Shimin Hu, Ya Xiong
📝 초록
로봇 수확 장비가 농업 생산성을 향상시키고 노동 의존도를 줄이는 데 큰 잠재력을 보여주지만, 기계적, 전기적, 제어 부품의 결함이 여전히 존재하여 작동의 안정성과 연속성을 해칩니다. 이 논문에서는 이러한 문제를 해결하기 위해 시각 인식을 통합한 다중 작업 퍼셉션 네트워크와 위치 오류 보상 방법, 초기 중단 전략을 도입했습니다.
💡 논문 해설
1. **SRR-Net 소개**: SRR-Net은 딥러닝 기반의 시각 인식 모델로, 여러 작업을 동시에 수행할 수 있습니다. 이를 통해 단일 모델이 검출, 분리 및 익숙도 추정을 모두 처리합니다. 이는 마치 한 사람이 눈으로 물체를 보고 판단하는 것과 같습니다.
2. **위치 오류 보상 방법**: 시각 인식 결과에 따라 로봇 팔의 위치를 보정하여 정확한 수확이 가능하게 합니다. 이를 통해 로봇은 더 정밀하게 작동할 수 있습니다. 이는 마치 GPS가 자동차 운전자의 경로를 가이드하는 것과 같습니다.
3. **초기 중단 전략**: 수확 과정에서 잡히지 않은 경우나 사과가 미끄러지는 것을 예측하고 이를 기반으로 작업을 중단할 수 있습니다. 이는 마치 레이스 코디네이터가 경주 도중 문제를 발견하면 즉시 경기를 중단시키는 것과 같습니다.
📄 논문 발췌 (ArXiv Source)
# 서론
수확 로봇은 최근 몇 년 동안 크게 발전하여 노동 의존도를 줄이고 농업 생산성을 향상시키는 데 큰 잠재력을 보여주고 있습니다. 그러나 기계적, 전기적, 제어 결함이 여전히 발생하여 운영 안정성과 연속성을 해치는 경우가 많습니다. 예를 들어, 메커니컬 구조 결함, 공기누설, 및 끝 관절 연결 부서짐은 딸기를 수확하는 로봇의 정상적인 작동을 방해할 수 있습니다. 게다가 활성 학습과 자동 업데이트 기능이 없는 모델들은 변화하는 환경에 적응하기 어렵습니다. 이상 신호에 반응하지 못하면 로봇에게 운영 및 안전 위험이 발생합니다. 어떤 단일 구성 요소가 실패하거나 오류 결과를 생성할 경우 전체 수확 과정이 중단됩니다. 견고한 고장 진단과 자동 복구 기능이 부족하기 때문에 수확 로봇은 여전히 빈번한 작업 중단에 노출되어 있으며, 이는 현장에서의 유효 운영 시간을 단축시킵니다.
보통 과일 수확에는 7개의 주요 단계가 포함됩니다: 이미지 획득, 과일 감지, 분할 및 익숙도 추정, 인스턴스 추적과 정위화, 동작 계획, 실행, 결과 평가와 고장 진단, 그리고 최적화를 위한 결과 기록. 이 파이프라인을 따라 여러 단계에서 잠재적인 고장이 발생할 수 있습니다. 퍼셉션 측면에서는 뿌옇거나 가려진 카메라, 불안정한 조명, 네트워크/데이터 손실, 부정확한 분할, 익숙도 오류 분류, ID 추적 드리프트, 깊이 또는 보정 오류 등이 감지 실패를 초래할 수 있습니다. 동작 제어 단계에서는 잘못된 경로 계획, 충돌 회피 오류, 역 기구학 실패, 또는 잡기 정렬 실패가 수확을 방해할 수 있습니다. 성공적인 접촉 후에도 느슨한 잡기, 분리 실패, 과일 손상, 그립퍼 막힘 등이 여전히 흔합니다. 이는 정확한 성공/실패 판단과 부족한 고장 복구로 인해 작업 중단 시간이 길어집니다. 견고한 고장 진단 및 자동 복구 기능 없이는 현재 로봇은 빈번한 중단에 노출되어 있으며, 이는 과수원에서의 유효 운영 시간을 크게 제한합니다.
이미지 수집 장치 및 환경. (a) 어두운 커버가 있는 HarvestFlex 로봇; (b) 어두운 커버가 없는 HarvestFlex 로봇; (c) 테이블 위의 딸기들
딸기 수확 로봇의 수확 과정: 팽창 및 접근, 삼키기, 축소, 끊어내기, 내려가기 및 배치.
HarvestFlex 시스템 (https://xiong-lab.cn/
)에서는 그림 1(a)와 (b)에 보여진 것처럼 RealSense D455F 깊이 카메라(Intel, Realsense, USA)가 실시간 RGB-D 이미지를 캡처하고 YOLOv8/11을 통해 딸기 감지 및 분할을 처리했습니다. 체커보드 기반 보정은 눈-손 좌표 변환을 가능하게 하였고 다항 회귀는 공간 오류를 보완했습니다. 시퀀스 계획에는 최소 높이 정렬 알고리즘이 수확 순서를 결정했으며, 점대점 속도 패턴 기반 방법은 효율적인 엔드-эфф펙터 이동을 보장했습니다. 엔드-эфф펙터는 딸기를 부드럽게 감싸고 분리하기 위해 팽창 및 축소 가능한 유연한 공기 작동 그립퍼였습니다. 전체 수확 워크플로우는 6단계로 구성되었습니다: 팽창 및 접근, 삼키기, 축소, 끊어내기, 내려가기 및 배치 (그림 2). 그러나 우리의 HarvestFlex 로봇에서 여러 문제가 발생하여 안정적이고 지속적인 수확 능력을 크게 저해했습니다. 주요 과제들은 다음과 같습니다: (1) 시각 인식 작업의 통합이 낮음 – 검출, 분할 및 익숙도 추정의 제한된 융합은 모델 복잡성을 증가시키고 추론 속도를 줄여 전체 시스템 효율성에 제약을 가했습니다. (2) 엔드-эфф펙터와 목표 과일 사이의 위치 오차 – 눈-손 접근 방식은 동적 과일 추적을 위한 안정적인 시야를 제공하지만, 손눈 교정 오류에 매우 민감합니다. 작은 편차도 정렬 실패, 빈 잡기, 분리 실패 또는 잘못된 배치로 이어져 지속적인 운영을 방해할 수 있습니다. (3) 부드러운 그립과 딸기 미끄럼 – 공기 작동 소프트 그립퍼는 과일 손상을 줄이지만 고도의 복합성 때문에 신뢰 가능한 촉각 또는 미끄럼 센서를 통합하는 것이 어려워집니다. 결과적으로 미끄러짐은 종종 감지되지 않아 사이클 시간을 낭비하고 때로는 끊어내기 단계에서 의도하지 않은 과일 방출이 발생합니다. 이 문제는 현재 촉각 센싱 기술의 부족으로 더욱 악화되며, 이러한 솔루션은 일반적으로 비싸고 불안정하며 대규모 배포에 실용적이지 않습니다.
이러한 문제를 완화하기 위해 고장 진단 및 복구 방법은 전통적인 접근법과 딥 러닝 기반 기술로 분류됩니다. 전통적으로 다양한 방법들이 로봇 고장을 해결하기 위해 제안되었습니다, 예를 들어 신호 처리 기술, 규칙 기반 시스템, 모델 기반 접근법 등이 있습니다. 그러나 이러한 전통적인 방법들은 복잡한 고장 상황을 다루는 데 한계가 있으며 특히 규칙 기반 및 임계값 기반 접근법의 경우 더욱 그렇습니다. 컴퓨터 하드웨어 발전에 따라 딥 러닝은 센서 신호, 진동, 음성, 이미지와 같은 다양한 모달 데이터에서 자동 특징 추출을 가능하게 하는 새로운 패러다임으로 부상했습니다. CNNs는 표면 결함 검사를 위해 적용되었고 RNNs 및 LSTMs은 시간 시리즈 데이터를 분석하여 초기 고장 감지를 위한 방법론으로 사용되었습니다. 그러나 이러한 방법들은 높은 품질의 다중 모달 데이터 획득을 위해 추가 센서가 필요하며, 이는 시스템 비용과 복잡성을 증가시키고 실세계 농업 환경에서 배포를 더욱 어렵게 합니다. 또한 다양한 데이터 소스(예: 비전, 진동 및 촉각 신호) 간의 시간 및 공간 정합을 유지하는 것은 여전히 큰 과제입니다. 심지어 작은 불일치라도 고장 진단 정확도를 저하시킬 수 있습니다.
이러한 한계를 극복하기 위해 본 논문에서는 시각 인식 기반 고장 진단 프레임워크에 중점을 두었습니다. 이로써 추가적인 다중 모달 센서와 데이터 정합의 복잡성을 피할 수 있었습니다. 본 연구의 목적은 소프트웨어 및 제어 관련 고장으로 인해 수확 안정성과 효율성이 저하되는 문제를 해결하는 것이었습니다. 이를 위해, 시각 인식과 고장 객체 감지를 통합하면서 가벼운 모델 아키텍처와 낮은 계산 부담을 유지하는 end-to-end 다중 작업 인식 방법 SRR-Net을 도입하고 통합했습니다. 이 방법은 세 가지 주요 하위 작업으로 구성되었습니다: 객체 검출, 인스턴스 분할 및 익숙도 추정. 수확 포인트와 그립퍼를 정렬하기 위해, 목표물과 그립퍼 동시 감지를 기반으로 한 상대적 오차 보상 방법을 로봇 팔의 좌표계에서 구현했습니다. 그립퍼가 대상 아래로 이동한 후, 보정된 수확 포인트를 생성하여 그립퍼가 대상 아래로 다시 이동하도록 안내하여 정확한 정렬을 보장했습니다. 또한, 수확 과정의 신뢰성을 높이기 위해 초기 중단 전략을 도입했습니다. 구체적으로, 그립퍼 기저부에 내장된 미세 광학 카메라는 딸기의 존재와 안정성을 지속적으로 모니터링합니다. 축소 단계에서는 MobileNet V3-Small이 과일이 성공적으로 잡혔는지 확인하고, 끊어내기 단계에서는 LSTM 분류기가 그립퍼에서 딸기 미끄러짐의 가능성을 예측하여 적시에 보정 조치를 취할 수 있도록 합니다. 만약 딸기가 감지되지 않으면 초기 중단 신호가 트리거되어 현재 사이클을 종료합니다. 이 통합된 인식-작동 프레임워크는 빈 잡기 또는 미끄러짐을 즉시 탐지하여 로봇 팔이 신속하게 대응하고 안정적인 운영을 유지할 수 있도록 했습니다. 본 논문의 주요 기여는 다음과 같습니다.
시각 인식과 고장 진단을 통합하는 end-to-end 다중 작업 인식 프레임워크인 SRR-Net을 도입했습니다.
그립퍼가 수확 포인트 아래로 접근할 때 엔드-эфф펙터의 위치를 재정렬하기 위한 동시 목표물-그립퍼 감지 기반 상대적 오차 보상 방법을 개발했습니다.
운영 신뢰성을 높이기 위해 초기 중단 전략을 구현했습니다. 축소 단계에서는 MobileNet V3-Small이 딸기가 성공적으로 잡혔는지를 분류하고, 끊어내기 단계에서는 LSTM 분류기가 그립퍼에서 과일 미끄러짐의 가능성을 예측하여 적시에 보정 조치를 취할 수 있도록 했습니다.
데이터셋 벤치마크
본 논문에서는 다중 작업 시각 인식, 잡기 조정 및 시간 시리즈 LSTM 분류기를 지원하기 위해 FaultData, GraspData 및 SnapData 세 가지 데이터셋을 구축했습니다. 모든 데이터는 그림 1(a-b)에 보여진 것처럼 두 개의 로봇 팔, 두 개의 Realsense D455F 카메라 및 두 개의 조절 가능한 빛 원천이 있는 HarvestFlex 딸기 수확 로봇을 사용하여 수집되었습니다. 카메라는 640×480 픽셀 해상도에서 RGB-D 이미지를 캡처하며, 렌즈와 딸기 사이의 거리는 30~90cm입니다. 자연 및 제어 조명 환경에서 데이터를 수집하여 로봇이 복잡하고 동적인 과수원 조건에 시각적으로 적응하도록 했습니다.
FaultData: 딸기와 그립퍼의 검출, 분할 및 익숙도 추정을 위한 작업을 위해 다양한 형태의 딸기 – 고립된, 중첩된, 가려진 과일 – 와 엔드-эфф펙터가 수확하는 동안의 전체 작동 시퀀스 이미지가 수집되었습니다. 다중 작업 시각 인식 작업에 대한 견고하고 지속적인 운영을 위해 데이터셋은 다양한 조명 조건, 날씨 상황 및 야간 환경을 포함하여 안정적이고 자율적이며 모든 날씨 성능의 기초를 제공합니다. 또한 Redmi Note 13 Pro 스마트폰과 Orbbec Gemini Pro RGB-D 카메라(Orbbec, Gemini Pro, 중국)를 사용하여 고해상도 이미지를 캡처하여 텍스처 및 색상 정보를 강화했습니다. 전체 데이터셋은 중국 베이징의 Cuihu Factory에서 수집되었으며 Fragaria × ananassa ‘Kaorino’ 품종을 특징으로 합니다 (그림 1(c)). 모든 이미지는 Labelme를 사용하여 딸기와 엔드-эфф펙터의 다각형 윤곽에 애노테이션되어 있습니다. 각 객체 인스턴스는 딸기, 손 또는 테이블로 표시되었으며 딸기의 익숙도는 0에서 1.1 범위 내에서 정의되었습니다. 각 인스턴스의 라벨 형식은 다음과 같은 구조를 따랐습니다: <cls><ripeness><boundaries>, 여기서 cls는 객체 클래스를 나타냅니다. 데이터셋은 학습 및 검증 하위 집합으로 분할되었으며 각각 2954개와 779개의 이미지로 구성되었습니다. 딸기만이 익숙도 속성을 갖습니다. 일관된 라벨 형식을 유지하기 위해 테이블과 손 클래스는 각각 정렬 플래그 2와 3가 할당되었습니다.
GraspData: 미니어처 카메라를 사용하여 엔드-эфф펙터의 축소 단계에서 이미지 데이터가 수집되었습니다. 총 594개의 이미지가 획득되었으며 학습 및 검증 집합에서는 딸기가 있는/없는 축소 단계에서 각각 197/202, 93/102개의 이미지가 있습니다.
SnapData: 딸기 끊어내기 단계에서 시간 시리즈 예측 작업을 위해 모든 이미지는 그립퍼에 장착된 미세 광학 카메라를 사용하여 인공 딸기 인스턴스 기반으로 캡처되었습니다. 각 프레임에서는 정교화된 SRR-Net을 통해 정규화된 딸기 영역, 정규화된 그립퍼 영역, 정규화된 배경 영역 및 딸기의 너비와 높이 등의 주요 시각적 특징이 추출되었습니다. 이러한 특징은 다음과 같은 형식으로 구조화되었습니다: <strawberry_area>, <gripper_area>, <background_area>, <w>, <h>, <label> 여기서 label은 그립퍼 내에 딸기가 존재(0) 또는 부재(1) 여부를 나타냅니다. 10개 연속 프레임의 슬라이딩 윈도우가 각 입력 시퀀스를 형성합니다. 각 시퀀스에는 해당 시퀀스 다음 바로 3개의 프레임을 기반으로 라벨이 할당되며 이는 딸기가 그립퍼에서 미끄러질 위험 여부를 나타냅니다. 이러한 구조는 이진 LSTM 분류기를 학습 및 검증하여 딸기 미끄러짐 가능성 예측에 사용되었습니다. 학습과 검증 세트에는 각각 341개와 147개의 샘플이 포함되어 있습니다.
시각 고장 진단 및 자동 복구 방법
개요
HarvestFlex 로봇은 과수원 환경에서 딸기를 성공적으로 수확하였습니다. 하지만 지속적인 운영 중 여러 문제가 발생하여 수확 성능을 저해했습니다. 주된 문제는 다음과 같습니다: (a) 시각 인식 통합이 제한적; (b) 위치 오프셋으로 인한 잡기 정렬 실패 또는 실패; 그리고 (c) 자동 평가 및 복구 메커니즘이 부족하여 수확 과정 중 성공 여부를 판단하기 위해 인간 개입에 의존해야 함, 그림 3에 보여집니다.
HarvestFlex에서의 수확 고장 및 복구
이러한 문제들을 해결하기 위해 시각 인식 기반 수확 고장 진단 및 자동 복구 아키텍처를 개발했습니다. 이 아키텍처는 세 가지 핵심 구성 요소를 통합합니다: end-to-end 다중 작업 퍼셉션 네트워크, 상대적 오차 보상 방법, 빈 잡기 조정 및 딸기 미끄럼 예측 기반 초기 중단 전략. 구체적으로, end-to-end 다중 작업 퍼셉션 네트워크인 SRR-Net은 동시에 검출, 분할 및 익숙도 추정을 수행합니다. 시각 인식 기반 위치 오차 보상 방법은 수확 포인트와 그립퍼 중심 간의 x축과 y축 오프셋을 수정하여 정위화 정확성을 향상시킵니다. 빈 잡기를 감지하기 위해, 그립퍼 내부에 미세 광학 카메라를 내장하여 딸기 유지 상태를 모니터링하고 잠재적인 미끄러짐을 예측할 수 있습니다.