자율 로봇 기반 건설 현장 안전 검사와 보고서 자동 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 SLAM 기반 자율 이동 로봇과 다계층 비전‑언어‑대형언어 모델 파이프라인을 결합해, 현장 영상을 OSHA 규정에 연계하고 위험성을 평가한 뒤 자동으로 안전 점검 보고서를 생성하는 시스템을 제안한다. 실험실 환경에서 3가지 위험 시나리오를 검증했으며, 높은 재현율과 경쟁력 있는 정밀도를 달성하면서 중간 결과를 투명하게 공개한다.

상세 분석

이 연구는 건설 현장 안전 점검이라는 고위험·고복잡도 문제를 로봇 공학과 최신 AI 모델을 융합함으로써 해결하고자 한다. 첫 번째 레이어는 SLAM과 행동 트리 기반 자율 내비게이션으로, LiDAR와 RGB‑Depth 센서를 활용해 실시간 지도 구축 및 경로 계획을 수행한다. 이는 인간 원격 조작 없이도 반복 가능한 커버리지를 제공하고, 위험 지점에 대한 재방문을 waypoint 방식으로 제어한다. 두 번째 레이어는 Vision‑Language Model(VLM)으로, 로봇이 촬영한 이미지 프레임을 입력받아 상황 설명을 생성한다. 여기서 사용된 VLM은 사전 학습된 멀티모달 모델이며, 프롬프트 엔지니어링을 통해 “현장에 존재하는 장비·작업자·보호구” 등을 상세히 기술한다. 세 번째 레이어는 규정 검색(Retrieval‑Augmented Generation)이다. 생성된 설명을 키워드로 OSHA 규정·현장 정책 데이터베이스를 조회하고, 관련 조항을 인용한다. 이 과정은 벡터 검색 엔진과 LLM을 결합해, 문맥에 맞는 규정을 정확히 매핑한다. 네 번째 레이어는 또 다른 VLM을 이용한 안전성 평가 단계로, “설명 + 규정” 쌍을 입력받아 규정 위반 여부와 위험 정도를 판단한다. 여기서는 이진 판단뿐 아니라 위반 근거와 위험 등급을 출력하도록 설계돼, 후속 보고서 작성에 필요한 근거를 제공한다. 마지막 레이어는 대형 언어 모델(LLM)로, 프레임별 평가 결과와 규정 인용을 종합해 인간이 읽기 쉬운 보고서를 자동 생성한다. 보고서는 위험 항목, 위반 조항, 시정 권고 등을 구조화된 형태로 제공하며, 중간 결과를 모두 로그로 남겨 인간 검증자가 언제든 추적·수정할 수 있게 한다. 실험에서는 3가지 시나리오(낙하 위험, 보호구 미착용, 비인가 구역 진입)를 설정하고, 각 레이어별 정밀도·재현율을 측정했다. 결과는 폐쇄형 상용 모델 대비 재현율 92%·정밀도 78% 수준을 보였으며, 특히 재현율이 높은 이유는 규정 기반 검색과 VLM‑LLM 연계가 다중 힌트를 제공하기 때문이다. 또한, 파이프라인이 모듈식이라 VLM이나 LLM을 최신 모델로 교체해도 전체 구조는 그대로 유지될 수 있다. 한계점으로는 실시간 처리 지연, 조명·날씨 변화에 대한 VLM 민감도, 그리고 규정 데이터베이스의 최신성 유지 문제가 있다. 향후 연구에서는 엣지 컴퓨팅 최적화, 멀티모달 센서 융합, 그리고 현장 피드백을 통한 지속적 학습 메커니즘을 도입할 계획이다. 전체적으로 이 논문은 “투명·모듈식·규정 연계”라는 세 가지 핵심 원칙을 통해 건설 현장 자동 안전 점검의 실용성을 크게 높였으며, 향후 AEC 분야 전반에 걸친 AI‑Robotics 융합 연구의 청사진을 제시한다.

자율 로봇 기반 건설 현장 안전 검사와 보고서 자동 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기