특허 교차 도메인 검색을 위한 도메인 인식 패밀리 데이터셋 DAPFAM
초록
본 논문은 특허 선행기술 검색에서 기술 분야가 서로 다른 경우의 어려움을 측정하기 위해, IPC3 코드 겹침을 기준으로 IN‑domain과 OUT‑domain을 명확히 구분한 패밀리‑레벨 데이터셋 DAPFAM을 제시한다. 1,247개의 질의 패밀리와 45,336개의 대상 패밀리로 구성되며, 인용 기반 관련성 판단을 제공한다. BM25와 단일 변형 트랜스포머 기반 밀집 모델, 문서·패시지 수준 검색, 다양한 쿼리·문서 표현, 패시지 집계 전략, 그리고 Reciprocal Rank Fusion(RRF) 융합을 포함한 249가지 실험을 수행한다. 결과는 OUT‑domain 성능이 IN‑domain 대비 약 5배 낮으며, 패시지‑레벨 검색이 문서‑레벨보다 일관되게 우수하고, 밀집 모델이 BM25보다 약간의 개선만을 보이지만 도메인 격차를 해소하지 못함을 보여준다. RRF 기반 문서‑레벨 융합은 효율성과 효과성 사이에서 좋은 균형을 제공한다. DAPFAM은 교차 도메인 특허 검색 연구를 위한 재현 가능하고 계산 비용을 고려한 벤치마크로 공개된다.
상세 분석
DAPFAM은 특허 검색에서 가장 흔히 간과되는 ‘도메인 전이’ 문제를 정량화하기 위해 설계된 최초의 패밀리‑레벨 데이터셋이다. 기존 CLEF‑IP, TREC‑Patent Track, MAREC 등은 각각 단일 관할구역에 초점을 맞추거나 도메인 라벨을 제공하지 않아, 질의와 후보 문서가 서로 다른 기술 분야에 속할 때 발생하는 성능 저하를 체계적으로 측정하기 어렵다. DAPFAM은 IPC3(국제 특허 분류 3자리) 코드의 겹침 여부를 기준으로 IN‑domain(공통 코드 존재)과 OUT‑domain(공통 코드 없음) 두 파티션을 정의함으로써, 동일한 질의에 대해 ‘같은 분야’와 ‘다른 분야’에서의 검색 난이도를 직접 비교할 수 있다.
데이터는 특허 가족 단위로 집계돼 국제 중복을 크게 감소시켰으며, 1,247개의 질의 가족은 기술 분야별로 균형 있게 샘플링돼 있다. 관련성 판단은 인용 관계를 활용한 ‘citation‑based relevance’로, 실제 특허 심사 과정에서 사용되는 신호와 일치한다.
실험 설계는 249가지 조합을 포괄한다. 기본 lexical 백엔드인 BM25와, 멀티링구얼 트랜스포머 기반 단일 dense encoder를 각각 문서‑레벨과 패시지‑레벨에 적용했다. 패시지는 고정 길이 윈도우로 슬라이싱하고, maxP, avgP, sumP, avg_top3 등 네 가지 집계 전략을 통해 가족‑레벨 점수로 재구성했다. 또한, Reciprocal Rank Fusion(RRF)을 이용해 lexical과 dense 결과를 융합함으로써 하이브리드 검색의 효율성을 검증했다.
핵심 결과는 다음과 같다. 첫째, 모든 설정에서 OUT‑domain의 NDCG@100과 Recall@100이 IN‑domain 대비 약 5배 낮았다. 이는 도메인 간 용어·구조 차이가 현재 IR 모델이 극복하기 어려운 장벽임을 시사한다. 둘째, 패시지‑레벨 검색이 문서‑레벨보다 일관되게 높은 재현율과 정밀도를 제공했으며, 특히 maxP 집계가 가장 좋은 성능을 보였다. 셋째, dense 모델은 BM25 대비 평균 37% 정도의 개선을 보였지만, 도메인 격차를 줄이는 데는 한계가 있었다. 넷째, RRF 기반 문서‑레벨 융합은 검색 효율성을 크게 희생하지 않으면서도 성능을 약 46% 상승시켰다. 이는 실시간 특허 검색 시스템에서 비용 대비 효과적인 전략으로 활용 가능함을 의미한다.
이러한 분석을 통해 저자들은 현재 특허 검색 기술이 ‘같은 분야’에서는 충분히 경쟁력을 갖추지만, ‘다른 분야’로 확장될 때는 근본적인 모델 설계와 도메인 적응 기법이 필요함을 강조한다. DAPFAM은 이러한 연구를 촉진하기 위한 공개 리소스로, 데이터와 실험 파이프라인이 모두 HuggingFace에 제공돼 재현성과 확장성을 보장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기