TL;DR
- Neuro-Symbolic IR (NS-IR) 은 신경망의 의미적 매칭 능력과 기호 논리의 구조적 해석 능력을 결합한 하이브리드 검색 패러다임이다.
- 기존 Dense Retrieval이 취약한 부정(Negation), 불리언 로직(Boolean Logic), 다중 제약 조건 질의를 정밀하게 처리하는 것을 목표로 한다.
Neuro-Symbolic Information Retrieval (NS-IR)
Neuro-Symbolic IR은 신경망 기반 정보 검색(Neural IR)의 유연한 의미 유사도 계산과 기호적 표현(Symbolic Representation)의 엄밀한 논리 추론을 통합한 접근법이다. 단순히 유사한 문서를 찾는 것을 넘어, 질의에 명시된 구조적 제약 조건을 검색 프로세스에 직접 반영한다.
1. 기술적 배경: Dense Retrieval의 한계
기존의 벡터 기반 검색(Dense Retrieval)은 질의와 문서를 임베딩 공간의 거리에 의존하여 매칭한다. 이 방식은 다음과 같은 명시적 구조를 가진 질의 처리에 성능 저하를 보인다.
- 부정 조건 (Negation): “특정 키워드가 없는 문서를 찾아줘”라는 요청을 단순 거리 계산으로 처리할 경우, 해당 키워드가 포함된 문서가 오히려 가깝게 배치될 수 있다.
- 결합 조건 (Boolean Logic):
AND,OR,NOT등의 논리 연산자가 복합적으로 얽힌 질의의 구조적 시맨틱을 보존하기 어렵다. - 다중 제약 (Multi-condition): 수치 범위, 위치 정보, 특정 개체 제외 등 다중 필터링 조건이 포함된 자연어 질의 해석 능력이 떨어진다.
2. 작동 메커니즘
NS-IR은 질의를 단순 벡터로 변환하는 대신, 기호화된 구조(Structured Representation) 로 먼저 해석한다.
- 표현 형식: 1차 논리(First-Order Logic, FOL), 논리 규칙(Logic Rules), 추상 구문 트리(AST) 등이 사용된다.
- 통합 방식:
- 신경망 모델(LLM 등)이 자연어 질의를 논리식이나 정형 쿼리로 변환한다.
- 변환된 기호적 구조를 기반으로 후보 문서를 필터링하거나 리랭킹(Reranking) 가중치를 부여한다.
- 벡터 검색의 점수와 논리적 일관성 점수를 결합하여 최종 결과를 산출한다.
사례: FOL 기반 질의 정형화
- 자연어: “한국의 AI 회사를 찾아줘. 단, 네이버는 제외하고.”
- FOL 표현:
- 핵심: 시스템은
Naver라는 키워드와의 유사도를 보는 것이 아니라, 해당 조건을 논리적 위반(Constraint Violation) 으로 규정하여 검색 결과에서 배제하거나 감점한다.
Connections
- [[Dense Retrieval]] — NS-IR이 보완하고자 하는 기반 검색 기술
- 1차 논리 (First-Order Logic) — 질의 구조화를 위한 주요 수학적 도구
- [[Negation in IR]] — 신경망 검색 모델의 주요 취약점 중 하나
- NegConstraint — 부정 제약 조건을 다루는 대표적인 데이터셋 및 방법론


Discussion
Comments
댓글은 승인 후 공개됩니다.