자청의 유튜브 추출기

유튜브 영상의 자막과 AI요약을 추출해보세요

AI 채팅

BETA

2024 공공데이터 활용 RAG 기술 완벽 구현법과 프레임워크 공개!

게시일: 작성자: 자청의 유튜브 추출기

검색 증강 생성(RAG)을 위한 청크 기반 검색 기술

카카오 엔터프라이즈 검색 CIC에서 검색 모델링을 담당하는 김도윤입니다. 저희는 카카오 검색 서비스의 품질을 높이기 위해 다양한 방법을 시도하고 있으며, 최근에는 '검색 증강 생성(RAG)' 기술에 주목하고 있습니다. RAG는 거대 언어 모델(LLM)이 검색 결과를 바탕으로 사용자 질문에 답변하도록 유도하여, LLM이 사실이 아닌 정보를 만들어내는 '환각(Hallucination)' 현상을 줄이는 기술입니다.

왜 청크가 필요할까요?

RAG 시스템을 구축하기 위해 가장 중요한 요소 중 하나는 청크(Chunk)입니다. 청크는 문서를 의미 있는 단위로 나눈 조각을 말합니다.

  • LLM의 처리 한계: LLM은 한 번에 처리할 수 있는 텍스트 길이에 한계가 있습니다. 너무 긴 문서를 주면 답변 품질이 떨어질 수 있습니다.
  • 검색 품질 향상: 하나의 문서에는 여러 주제가 섞여 있을 수 있습니다. 이를 그대로 벡터화하면 주제가 분산되어 검색 정확도가 떨어질 수 있습니다. 청크를 통해 각 덩어리가 하나의 주제를 담도록 하면 검색 품질을 높일 수 있습니다.

청크는 어떻게 나눌까요?

청크를 나누는 방법은 여러 가지가 있습니다.

  1. 고정 길이 방식: 단순히 글자 수를 기준으로 문서를 나눕니다. 현재 다음 검색 등에서도 사용되는 방식입니다.
  2. 분자 기반 분할: 마침표, 물음표, 줄바꿈 등 구두점을 기준으로 문서를 나눕니다.
  3. 구조 기반 청킹: 제목, 목차 등 문서의 구조를 감지하여 나눕니다. 블로그나 홈페이지 글처럼 구조가 명확한 경우 효과적입니다.
  4. 시맨틱 청킹 (AI 기반): AI 모델을 사용하여 의미상의 완결성과 일관성을 유지하는 방식으로 문서를 나눕니다. 이 방식은 느리고 자원을 많이 사용하므로, 소규모 문서나 다른 방법과 함께 사용할 때 효과적입니다.

저희는 특히 의미를 최대한 보존하고 노이즈를 줄이기 위해 문장 단위로 묶어 처리하며, 의미의 유사도뿐만 아니라 유사도 변화율, 주제의 연속성까지 고려하는 시맨틱 청킹 방식을 사용합니다.

청크만으로는 부족해요! 추가적인 피처

청크를 나누는 것만으로는 검색에 충분하지 않습니다. 검색 품질을 높이기 위해 다음과 같은 추가적인 피처를 생성합니다.

  • 제목 생성: 각 청크에 적절한 제목을 부여하여 문서의 내용을 함축적으로 나타냅니다. 요약 태스크를 변형하여 사용합니다.
  • 관련 질문 생성: 각 청크에서 파생될 수 있는 질문들을 생성하여 검색 시 활용합니다.
  • 질의 변환 (Query Rewriting): 사용자의 자연어 질문을 검색에 더 효과적인 검색어로 변환합니다.
  • 부모-자식 계층 구조: 문서와 청크 간의 관계를 명확히 하여 중복 청크를 제거하고 문서 단위 검색과 청크 단위 검색을 결합합니다.

검색 전후 과정

  1. 검색 전: 사용자의 질문을 질의 변환(QR) 과정을 거쳐 검색에 적합한 형태로 바꿉니다.
  2. 검색 수행: 변환된 질의를 사용하여 청크 기반으로 검색을 수행하고 관련 정보를 가져옵니다.
  3. LLM 답변 생성: 가져온 검색 결과를 바탕으로 LLM이 답변을 생성합니다. 이때, LLM이 학습한 지식이나 상식을 사용하지 않고 검색 결과에만 근거하도록 리랭킹 과정을 거치거나 튜닝을 통해 제어합니다.

데모 시연

실제로 법제처 생활법령 정보와 식약처 건강기능식품 정보를 활용하여 청크 기반 RAG 기술을 시연했습니다.

  • 법제처: 경매 부동산 매각 대금 미납 시 처리 방법, 전세집 누수 발생 시 수리 책임 등에 대한 질문에 대해 관련 법령 정보를 청크 단위로 찾아 답변을 생성했습니다.
  • 식약처: 어린이가 특정 약품을 복용해도 되는지, 다른 약품과 함께 복용 시 주의사항 등에 대한 질문에 대해 약품 정보를 청크로 나누어 명확한 답변과 주의사항을 제공했습니다.

기술 활용 및 기대 효과

이 기술은 다음과 같은 분들에게 도움이 될 수 있습니다.

  • 개인 블로그나 게시판에 AI 기반 검색 기능을 추가하고 싶은 분
  • 사내 문서 기반으로 AI 챗봇을 구축하고 싶은 기업
  • 보안 문제로 외부 AI API 사용이 어려운 경우

저희 카카오 엔터프라이즈는 이러한 기술을 통해 더 나은 검색 경험을 제공하기 위해 노력하고 있습니다. 더 궁금한 점이 있다면 체험 부스에서 직접 경험해 보시기 바랍니다.

최근 검색 기록