Milvus와 Firecrawl로 RAG 구축하기
Firecrawl은 개발자가 모든 웹사이트에서 스크랩한 깨끗한 데이터로 AI 애플리케이션을 구축할 수 있도록 지원합니다. 고급 스크래핑, 크롤링 및 데이터 추출 기능을 갖춘 Firecrawl은 웹사이트 콘텐츠를 깔끔한 마크다운 또는 구조화된 데이터로 변환하여 다운스트림 AI 워크플로우를 위한 프로세스를 간소화합니다.
이 튜토리얼에서는 Milvus와 Firecrawl을 사용하여 검색 증강 생성(RAG) 파이프라인을 구축하는 방법을 보여드립니다. 이 파이프라인은 웹 데이터 스크래핑을 위한 Firecrawl, 벡터 스토리지를 위한 Milvus, 인사이트가 있는 상황 인식 응답을 생성하기 위한 OpenAI를 통합합니다.
종속성 및 환경
시작하려면 다음 명령을 실행하여 필요한 종속 요소를 설치하세요:
$ pip install firecrawl-py pymilvus openai requests tqdm
Google Colab을 사용하는 경우 방금 설치한 종속성을 사용하려면 런타임을 다시 시작해야 할 수 있습니다(화면 상단의 '런타임' 메뉴를 클릭하고 드롭다운 메뉴에서 '세션 다시 시작'을 선택).
API 키 설정하기
파이어크롤을 사용하여 지정된 URL에서 데이터를 스크래핑하려면 FIRECRAWL_API_KEY를 가져와 환경 변수로 설정해야 합니다. 또한 이 예제에서는 OpenAI를 LLM으로 사용합니다. OPENAI_API_KEY도 환경 변수로 준비해야 합니다.
import os
os.environ["FIRECRAWL_API_KEY"] = "fc-***********"
os.environ["OPENAI_API_KEY"] = "sk-***********"
LLM 및 임베딩 모델 준비
임베딩 모델을 준비하기 위해 OpenAI 클라이언트를 초기화합니다.
from openai import OpenAI
openai_client = OpenAI()
OpenAI 클라이언트를 사용하여 텍스트 임베딩을 생성하는 함수를 정의합니다. 텍스트 임베딩 3-소형 모델을 예로 사용합니다.
def emb_text(text):
return (
openai_client.embeddings.create(input=text, model="text-embedding-3-small")
테스트 임베딩을 생성하고 해당 치수와 처음 몇 개의 요소를 인쇄합니다.
test_embedding = emb_text("This is a test")
embedding_dim = len(test_embedding)
[0.009889289736747742, -0.005578675772994757, 0.00683477520942688, -0.03805781528353691, -0.01824733428657055, -0.04121600463986397, -0.007636285852640867, 0.03225184231996536, 0.018949154764413834, 9.352207416668534e-05]
파이어크롤을 사용하여 데이터 스크랩
파이어크롤 애플리케이션 초기화하기
라이브러리를 사용하여 지정된 URL에서 마크다운 형식으로 데이터를 스크랩하겠습니다. 먼저 파이어크롤 애플리케이션을 초기화합니다:
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key=os.environ["FIRECRAWL_API_KEY"])
대상 웹사이트 스크랩
대상 URL에서 콘텐츠를 스크랩합니다. LLM 기반 자율 에이전트 웹사이트에서는 대규모 언어 모델(LLM)을 사용하여 구축된 자율 에이전트 시스템에 대한 심층적인 탐색을 제공합니다. 이러한 콘텐츠를 사용하여 RAG 시스템을 구축합니다.
# Scrape a website:
scrape_status = app.scrape_url(
params={"formats": ["markdown"]},
markdown_content = scrape_status["markdown"]
스크랩된 콘텐츠 처리하기
스크랩된 콘텐츠를 Milvus에 삽입하기 위해 관리하기 쉽게 만들기 위해 "#"를 사용하여 콘텐츠를 구분하면 스크랩된 마크다운 파일의 각 주요 부분의 콘텐츠를 대략적으로 구분할 수 있습니다.
def split_markdown_content(content):
return [section.strip() for section in content.split("# ") if section.strip()]
# Process the scraped markdown content
sections = split_markdown_content(markdown_content)
# Print the first few sections to understand the structure
for i, section in enumerate(sections[:3]):
print(f"Section {i+1}:")
print(section[:300] + "...")
print("-" * 50)
Section 1:
Table of Contents
- [Agent System Overview](#agent-system-overview)
- [Component One: Planning](#component-one-planning) - [Task Decomposition](#task-decomposition)
- [Self-Reflection](#self-reflection)
- [Component Two: Memory](#component-two-memory) - [Types of Memory](#types-of-memory)
- [...
Section 2:
Agent System Overview [\#](\#agent-system-overview)
In a LLM-powered autonomous agent system, LLM functions as the agent’s brain, complemented by several key components:
- **Planning**
- Subgoal and decomposition: The agent breaks down large tasks into smaller, manageable subgoals, enabling effi...
Section 3:
Component One: Planning [\#](\#component-one-planning)
A complicated task usually involves many steps. An agent needs to know what they are and plan ahead.
Milvus에 데이터 로드
컬렉션 생성
from pymilvus import MilvusClient
milvus_client = MilvusClient(uri="./milvus_demo.db")
collection_name = "my_rag_collection"
의 인수는 다음과 같습니다:
를 로컬 파일(예:./milvus.db
)로 설정하는 것이 가장 편리한 방법인데, 이 파일에 모든 데이터를 저장하기 위해 Milvus Lite를 자동으로 활용하기 때문입니다.데이터 규모가 큰 경우, 도커나 쿠버네티스에 더 고성능의 Milvus 서버를 설정할 수 있습니다. 이 설정에서는 서버 URL(예:
으로 사용하세요.밀버스의 완전 관리형 클라우드 서비스인 질리즈 클라우드를 사용하려면, 질리즈 클라우드의 퍼블릭 엔드포인트와 API 키에 해당하는
을 조정하세요.
컬렉션이 이미 존재하는지 확인하고 존재한다면 삭제합니다.
if milvus_client.has_collection(collection_name):
지정된 파라미터로 새 컬렉션을 생성합니다.
필드 정보를 지정하지 않으면 기본 키로 id
필드와 벡터 데이터를 저장할 vector
필드가 자동으로 생성됩니다. 예약된 JSON 필드는 스키마에 정의되지 않은 필드와 그 값을 저장하는 데 사용됩니다.
metric_type="IP", # Inner product distance
consistency_level="Strong", # Strong consistency level
데이터 삽입
from tqdm import tqdm
data = []
for i, section in enumerate(tqdm(sections, desc="Processing sections")):
embedding = emb_text(section)
data.append({"id": i, "vector": embedding, "text": section})
# Insert data into Milvus
milvus_client.insert(collection_name=collection_name, data=data)
Processing sections: 100%|██████████| 17/17 [00:08<00:00, 2.09it/s]
{'insert_count': 17, 'ids': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16], 'cost': 0}
RAG 구축
쿼리에 대한 데이터 검색
방금 스크랩한 웹사이트에 대한 쿼리 질문을 지정해 보겠습니다.
question = "What are the main components of autonomous agents?"
컬렉션에서 질문을 검색하고 시맨틱 상위 3개 일치 항목을 검색합니다.
search_res =
search_params={"metric_type": "IP", "params": {}},
쿼리의 검색 결과를 살펴봅시다.
import json
retrieved_lines_with_distances = [
(res["entity"]["text"], res["distance"]) for res in search_res[0]
print(json.dumps(retrieved_lines_with_distances, indent=4))
"Agent System Overview [\\#](\\#agent-system-overview)\n\nIn a LLM-powered autonomous agent system, LLM functions as the agent\u2019s brain, complemented by several key components:\n\n- **Planning**\n - Subgoal and decomposition: The agent breaks down large tasks into smaller, manageable subgoals, enabling efficient handling of complex tasks.\n - Reflection and refinement: The agent can do self-criticism and self-reflection over past actions, learn from mistakes and refine them for future steps, thereby improving the quality of final results.\n- **Memory**\n - Short-term memory: I would consider all the in-context learning (See [Prompt Engineering]( as utilizing short-term memory of the model to learn.\n - Long-term memory: This provides the agent with the capability to retain and recall (infinite) information over extended periods, often by leveraging an external vector store and fast retrieval.\n- **Tool use**\n - The agent learns to call external APIs for extra information that is missing from the model weights (often hard to change after pre-training), including current information, code execution capability, access to proprietary information sources and more.\n\nFig. 1. Overview of a LLM-powered autonomous agent system.",
"Table of Contents\n\n- [Agent System Overview](#agent-system-overview)\n- [Component One: Planning](#component-one-planning) - [Task Decomposition](#task-decomposition)\n - [Self-Reflection](#self-reflection)\n- [Component Two: Memory](#component-two-memory) - [Types of Memory](#types-of-memory)\n - [Maximum Inner Product Search (MIPS)](#maximum-inner-product-search-mips)\n- [Component Three: Tool Use](#component-three-tool-use)\n- [Case Studies](#case-studies) - [Scientific Discovery Agent](#scientific-discovery-agent)\n - [Generative Agents Simulation](#generative-agents-simulation)\n - [Proof-of-Concept Examples](#proof-of-concept-examples)\n- [Challenges](#challenges)\n- [Citation](#citation)\n- [References](#references)\n\nBuilding agents with LLM (large language model) as its core controller is a cool concept. Several proof-of-concepts demos, such as [AutoGPT](, [GPT-Engineer]( and [BabyAGI](, serve as inspiring examples. The potentiality of LLM extends beyond generating well-written copies, stories, essays and programs; it can be framed as a powerful general problem solver.",
"Challenges [\\#](\\#challenges)\n\nAfter going through key ideas and demos of building LLM-centered agents, I start to see a couple common limitations:\n\n- **Finite context length**: The restricted context capacity limits the inclusion of historical information, detailed instructions, API call context, and responses. The design of the system has to work with this limited communication bandwidth, while mechanisms like self-reflection to learn from past mistakes would benefit a lot from long or infinite context windows. Although vector stores and retrieval can provide access to a larger knowledge pool, their representation power is not as powerful as full attention.\n\n- **Challenges in long-term planning and task decomposition**: Planning over a lengthy history and effectively exploring the solution space remain challenging. LLMs struggle to adjust plans when faced with unexpected errors, making them less robust compared to humans who learn from trial and error.\n\n- **Reliability of natural language interface**: Current agent system relies on natural language as an interface between LLMs and external components such as memory and tools. However, the reliability of model outputs is questionable, as LLMs may make formatting errors and occasionally exhibit rebellious behavior (e.g. refuse to follow an instruction). Consequently, much of the agent demo code focuses on parsing model output.",
LLM을 사용하여 RAG 응답 얻기
검색된 문서를 문자열 형식으로 변환합니다.
context = "\n".join(
[line_with_distance[0] for line_with_distance in retrieved_lines_with_distances]
Lanage 모델에 대한 시스템 및 사용자 프롬프트를 정의합니다. 이 프롬프트는 Milvus에서 검색된 문서로 조립됩니다.
Human: You are an AI assistant. You are able to find answers to the questions from the contextual passage snippets provided.
Use the following pieces of information enclosed in <context> tags to provide an answer to the question enclosed in <question> tags.
OpenAI ChatGPT를 사용하여 프롬프트에 따라 응답을 생성합니다.
response =
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": USER_PROMPT},
The main components of a LLM-powered autonomous agent system are the Planning, Memory, and Tool use.
1. Planning: The agent breaks down large tasks into smaller, manageable subgoals, and can self-reflect and learn from past mistakes, refining its actions for future steps.
2. Memory: This includes short-term memory, which the model uses for in-context learning, and long-term memory, which allows the agent to retain and recall information over extended periods.
3. Tool use: This component allows the agent to call external APIs for additional information that is not available in the model weights, like current information, code execution capacity, and access to proprietary information sources.