بناء RAG باستخدام Milvus و Firecrawl

يُمكِّنFirecrawl المطورين من إنشاء تطبيقات ذكاء اصطناعي ببيانات نظيفة يتم كشطها من أي موقع إلكتروني. وبفضل إمكانات الكشط والزحف واستخراج البيانات المتقدمة، يعمل Firecrawl على تبسيط عملية تحويل محتوى الموقع الإلكتروني إلى بيانات نظيفة أو بيانات منظمة لمهام سير عمل الذكاء الاصطناعي النهائية.

في هذا البرنامج التعليمي، سنوضح لك في هذا البرنامج التعليمي كيفية إنشاء خط أنابيب استرجاع-مُعزَّز (RAG) باستخدام Milvus و Firecrawl. يدمج خط الأنابيب بين Firecrawl لكشط بيانات الويب، وMilvus لتخزين المتجهات، وOpenAI لتوليد استجابات ثاقبة مدركة للسياق.


التبعيات والبيئة

للبدء، قم بتثبيت التبعيات المطلوبة عن طريق تشغيل الأمر التالي:

$ pip install firecrawl-py pymilvus openai requests tqdm

إذا كنت تستخدم Google Colab، لتمكين التبعيات المثبتة للتو، قد تحتاج إلى إعادة تشغيل وقت التشغيل (انقر على قائمة "وقت التشغيل" في أعلى الشاشة، وحدد "إعادة تشغيل الجلسة" من القائمة المنسدلة).

إعداد مفاتيح واجهة برمجة التطبيقات

لاستخدام Firecrawl لكشط البيانات من عنوان URL المحدد، تحتاج إلى الحصول على FIRECRAWL_API_KEY وتعيينه كمتغير بيئة. أيضًا، سنستخدم OpenAI كـ LLM في هذا المثال. يجب عليك إعداد OPENAI_API_KEY كمتغير بيئة أيضًا.

import os

os.environ["FIRECRAWL_API_KEY"] = "fc-***********"
os.environ["OPENAI_API_KEY"] = "sk-***********"

إعداد LLM ونموذج التضمين

نقوم بتهيئة عميل OpenAI لإعداد نموذج التضمين.

from openai import OpenAI

openai_client = OpenAI()

حدد دالة لإنشاء تضمينات نصية باستخدام عميل OpenAI. نستخدم نموذج التضمين النصي 3-نموذج التضمين الصغير كمثال.

def emb_text(text):
    return (
        openai_client.embeddings.create(input=text, model="text-embedding-3-small")

إنشاء تضمين اختباري وطباعة بُعده والعناصر القليلة الأولى.

test_embedding = emb_text("This is a test")
embedding_dim = len(test_embedding)
[0.009889289736747742, -0.005578675772994757, 0.00683477520942688, -0.03805781528353691, -0.01824733428657055, -0.04121600463986397, -0.007636285852640867, 0.03225184231996536, 0.018949154764413834, 9.352207416668534e-05]

كشط البيانات باستخدام Firecrawl

تهيئة تطبيق Firecrawl

سوف نستخدم مكتبة firecrawl لكشط البيانات من عنوان URL المحدد بصيغة تخفيض السعر. ابدأ بتهيئة تطبيق Firecrawl:

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key=os.environ["FIRECRAWL_API_KEY"])

كشط الموقع المستهدف

اكشط المحتوى من عنوان URL الهدف. يوفر موقع الويب الوكلاء المستقلون المدعومون من LLM استكشافًا متعمقًا لأنظمة الوكلاء المستقلين المبنية باستخدام نماذج لغوية كبيرة (LLMs). سنستخدم هذا المحتوى لبناء نظام RAG.

# Scrape a website:
scrape_status = app.scrape_url(
    params={"formats": ["markdown"]},

markdown_content = scrape_status["markdown"]

معالجة المحتوى المكشوط

لجعل المحتوى الذي تم كشطه قابلاً للإدارة لإدراجه في ملف Milvus، نستخدم ببساطة "#" لفصل المحتوى، والذي يمكن أن يفصل تقريبًا محتوى كل جزء رئيسي من ملف العلامات المكشوط.

def split_markdown_content(content):
    return [section.strip() for section in content.split("# ") if section.strip()]

# Process the scraped markdown content
sections = split_markdown_content(markdown_content)

# Print the first few sections to understand the structure
for i, section in enumerate(sections[:3]):
    print(f"Section {i+1}:")
    print(section[:300] + "...")
    print("-" * 50)
Section 1:
Table of Contents

- [Agent System Overview](#agent-system-overview)
- [Component One: Planning](#component-one-planning)  - [Task Decomposition](#task-decomposition)
  - [Self-Reflection](#self-reflection)
- [Component Two: Memory](#component-two-memory)  - [Types of Memory](#types-of-memory)
  - [...
Section 2:
Agent System Overview [\#](\#agent-system-overview)

In a LLM-powered autonomous agent system, LLM functions as the agent’s brain, complemented by several key components:

- **Planning**
  - Subgoal and decomposition: The agent breaks down large tasks into smaller, manageable subgoals, enabling effi...
Section 3:
Component One: Planning [\#](\#component-one-planning)

A complicated task usually involves many steps. An agent needs to know what they are and plan ahead.


تحميل البيانات إلى ملف ميلفوس

إنشاء المجموعة

from pymilvus import MilvusClient

milvus_client = MilvusClient(uri="./milvus_demo.db")
collection_name = "my_rag_collection"

بالنسبة لحجة MilvusClient:

  • يعد تعيين uri كملف محلي، على سبيل المثال./milvus.db ، هو الطريقة الأكثر ملاءمة، حيث يستخدم تلقائيًا ملف Milvus Lite لتخزين جميع البيانات في هذا الملف.

  • إذا كان لديك حجم كبير من البيانات، يمكنك إعداد خادم Milvus أكثر أداءً على docker أو kubernetes. في هذا الإعداد، يُرجى استخدام الخادم uri، على سبيل المثالhttp://localhost:19530 ، كـ uri.

  • إذا كنت ترغب في استخدام Zilliz Cloud، الخدمة السحابية المدارة بالكامل لـ Milvus، اضبط uri و token ، والتي تتوافق مع نقطة النهاية العامة ومفتاح Api في Zilliz Cloud.

تحقق مما إذا كانت المجموعة موجودة بالفعل وأسقطها إذا كانت موجودة.

if milvus_client.has_collection(collection_name):

قم بإنشاء مجموعة جديدة بمعلمات محددة.

إذا لم نحدد أي معلومات عن الحقل، سيقوم ميلفوس تلقائيًا بإنشاء حقل افتراضي id للمفتاح الأساسي، وحقل vector لتخزين بيانات المتجه. يتم استخدام حقل JSON محجوز لتخزين الحقول غير المعرفة من قبل النظام الأساسي وقيمها.

    metric_type="IP",  # Inner product distance
    consistency_level="Strong",  # Strong consistency level

إدراج البيانات

from tqdm import tqdm

data = []

for i, section in enumerate(tqdm(sections, desc="Processing sections")):
    embedding = emb_text(section)
    data.append({"id": i, "vector": embedding, "text": section})

# Insert data into Milvus
milvus_client.insert(collection_name=collection_name, data=data)
Processing sections: 100%|██████████| 17/17 [00:08<00:00,  2.09it/s]

{'insert_count': 17, 'ids': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16], 'cost': 0}

بناء RAG

استرجاع البيانات لاستعلام

لنحدد سؤال استعلام عن الموقع الإلكتروني الذي قمنا بكشطه للتو.

question = "What are the main components of autonomous agents?"

ابحث عن السؤال في المجموعة واسترجع أفضل 3 مطابقات دلالية.

search_res = milvus_client.search(
    search_params={"metric_type": "IP", "params": {}},

لنلقِ نظرة على نتائج البحث عن الاستعلام

import json

retrieved_lines_with_distances = [
    (res["entity"]["text"], res["distance"]) for res in search_res[0]
print(json.dumps(retrieved_lines_with_distances, indent=4))
        "Agent System Overview [\\#](\\#agent-system-overview)\n\nIn a LLM-powered autonomous agent system, LLM functions as the agent\u2019s brain, complemented by several key components:\n\n- **Planning**\n  - Subgoal and decomposition: The agent breaks down large tasks into smaller, manageable subgoals, enabling efficient handling of complex tasks.\n  - Reflection and refinement: The agent can do self-criticism and self-reflection over past actions, learn from mistakes and refine them for future steps, thereby improving the quality of final results.\n- **Memory**\n  - Short-term memory: I would consider all the in-context learning (See [Prompt Engineering](https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/)) as utilizing short-term memory of the model to learn.\n  - Long-term memory: This provides the agent with the capability to retain and recall (infinite) information over extended periods, often by leveraging an external vector store and fast retrieval.\n- **Tool use**\n  - The agent learns to call external APIs for extra information that is missing from the model weights (often hard to change after pre-training), including current information, code execution capability, access to proprietary information sources and more.\n\n![](agent-overview.png)Fig. 1. Overview of a LLM-powered autonomous agent system.",
        "Table of Contents\n\n- [Agent System Overview](#agent-system-overview)\n- [Component One: Planning](#component-one-planning)  - [Task Decomposition](#task-decomposition)\n  - [Self-Reflection](#self-reflection)\n- [Component Two: Memory](#component-two-memory)  - [Types of Memory](#types-of-memory)\n  - [Maximum Inner Product Search (MIPS)](#maximum-inner-product-search-mips)\n- [Component Three: Tool Use](#component-three-tool-use)\n- [Case Studies](#case-studies)  - [Scientific Discovery Agent](#scientific-discovery-agent)\n  - [Generative Agents Simulation](#generative-agents-simulation)\n  - [Proof-of-Concept Examples](#proof-of-concept-examples)\n- [Challenges](#challenges)\n- [Citation](#citation)\n- [References](#references)\n\nBuilding agents with LLM (large language model) as its core controller is a cool concept. Several proof-of-concepts demos, such as [AutoGPT](https://github.com/Significant-Gravitas/Auto-GPT), [GPT-Engineer](https://github.com/AntonOsika/gpt-engineer) and [BabyAGI](https://github.com/yoheinakajima/babyagi), serve as inspiring examples. The potentiality of LLM extends beyond generating well-written copies, stories, essays and programs; it can be framed as a powerful general problem solver.",
        "Challenges [\\#](\\#challenges)\n\nAfter going through key ideas and demos of building LLM-centered agents, I start to see a couple common limitations:\n\n- **Finite context length**: The restricted context capacity limits the inclusion of historical information, detailed instructions, API call context, and responses. The design of the system has to work with this limited communication bandwidth, while mechanisms like self-reflection to learn from past mistakes would benefit a lot from long or infinite context windows. Although vector stores and retrieval can provide access to a larger knowledge pool, their representation power is not as powerful as full attention.\n\n- **Challenges in long-term planning and task decomposition**: Planning over a lengthy history and effectively exploring the solution space remain challenging. LLMs struggle to adjust plans when faced with unexpected errors, making them less robust compared to humans who learn from trial and error.\n\n- **Reliability of natural language interface**: Current agent system relies on natural language as an interface between LLMs and external components such as memory and tools. However, the reliability of model outputs is questionable, as LLMs may make formatting errors and occasionally exhibit rebellious behavior (e.g. refuse to follow an instruction). Consequently, much of the agent demo code focuses on parsing model output.",

استخدم LLM للحصول على استجابة RAG

تحويل المستندات المسترجعة إلى تنسيق سلسلة.

context = "\n".join(
    [line_with_distance[0] for line_with_distance in retrieved_lines_with_distances]

تحديد مطالبات النظام والمستخدم لنموذج لاناج. يتم تجميع هذه المطالبة مع المستندات المسترجعة من ميلفوس.

Human: You are an AI assistant. You are able to find answers to the questions from the contextual passage snippets provided.
Use the following pieces of information enclosed in <context> tags to provide an answer to the question enclosed in <question> tags.

استخدم OpenAI ChatGPT لإنشاء استجابة بناءً على المطالبات.

response = openai_client.chat.completions.create(
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": USER_PROMPT},
The main components of a LLM-powered autonomous agent system are the Planning, Memory, and Tool use. 

1. Planning: The agent breaks down large tasks into smaller, manageable subgoals, and can self-reflect and learn from past mistakes, refining its actions for future steps.

2. Memory: This includes short-term memory, which the model uses for in-context learning, and long-term memory, which allows the agent to retain and recall information over extended periods. 

3. Tool use: This component allows the agent to call external APIs for additional information that is not available in the model weights, like current information, code execution capacity, and access to proprietary information sources.

