Оценка с помощью Ragas
Это руководство демонстрирует, как использовать Ragas для оценки конвейера Retrieval-Augmented Generation (RAG), построенного на базе Milvus.
Система RAG объединяет поисковую систему с генеративной моделью для создания нового текста на основе заданного запроса. Сначала система извлекает релевантные документы из корпуса с помощью Milvus, а затем использует генеративную модель для создания нового текста на основе извлеченных документов.
Ragas - это фреймворк, который помогает оценивать конвейеры RAG. Существуют инструменты и фреймворки, которые помогают создавать такие конвейеры, но оценить их и определить количественную производительность может быть непросто. Именно здесь на помощь приходит Ragas (RAG Assessment).
Предварительные условия
Прежде чем запускать этот блокнот, убедитесь, что у вас установлены следующие зависимости:
$ pip install --upgrade pymilvus milvus-lite openai requests tqdm pandas ragas
Если вы используете Google Colab, для включения только что установленных зависимостей вам может потребоваться перезапустить среду выполнения (нажмите на меню "Runtime" в верхней части экрана и выберите "Restart session" из выпадающего меню).
В этом примере мы будем использовать OpenAI в качестве LLM. Вам следует подготовить api ключ OPENAI_API_KEY в качестве переменной окружения.
import os
os.environ["OPENAI_API_KEY"] = "sk-***********"
Определение конвейера RAG
Мы определим класс RAG, использующий Milvus в качестве векторного хранилища и OpenAI в качестве LLM. Класс содержит метод load, который загружает текстовые данные в Milvus, метод retrieve, который извлекает наиболее похожие на заданный вопрос текстовые данные, и метод answer, который отвечает на заданный вопрос с помощью извлеченных знаний.
from typing import List
from tqdm import tqdm
from openai import OpenAI
from pymilvus import MilvusClient
class RAG:
"""
RAG (Retrieval-Augmented Generation) class built upon OpenAI and Milvus.
"""
def __init__(self, openai_client: OpenAI, milvus_client: MilvusClient):
self._prepare_openai(openai_client)
self._prepare_milvus(milvus_client)
def _emb_text(self, text: str) -> List[float]:
return (
self.openai_client.embeddings.create(input=text, model=self.embedding_model)
.data[0]
.embedding
)
def _prepare_openai(
self,
openai_client: OpenAI,
embedding_model: str = "text-embedding-3-small",
llm_model: str = "gpt-3.5-turbo",
):
self.openai_client = openai_client
self.embedding_model = embedding_model
self.llm_model = llm_model
self.SYSTEM_PROMPT = """
Human: You are an AI assistant. You are able to find answers to the questions from the contextual passage snippets provided.
"""
self.USER_PROMPT = """
Use the following pieces of information enclosed in <context> tags to provide an answer to the question enclosed in <question> tags.
<context>
{context}
</context>
<question>
{question}
</question>
"""
def _prepare_milvus(
self, milvus_client: MilvusClient, collection_name: str = "rag_collection"
):
self.milvus_client = milvus_client
self.collection_name = collection_name
if self.milvus_client.has_collection(self.collection_name):
self.milvus_client.drop_collection(self.collection_name)
embedding_dim = len(self._emb_text("foo"))
self.milvus_client.create_collection(
collection_name=self.collection_name,
dimension=embedding_dim,
metric_type="IP", # Inner product distance
consistency_level="Bounded", # Strong consistency level
)
def load(self, texts: List[str]):
"""
Load the text data into Milvus.
"""
data = []
for i, line in enumerate(tqdm(texts, desc="Creating embeddings")):
data.append({"id": i, "vector": self._emb_text(line), "text": line})
self.milvus_client.insert(collection_name=self.collection_name, data=data)
def retrieve(self, question: str, top_k: int = 3) -> List[str]:
"""
Retrieve the most similar text data to the given question.
"""
search_res = self.milvus_client.search(
collection_name=self.collection_name,
data=[self._emb_text(question)],
limit=top_k,
search_params={"metric_type": "IP", "params": {}}, # Inner product distance
output_fields=["text"], # Return the text field
)
retrieved_texts = [res["entity"]["text"] for res in search_res[0]]
return retrieved_texts[:top_k]
def answer(
self,
question: str,
retrieval_top_k: int = 3,
return_retrieved_text: bool = False,
):
"""
Answer the given question with the retrieved knowledge.
"""
retrieved_texts = self.retrieve(question, top_k=retrieval_top_k)
user_prompt = self.USER_PROMPT.format(
context="\n".join(retrieved_texts), question=question
)
response = self.openai_client.chat.completions.create(
model=self.llm_model,
messages=[
{"role": "system", "content": self.SYSTEM_PROMPT},
{"role": "user", "content": user_prompt},
],
)
if not return_retrieved_text:
return response.choices[0].message.content
else:
return response.choices[0].message.content, retrieved_texts
Инициализируем класс RAG с клиентами OpenAI и Milvus.
openai_client = OpenAI()
milvus_client = MilvusClient(uri="./milvus_demo.db")
my_rag = RAG(openai_client=openai_client, milvus_client=milvus_client)
Что касается аргумента MilvusClient:
- Установка
uriв качестве локального файла, например,./milvus.db, является наиболее удобным методом, так как автоматически использует Milvus Lite для хранения всех данных в этом файле. - Если у вас большой объем данных, вы можете настроить более производительный сервер Milvus на docker или kubernetes. В этом случае используйте ури сервера, например
http://localhost:19530, в качествеuri. - Если вы хотите использовать Zilliz Cloud, полностью управляемый облачный сервис для Milvus, измените
uriиtoken, которые соответствуют публичной конечной точке и ключу Api в Zilliz Cloud.
Запустите конвейер RAG и получите результаты
Мы используем руководство по разработке Milvus в качестве приватного знания в нашем RAG, которое является хорошим источником данных для простого конвейера RAG.
Скачайте его и загрузите в конвейер RAG.
import os
import urllib.request
url = "https://raw.githubusercontent.com/milvus-io/milvus/master/DEVELOPMENT.md"
file_path = "./Milvus_DEVELOPMENT.md"
if not os.path.exists(file_path):
urllib.request.urlretrieve(url, file_path)
with open(file_path, "r") as file:
file_text = file.read()
# We simply use "# " to separate the content in the file, which can roughly separate the content of each main part of the markdown file.
text_lines = file_text.split("# ")
my_rag.load(text_lines) # Load the text data into RAG pipeline
Creating embeddings: 100%|██████████| 27/27 [00:20<00:00, 1.34it/s]
Определим вопрос запроса о содержании документации руководства по разработке. А затем воспользуемся методом answer, чтобы получить ответ и извлеченные контекстные тексты.
question = "what is the hardware requirements specification if I want to build Milvus and run from source code?"
my_rag.answer(question, return_retrieved_text=True)
('The hardware requirements specification for building Milvus and running it from source code is as follows:\n\n- 8GB of RAM\n- 50GB of free disk space',
['Hardware Requirements\n\nThe following specification (either physical or virtual machine resources) is recommended for Milvus to build and run from source code.\n\n```yaml\n- 8GB of RAM\n- 50GB of free disk space\n```\n\n##',
'Building Milvus on a local OS/shell environment\n\nThe details below outline the hardware and software requirements for building on Linux and MacOS.\n\n##',
"Software Requirements\n\nAll Linux distributions are available for Milvus development. However a majority of our contributor worked with Ubuntu or CentOS systems, with a small portion of Mac (both x86_64 and Apple Silicon) contributors. If you would like Milvus to build and run on other distributions, you are more than welcome to file an issue and contribute!\n\nHere's a list of verified OS types where Milvus can successfully build and run:\n\n- Debian/Ubuntu\n- Amazon Linux\n- MacOS (x86_64)\n- MacOS (Apple Silicon)\n\n##"])
Теперь подготовим несколько вопросов с соответствующими им ответами. Мы получим ответы и контексты из нашего конвейера RAG.
from ragas import EvaluationDataset
from datasets import Dataset
import pandas as pd
user_input_list = [
"what is the hardware requirements specification if I want to build Milvus and run from source code?",
"What is the programming language used to write Knowhere?",
"What should be ensured before running code coverage?",
]
reference_list = [
"If you want to build Milvus and run from source code, the recommended hardware requirements specification is:\n\n- 8GB of RAM\n- 50GB of free disk space.",
"The programming language used to write Knowhere is C++.",
"Before running code coverage, you should make sure that your code changes are covered by unit tests.",
]
retrieved_contexts_list = []
response_list = []
for user_input in tqdm(user_input_list, desc="Answering questions"):
response, retrieved_context = my_rag.answer(user_input, return_retrieved_text=True)
retrieved_contexts_list.append(retrieved_context)
response_list.append(response)
df = pd.DataFrame(
{
"user_input": user_input_list,
"retrieved_contexts": retrieved_contexts_list,
"response": response_list,
"reference": reference_list,
}
)
rag_results = EvaluationDataset.from_pandas(df)
df
Answering questions: 100%|██████████| 3/3 [00:04<00:00, 1.37s/it]
| пользовательский_ввод | полученные_контексты | ответ | ссылка | |
|---|---|---|---|---|
| 0 | какие требования к оборудованию... | [Требования к аппаратному обеспечению\n\nСледующая специф... | Спецификация требований к аппаратному обеспечению для бу... | Если вы хотите собрать Milvus и запустить его из источн... |
| 1 | Какой язык программирования используется для написа... | [CMake & Conan\n\nБиблиотека алгоритмов Mil... | Язык программирования, используемый для написания Knowher... | Язык программирования, используемый для написания Knowher... |
| 2 | Что необходимо убедиться перед запуском кода, покрыв... | [Покрытие кода\n\nПеред отправкой вашего pull ... | Перед запуском покрытия кода следует убедиться, что... | Перед выполнением покрытия кода, вы должны сделать ... |
Оценка с помощью Ragas
Мы используем Ragas для оценки производительности результатов работы нашего конвейера RAG.
Ragas предоставляет набор метрик, которые легко использовать. Мы взяли Answer relevancy, Faithfulness, Context recall и Context precision в качестве метрик для оценки нашего конвейера RAG. Более подробную информацию о метриках можно найти в разделе Метрики Ragas.
from ragas import evaluate
from ragas.metrics import AnswerRelevancy, Faithfulness, ContextRecall, ContextPrecision
from ragas.llms import LangchainLLMWrapper
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o-mini")
evaluator_llm = LangchainLLMWrapper(llm)
results = evaluate(
dataset=rag_results,
metrics=[
AnswerRelevancy(llm=evaluator_llm),
Faithfulness(llm=evaluator_llm),
ContextRecall(llm=evaluator_llm),
ContextPrecision(llm=evaluator_llm),
],
)
results
Evaluating: 100%|██████████| 12/12 [00:10<00:00, 1.11it/s]
{'answer_relevancy': 0.9894, 'faithfulness': 1.0000, 'context_recall': 1.0000, 'context_precision': 1.0000}