milvus-logo
LFAI
Home
  • Integrationen

Fragebeantwortung mit Milvus und Hugging Face

Open In Colab

Ein System zur Beantwortung von Fragen, das auf einer semantischen Suche basiert, findet die ähnlichste Frage aus einem Datensatz von Frage-Antwort-Paaren für eine gegebene Anfrage. Sobald die ähnlichste Frage identifiziert ist, wird die entsprechende Antwort aus dem Datensatz als Antwort auf die Frage betrachtet. Dieser Ansatz stützt sich auf semantische Ähnlichkeitsmaße, um die Ähnlichkeit zwischen Fragen zu bestimmen und relevante Antworten zu finden.

Dieses Tutorial zeigt, wie man ein System zur Beantwortung von Fragen erstellt, das Hugging Face als Datenlader und Einbettungsgenerator für die Datenverarbeitung und Milvus als Vektordatenbank für die semantische Suche verwendet.

Bevor Sie beginnen

Sie müssen sicherstellen, dass alle erforderlichen Abhängigkeiten installiert sind:

  • pymilvus: ein Python-Paket arbeitet mit dem Vektordatenbankdienst von Milvus oder Zilliz Cloud.
  • datasets transformers: Hugging Face Pakete verwalten Daten und nutzen Modelle.
  • torchEine leistungsstarke Bibliothek bietet effiziente Tensorberechnungen und Deep-Learning-Tools.
$ pip install --upgrade pymilvus transformers datasets torch

Wenn Sie Google Colab verwenden, müssen Sie möglicherweise die Runtime neu starten, um die gerade installierten Abhängigkeiten zu aktivieren. (Klicken Sie auf das Menü "Runtime" am oberen Rand des Bildschirms und wählen Sie "Restart session" aus dem Dropdown-Menü).

Daten vorbereiten

In diesem Abschnitt werden wir Beispiel-Frage-Antwort-Paare aus den Hugging Face Datasets laden. Zu Demonstrationszwecken nehmen wir nur einen Teil der Daten aus dem Validierungssplit von SQuAD.

from datasets import load_dataset


DATASET = "squad"  # Name of dataset from HuggingFace Datasets
INSERT_RATIO = 0.001  # Ratio of example dataset to be inserted

data = load_dataset(DATASET, split="validation")
# Generates a fixed subset. To generate a random subset, remove the seed.
data = data.train_test_split(test_size=INSERT_RATIO, seed=42)["test"]
# Clean up the data structure in the dataset.
data = data.map(
    lambda val: {"answer": val["answers"]["text"][0]},
    remove_columns=["id", "answers", "context"],
)

# View summary of example data
print(data)
Dataset({
    features: ['title', 'question', 'answer'],
    num_rows: 11
})

Um Einbettungen für Fragen zu erzeugen, können Sie ein Text-Einbettungsmodell aus Hugging Face Models auswählen. In diesem Tutorial werden wir ein kleines Satzeinbettungsmodell all-MiniLM-L6-v2 als Beispiel verwenden.

from transformers import AutoTokenizer, AutoModel
import torch

MODEL = (
    "sentence-transformers/all-MiniLM-L6-v2"  # Name of model from HuggingFace Models
)
INFERENCE_BATCH_SIZE = 64  # Batch size of model inference

# Load tokenizer & model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained(MODEL)
model = AutoModel.from_pretrained(MODEL)


def encode_text(batch):
    # Tokenize sentences
    encoded_input = tokenizer(
        batch["question"], padding=True, truncation=True, return_tensors="pt"
    )

    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input)

    # Perform pooling
    token_embeddings = model_output[0]
    attention_mask = encoded_input["attention_mask"]
    input_mask_expanded = (
        attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    )
    sentence_embeddings = torch.sum(
        token_embeddings * input_mask_expanded, 1
    ) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

    # Normalize embeddings
    batch["question_embedding"] = torch.nn.functional.normalize(
        sentence_embeddings, p=2, dim=1
    )
    return batch


data = data.map(encode_text, batched=True, batch_size=INFERENCE_BATCH_SIZE)
data_list = data.to_list()

Daten einfügen

Jetzt haben wir die Frage-Antwort-Paare mit den Frageeinbettungen fertig. Der nächste Schritt besteht darin, sie in die Vektordatenbank einzufügen.

Dazu müssen wir uns zunächst mit dem Milvus-Dienst verbinden und eine Milvus-Sammlung erstellen.

from pymilvus import MilvusClient


MILVUS_URI = "./huggingface_milvus_test.db"  # Connection URI
COLLECTION_NAME = "huggingface_test"  # Collection name
DIMENSION = 384  # Embedding dimension depending on model

milvus_client = MilvusClient(MILVUS_URI)
if milvus_client.has_collection(collection_name=COLLECTION_NAME):
    milvus_client.drop_collection(collection_name=COLLECTION_NAME)
milvus_client.create_collection(
    collection_name=COLLECTION_NAME,
    dimension=DIMENSION,
    auto_id=True,  # Enable auto id
    enable_dynamic_field=True,  # Enable dynamic fields
    vector_field_name="question_embedding",  # Map vector field name and embedding column in dataset
    consistency_level="Strong",  # To enable search with latest data
)

Was das Argument von MilvusClient betrifft:

  • Die Einstellung von uri als lokale Datei, z. B../milvus.db, ist die bequemste Methode, da sie automatisch Milvus Lite nutzt, um alle Daten in dieser Datei zu speichern.
  • Wenn Sie große Datenmengen haben, können Sie einen leistungsfähigeren Milvus-Server auf Docker oder Kubernetes einrichten. Bei dieser Einrichtung verwenden Sie bitte die Server-Uri, z. B.http://localhost:19530, als uri.
  • Wenn Sie Zilliz Cloud, den vollständig verwalteten Cloud-Service für Milvus, verwenden möchten, passen Sie uri und token an, die dem öffentlichen Endpunkt und dem Api-Schlüssel in Zilliz Cloud entsprechen.

Fügen Sie alle Daten in die Sammlung ein:

milvus_client.insert(collection_name=COLLECTION_NAME, data=data_list)
{'insert_count': 11,
 'ids': [450072488481390592, 450072488481390593, 450072488481390594, 450072488481390595, 450072488481390596, 450072488481390597, 450072488481390598, 450072488481390599, 450072488481390600, 450072488481390601, 450072488481390602],
 'cost': 0}

Fragen stellen

Sobald alle Daten in Milvus eingefügt sind, können wir Fragen stellen und sehen, was die nächsten Antworten sind.

questions = {
    "question": [
        "What is LGM?",
        "When did Massachusetts first mandate that children be educated in schools?",
    ]
}

# Generate question embeddings
question_embeddings = [v.tolist() for v in encode_text(questions)["question_embedding"]]

# Search across Milvus
search_results = milvus_client.search(
    collection_name=COLLECTION_NAME,
    data=question_embeddings,
    limit=3,  # How many search results to output
    output_fields=["answer", "question"],  # Include these fields in search results
)

# Print out results
for q, res in zip(questions["question"], search_results):
    print("Question:", q)
    for r in res:
        print(
            {
                "answer": r["entity"]["answer"],
                "score": r["distance"],
                "original question": r["entity"]["question"],
            }
        )
    print("\n")
Question: What is LGM?
{'answer': 'Last Glacial Maximum', 'score': 0.956273078918457, 'original question': 'What does LGM stands for?'}
{'answer': 'coordinate the response to the embargo', 'score': 0.2120140939950943, 'original question': 'Why was this short termed organization created?'}
{'answer': '"Reducibility Among Combinatorial Problems"', 'score': 0.1945795714855194, 'original question': 'What is the paper written by Richard Karp in 1972 that ushered in a new era of understanding between intractability and NP-complete problems?'}


Question: When did Massachusetts first mandate that children be educated in schools?
{'answer': '1852', 'score': 0.9709997177124023, 'original question': 'In what year did Massachusetts first require children to be educated in schools?'}
{'answer': 'several regional colleges and universities', 'score': 0.34164726734161377, 'original question': 'In 1890, who did the university decide to team up with?'}
{'answer': '1962', 'score': 0.1931006908416748, 'original question': 'When were stromules discovered?'}

Übersetzt vonDeepLogo

Feedback

War diese Seite hilfreich?