Leistungsstarke RAG für GenAI mit HPE Alletra Storage MP + Milvus
Dieser Beitrag wurde ursprünglich auf HPE Community veröffentlicht und wird hier mit Genehmigung wiederveröffentlicht.
HPE Alletra Storage MP X10000 und Milvus ermöglichen eine skalierbare RAG mit niedriger Latenz, die es LLMs ermöglicht, präzise, kontextreiche Antworten mit einer leistungsstarken Vektorsuche für GenAI-Workloads zu liefern.
In der generativen KI braucht RAG mehr als nur einen LLM
Der Kontext setzt die wahre Leistung der generativen KI (GenAI) und großer Sprachmodelle (LLMs) frei. Wenn ein LLM über die richtigen Signale verfügt, an denen es seine Antworten ausrichtet, kann es Antworten liefern, die genau, relevant und vertrauenswürdig sind.
Stellen Sie sich vor, Sie würden mit einem GPS-Gerät, aber ohne Satellitensignal, in einem dichten Dschungel ausgesetzt. Auf dem Bildschirm wird zwar eine Karte angezeigt, aber ohne Ihre aktuelle Position ist sie für die Navigation nutzlos. Ein GPS-Gerät mit einem starken Satellitensignal hingegen zeigt nicht nur eine Karte an, sondern führt Sie Schritt für Schritt zum Ziel.
Das ist es, was die RAG (retrieval-augmented generation) für LLMs leistet. Das Modell hat bereits die Karte (sein vortrainiertes Wissen), aber nicht die Richtung (Ihre domänenspezifischen Daten). LLMs ohne RAG sind wie GPS-Geräte, die zwar mit Wissen gefüllt sind, aber keine Echtzeitorientierung haben. RAG liefert das Signal, das dem Modell sagt, wo es ist und wohin es gehen soll.
RAG stützt die Modellantworten auf vertrauenswürdiges, aktuelles Wissen, das aus Ihren eigenen domänenspezifischen Inhalten wie Richtlinien, Produktdokumenten, Tickets, PDFs, Code, Audiotranskripten, Bildern und vielem mehr stammt. Der Einsatz von RAG in großem Maßstab ist eine Herausforderung. Der Abrufprozess muss schnell genug sein, um eine nahtlose Benutzererfahrung zu gewährleisten, genau genug, um die relevantesten Informationen zu liefern, und vorhersehbar, auch wenn das System stark belastet ist. Das bedeutet, dass hohe Abfragevolumina, laufende Dateneingaben und Hintergrundaufgaben wie der Indexaufbau ohne Leistungseinbußen bewältigt werden müssen. Der Aufbau einer RAG-Pipeline mit einigen wenigen PDFs ist relativ einfach. Bei der Skalierung auf Hunderte von PDFs wird es jedoch deutlich schwieriger. Sie können nicht alles im Speicher halten, daher ist eine robuste und effiziente Speicherstrategie für die Verwaltung von Einbettungen, Indizes und Abrufleistung unerlässlich. RAG benötigt eine Vektordatenbank und eine Speicherebene, die mit der wachsenden Gleichzeitigkeit und den wachsenden Datenmengen Schritt halten kann.
Vektordatenbanken treiben RAG an
Das Herzstück von RAG ist die semantische Suche, bei der Informationen anhand ihrer Bedeutung und nicht anhand exakter Schlüsselwörter gefunden werden. Hier kommen Vektordatenbanken ins Spiel. Sie speichern hochdimensionale Einbettungen von Text, Bildern und anderen unstrukturierten Daten und ermöglichen eine Ähnlichkeitssuche, die den relevantesten Kontext für Ihre Abfragen abruft. Milvus ist ein führendes Beispiel: eine Cloud-native Open-Source-Vektordatenbank, die für die Ähnlichkeitssuche in Milliardenhöhe entwickelt wurde. Sie unterstützt eine hybride Suche, bei der die Vektorähnlichkeit mit Schlüsselwort- und Skalarfiltern für mehr Präzision kombiniert wird, und bietet eine unabhängige Skalierung der Rechenleistung und des Speichers mit GPU-basierten Optimierungsoptionen zur Beschleunigung. Milvus verwaltet außerdem Daten durch einen intelligenten Segmentlebenszyklus, der von wachsenden zu geschlossenen Segmenten mit Verdichtung und mehreren ANN-Indizierungsoptionen (Approximate Nearest Neighbour) wie HNSW und DiskANN übergeht und so Leistung und Skalierbarkeit für Echtzeit-KI-Workloads wie RAG gewährleistet.
Die versteckte Herausforderung: Speicherdurchsatz und Latenz
Vektorsuch-Workloads setzen jeden Teil des Systems unter Druck. Sie erfordern eine hohe Gleichzeitigkeit beim Ingestion und gleichzeitig eine niedrige Latenz beim Abruf für interaktive Abfragen. Gleichzeitig müssen Hintergrundoperationen wie Indexerstellung, Verdichtung und das Nachladen von Daten ohne Unterbrechung der Live-Leistung ablaufen. Viele Leistungsengpässe in herkömmlichen Architekturen lassen sich auf die Speicherung zurückführen. Sei es durch Einschränkungen bei der Ein-/Ausgabe (E/A), durch Verzögerungen bei der Metadatensuche oder durch Einschränkungen bei der Gleichzeitigkeit. Um eine vorhersehbare Echtzeitleistung im großen Maßstab zu liefern, muss die Speicherebene mit den Anforderungen von Vektordatenbanken Schritt halten.
Die Speichergrundlage für eine leistungsstarke Vektorsuche
HPE Alletra Storage MP X10000 ist eine flash-optimierte, vollständig NVMe-kompatible Objektspeicherplattform, die für Echtzeitleistung im großen Maßstab entwickelt wurde. Im Gegensatz zu herkömmlichen, kapazitätsorientierten Objektspeichern wurde HPE Alletra Storage MP X10000 für Arbeitslasten mit niedriger Latenz und hohem Durchsatz wie Vektorsuche entwickelt. Die log-strukturierte Key-Value-Engine und die extent-basierten Metadaten ermöglichen hochparallele Lese- und Schreibvorgänge, während GPUDirect RDMA kopierfreie Datenpfade bereitstellt, die den CPU-Overhead reduzieren und die Datenübertragung an GPUs beschleunigen. Die Architektur unterstützt eine disaggregierte Skalierung, so dass Kapazität und Leistung unabhängig voneinander wachsen können, und umfasst unternehmenstaugliche Funktionen wie Verschlüsselung, rollenbasierte Zugriffskontrolle (RBAC), Unveränderlichkeit und Datenbeständigkeit. In Kombination mit seinem Cloud-nativen Design lässt sich HPE Alletra Storage MP X10000 nahtlos in Kubernetes-Umgebungen integrieren und ist damit eine ideale Speichergrundlage für Milvus-Bereitstellungen.
HPE Alletra Storage MP X10000 und Milvus: Eine skalierbare Grundlage für RAG
HPE Alletra Storage MP X10000 und Milvus ergänzen sich gegenseitig, um RAG schnell, vorhersehbar und einfach skalierbar zu machen. Abbildung 1 veranschaulicht die Architektur skalierbarer KI-Anwendungsfälle und RAG-Pipelines und zeigt, wie Milvus-Komponenten, die in einer containerisierten Umgebung eingesetzt werden, mit Hochleistungsobjektspeicher von HPE Alletra Storage MP X10000 interagieren.
Milvus trennt Rechenleistung und Speicher sauber voneinander, während HPE Alletra Storage MP X10000 einen Objektzugriff mit hohem Durchsatz und geringer Latenz bietet, der mit Vektor-Workloads Schritt hält. Zusammen ermöglichen sie eine vorhersehbare Scale-Out-Leistung: Milvus verteilt Abfragen über Shards, und die fraktionierte, multidimensionale Skalierung von HPE Alletra Storage MP X10000 hält die Latenz konsistent, wenn Daten und QPS wachsen. Einfach ausgedrückt: Sie fügen genau die Kapazität oder Leistung hinzu, die Sie brauchen, wenn Sie sie brauchen. Ein weiterer Vorteil ist die betriebliche Einfachheit: HPE Alletra Storage MP X10000 sorgt für maximale Leistung aus einem einzigen Bucket und macht komplexes Tiering überflüssig, während Unternehmensfunktionen (Verschlüsselung, RBAC, Unveränderlichkeit, robuste Haltbarkeit) On-Prem- oder Hybrid-Implementierungen mit starker Datensouveränität und konsistenten Service-Level-Zielen (SLOs) unterstützen.
Wenn die Vektorsuche skaliert, wird der Speicher oft für langsame Ingestion, Komprimierung oder Abfrage verantwortlich gemacht. Mit Milvus auf der HPE Alletra Storage MP X10000 ändert sich diese Sichtweise. Die komplett NVMe-basierte, log-strukturierte Architektur der Plattform und die GPUDirect RDMA-Option sorgen für einen konsistenten Objektzugriff mit extrem niedriger Latenz - selbst bei hoher Parallelität und während Lebenszyklusoperationen wie Indexaufbau und -nachladen. In der Praxis bleiben Ihre RAG-Pipelines rechnergebunden, nicht speichergebunden. Wenn Sammlungen wachsen und Abfragevolumina in die Höhe schnellen, bleibt Milvus reaktionsschnell, während HPE Alletra Storage MP X10000 den E/A-Spielraum beibehält und so eine vorhersehbare, lineare Skalierbarkeit ermöglicht, ohne dass der Speicher umgestaltet werden muss. Dies ist besonders wichtig, wenn RAG-Implementierungen über die anfängliche Proof-of-Concept-Phase hinaus skalieren und in die volle Produktion übergehen.
Unternehmenstaugliche RAG: Skalierbar, vorhersehbar und für GenAI entwickelt
Für RAG- und Echtzeit-GenAI-Workloads bietet die Kombination aus HPE Alletra Storage MP X10000 und Milvus eine zukunftssichere Grundlage, die zuverlässig skaliert. Mit dieser integrierten Lösung können Unternehmen intelligente Systeme aufbauen, die schnell, elastisch und sicher sind - ohne Kompromisse bei der Leistung oder Verwaltbarkeit. Milvus bietet eine verteilte, GPU-beschleunigte Vektorsuche mit modularer Skalierung, während HPE Alletra Storage MP X10000 einen ultraschnellen Objektzugriff mit niedriger Latenz und einer für Unternehmen geeigneten Haltbarkeit und Lebenszyklusverwaltung gewährleistet. Zusammen entkoppeln sie die Rechenleistung vom Speicher und ermöglichen so eine vorhersehbare Leistung, selbst wenn das Datenvolumen und die Abfragekomplexität wachsen. Ganz gleich, ob Sie Echtzeit-Empfehlungen ausgeben, eine semantische Suche betreiben oder über Milliarden von Vektoren skalieren, diese Architektur sorgt dafür, dass Ihre RAG-Pipelines reaktionsschnell, kosteneffizient und Cloud-optimiert sind. Durch die nahtlose Integration in Kubernetes und HPE GreenLake Cloud erhalten Sie ein einheitliches Management, eine verbrauchsabhängige Preisgestaltung und die Flexibilität, in hybriden oder privaten Cloud-Umgebungen bereitzustellen. HPE Alletra Storage MP X10000 und Milvus: eine skalierbare, hochleistungsfähige RAG-Lösung, die für die Anforderungen moderner GenAI entwickelt wurde.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



