Alimentare la RAG ad alte prestazioni per GenAI con HPE Alletra Storage MP + Milvus
Questo post è stato pubblicato originariamente su HPE Community e viene riproposto qui con l'autorizzazione.
HPE Alletra Storage MP X10000 e Milvus alimentano RAG scalabili e a bassa latenza, consentendo agli LLM di fornire risposte accurate e ricche di contesto con una ricerca vettoriale ad alte prestazioni per i carichi di lavoro GenAI.
Nell'IA generativa, RAG ha bisogno di qualcosa di più di un semplice LLM
Il contesto scatena la vera potenza dell'IA generativa (GenAI) e dei modelli linguistici di grandi dimensioni (LLM). Quando un LLM ha i segnali giusti per orientare le sue risposte, può fornire risposte precise, pertinenti e affidabili.
Pensate a una situazione del genere: se vi trovaste in una giungla fitta di vegetazione con un dispositivo GPS ma senza segnale satellitare. Lo schermo mostra una mappa, ma senza la vostra posizione corrente è inutile per la navigazione. Al contrario, un GPS con un segnale satellitare forte non si limita a mostrare una mappa, ma fornisce una guida turn-by-turn.
Questo è ciò che fa la retrieval-augmented generation (RAG) per gli LLM. Il modello ha già la mappa (la sua conoscenza preaddestrata), ma non la direzione (i dati specifici del dominio). I LLM senza RAG sono come dispositivi GPS pieni di conoscenze ma privi di orientamento in tempo reale. La RAG fornisce il segnale che indica al modello dove si trova e dove andare.
La RAG basa le risposte del modello su conoscenze affidabili e aggiornate, estratte dai contenuti specifici del vostro dominio: policy, documenti di prodotto, ticket, PDF, codice, trascrizioni audio, immagini e altro ancora. Far funzionare RAG su scala è una sfida. Il processo di reperimento deve essere abbastanza veloce da garantire un'esperienza fluida agli utenti, sufficientemente preciso da restituire le informazioni più rilevanti e prevedibile anche quando il sistema è sottoposto a un carico pesante. Ciò significa gestire volumi elevati di query, l'ingestione continua di dati e le attività in background come la creazione di indici senza che le prestazioni si riducano. L'avvio di una pipeline RAG con pochi PDF è relativamente semplice. Tuttavia, quando si passa a centinaia di PDF, la sfida diventa molto più ardua. Non è possibile tenere tutto in memoria, quindi una strategia di archiviazione robusta ed efficiente diventa essenziale per gestire embedding, indici e prestazioni di recupero. RAG richiede un database vettoriale e un livello di archiviazione in grado di tenere il passo con la crescita della concorrenza e dei volumi di dati.
I database vettoriali alimentano RAG
Il cuore di RAG è la ricerca semantica, che consiste nel trovare le informazioni in base al significato piuttosto che alle parole chiave esatte. È qui che entrano in gioco i database vettoriali. Essi memorizzano incorporazioni ad alta dimensione di testi, immagini e altri dati non strutturati, consentendo una ricerca per similarità che recupera il contesto più rilevante per le query. Milvus ne è un esempio: un database vettoriale cloud-native e open-source costruito per la ricerca di similarità su scala miliardaria. Supporta la ricerca ibrida, combinando la similarità vettoriale con parole chiave e filtri scalari per la precisione, e offre una scalabilità indipendente di calcolo e storage con opzioni di ottimizzazione GPU-aware per l'accelerazione. Milvus gestisce inoltre i dati attraverso un ciclo di vita intelligente dei segmenti, passando da segmenti in crescita a segmenti chiusi con compattazione e opzioni multiple di indicizzazione approssimativa dei vicini (ANN) come HNSW e DiskANN, garantendo prestazioni e scalabilità per carichi di lavoro AI in tempo reale come RAG.
La sfida nascosta: throughput e latenza dello storage
I carichi di lavoro di ricerca vettoriale mettono sotto pressione ogni parte del sistema. Richiedono un'ingestione ad alta velocità, pur mantenendo un recupero a bassa latenza per le query interattive. Allo stesso tempo, le operazioni in background come la creazione di indici, la compattazione e il ricarico dei dati devono essere eseguite senza interrompere le prestazioni live. Molti colli di bottiglia delle prestazioni nelle architetture tradizionali sono riconducibili allo storage. Che si tratti di limiti di input/output (I/O), ritardi nella ricerca dei metadati o vincoli di concorrenza. Per offrire prestazioni prevedibili e in tempo reale su scala, il livello di storage deve tenere il passo con le esigenze dei database vettoriali.
La base dello storage per la ricerca vettoriale ad alte prestazioni
HPE Alletra Storage MP X10000 è una piattaforma di storage a oggetti ottimizzata per flash, interamente NVMe e compatibile con S3, progettata per garantire prestazioni in tempo reale su scala. A differenza dei tradizionali object store incentrati sulla capacità, HPE Alletra Storage MP X10000 è progettato per carichi di lavoro a bassa latenza ed elevata produttività, come la ricerca vettoriale. Il suo motore a chiave-valore strutturato in log e i metadati basati su extent consentono letture e scritture altamente parallele, mentre GPUDirect RDMA fornisce percorsi di dati zero-copy che riducono l'overhead della CPU e accelerano il movimento dei dati verso le GPU. L'architettura supporta lo scaling disaggregato, consentendo la crescita della capacità e delle prestazioni in modo indipendente, e include funzionalità di livello enterprise come la crittografia, il controllo dell'accesso basato sui ruoli (RBAC), l'immutabilità e la durabilità dei dati. Grazie al suo design cloud-native, HPE Alletra Storage MP X10000 si integra perfettamente con gli ambienti Kubernetes, diventando la base di storage ideale per le implementazioni Milvus.
HPE Alletra Storage MP X10000 e Milvus: una base scalabile per RAG
HPE Alletra Storage MP X10000 e Milvus si completano a vicenda per offrire una RAG veloce, prevedibile e facile da scalare. La Figura 1 illustra l'architettura dei casi d'uso dell'intelligenza artificiale e delle pipeline RAG scalabili, mostrando come i componenti Milvus distribuiti in un ambiente containerizzato interagiscono con lo storage a oggetti ad alte prestazioni di HPE Alletra Storage MP X10000.
Milvus separa in modo netto l'elaborazione dallo storage, mentre HPE Alletra Storage MP X10000 fornisce un accesso agli oggetti ad alta velocità e bassa latenza che tiene il passo con i carichi di lavoro vettoriali. Insieme, consentono prestazioni di scale-out prevedibili: Milvus distribuisce le query tra gli shard e lo scaling frazionario e multidimensionale di HPE Alletra Storage MP X10000 mantiene la latenza costante all'aumentare dei dati e dei QPS. In parole povere, si aggiunge esattamente la capacità o le prestazioni necessarie, quando servono. La semplicità operativa è un altro vantaggio: HPE Alletra Storage MP X10000 sostiene le massime prestazioni da un singolo bucket, eliminando il complesso tiering, mentre le funzionalità aziendali (crittografia, RBAC, immutabilità, robusta durabilità) supportano le implementazioni on-premise o ibride con una forte sovranità dei dati e obiettivi di livello di servizio (SLO) coerenti.
Quando la ricerca vettoriale scala, lo storage viene spesso accusato di lentezza nell'ingestione, nella compattazione o nel recupero. Con Milvus su HPE Alletra Storage MP X10000, questa storia cambia. L'architettura interamente NVMe e strutturata in log della piattaforma e l'opzione RDMA GPUDirect garantiscono un accesso agli oggetti coerente e a bassissima latenza, anche in presenza di una forte concurrency e durante le operazioni del ciclo di vita come la creazione e il ricaricamento degli indici. In pratica, le pipeline RAG rimangono legate al calcolo, non allo storage. Quando le collezioni crescono e i volumi di query aumentano, Milvus rimane reattivo mentre HPE Alletra Storage MP X10000 conserva lo spazio di I/O, consentendo una scalabilità prevedibile e lineare senza dover riarchitettare lo storage. Questo aspetto diventa particolarmente importante quando le implementazioni RAG superano le fasi iniziali di proof-of-concept e passano alla piena produzione.
RAG pronto per le aziende: scalabile, prevedibile e costruito per GenAI
Per i carichi di lavoro RAG e GenAI in tempo reale, la combinazione di HPE Alletra Storage MP X10000 e Milvus offre una base pronta per il futuro e scalabile con sicurezza. Questa soluzione integrata consente alle aziende di creare sistemi intelligenti veloci, elastici e sicuri, senza compromettere le prestazioni o la gestibilità. Milvus offre una ricerca vettoriale distribuita e accelerata dalle GPU con scalabilità modulare, mentre HPE Alletra Storage MP X10000 garantisce un accesso agli oggetti ultraveloce e a bassa latenza con una durata e una gestione del ciclo di vita di livello aziendale. Insieme, disaccoppiano l'elaborazione dallo storage, consentendo prestazioni prevedibili anche quando i volumi di dati e la complessità delle query crescono. Sia che si tratti di fornire raccomandazioni in tempo reale, di alimentare la ricerca semantica o di scalare su miliardi di vettori, questa architettura consente di mantenere le pipeline RAG reattive, efficienti dal punto di vista dei costi e ottimizzate per il cloud. Grazie alla perfetta integrazione con Kubernetes e il cloud HPE GreenLake, è possibile ottenere una gestione unificata, prezzi basati sul consumo e la flessibilità di implementazione in ambienti cloud ibridi o privati. HPE Alletra Storage MP X10000 e Milvus: una soluzione RAG scalabile e ad alte prestazioni costruita per le esigenze della GenAI moderna.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



