Tabella di marcia di Milvus
🌌 Verso il database multimodale e il lago di dati di nuova generazione
Tabella di marcia del prodotto Milvus
Benvenuti nella roadmap di Milvus!
Stiamo introducendo Milvus in una nuova era - il database multimodale di nuova generazione - che va dai dati strutturati a quelli non strutturati, dal recupero in tempo reale all'analisi offline, dalle prestazioni di un singolo cluster a un'architettura di data lake globale.
Questa roadmap delinea gli obiettivi principali di Milvus v2.6 (in corso), Milvus v3.0 (previsto per la fine del 2026) e Milvus v3.1 (sviluppo a lungo termine), insieme al piano di evoluzione di Vector Lake (data lake / Loon).
🧩 Milvus v2.6 (in corso)
Tempistica: Metà del 2025 - Fine del 2025
Focus: Aggiornamento del modello di dati, rifattorizzazione dell'architettura di streaming, creazione di funzionalità di hot/cold tiering e lancio del prototipo di Vector Lake (v0.1).
Punti salienti
Aggiornamento del modello dei dati
Introduzione di un tipo di dati unificato Tensor / StructList per supportare strutture di incorporamento multivettoriali, consentendo la compatibilità con ColBERT, CoLQwen, video e vettori multimodali.
Aggiunta del supporto per i dati geografici, compresi i punti, le regioni e l'indicizzazione spaziale (basata su libspatial), per espandere i casi d'uso in LBS e GIS.
Supporto per Timestamp con tipo di dati Timezone.
Rifacimento dell'architettura StreamNode
Riscrittura della pipeline di ingestione dello streaming per ottimizzare le scritture incrementali e il calcolo in tempo reale.
Migliora significativamente le prestazioni e la stabilità della concorrenza, gettando le basi per un'elaborazione unificata in tempo reale e offline.
Introdurre un nuovo motore per le code di messaggi: Woodpecker.
Architettura di storage e tiering caldo/freddo (StorageV2)
Supporto di due formati di archiviazione: Parquet e Vortex, che migliorano la concorrenza e l'efficienza della memoria.
Implementazione dello storage a livelli con separazione automatica dei dati caldi/freddi e pianificazione intelligente.
🔹 Prototipo Vector Lake (v0.1)
Integrazione con Spark / DuckDB / DataFusion tramite FFI, che consente l'evoluzione offline dello schema e le query KNN.
Fornisce una visualizzazione multimodale dei dati e una demo di Spark ETL, stabilendo l'architettura di base del lago di dati.
🌠 Milvus v3.0 (previsto per l'inizio del 2026)
Tempistica: Fine 2025 - inizio 2026
Focus: Miglioramenti completi all'esperienza di ricerca, alla flessibilità dello schema e al supporto dei dati non strutturati, oltre al rilascio di Vector Lake (v0.2).
Punti salienti
Revisione dell'esperienza di ricerca
Introduzione della ricerca per similarità More Like This (MLT) con supporto per ricerche con esempi di posizione o negativi.
Aggiunta di funzionalità di ricerca semantica come l'evidenziazione e il boosting.
Supporto di dizionari personalizzati e tabelle di sinonimi, per consentire la definizione di regole lessicali e semantiche a livello di analizzatore.
Introdurre funzionalità di aggregazione per le query.
🔹 Gestione delle risorse e dei multi-tenant
Abilitazione della cancellazione, delle statistiche e del tiering caldo/freddo di più tenant.
Migliorare l'isolamento delle risorse e le strategie di pianificazione per supportare milioni di tabelle in un singolo cluster.
Miglioramenti a schemi e chiavi primarie
Implementazione della deduplicazione globale delle chiavi primarie (Global PK Dedup) per garantire la coerenza e l'unicità dei dati.
Supporto di una gestione flessibile dello schema (aggiunta/eliminazione di colonne, riempimento di backup).
Consentire i valori NULL nei campi vettoriali.
🔹 Espansione dei tipi di dati non strutturati (BLOB / Testo)
Introduzione del tipo BLOB, che consente di memorizzare e referenziare in modo nativo dati binari come file, immagini e video.
Introdurre il tipo TEXT, che fornisce funzionalità di ricerca full-text e basate sui contenuti.
Funzionalità di livello enterprise
Supporto di backup e ripristino basati su snapshot.
Fornisce il tracciamento end-to-end e la registrazione degli audit.
Implementazione dell'High Availability (HA) in modalità Active-Standby in implementazioni multi-cluster.
🔹 Vector Lake (v0.2)
Supporto dell'archiviazione TEXT / BLOB e della gestione di snapshot multiversione.
Integrazione di Spark per l'indicizzazione offline, il clustering, la deduplicazione e la riduzione della dimensionalità.
Fornisce demo di ChatPDF cold-query e benchmark offline.
Milvus v3.1 (visione a lungo termine)
Tempistica: Metà del 2026
Focus: Funzioni definite dall'utente (UDF), integrazione del calcolo distribuito, ottimizzazione delle query scalari, sharding dinamico e rilascio ufficiale di Vector Lake (v1.0).
Punti salienti
🔹 Ecosistema UDF e calcolo distribuito
Supporto delle funzioni definite dall'utente (UDF), che consentono agli sviluppatori di iniettare logica personalizzata nei flussi di lavoro di recupero e calcolo.
Profonda integrazione con Ray Dataset / Daft per l'esecuzione distribuita di UDF e l'elaborazione multimodale dei dati.
Query scalare ed evoluzione del formato locale
Ottimizzazione delle prestazioni di filtraggio e aggregazione per i campi scalari.
Miglioramento della valutazione delle espressioni e dell'esecuzione accelerata dagli indici.
Supporto degli aggiornamenti in-place per i formati di file locali.
🔹 F unzionalità di ricerca avanzata
Aggiunte le seguenti funzioni: Query RankBy, OrderBy, Facet e Fuzzy match.
Miglioramento del reperimento del testo con il supporto di:
match_phrase_prefixCompletion SuggesterTerm SuggesterPhrase Suggester
🔹 S harding dinamico e scalabilità
Abilita la suddivisione automatica degli shard e il bilanciamento del carico per una scalabilità senza soluzione di continuità.
Migliora la costruzione dell'indice globale e garantisce le prestazioni della ricerca distribuita.
🔹 Vector Lake V1.0
Profonda integrazione con Ray / Daft / PyTorch per supportare UDF distribuite e casi d'uso di Context Engineering.
Fornisce dimostrazioni di RAG (Retrieval-Augmented Generation) e importazione da tabelle Iceberg.
🤝 Co-costruire il futuro di Milvus
Milvus è un progetto open-source guidato da una comunità globale di sviluppatori.
Invitiamo caldamente tutti i membri della comunità a contribuire alla creazione del database multimodale di prossima generazione:
💬 Condividere il feedback: Proporre nuove funzionalità o idee di ottimizzazione
🐛 S egnalare problemi: Segnalare i bug tramite GitHub Issues
🔧 Contribuire al codice: Invia PR e contribuisci alla creazione delle funzionalità principali
Richieste di prelievo: Contribuire direttamente alla nostra base di codice. Che si tratti di correggere bug, aggiungere funzionalità o migliorare la documentazione, i vostri contributi sono benvenuti.
Guida allo sviluppo: Consultate la nostra Guida per i collaboratori per le linee guida sui contributi al codice.
⭐ Diffondete la parola: condividete le migliori pratiche e le storie di successo.
👉 GitHub: milvus-io/milvus