Tabella di marcia di Milvus

🌌 Verso il database multimodale e il lago di dati di nuova generazione

Tabella di marcia del prodotto Milvus

Benvenuti nella roadmap di Milvus!

Stiamo introducendo Milvus in una nuova era - il database multimodale di nuova generazione - che va dai dati strutturati a quelli non strutturati, dal recupero in tempo reale all'analisi offline, dalle prestazioni di un singolo cluster a un'architettura di data lake globale.

Questa roadmap delinea gli obiettivi principali di Milvus v2.6 (in corso), Milvus v3.0 (previsto per la fine del 2026) e Milvus v3.1 (sviluppo a lungo termine), insieme al piano di evoluzione di Vector Lake (data lake / Loon).

🧩 Milvus v2.6 (in corso)

Tempistica: Metà del 2025 - Fine del 2025

Focus: Aggiornamento del modello di dati, rifattorizzazione dell'architettura di streaming, creazione di funzionalità di hot/cold tiering e lancio del prototipo di Vector Lake (v0.1).

Punti salienti

Aggiornamento del modello dei dati

  • Introduzione di un tipo di dati unificato Tensor / StructList per supportare strutture di incorporamento multivettoriali, consentendo la compatibilità con ColBERT, CoLQwen, video e vettori multimodali.

  • Aggiunta del supporto per i dati geografici, compresi i punti, le regioni e l'indicizzazione spaziale (basata su libspatial), per espandere i casi d'uso in LBS e GIS.

  • Supporto per Timestamp con tipo di dati Timezone.

Rifacimento dell'architettura StreamNode

  • Riscrittura della pipeline di ingestione dello streaming per ottimizzare le scritture incrementali e il calcolo in tempo reale.

  • Migliora significativamente le prestazioni e la stabilità della concorrenza, gettando le basi per un'elaborazione unificata in tempo reale e offline.

  • Introdurre un nuovo motore per le code di messaggi: Woodpecker.

Architettura di storage e tiering caldo/freddo (StorageV2)

  • Supporto di due formati di archiviazione: Parquet e Vortex, che migliorano la concorrenza e l'efficienza della memoria.

  • Implementazione dello storage a livelli con separazione automatica dei dati caldi/freddi e pianificazione intelligente.

🔹 Prototipo Vector Lake (v0.1)

  • Integrazione con Spark / DuckDB / DataFusion tramite FFI, che consente l'evoluzione offline dello schema e le query KNN.

  • Fornisce una visualizzazione multimodale dei dati e una demo di Spark ETL, stabilendo l'architettura di base del lago di dati.

🌠 Milvus v3.0 (previsto per l'inizio del 2026)

Tempistica: Fine 2025 - inizio 2026

Focus: Miglioramenti completi all'esperienza di ricerca, alla flessibilità dello schema e al supporto dei dati non strutturati, oltre al rilascio di Vector Lake (v0.2).

Punti salienti

Revisione dell'esperienza di ricerca

  • Introduzione della ricerca per similarità More Like This (MLT) con supporto per ricerche con esempi di posizione o negativi.

  • Aggiunta di funzionalità di ricerca semantica come l'evidenziazione e il boosting.

  • Supporto di dizionari personalizzati e tabelle di sinonimi, per consentire la definizione di regole lessicali e semantiche a livello di analizzatore.

  • Introdurre funzionalità di aggregazione per le query.

🔹 Gestione delle risorse e dei multi-tenant

  • Abilitazione della cancellazione, delle statistiche e del tiering caldo/freddo di più tenant.

  • Migliorare l'isolamento delle risorse e le strategie di pianificazione per supportare milioni di tabelle in un singolo cluster.

Miglioramenti a schemi e chiavi primarie

  • Implementazione della deduplicazione globale delle chiavi primarie (Global PK Dedup) per garantire la coerenza e l'unicità dei dati.

  • Supporto di una gestione flessibile dello schema (aggiunta/eliminazione di colonne, riempimento di backup).

  • Consentire i valori NULL nei campi vettoriali.

🔹 Espansione dei tipi di dati non strutturati (BLOB / Testo)

  • Introduzione del tipo BLOB, che consente di memorizzare e referenziare in modo nativo dati binari come file, immagini e video.

  • Introdurre il tipo TEXT, che fornisce funzionalità di ricerca full-text e basate sui contenuti.

Funzionalità di livello enterprise

  • Supporto di backup e ripristino basati su snapshot.

  • Fornisce il tracciamento end-to-end e la registrazione degli audit.

  • Implementazione dell'High Availability (HA) in modalità Active-Standby in implementazioni multi-cluster.

🔹 Vector Lake (v0.2)

  • Supporto dell'archiviazione TEXT / BLOB e della gestione di snapshot multiversione.

  • Integrazione di Spark per l'indicizzazione offline, il clustering, la deduplicazione e la riduzione della dimensionalità.

  • Fornisce demo di ChatPDF cold-query e benchmark offline.

Milvus v3.1 (visione a lungo termine)

Tempistica: Metà del 2026

Focus: Funzioni definite dall'utente (UDF), integrazione del calcolo distribuito, ottimizzazione delle query scalari, sharding dinamico e rilascio ufficiale di Vector Lake (v1.0).

Punti salienti

🔹 Ecosistema UDF e calcolo distribuito

  • Supporto delle funzioni definite dall'utente (UDF), che consentono agli sviluppatori di iniettare logica personalizzata nei flussi di lavoro di recupero e calcolo.

  • Profonda integrazione con Ray Dataset / Daft per l'esecuzione distribuita di UDF e l'elaborazione multimodale dei dati.

Query scalare ed evoluzione del formato locale

  • Ottimizzazione delle prestazioni di filtraggio e aggregazione per i campi scalari.

  • Miglioramento della valutazione delle espressioni e dell'esecuzione accelerata dagli indici.

  • Supporto degli aggiornamenti in-place per i formati di file locali.

🔹 F unzionalità di ricerca avanzata

  • Aggiunte le seguenti funzioni: Query RankBy, OrderBy, Facet e Fuzzy match.

  • Miglioramento del reperimento del testo con il supporto di:

    • match_phrase_prefix

    • Completion Suggester

    • Term Suggester

    • Phrase Suggester

🔹 S harding dinamico e scalabilità

  • Abilita la suddivisione automatica degli shard e il bilanciamento del carico per una scalabilità senza soluzione di continuità.

  • Migliora la costruzione dell'indice globale e garantisce le prestazioni della ricerca distribuita.

🔹 Vector Lake V1.0

  • Profonda integrazione con Ray / Daft / PyTorch per supportare UDF distribuite e casi d'uso di Context Engineering.

  • Fornisce dimostrazioni di RAG (Retrieval-Augmented Generation) e importazione da tabelle Iceberg.

🤝 Co-costruire il futuro di Milvus

Milvus è un progetto open-source guidato da una comunità globale di sviluppatori.

Invitiamo caldamente tutti i membri della comunità a contribuire alla creazione del database multimodale di prossima generazione:

  • 💬 Condividere il feedback: Proporre nuove funzionalità o idee di ottimizzazione

  • 🐛 S egnalare problemi: Segnalare i bug tramite GitHub Issues

  • 🔧 Contribuire al codice: Invia PR e contribuisci alla creazione delle funzionalità principali

    • Richieste di prelievo: Contribuire direttamente alla nostra base di codice. Che si tratti di correggere bug, aggiungere funzionalità o migliorare la documentazione, i vostri contributi sono benvenuti.

    • Guida allo sviluppo: Consultate la nostra Guida per i collaboratori per le linee guida sui contributi al codice.

  • ⭐ Diffondete la parola: condividete le migliori pratiche e le storie di successo.

👉 GitHub: milvus-io/milvus