Hoja de ruta de Milvus
🌌 Hacia la base de datos multimodal y el lago de datos de próxima generación
Hoja de ruta de Milvus
¡Bienvenido a la hoja de ruta de Milvus!
Estamos introduciendo Milvus en una nueva era: la base de datos multimodal de próxima generación, que abarca desde los datos estructurados hasta los no estructurados, desde la recuperación en tiempo real hasta el análisis fuera de línea, y desde el rendimiento de un solo clúster hasta una arquitectura de lago de datos global.
Esta hoja de ruta describe los objetivos principales de Milvus v2.6 (en curso), Milvus v3.0 (prevista para finales de 2026) y Milvus v3.1 (desarrollo a largo plazo), junto con el plan de evolución de Vector Lake (lago de datos / Loon).
🧩 Milvus v2.6 (en curso)
Calendario: Mediados de 2025 - Finales de 2025
Enfoque: Actualización del modelo de datos, refactorización de la arquitectura de streaming, creación de capacidades de hot/cold tiering y lanzamiento del prototipo Vector Lake (v0.1).
Principales aspectos destacados
Actualización del modelo de datos
Introducir un tipo de datos unificado Tensor / StructList para soportar estructuras de incrustación multivectoriales, permitiendo la compatibilidad con ColBERT, CoLQwen, vídeo y vectores multimodales.
Añade compatibilidad con datos geográficos, incluidos puntos, regiones e indexación espacial (basada en libspatial), para ampliar los casos de uso en LBS y GIS.
Soporte para Timestamp con tipo de datos Timezone.
🔹 Refactorización de la arquitectura StreamNode
Reescribir la tubería de ingestión de streaming para optimizar las escrituras incrementales y el cálculo en tiempo real.
Mejorar significativamente el rendimiento y la estabilidad de la concurrencia, sentando las bases para el procesamiento unificado en tiempo real y fuera de línea.
Introducción de un nuevo motor de cola de mensajes: Woodpecker.
Arquitectura de almacenamiento y escalonamiento en caliente/frío (StorageV2)
Admite formatos de almacenamiento duales: Parquet y Vortex, mejorando la concurrencia y la eficiencia de la memoria.
Implemente almacenamiento por niveles con separación automática de datos calientes/fríos y programación inteligente.
🔹 Prototipo de lago vectorial (v0.1)
Integrarse con Spark / DuckDB / DataFusion a través de FFI, permitiendo la evolución de esquemas offline y consultas KNN.
Proporcionar visualización de datos multimodal y una demo de Spark ETL, estableciendo la arquitectura fundacional del lago de datos.
🌠 Milvus v3.0 (Prevista para principios de 2026)
Calendario: Finales de 2025 - Principios de 2026
Enfoque: Mejoras integrales en la experiencia de búsqueda, flexibilidad de esquemas y compatibilidad con datos no estructurados, junto con el lanzamiento de Vector Lake (v0.2).
Principales aspectos destacados
🔹 Revisión de la experiencia de búsqueda
Introducir la búsqueda por similitud More Like This (MLT) con soporte para búsquedas con posición o ejemplos negativos.
Añade funciones de búsqueda semántica como resaltado y potenciación.
Admite diccionarios personalizados y tablas de sinónimos, lo que permite definir reglas léxicas y semánticas en la capa Analyzer.
Introducir capacidades de agregación para las consultas.
Gestión de recursos y multiarrendamiento
Habilitar la eliminación multiarrendatario, las estadísticas y el hot/cold tiering.
Mejorar el aislamiento de recursos y las estrategias de programación para soportar millones de tablas en un único clúster.
Mejoras de esquemas y claves primarias
Implementación de la deduplicación global de claves primarias (Global PK Dedup) para garantizar la coherencia y unicidad de los datos.
Admite la gestión flexible de esquemas (adición/eliminación de columnas, relleno de copias de seguridad).
Permitir valores NULL en campos vectoriales.
Tipos de datos no estructurados ampliados (BLOB / Texto)
Introduce el tipo BLOB, que proporciona almacenamiento nativo y referenciación para datos binarios como archivos, imágenes y vídeos.
Introduce el tipo TEXTO, que proporciona capacidades mejoradas de búsqueda de texto completo y basadas en contenido.
Capacidades de nivel empresarial
Admite copias de seguridad y recuperación basadas en instantáneas.
Proporcionar rastreo de extremo a extremo y registro de auditoría.
Implementar alta disponibilidad (HA) activa y en espera en despliegues multiclúster.
Vector Lake (v0.2)
Soporta almacenamiento TEXT / BLOB y gestión de snapshots multi-versión.
Integrar Spark para indexación offline, clustering, deduplicación y tareas de reducción dimensional.
Entregar demos de consulta en frío ChatPDF y benchmark offline.
Milvus v3.1 (visión a largo plazo)
Calendario: Mediados de 2026
Enfoque: Funciones definidas por el usuario (UDF), integración de computación distribuida, optimización de consultas escalares, fragmentación dinámica y lanzamiento oficial de Vector Lake (v1.0).
Principales aspectos destacados
🔹 UDF y ecosistema de computación distribuida
Soporta Funciones Definidas por el Usuario (UDFs), permitiendo a los desarrolladores inyectar lógica personalizada en los flujos de trabajo de recuperación y computación.
Profunda integración con Ray Dataset / Daft para la ejecución distribuida de UDF y el procesamiento multimodal de datos.
🔹 Consulta escalar y evolución del formato local
Optimizar el rendimiento de filtrado y agregación para campos escalares.
Mejorar la evaluación de expresiones y la ejecución acelerada por índices.
Admite actualizaciones in situ para formatos de archivo locales.
Capacidades de búsqueda avanzada
Añade las siguientes funciones: Consultas RankBy, OrderBy, Facet y Fuzzy match.
Mejore la recuperación de texto con soporte para:
match_phrase_prefixCompletion SuggesterTerm SuggesterPhrase Suggester
Separación dinámica y escalabilidad
Habilite la división automática de shards y el equilibrio de carga para un escalado sin fisuras.
Mejore la creación de índices globales y garantice el rendimiento de la búsqueda distribuida.
🔹 Vector Lake V1.0
Profunda integración con Ray / Daft / PyTorch para soportar UDFs distribuidos y casos de uso de Context Engineering.
Proporcionar demos RAG (Retrieval-Augmented Generation) e importación desde tablas Iceberg.
🤝 Co-construyendo el futuro de Milvus
Milvus es un proyecto de código abierto impulsado por una comunidad global de desarrolladores.
Invitamos cordialmente a todos los miembros de la comunidad a ayudar a dar forma a la base de datos multimodal de próxima generación:
💬 Comparta sus comentarios: Proponer nuevas características o ideas de optimización
🐛 Informar de problemas: Presenta errores a través de GitHub Issues
🔧 Contribuir con código: Envía PRs y ayuda a construir las características principales
Pull requests: Contribuye directamente a nuestra base de código. Ya sea corrigiendo errores, añadiendo características o mejorando la documentación, tus contribuciones son bienvenidas.
Guía de desarrollo: Consulta nuestra Guía del colaborador para conocer las directrices sobre las contribuciones al código.
⭐ Corre la voz: Comparte las mejores prácticas y casos de éxito.
👉 GitHub: milvus-io/milvus