IstantaneeCompatible with Milvus 3.0.x
Un'istantanea è un'immagine point-in-time di una collezione Milvus, ideale per rollback rapidi, versioning e test. Cattura lo stato della collezione in un momento specifico e memorizza solo i metadati e i file manifesto, come lo schema, gli indici e i file di dati vettoriali (binlog), per una conservazione e un ripristino efficienti.
Le istantanee sono immagini rapide e puntuali dei dati, adatte per rollback o test rapidi(da giorni a settimane). Allo stesso tempo, i backup sono copie complete e indipendenti, conservate separatamente per il ripristino di emergenza a lungo termine(da settimane a anni) e per una migliore protezione contro i guasti totali dello storage.
Per creare i backup, consultare Milvus Backup.
Anatomia delle istantanee
Milvus implementa un'architettura di snapshot basata su manifest per un'efficiente acquisizione, archiviazione e ripristino dei dati point-in-time senza duplicare i dati vettoriali effettivi. L'architettura separa la gestione dei metadati dall'archiviazione fisica dei dati, consentendo snapshot leggeri che fanno riferimento a file di segmento esistenti nell'archiviazione degli oggetti.
Quando si crea un'istantanea per una raccolta, Milvus raccoglie quanto segue:
Metadati dell'istantanea
Fornisce le informazioni di base per la creazione dell'istantanea, tra cui il nome e la descrizione dell'istantanea, l'ID della raccolta di destinazione e il momento in cui viene creata l'istantanea.
Descrizione della raccolta
Contiene la descrizione della raccolta di destinazione, compresa la definizione dello schema, le informazioni sulla partizione e le proprietà.
Informazioni sull'indice
Contiene i metadati dell'indice e i percorsi dei file dell'indice.
Dati del segmento
Cattura i file di dati vettoriali (binlog), i log di cancellazione (deltalog) e i file di indice.
Tra le informazioni di cui sopra, Milvus genera un file manifest Apache Avro per ogni segmento e memorizza i metadati dell'istantanea, la descrizione della raccolta, le informazioni sull'indice e i percorsi dei file manifest in un file JSON. Il diagramma seguente illustra la struttura delle cartelle delle istantanee.
snapshots/{collection_id}/
├── metadata/
│ └── {snapshot_id}.json # Snapshot metadata (JSON format)
│
└── manifests/
└── {snapshot_id}/ # Directory for each snapshot
├── {segment_id_1}.avro # Individual segment manifest (Avro format)
├── {segment_id_2}.avro
└── ...
La creazione di un'istantanea richiede in genere millisecondi, mentre il suo ripristino richiede da pochi secondi a pochi minuti, a seconda del volume dei dati.
Considerazioni e impatti sullo storage
Una volta che Milvus fa riferimento a un segmento o a un file di indice in un'istantanea, non raccoglie i file a meno che non si abbandoni l'istantanea. Le istantanee consumano uno spazio di archiviazione proporzionale alle dimensioni delle raccolte di destinazione e i costi di archiviazione degli oggetti si applicano alla conservazione delle istantanee. In casi estremi, una singola istantanea può addirittura raddoppiare i costi di archiviazione degli oggetti. Si consiglia di
- Rimuovere regolarmente le vecchie istantanee per risparmiare spazio di archiviazione.
- Utilizzare nomi e descrizioni descrittivi per riferimenti futuri.
- Verificare sempre i risultati della creazione e del ripristino delle snapshot.
- Tenere traccia dei timestamp di creazione delle snapshot, dell'utilizzo dello storage e degli ID dei processi di ripristino per il monitoraggio e la risoluzione dei problemi.
Limiti e restrizioni
- Le istantanee diventano immutabili dopo la creazione.
- È possibile ripristinare un'istantanea solo in una nuova raccolta all'interno dello stesso cluster dell'originale.
- Le collezioni ripristinate mantengono lo stesso schema, numero di shard e numero di partizioni.
- I dati storici ripristinati possono entrare in conflitto con i criteri TTL. Si consiglia di disabilitare il TTL o di regolare le impostazioni del TTL prima di creare le istantanee.
Ulteriori letture
- Gestire le istantanee: creare, elencare, ripristinare ed eliminare le istantanee.
- Casi d'uso delle istantanee - modelli e flussi di lavoro comuni.
- Milvus Backup - backup e ripristino a lungo termine tra i cluster.