Come la piattaforma di video brevi Likee rimuove i video duplicati con Milvus
Immagine di copertina
Questo articolo è stato scritto da Xinyang Guo e Baoyu Han, ingegneri di BIGO, e tradotto da Rosie Zhang.
BIGO Technology (BIGO) è una delle aziende tecnologiche di Singapore in più rapida crescita. Grazie alla tecnologia dell'intelligenza artificiale, i prodotti e i servizi di BIGO basati sui video hanno guadagnato un'immensa popolarità in tutto il mondo, con oltre 400 milioni di utenti in più di 150 Paesi. Tra questi, Bigo Live (live streaming) e Likee (video di breve durata).
Likee è una piattaforma globale per la creazione di video brevi in cui gli utenti possono condividere i loro momenti, esprimersi e connettersi con il mondo. Per migliorare l'esperienza degli utenti e raccomandare loro contenuti di qualità superiore, Likee deve eliminare i video duplicati dall'enorme quantità di video generati dagli utenti ogni giorno, un compito non semplice.
Questo blog presenta come BIGO utilizza Milvus, un database vettoriale open-source, per rimuovere efficacemente i video duplicati.
Vai a:
- Panoramica
- Flusso di lavoro della deduplicazione video
- Architettura del sistema
- Utilizzo di Milvus per la ricerca di similarità
Milvus è un database vettoriale open-source che offre una ricerca vettoriale ultraveloce. Grazie a Milvus, Likee è in grado di completare una ricerca in 200 ms, garantendo un elevato tasso di richiamo. Inoltre, scalando Milvus orizzontalmente, Likee riesce ad aumentare il throughput delle query vettoriali, migliorando ulteriormente la sua efficienza.
Come fa Likee a identificare i video duplicati? Ogni volta che un video viene inserito nel sistema di Likee, viene tagliato in 15-20 fotogrammi e ogni fotogramma viene convertito in un vettore di caratteristiche. Poi Likee effettua una ricerca in un database di 700 milioni di vettori per trovare i primi K vettori più simili. Ciascuno dei primi K vettori corrisponde a un video del database. Likee effettua ulteriori ricerche raffinate per ottenere i risultati finali e determinare i video da rimuovere.
Vediamo più da vicino come funziona il sistema di de-duplicazione dei video di Likee utilizzando Milvus. Come mostrato nel diagramma sottostante, i nuovi video caricati su Likee vengono scritti in tempo reale su Kafka, un sistema di archiviazione dati, e consumati dai consumatori di Kafka. I vettori di caratteristiche di questi video vengono estratti attraverso modelli di deep learning, dove i dati non strutturati (video) vengono convertiti in vettori di caratteristiche. Questi vettori di caratteristiche vengono confezionati dal sistema e inviati al verificatore di similarità.
Architettura del sistema di de-duplicazione video di Likee
I vettori di caratteristiche estratti vengono indicizzati da Milvus e memorizzati in Ceph, prima di essere caricati dal nodo di interrogazione di Milvus per ulteriori ricerche. Gli ID video corrispondenti a questi vettori di caratteristiche saranno memorizzati simultaneamente in TiDB o Pika, a seconda delle esigenze effettive.
Utilizzo del database vettoriale Milvus per la ricerca di similarità
Nella ricerca di vettori simili, miliardi di dati esistenti e grandi quantità di nuovi dati generati ogni giorno pongono grandi sfide alla funzionalità del motore di ricerca vettoriale. Dopo un'analisi approfondita, Likee ha scelto Milvus, un motore di ricerca vettoriale distribuito con elevate prestazioni e un alto tasso di richiamo, per condurre la ricerca di similarità vettoriale.
Come mostrato nel diagramma seguente, la procedura di una ricerca di similarità si svolge come segue:
In primo luogo, Milvus esegue una ricerca batch per richiamare i primi 100 vettori simili per ciascuno dei vettori di caratteristiche multiple estratti da un nuovo video. Ogni vettore simile è legato all'ID video corrispondente.
In secondo luogo, confrontando gli ID dei video, Milvus rimuove i video duplicati e recupera i vettori di caratteristiche dei video rimanenti da TiDB o Pika.
Infine, Milvus calcola e assegna un punteggio alla somiglianza tra ciascun set di vettori di caratteristiche recuperati e i vettori di caratteristiche del video di query. L'ID del video con il punteggio più alto viene restituito come risultato. La ricerca di similarità dei video è così conclusa.
Procedura di una ricerca di similarità
Come motore di ricerca vettoriale ad alte prestazioni, Milvus ha svolto un lavoro straordinario nel sistema di de-duplicazione dei video di Likee, alimentando notevolmente la crescita del business dei video brevi di BIGO. In termini di attività video, Milvus può essere applicato a molti altri scenari, come il blocco dei contenuti illegali o la raccomandazione di video personalizzati. Sia BIGO che Milvus sono impazienti di collaborare in futuro in altri settori.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word