🚀 Essayez Zilliz Cloud, la version entièrement gérée de Milvus, gratuitement—découvrez des performances 10x plus rapides ! Essayez maintenant>>

milvus-logo
LFAI
  • Home
  • Blog
  • Comment la plateforme de vidéos courtes Likee supprime les vidéos dupliquées avec Milvus

Comment la plateforme de vidéos courtes Likee supprime les vidéos dupliquées avec Milvus

  • Scenarios
June 23, 2022
Xinyang Guo, Baoyu Han

Cover image Image de couverture

Cet article a été rédigé par Xinyang Guo et Baoyu Han, ingénieurs chez BIGO, et traduit par Rosie Zhang.

BIGOTechnology (BIGO) est l'une des entreprises technologiques de Singapour à la croissance la plus rapide. Grâce à la technologie de l'intelligence artificielle, les produits et services vidéo de BIGO ont acquis une immense popularité dans le monde entier, avec plus de 400 millions d'utilisateurs dans plus de 150 pays. Il s'agit notamment de Bigo Live (diffusion en direct) et de Likee (vidéo de courte durée).

Likee est une plateforme mondiale de création de vidéos courtes où les utilisateurs peuvent partager leurs moments, s'exprimer et se connecter avec le monde. Pour améliorer l'expérience des utilisateurs et leur recommander des contenus de meilleure qualité, Likee doit éliminer les vidéos dupliquées parmi l'énorme quantité de vidéos générées par les utilisateurs chaque jour, ce qui n'est pas une tâche aisée.

Ce blog présente comment BIGO utilise Milvus, une base de données vectorielle open-source, pour supprimer efficacement les vidéos dupliquées.

Aller à :

Milvus est une base de données vectorielles open-source qui permet une recherche vectorielle ultra-rapide. Grâce à Milvus, Likee est en mesure d'effectuer une recherche en 200 ms tout en garantissant un taux de rappel élevé. En outre, en faisant évoluer Milvus horizontalement, Likee augmente avec succès le débit des requêtes vectorielles, ce qui améliore encore son efficacité.

Comment Likee identifie-t-il les vidéos dupliquées ? Chaque fois qu'une vidéo est introduite dans le système Likee, elle est découpée en 15 à 20 images et chaque image est convertie en un vecteur de caractéristiques. Likee recherche ensuite dans une base de données de 700 millions de vecteurs les K vecteurs les plus similaires. Chacun des K vecteurs les plus similaires correspond à une vidéo de la base de données. Likee effectue ensuite des recherches affinées pour obtenir les résultats finaux et déterminer les vidéos à supprimer.

Examinons de plus près le fonctionnement du système de déduplication vidéo de Likee à l'aide de Milvus. Comme le montre le diagramme ci-dessous, les nouvelles vidéos téléchargées sur Likee seront écrites en temps réel dans Kafka, un système de stockage de données, et consommées par les consommateurs Kafka. Les vecteurs de caractéristiques de ces vidéos sont extraits par des modèles d'apprentissage profond, où les données non structurées (vidéo) sont converties en vecteurs de caractéristiques. Ces vecteurs de caractéristiques seront mis en forme par le système et envoyés à l'auditeur de similarité.

Architechure of Likee's video de-duplication system Architecture du système de déduplication vidéo de Likee

Les vecteurs de caractéristiques extraits seront indexés par Milvus et stockés dans Ceph, avant d'être chargés par le nœud de requête Milvus pour une recherche ultérieure. Les identifiants vidéo correspondants de ces vecteurs caractéristiques seront également stockés simultanément dans TiDB ou Pika en fonction des besoins réels.

Lors de la recherche de vecteurs similaires, des milliards de données existantes, ainsi que de grandes quantités de nouvelles données générées chaque jour, posent de grands défis à la fonctionnalité du moteur de recherche de vecteurs. Après une analyse approfondie, Likee a finalement choisi Milvus, un moteur de recherche vectorielle distribué très performant et doté d'un taux de rappel élevé, pour effectuer la recherche de similitudes vectorielles.

Comme le montre le diagramme ci-dessous, la procédure d'une recherche de similarité se déroule comme suit :

  1. Tout d'abord, Milvus effectue une recherche par lots pour rappeler les 100 premiers vecteurs similaires pour chacun des multiples vecteurs de caractéristiques extraits d'une nouvelle vidéo. Chaque vecteur similaire est lié à l'ID vidéo correspondant.

  2. Ensuite, en comparant les ID vidéo, Milvus supprime les vidéos en double et récupère les vecteurs de caractéristiques des vidéos restantes dans TiDB ou Pika.

  3. Enfin, Milvus calcule et note la similarité entre chaque ensemble de vecteurs de caractéristiques récupérés et les vecteurs de caractéristiques de la vidéo de la requête. L'identifiant de la vidéo ayant le score le plus élevé est renvoyé comme résultat. La recherche de similitudes vidéo est ainsi terminée.

Procedure of a similarity search Procédure de recherche de similitudes

En tant que moteur de recherche vectoriel très performant, Milvus a fait un travail extraordinaire dans le système de déduplication vidéo de Likee, alimentant considérablement la croissance des activités de BIGO dans le domaine de la vidéo courte. En ce qui concerne les activités vidéo, Milvus peut s'appliquer à de nombreux autres scénarios, tels que le blocage de contenus illégaux ou la recommandation de vidéos personnalisées. BIGO et Milvus se réjouissent à l'idée de coopérer à l'avenir dans d'autres domaines.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Continuer à Lire