Déduplication d'images
Ce tutoriel montre comment utiliser Milvus, la base de données vectorielle open-source, pour construire un système de déduplication d'images.
Le modèle ML et les logiciels tiers utilisés comprennent :
ResNet-50
Ces dernières années ont été marquées par une explosion exponentielle du contenu généré par les utilisateurs. Les gens peuvent instantanément télécharger une photo qu'ils ont prise sur une plateforme de médias sociaux. Cependant, avec une telle abondance de données d'images, nous voyons beaucoup de contenu dupliqué. Afin d'améliorer l'expérience des utilisateurs, ces images dupliquées doivent être supprimées. Un système de déduplication d'images nous évite le travail manuel consistant à comparer les images de la base de données une par une pour en extraire les doublons. La sélection d'images exactement identiques n'est pas une tâche compliquée. Cependant, il arrive qu'une image soit zoomée, recadrée ou que la luminosité ou l'échelle de gris soient modifiées. Le système de déduplication d'images doit identifier ces images similaires et les éliminer.
Dans ce tutoriel, vous apprendrez à construire un système de déduplication d'images. Ce tutoriel utilise le modèle ResNet-50 pour extraire les caractéristiques des images et les convertir en vecteurs. Ces vecteurs d'images sont ensuite stockés dans la base de données vectorielle Milvus et une recherche de similarité vectorielle est également effectuée dans Milvus.
Flux de travail pour la déduplication d'images