🚀 Prueba Zilliz Cloud, el Milvus completamente gestionado, gratis—¡experimenta un rendimiento 10 veces más rápido! Prueba Ahora>>

milvus-logo
LFAI
  • Home
  • Blog
  • Cómo la plataforma de vídeos cortos Likee elimina los vídeos duplicados con Milvus

Cómo la plataforma de vídeos cortos Likee elimina los vídeos duplicados con Milvus

  • Scenarios
June 23, 2022
Xinyang Guo, Baoyu Han

Cover image Imagen de portada

Este artículo ha sido escrito por Xinyang Guo y Baoyu Han, ingenieros de BIGO, y traducido por Rosie Zhang.

BIGO Technology (BIGO) es una de las empresas tecnológicas de Singapur de más rápido crecimiento. Gracias a su tecnología de inteligencia artificial, los productos y servicios de vídeo de BIGO han ganado una inmensa popularidad en todo el mundo, con más de 400 millones de usuarios en más de 150 países. Entre ellos figuran Bigo Live (transmisión en directo) y Likee (vídeo de corta duración).

Likee es una plataforma global de creación de vídeos cortos en la que los usuarios pueden compartir sus momentos, expresarse y conectar con el mundo. Para mejorar la experiencia de los usuarios y recomendarles contenidos de mayor calidad, Likee tiene que eliminar los vídeos duplicados de entre la enorme cantidad de vídeos que generan los usuarios cada día, lo cual no es una tarea sencilla.

Este blog presenta cómo BIGO utiliza Milvus, una base de datos vectorial de código abierto, para eliminar eficazmente los vídeos duplicados.

Ir a:

Milvus es una base de datos vectorial de código abierto que ofrece una búsqueda vectorial ultrarrápida. Gracias a Milvus, Likee es capaz de completar una búsqueda en 200 ms, garantizando al mismo tiempo una alta tasa de recuperación. Mientras tanto, al escalar Milvus horizontalmente, Likee aumenta con éxito el rendimiento de las consultas vectoriales, mejorando aún más su eficiencia.

¿Cómo identifica Likee los vídeos duplicados? Cada vez que se introduce un vídeo de consulta en el sistema Likee, se corta en 15-20 fotogramas y cada fotograma se convierte en un vector de características. A continuación, Likee busca en una base de datos de 700 millones de vectores los K vectores más similares. Cada uno de los K vectores principales corresponde a un vídeo de la base de datos. A continuación, Likee realiza búsquedas refinadas para obtener los resultados finales y determinar los vídeos que deben eliminarse.

Veamos más de cerca cómo funciona el sistema de desduplicación de vídeos de Likee utilizando Milvus. Como se muestra en el diagrama siguiente, los nuevos vídeos subidos a Likee se escribirán en Kafka, un sistema de almacenamiento de datos, en tiempo real y serán consumidos por los consumidores de Kafka. Los vectores de características de estos vídeos se extraen mediante modelos de aprendizaje profundo, en los que los datos no estructurados (vídeo) se convierten en vectores de características. Estos vectores de características serán empaquetados por el sistema y enviados al auditor de similitud.

Architechure of Likee's video de-duplication system Arquitectura del sistema de de-duplicación de vídeo de Likee

Los vectores de características extraídos serán indexados por Milvus y almacenados en Ceph, antes de ser cargados por el nodo de consulta de Milvus para su posterior búsqueda. Los ID de vídeo correspondientes a estos vectores de características también se almacenarán simultáneamente en TiDB o Pika en función de las necesidades reales.

A la hora de buscar vectores similares, los miles de millones de datos existentes, junto con las grandes cantidades de datos nuevos que se generan cada día, plantean grandes retos a la funcionalidad del motor de búsqueda de vectores. Tras un análisis exhaustivo, Likee eligió finalmente Milvus, un motor de búsqueda vectorial distribuido de alto rendimiento y elevada tasa de recuperación, para llevar a cabo la búsqueda de similitudes vectoriales.

Como se muestra en el diagrama siguiente, el procedimiento de una búsqueda de similitudes es el siguiente:

  1. En primer lugar, Milvus realiza una búsqueda por lotes para recuperar los 100 mejores vectores similares para cada uno de los múltiples vectores de características extraídos de un nuevo vídeo. Cada vector similar se vincula a su correspondiente ID de vídeo.

  2. En segundo lugar, al comparar los ID de los vídeos, Milvus elimina los vídeos duplicados y recupera los vectores de características de los vídeos restantes de TiDB o Pika.

  3. Por último, Milvus calcula y puntúa la similitud entre cada conjunto de vectores de características recuperados y los vectores de características del vídeo de consulta. El ID del vídeo con la puntuación más alta se devuelve como resultado. Así concluye la búsqueda de similitudes de vídeo.

Procedure of a similarity search Procedimiento de una búsqueda por similitud

Como motor de búsqueda vectorial de alto rendimiento, Milvus ha realizado un trabajo extraordinario en el sistema de de-duplicación de vídeo de Likee, impulsando en gran medida el crecimiento del negocio de vídeos cortos de BIGO. En cuanto a los negocios de vídeo, hay muchos otros escenarios en los que Milvus puede aplicarse, como el bloqueo de contenidos ilegales o la recomendación personalizada de vídeos. Tanto BIGO como Milvus esperan cooperar en el futuro en más áreas.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Sigue Leyendo