🚀 Testen Sie Zilliz Cloud, die vollständig verwaltete Milvus, kostenlos – erleben Sie 10x schnellere Leistung! Jetzt testen>>

milvus-logo
LFAI

HomeBlogsWie die Kurzvideoplattform Likee mit Milvus doppelte Videos entfernt

Wie die Kurzvideoplattform Likee mit Milvus doppelte Videos entfernt

  • Scenarios
June 23, 2022
Xinyang Guo, Baoyu Han

Cover image Titelbild

Dieser Artikel wurde von Xinyang Guo und Baoyu Han, Ingenieure bei BIGO, geschrieben und von Rosie Zhang übersetzt.

BIGO Technology (BIGO) ist eines der am schnellsten wachsenden Technologieunternehmen in Singapur. Die auf künstlicher Intelligenz basierenden Produkte und Dienstleistungen von BIGO erfreuen sich weltweit großer Beliebtheit und haben über 400 Millionen Nutzer in mehr als 150 Ländern. Dazu gehören Bigo Live (Live-Streaming) und Likee (Kurzvideos).

Likee ist eine globale Plattform zur Erstellung von Kurzvideos, auf der Nutzer ihre Momente teilen, sich selbst ausdrücken und mit der Welt in Verbindung treten können. Um die Nutzererfahrung zu verbessern und den Nutzern qualitativ hochwertigere Inhalte zu empfehlen, muss Likee doppelte Videos aus der enormen Menge der täglich von den Nutzern erstellten Videos aussortieren, was keine einfache Aufgabe darstellt.

In diesem Blog wird vorgestellt, wie BIGO Milvus, eine Open-Source-Vektordatenbank, verwendet, um doppelte Videos effektiv zu entfernen.

Springe zu:

Milvus ist eine Open-Source-Vektordatenbank, die eine ultraschnelle Vektorsuche ermöglicht. Mit Milvus ist Likee in der Lage, eine Suche innerhalb von 200 ms abzuschließen und gleichzeitig eine hohe Wiederfindungsrate zu gewährleisten. Durch die horizontale Skalierung von Milvus kann Likee den Durchsatz von Vektorabfragen erhöhen und damit die Effizienz weiter steigern.

Wie identifiziert Likee doppelte Videos? Jedes Mal, wenn ein abgefragtes Video in das Likee-System eingegeben wird, wird es in 15-20 Einzelbilder zerlegt und jedes Einzelbild wird in einen Merkmalsvektor umgewandelt. Dann durchsucht Likee eine Datenbank mit 700 Millionen Vektoren, um die K ähnlichsten Vektoren zu finden. Jeder der K Spitzenvektoren entspricht einem Video in der Datenbank. Likee führt weitere Suchläufe durch, um die endgültigen Ergebnisse zu erhalten und die zu entfernenden Videos zu bestimmen.

Schauen wir uns genauer an, wie das Video-Deduplizierungssystem von Likee mit Milvus funktioniert. Wie im folgenden Diagramm dargestellt, werden neue Videos, die auf Likee hochgeladen werden, in Echtzeit in Kafka, ein Datenspeichersystem, geschrieben und von Kafka-Konsumenten konsumiert. Die Merkmalsvektoren dieser Videos werden durch Deep-Learning-Modelle extrahiert, wobei unstrukturierte Daten (Videos) in Merkmalsvektoren umgewandelt werden. Diese Merkmalsvektoren werden vom System verpackt und an den Ähnlichkeitsprüfer gesendet.

Architechure of Likee's video de-duplication system Architektur des Video-Deduplizierungssystems von Likee

Die extrahierten Merkmalsvektoren werden von Milvus indiziert und in Ceph gespeichert, bevor sie vom Milvus-Abfrageknoten zur weiteren Suche geladen werden. Die entsprechenden Video-IDs dieser Merkmalsvektoren werden je nach Bedarf auch gleichzeitig in TiDB oder Pika gespeichert.

Bei der Suche nach ähnlichen Vektoren stellen Milliarden vorhandener Daten sowie große Mengen neuer Daten, die täglich generiert werden, eine große Herausforderung für die Funktionalität der Vektorsuchmaschine dar. Nach einer gründlichen Analyse entschied sich Likee schließlich für Milvus, eine verteilte Vektorsuchmaschine mit hoher Leistung und hoher Wiedererkennungsrate, um die Ähnlichkeitssuche durchzuführen.

Wie im folgenden Diagramm dargestellt, läuft eine Ähnlichkeitssuche wie folgt ab:

  1. Zunächst führt Milvus eine Stapelsuche durch, um die 100 ähnlichsten Vektoren für jeden der mehreren Merkmalsvektoren, die aus einem neuen Video extrahiert wurden, abzurufen. Jeder ähnliche Vektor ist an die entsprechende Video-ID gebunden.

  2. Zweitens entfernt Milvus durch den Vergleich der Video-IDs die doppelten Videos und ruft die Merkmalsvektoren der verbleibenden Videos aus TiDB oder Pika ab.

  3. Schließlich berechnet und bewertet Milvus die Ähnlichkeit zwischen jedem Satz der abgerufenen Feature-Vektoren und den Feature-Vektoren des Abfragevideos. Die Video-ID mit der höchsten Punktzahl wird als Ergebnis zurückgegeben. Damit ist die Ähnlichkeitssuche nach Videos abgeschlossen.

Procedure of a similarity search Vorgehensweise bei einer Ähnlichkeitssuche

Als leistungsstarke Vektorsuchmaschine hat Milvus im Video-Deduplizierungssystem von Likee hervorragende Arbeit geleistet und das Wachstum des Kurzvideo-Geschäfts von BIGO erheblich gefördert. In Bezug auf das Videogeschäft gibt es viele andere Szenarien, in denen Milvus eingesetzt werden kann, wie z. B. das Sperren illegaler Inhalte oder personalisierte Videoempfehlungen. Sowohl BIGO als auch Milvus freuen sich auf die zukünftige Zusammenarbeit in weiteren Bereichen.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Weiterlesen