🚀 Testen Sie Zilliz Cloud, die vollständig verwaltete Milvus, kostenlos – erleben Sie 10x schnellere Leistung! Jetzt testen>>

milvus-logo
LFAI
  • Home
  • Blog
  • Wenn Sie mehr über die Vektorähnlichkeitssuche erfahren möchten, lesen Sie die folgenden Ressourcen:

Wenn Sie mehr über die Vektorähnlichkeitssuche erfahren möchten, lesen Sie die folgenden Ressourcen:

  • Engineering
January 05, 2021
milvus

Künstliche Intelligenz (KI) hat das Potenzial, die Art und Weise zu verändern, wie selbst die obskursten Dinge erledigt werden. Zum Beispiel versammeln sich jedes Jahr (jedenfalls vor COVID) über 73.000 Menschen, um am Hongkong-Marathon teilzunehmen. Um die Zieleinlaufzeiten aller Teilnehmer korrekt zu erfassen und aufzuzeichnen, verteilen die Organisatoren 73.000 RFID-Chip-Timer, die an jedem Läufer angebracht werden. Die Chip-Zeitmessung ist ein komplexes Unterfangen mit offensichtlichen Nachteilen. Das Material (Chips und elektronische Lesegeräte) muss von Zeitmessungsfirmen gekauft oder gemietet werden, und es muss ein Registrierungsbereich eingerichtet werden, in dem die Läufer ihre Chips am Tag des Rennens abholen können. Wenn die Sensoren nur an der Start- und Ziellinie installiert werden, ist es außerdem möglich, dass skrupellose Läufer die Strecke abkürzen.

blog-1.jpeg blog-1.jpeg

Stellen Sie sich nun eine Video-KI-Anwendung vor, die in der Lage ist, einzelne Läufer anhand von Aufnahmen an der Ziellinie mit einem einzigen Foto automatisch zu identifizieren. Anstatt jedem Teilnehmer einen Zeitmessungs-Chip zu verpassen, laden die Läufer einfach ein Foto von sich über eine App hoch, nachdem sie die Ziellinie überquert haben. Sofort werden ein personalisiertes Highlight-Reel, Rennstatistiken und andere relevante Informationen bereitgestellt. Kameras, die an verschiedenen Punkten des Rennens installiert sind, können zusätzliche Aufnahmen von den Teilnehmern machen und sicherstellen, dass jeder Läufer die gesamte Strecke durchläuft. Welche Lösung scheint einfacher und kostengünstiger zu implementieren zu sein?

Obwohl der Hongkong-Marathon das maschinelle Lernen (noch) nicht nutzt, um die Zeitmessungs-Chips zu ersetzen, zeigt dieses Beispiel, welches Potenzial die KI hat, alles um uns herum drastisch zu verändern. Bei der Zeitmessung werden Zehntausende von Chips durch einige wenige Kameras ersetzt, die mit maschinellen Lernalgorithmen gepaart sind. Die Video-KI ist jedoch nur eine von vielen Anwendungen für die Vektorähnlichkeitssuche, ein Verfahren, bei dem künstliche Intelligenz zur Analyse riesiger, unstrukturierter Datensätze in Billionenhöhe eingesetzt wird. Dieser Artikel gibt einen Überblick über die Technologie der Vektorsuche, was sie ist, wie sie eingesetzt werden kann und welche Open-Source-Software und -Ressourcen sie leichter zugänglich machen als je zuvor.

Springen Sie zu:

Videodaten sind unglaublich detailliert und immer häufiger anzutreffen. Daher scheint es logisch, dass sie ein großartiges unüberwachtes Lernsignal für die Entwicklung von Video-KI darstellen würden. In der Realität ist dies jedoch nicht der Fall. Die Verarbeitung und Analyse von Videodaten, insbesondere in großen Mengen, bleibt eine Herausforderung für die künstliche Intelligenz. Die jüngsten Fortschritte in diesem Bereich sind, wie ein Großteil der Fortschritte bei der Analyse unstrukturierter Daten, zu einem großen Teil der vektoriellen Ähnlichkeitssuche zu verdanken.

Das Problem bei Videos, wie bei allen unstrukturierten Daten, ist, dass sie keinem vordefinierten Modell oder einer Organisationsstruktur folgen, was ihre Verarbeitung und Analyse in großem Umfang erschwert. Zu den unstrukturierten Daten gehören Bilder, Audiodaten, das Verhalten in sozialen Medien und Dokumente, die zusammengenommen schätzungsweise 80-90 % aller Daten ausmachen. Unternehmen werden sich zunehmend der geschäftskritischen Erkenntnisse bewusst, die in riesigen, rätselhaften, unstrukturierten Datensätzen verborgen sind, wodurch die Nachfrage nach KI-Anwendungen steigt, die dieses ungenutzte Potenzial erschließen können.

Mit neuronalen Netzen wie CNN, RNN und BERT können unstrukturierte Daten in Merkmalsvektoren (auch Einbettungen genannt) umgewandelt werden, ein maschinenlesbares numerisches Datenformat. Anschließend werden Algorithmen verwendet, um die Ähnlichkeit zwischen den Vektoren anhand von Maßen wie der Kosinusähnlichkeit oder dem euklidischen Abstand zu berechnen. Die Einbettung von Vektoren und die Ähnlichkeitssuche ermöglichen die Analyse und den Aufbau von Anwendungen des maschinellen Lernens unter Verwendung von zuvor nicht identifizierbaren Datensätzen.

Die Vektorähnlichkeit wird mithilfe etablierter Algorithmen berechnet, allerdings sind unstrukturierte Datensätze in der Regel sehr groß. Das bedeutet, dass eine effiziente und genaue Suche viel Speicherplatz und Rechenleistung erfordert. Um die Ähnlichkeitssuche zu beschleunigen und den Ressourcenbedarf zu verringern, werden Algorithmen zur approximativen Suche nach dem nächsten Nachbarn (ANN) eingesetzt. Indem sie ähnliche Vektoren in Clustern zusammenfassen, ermöglichen ANN-Algorithmen, Abfragen an die Cluster von Vektoren zu senden, die am wahrscheinlichsten ähnliche Vektoren enthalten, anstatt den gesamten Datensatz zu durchsuchen. Dieser Ansatz ist zwar schneller, aber er geht zu Lasten der Genauigkeit. Durch die Nutzung von ANN-Algorithmen kann die Vektorsuche Milliarden von Deep-Learning-Modellen in Millisekunden durchkämmen.

Die vektorielle Ähnlichkeitssuche wird in einer Vielzahl von Szenarien der künstlichen Intelligenz, des Deep Learning und der traditionellen Vektorberechnung eingesetzt. Im Folgenden finden Sie einen Überblick über verschiedene Anwendungen der vektoriellen Ähnlichkeitssuche:

E-Commerce: Die vektorielle Ähnlichkeitssuche hat eine breite Anwendbarkeit im E-Commerce, einschließlich umgekehrter Bildsuchmaschinen, die es Käufern ermöglichen, anhand eines mit ihrem Smartphone aufgenommenen oder online gefundenen Bildes nach Produkten zu suchen. Darüber hinaus können spezialisierte Empfehlungssysteme, die sich auf die Vektorsuche stützen, personalisierte Empfehlungen auf der Grundlage von Benutzerverhalten, Interessen, Kaufhistorie usw. geben.

Physische und Cyber-Sicherheit: Die Video-KI ist nur eine von vielen Anwendungen für die vektorielle Ähnlichkeitssuche im Bereich der Sicherheit. Andere Szenarien umfassen Gesichtserkennung, Verhaltensverfolgung, Identitätsauthentifizierung, intelligente Zugangskontrolle und vieles mehr. Darüber hinaus spielt die Vektor-Ähnlichkeitssuche eine wichtige Rolle bei der Vereitelung von immer häufigeren und raffinierteren Cyberangriffen. Beispielsweise kann die Code-Ähnlichkeitssuche zur Identifizierung von Sicherheitsrisiken verwendet werden, indem eine Software mit einer Datenbank bekannter Sicherheitslücken oder Malware verglichen wird.

Empfehlungsmaschinen: Empfehlungsmaschinen sind Systeme, die maschinelles Lernen und Datenanalyse nutzen, um den Nutzern Produkte, Dienstleistungen, Inhalte und Informationen vorzuschlagen. Das Nutzerverhalten, das Verhalten ähnlicher Nutzer und andere Daten werden mithilfe von Deep-Learning-Methoden verarbeitet, um Empfehlungen zu generieren. Mit genügend Daten können Algorithmen darauf trainiert werden, Beziehungen zwischen Entitäten zu verstehen und Wege zu finden, diese eigenständig darzustellen. Empfehlungssysteme haben eine breite Anwendbarkeit und sind etwas, mit dem Menschen bereits jeden Tag interagieren, einschließlich Inhaltsempfehlungen auf Netflix, Einkaufsempfehlungen auf Amazon und News Feeds auf Facebook.

Chatbots: Traditionell werden Chatbots mit Hilfe eines regulären Wissensgraphen erstellt, der einen großen Trainingsdatensatz erfordert. Chatbots, die mit Hilfe von Deep-Learning-Modellen entwickelt werden, müssen jedoch keine Daten vorverarbeiten, sondern es wird eine Zuordnung zwischen häufigen Fragen und Antworten erstellt. Mithilfe eines vorab trainierten NLP-Modells (Natural Language Processing) können Merkmalsvektoren aus den Fragen extrahiert und dann mithilfe einer Vektor-Datenmanagement-Plattform gespeichert und abgefragt werden.

Bild- oder Videosuche: Deep-Learning-Netzwerke werden seit den späten 1970er Jahren zur Erkennung visueller Muster eingesetzt, und moderne Technologietrends haben die Bild- und Videosuche leistungsfähiger und zugänglicher gemacht als je zuvor.

Chemische Ähnlichkeitssuche: Chemische Ähnlichkeit ist der Schlüssel zur Vorhersage der Eigenschaften chemischer Verbindungen und zum Auffinden von Chemikalien mit bestimmten Attributen, was für die Entwicklung neuer Medikamente unerlässlich ist. Für jedes Molekül werden Fingerabdrücke in Form von Merkmalsvektoren erstellt, und dann werden die Abstände zwischen den Vektoren zur Messung der Ähnlichkeit verwendet. Der Einsatz von KI für die Entdeckung neuer Medikamente gewinnt in der Tech-Industrie zunehmend an Bedeutung, so dass ByteDance (die chinesische Muttergesellschaft von TikTok) damit begonnen hat, Talente in diesem Bereich einzustellen.

Open-Source-Software und -Ressourcen für die vektorielle Ähnlichkeitssuche.

Das Mooresche Gesetz, Cloud Computing und sinkende Ressourcenkosten sind Makrotrends, die künstliche Intelligenz zugänglicher denn je gemacht haben. Dank Open-Source-Software und anderer öffentlich zugänglicher Ressourcen ist die Entwicklung von KI/ML-Anwendungen nicht mehr nur etwas für große Technologieunternehmen. Im Folgenden geben wir einen kurzen Überblick über Milvus, eine Open-Source-Plattform zur Verwaltung von Vektordaten, und stellen einige öffentlich verfügbare Datensätze vor, die KI für jedermann zugänglich machen.

Milvus, eine quelloffene Plattform zur Verwaltung von Vektordaten

Milvus ist eine Open-Source-Plattform zur Verwaltung von Vektordaten, die speziell für umfangreiche Vektordaten entwickelt wurde. Auf der Grundlage von Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB) und Annoy vereint Milvus eine Vielzahl leistungsstarker Tools auf einer einzigen Plattform und erweitert gleichzeitig deren eigenständige Funktionen. Das System wurde speziell für die Speicherung, Verarbeitung und Analyse großer Vektordatensätze entwickelt und kann für die Erstellung aller oben genannten KI-Anwendungen (und mehr) verwendet werden.

Weitere Informationen über Milvus finden Sie auf seiner Website. Tutorien, Anleitungen zur Einrichtung von Milvus, Benchmark-Tests und Informationen zur Erstellung einer Vielzahl verschiedener Anwendungen sind im Milvus-Bootcamp verfügbar. Entwickler, die Beiträge zum Projekt leisten möchten, können der Open-Source-Community von Milvus auf GitHub beitreten.

Öffentliche Datensätze für künstliche Intelligenz und maschinelles Lernen

Es ist kein Geheimnis, dass Technologieriesen wie Google und Facebook einen Datenvorteil gegenüber den kleinen Jungs haben. Einige Experten plädieren sogar für ein "progressives Datenfreigabe-Mandat", das Unternehmen ab einer bestimmten Größe dazu zwingen würde, einige anonymisierte Daten mit kleineren Konkurrenten zu teilen. Glücklicherweise gibt es Tausende von öffentlich zugänglichen Datensätzen, die für AL/ML-Projekte verwendet werden können:

  • The People's Speech Dataset: Dieser Datensatz von ML Commons bietet den größten Sprachdatensatz der Welt, mit über 87.000 Stunden transkribierter Sprache in 59 verschiedenen Sprachen.

  • UC Irvine Machine Learning Repository: Die Universität von Kalifornien in Irvine verwaltet Hunderte von öffentlichen Datensätzen, um die Gemeinschaft des maschinellen Lernens zu unterstützen.

  • Data.gov: Die US-Regierung bietet Hunderttausende von offenen Datensätzen aus den Bereichen Bildung, Klima, COVID-19 und mehr.

  • Eurostat: Das statistische Amt der Europäischen Union bietet offene Datensätze aus einer Vielzahl von Bereichen, von Wirtschaft und Finanzen bis hin zu Bevölkerung und sozialen Bedingungen.

  • Harvard Dataverse: Das Harvard Dataverse Repository ist ein kostenloser Datenspeicher, der Forschern aller Fachrichtungen offen steht. Viele Datensätze sind öffentlich zugänglich, während andere mit eingeschränkten Nutzungsbedingungen versehen sind.

Auch wenn diese Liste keineswegs vollständig ist, so ist sie doch ein guter Ausgangspunkt, um die überraschend große Vielfalt an offenen Datensätzen zu entdecken. Weitere Informationen über öffentliche Datensätze sowie über die Auswahl der richtigen Daten für Ihr nächstes ML- oder Data-Science-Projekt finden Sie in diesem Medium-Beitrag.

Wenn Sie mehr über die Vektorähnlichkeitssuche erfahren möchten, lesen Sie die folgenden Ressourcen:

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Weiterlesen