🚀 Prova Zilliz Cloud, la versione completamente gestita di Milvus, gratuitamente—sperimenta prestazioni 10 volte più veloci! Prova Ora>>

milvus-logo
LFAI
  • Home
  • Blog
  • Per saperne di più sulla ricerca di similarità vettoriale, consultate le seguenti risorse:

Per saperne di più sulla ricerca di similarità vettoriale, consultate le seguenti risorse:

  • Engineering
January 05, 2021
milvus

L'intelligenza artificiale (AI) ha il potenziale per cambiare il modo in cui vengono fatte anche le cose più oscure. Ad esempio, ogni anno (prima del COVID, comunque) oltre 73.000 persone si riuniscono per partecipare alla maratona di Hong Kong. Per rilevare e registrare correttamente i tempi di arrivo di tutti i partecipanti alla gara, gli organizzatori distribuiscono 73.000 chip timer RFID da applicare a ogni corridore. Il cronometraggio con chip è un'impresa complessa con ovvi svantaggi. I materiali (chip e dispositivi elettronici di lettura) devono essere acquistati o noleggiati dalle società di cronometraggio e deve essere allestita un'area di registrazione in cui i corridori possano ritirare i chip il giorno della gara. Inoltre, se i sensori sono installati solo alla partenza e all'arrivo, è possibile che corridori senza scrupoli taglino il percorso.

blog-1.jpeg blog-1.jpeg

Immaginiamo ora un'applicazione di intelligenza artificiale video in grado di identificare automaticamente i singoli corridori da filmati catturati al traguardo utilizzando una singola foto. Invece di attaccare i chip di cronometraggio a ogni partecipante, i corridori devono semplicemente caricare una loro foto tramite un'app dopo aver tagliato il traguardo. Immediatamente vengono forniti un filmato personalizzato, le statistiche della gara e altre informazioni rilevanti. Le telecamere installate in vari punti della gara possono catturare ulteriori filmati dei partecipanti e garantire che ogni corridore percorra l'intero percorso. Quale soluzione sembra più facile ed economica da implementare?

Anche se la maratona di Hong Kong non sfrutta l'apprendimento automatico per sostituire i chip di cronometraggio (ancora), questo esempio illustra il potenziale dell'intelligenza artificiale di modificare drasticamente tutto ciò che ci circonda. Per il cronometraggio delle gare, riduce decine di migliaia di chip a poche telecamere abbinate ad algoritmi di apprendimento automatico. Ma l'intelligenza artificiale dei video è solo una delle tante applicazioni della ricerca per similarità vettoriale, un processo che utilizza l'intelligenza artificiale per analizzare insiemi di dati non strutturati di dimensioni enormi e su scala trilione. Questo articolo offre una panoramica sulla tecnologia di ricerca vettoriale, spiegando cos'è, come può essere utilizzata, nonché il software e le risorse open-source che la rendono più accessibile che mai.

Vai a:

I dati video sono incredibilmente dettagliati e sempre più comuni, quindi logicamente sembrano essere un ottimo segnale di apprendimento non supervisionato per la creazione di IA video. In realtà, non è così. L'elaborazione e l'analisi dei dati video, soprattutto in grandi volumi, rimane una sfida per l'intelligenza artificiale. I recenti progressi in questo campo, come gran parte dei progressi compiuti nell'analisi dei dati non strutturati, si devono in gran parte alla ricerca di similarità vettoriale.

Il problema dei video, come di tutti i dati non strutturati, è che non seguono un modello o una struttura organizzativa predefinita, il che li rende difficili da elaborare e analizzare su scala. I dati non strutturati comprendono immagini, audio, comportamenti sui social media e documenti, che rappresentano complessivamente oltre l'80-90% di tutti i dati. Le aziende sono sempre più consapevoli degli approfondimenti critici per l'azienda sepolti in enormi ed enigmatici set di dati non strutturati, il che spinge la domanda di applicazioni di IA in grado di sfruttare questo potenziale non sfruttato.

Utilizzando reti neurali come CNN, RNN e BERT, i dati non strutturati possono essere convertiti in vettori di caratteristiche (detti anche embeddings), un formato di dati numerici leggibili dalla macchina. Gli algoritmi vengono quindi utilizzati per calcolare la somiglianza tra i vettori utilizzando misure come la somiglianza coseno o la distanza euclidea. L'incorporazione vettoriale e la ricerca della somiglianza consentono di analizzare e costruire applicazioni di apprendimento automatico utilizzando insiemi di dati precedentemente indistinguibili.

La similarità vettoriale viene calcolata con algoritmi consolidati, ma i set di dati non strutturati sono tipicamente enormi. Ciò significa che una ricerca efficiente e accurata richiede una grande capacità di memorizzazione e di calcolo. Per accelerare la ricerca della somiglianza e ridurre i requisiti di risorse, vengono utilizzati algoritmi di ricerca approssimata del vicino (ANN). Raggruppando i vettori simili tra loro, gli algoritmi ANN consentono di inviare le query ai cluster di vettori che hanno maggiori probabilità di contenere vettori simili, anziché cercare nell'intero set di dati. Sebbene questo approccio sia più veloce, sacrifica un certo grado di accuratezza. Sfruttando gli algoritmi ANN, la ricerca vettoriale è in grado di setacciare miliardi di intuizioni di modelli di deep learning in un millisecondo.

La ricerca per similarità vettoriale trova applicazione in un'ampia gamma di scenari di intelligenza artificiale, deep learning e calcolo vettoriale tradizionale. Di seguito viene fornita una panoramica di alto livello delle varie applicazioni della ricerca per similarità vettoriale:

Commercio elettronico: La ricerca per similarità vettoriale ha un'ampia applicabilità nell'e-commerce, compresi i motori di ricerca di immagini inverse che consentono agli acquirenti di cercare prodotti utilizzando un'immagine catturata con lo smartphone o trovata online. Inoltre, raccomandazioni personalizzate basate sul comportamento dell'utente, sugli interessi, sulla storia degli acquisti e altro ancora possono essere fornite da sistemi di raccomandazione specializzati che si basano sulla ricerca vettoriale.

Sicurezza fisica e informatica: L'intelligenza artificiale dei video è solo una delle tante applicazioni della ricerca vettoriale di similarità nel campo della sicurezza. Altri scenari includono il riconoscimento facciale, il tracciamento del comportamento, l'autenticazione dell'identità, il controllo intelligente degli accessi e altro ancora. Inoltre, la ricerca per similarità vettoriale svolge un ruolo importante nel contrastare attacchi informatici sempre più comuni e sofisticati. Ad esempio, la ricerca della somiglianza del codice può essere utilizzata per identificare i rischi per la sicurezza confrontando un software con un database di vulnerabilità o malware noti.

Motori di raccomandazione: I motori di raccomandazione sono sistemi che utilizzano l'apprendimento automatico e l'analisi dei dati per suggerire prodotti, servizi, contenuti e informazioni agli utenti. Il comportamento dell'utente, il comportamento di utenti simili e altri dati vengono elaborati con metodi di deep learning per generare raccomandazioni. Con un numero sufficiente di dati, gli algoritmi possono essere addestrati a comprendere le relazioni tra le entità e a inventare modi per rappresentarle autonomamente. I sistemi di raccomandazione hanno un'ampia applicabilità e sono qualcosa con cui le persone interagiscono già ogni giorno, come le raccomandazioni di contenuti su Netflix, le raccomandazioni di acquisto su Amazon e i feed di notizie su Facebook.

Chatbot: Tradizionalmente, i chatbot sono costruiti utilizzando un normale grafo di conoscenza che richiede un ampio set di dati per l'addestramento. Tuttavia, i chatbot costruiti con modelli di deep learning non hanno bisogno di preelaborare i dati, ma creano una mappa tra domande e risposte frequenti. Utilizzando un modello di elaborazione del linguaggio naturale (NLP) pre-addestrato, è possibile estrarre vettori di caratteristiche dalle domande e quindi archiviarli e interrogarli utilizzando una piattaforma di gestione dei dati vettoriali.

Ricerca di immagini o video: Le reti di apprendimento profondo sono state utilizzate per riconoscere modelli visivi fin dalla fine degli anni '70 e le moderne tendenze tecnologiche hanno reso la ricerca di immagini e video più potente e accessibile che mai.

Ricerca per similarità chimica: La similarità chimica è fondamentale per prevedere le proprietà dei composti chimici e trovare sostanze chimiche con attributi specifici, rendendola indispensabile per lo sviluppo di nuovi farmaci. Per ogni molecola vengono create delle impronte digitali rappresentate da vettori di caratteristiche e poi si utilizzano le distanze tra i vettori per misurare la somiglianza. L'utilizzo dell'IA per la scoperta di nuovi farmaci sta guadagnando terreno nel settore tecnologico, tanto che ByteDance (la società madre cinese di TikTok) ha iniziato ad assumere talenti in questo campo.

Software e risorse open-source per la ricerca della similarità vettoriale.

La legge di Moore, il cloud computing e la diminuzione dei costi delle risorse sono macro tendenze che hanno reso l'intelligenza artificiale più accessibile che mai. Grazie al software open-source e ad altre risorse disponibili pubblicamente, la creazione di applicazioni AI/ML non è solo per le grandi aziende tecnologiche. Di seguito forniamo una breve panoramica di Milvus, una piattaforma open-source per la gestione dei dati vettoriali, e segnaliamo anche alcuni set di dati disponibili pubblicamente che contribuiscono a rendere l'intelligenza artificiale alla portata di tutti.

Milvus, una piattaforma open-source per la gestione dei dati vettoriali

Milvus è una piattaforma open-source di gestione dei dati vettoriali costruita appositamente per i dati vettoriali su larga scala. Alimentato da Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB) e Annoy, Milvus riunisce una serie di potenti strumenti sotto un'unica piattaforma, estendendo al contempo le loro funzionalità autonome. Il sistema è stato costruito appositamente per l'archiviazione, l'elaborazione e l'analisi di grandi insiemi di dati vettoriali e può essere utilizzato per costruire tutte le applicazioni di intelligenza artificiale (e non solo) sopra menzionate.

Ulteriori informazioni su Milvus sono disponibili sul suo sito web. Tutorial, istruzioni per la configurazione di Milvus, test di benchmark e informazioni sulla creazione di una serie di applicazioni diverse sono disponibili nel bootcamp di Milvus. Gli sviluppatori interessati a contribuire al progetto possono unirsi alla comunità open-source di Milvus su GitHub.

Set di dati pubblici per l'intelligenza artificiale e l'apprendimento automatico

Non è un segreto che i giganti della tecnologia come Google e Facebook abbiano un vantaggio sui dati rispetto ai piccoli, tanto che alcuni opinionisti sostengono addirittura la necessità di un "mandato progressivo di condivisione dei dati" che costringa le aziende che superano una certa dimensione a condividere alcuni dati anonimizzati con i rivali più piccoli. Fortunatamente, esistono migliaia di set di dati disponibili pubblicamente che possono essere utilizzati per progetti AL/ML:

  • Il People's Speech Dataset: Questo dataset di ML Commons offre il più grande dataset di discorsi al mondo, con oltre 87.000 ore di discorsi trascritti in 59 lingue diverse.

  • UC Irvine Machine Learning Repository: L'Università della California a Irvine gestisce centinaia di set di dati pubblici nel tentativo di aiutare la comunità dell'apprendimento automatico.

  • Data.gov: Il governo degli Stati Uniti offre centinaia di migliaia di set di dati aperti che riguardano l'istruzione, il clima, il COVID-19 e altro ancora.

  • Eurostat: L'ufficio statistico dell'Unione Europea fornisce set di dati aperti che coprono una varietà di settori, dall'economia e dalla finanza alla popolazione e alle condizioni sociali.

  • Harvard Dataverse: L'Harvard Dataverse Repository è un archivio di dati gratuito aperto ai ricercatori di tutte le discipline. Molti dati sono pubblici, mentre altri sono soggetti a condizioni d'uso più ristrette.

Anche se questo elenco non è assolutamente esaustivo, è un buon punto di partenza per scoprire la sorprendente varietà di dataset aperti. Per ulteriori informazioni sui dataset pubblici e sulla scelta dei dati giusti per il vostro prossimo progetto di ML o data science, consultate questo post di Medium.

Per saperne di più sulla ricerca di similarità vettoriale, consultate le seguenti risorse:

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Continua a Leggere