Come scegliere il miglior modello di incorporazione per il RAG nel 2026: 10 modelli a confronto
TL;DR: Abbiamo testato 10 modelli di incorporazione in quattro scenari di produzione che mancano ai benchmark pubblici: recupero cross-modale, recupero cross-linguistico, recupero di informazioni chiave e compressione dimensionale. Nessun modello vince su tutto. Gemini Embedding 2 è il migliore in assoluto. L'open-source Qwen3-VL-2B batte le API closed-source nei compiti cross-modali. Se avete bisogno di comprimere le dimensioni per risparmiare spazio, scegliete Voyage Multimodal 3.5 o Jina Embeddings v4.
Perché MTEB non è sufficiente per scegliere un modello di embedding
La maggior parte dei prototipi RAG inizia con il text-embedding-3-small di OpenAI. È economico, facile da integrare e per il recupero di testi in inglese funziona abbastanza bene. Ma il RAG di produzione lo supera rapidamente. La vostra pipeline raccoglie immagini, PDF, documenti multilingue e un modello di incorporazione di solo testo non è più sufficiente.
La classifica MTEB indica che ci sono opzioni migliori. Il problema? MTEB testa solo il recupero di testo in una sola lingua. Non si occupa del reperimento cross-modale (query di testo rispetto a raccolte di immagini), della ricerca cross-lingue (una query in cinese che trova un documento in inglese), dell'accuratezza dei documenti lunghi o di quanta qualità si perde quando si troncano le dimensioni dell'incorporamento per risparmiare spazio nel database vettoriale.
Quale modello di incorporazione utilizzare? Dipende dai tipi di dati, dalle lingue, dalla lunghezza dei documenti e dall'eventuale necessità di compressione delle dimensioni. Abbiamo creato un benchmark chiamato CCKM e abbiamo testato 10 modelli rilasciati tra il 2025 e il 2026 proprio su queste dimensioni.
Cos'è il benchmark CCKM?
CCKM (Cross-modal, Cross-lingual, Key information, MRL) mette alla prova quattro capacità che i benchmark standard non riescono a cogliere:
| Dimensione | Cosa verifica | Perché è importante |
|---|---|---|
| Recupero cross-modale | Abbinare le descrizioni testuali all'immagine corretta in presenza di distrattori quasi identici | Le pipelineRAG multimodali necessitano di incorporazioni di testo e immagini nello stesso spazio vettoriale |
| Recupero interlinguistico | Trovare il documento inglese corretto da una query in cinese e viceversa | Le basi di conoscenza di produzione sono spesso multilingue |
| Recupero di informazioni chiave | Individuare un fatto specifico sepolto in un documento di 4K-32K caratteri (ago in un pagliaio) | I sistemi RAG elaborano spesso documenti lunghi come contratti e documenti di ricerca. |
| Compressione dimensionale MRL | Misura di quanta qualità perde il modello quando si troncano le incorporazioni a 256 dimensioni. | Meno dimensioni = minor costo di archiviazione nel database vettoriale, ma a quale costo qualitativo? |
MTEB non copre nessuno di questi aspetti. MMEB aggiunge il multimodale ma salta gli hard negative, quindi i modelli ottengono un punteggio elevato senza dimostrare di saper gestire le distinzioni più sottili. CCKM è progettato per coprire ciò che manca a questi modelli.
Quali modelli di incorporazione abbiamo testato? Gemini Embedding 2, Jina Embeddings v4 e altri ancora
Abbiamo testato 10 modelli che coprono sia i servizi API che le opzioni open-source, oltre a CLIP ViT-L-14 come riferimento per il 2021.
| Modello | Fonte | Parametri | Dimensioni | Modalità | Tratto chiave |
|---|---|---|---|---|---|
| Incorporazione Gemini 2 | Non divulgato | 3072 | Testo / immagine / video / audio / PDF | All-modality, la più ampia copertura | |
| Jina Embeddings v4 | Jina AI | 3.8B | 2048 | Testo / immagine / PDF | Adattatori MRL + LoRA |
| Voyage Multimodal 3.5 | Voyage AI (MongoDB) | Non divulgato | 1024 | Testo / immagine / video | Bilanciato tra i compiti |
| Qwen3-VL-Embedding-2B | Alibaba Qwen | 2B | 2048 | Testo / immagine / video | Open-source, multimodale leggero |
| Jina CLIP v2 | Jina AI | ~1B | 1024 | Testo / immagine | Architettura CLIP modernizzata |
| Cohere Embed v4 | Cohere | Non divulgato | Fissato | Testo | Recupero aziendale |
| OpenAI text-embedding-3-large | OpenAI | Non divulgato | 3072 | Testo | Il più utilizzato |
| BGE-M3 | BAAI | 568M | 1024 | Testo | Open-source, oltre 100 lingue |
| mxbai-embed-large | Pane misto AI | 335M | 1024 | Testo | Leggero, incentrato sull'inglese |
| nomic-embed-text | AI nomica | 137M | 768 | Testo | Ultra-leggero |
| CLIP ViT-L-14 | OpenAI (2021) | 428M | 768 | Testo / immagine | Linea di base |
Recupero cross-modale: Quali modelli gestiscono la ricerca da testo a immagine?
Se la pipeline RAG gestisce le immagini insieme al testo, il modello di incorporazione deve collocare entrambe le modalità nello stesso spazio vettoriale. Si pensi alla ricerca di immagini nell'e-commerce, alle basi di conoscenza miste immagine-testo o a qualsiasi sistema in cui una query testuale deve trovare l'immagine giusta.
Il metodo
Abbiamo preso 200 coppie immagine-testo da COCO val2017. Per ogni immagine, GPT-4o-mini ha generato una descrizione dettagliata. Poi abbiamo scritto 3 hard negatives per ogni immagine - descrizioni che differiscono da quella corretta solo per uno o due dettagli. Il modello deve trovare la giusta corrispondenza in un insieme di 200 immagini e 600 distrattori.
Un esempio dal set di dati:
Valigie vintage in pelle marrone con adesivi di viaggio che includono California e Cuba, collocate su un portabagagli di metallo in un cielo blu - utilizzata come immagine di prova nel benchmark di recupero cross-modale.
Descrizione corretta: "L'immagine presenta valigie vintage in pelle marrone con vari adesivi di viaggio, tra cui 'California', 'Cuba' e 'New York', collocate su un portabagagli di metallo contro un cielo azzurro".
Negativo: Stessa frase, ma "California" diventa "Florida" e "cielo azzurro" diventa "cielo coperto". Il modello deve comprendere i dettagli dell'immagine per distinguerli.
Punteggio:
- Generare embeddings per tutte le immagini e tutti i testi (200 descrizioni corrette + 600 negative).
- Testo-immagine (t2i): Ogni descrizione cerca in 200 immagini la corrispondenza più vicina. Si assegna un punto se il primo risultato è corretto.
- Immagine-testo (i2t): Ogni immagine cerca in tutti gli 800 testi la corrispondenza più vicina. Si ottiene un punto solo se il risultato principale è la descrizione corretta e non un risultato negativo.
- Punteggio finale: hard_avg_R@1 = (precisione t2i + precisione i2t) / 2
Risultati
Grafico a barre orizzontali che mostra la classifica di recupero cross-modale: Qwen3-VL-2B è in testa con 0,945, seguito da Gemini Embed 2 con 0,928, Voyage MM-3.5 con 0,900, Jina CLIP v2 con 0,873 e CLIP ViT-L-14 con 0,768 .
Qwen3-VL-2B, un modello di parametri 2B open-source del team Qwen di Alibaba, si è piazzato al primo posto, davanti a tutte le API closed-source.
Il divario di modalità spiega la maggior parte della differenza. I modelli di embedding mappano testo e immagini nello stesso spazio vettoriale, ma in pratica le due modalità tendono a raggrupparsi in regioni diverse. Il modality gap misura la distanza L2 tra questi due cluster. Un gap minore significa una maggiore facilità di recupero cross-modale.
Visualizzazione di un confronto tra un grande divario di modalità (0,73, cluster di testo e immagine distanti tra loro) e un piccolo divario di modalità (0,25, cluster sovrapposti): un divario minore facilita la corrispondenza intermodale.
| Modello | Punteggio (R@1) | Gap di modalità | Parametri |
|---|---|---|---|
| Qwen3-VL-2B | 0.945 | 0.25 | 2B (open-source) |
| Incorporazione Gemini 2 | 0.928 | 0.73 | Sconosciuto (chiuso) |
| Voyage Multimodal 3.5 | 0.900 | 0.59 | Sconosciuto (chiuso) |
| Jina CLIP v2 | 0.873 | 0.87 | ~1B |
| CLIP ViT-L-14 | 0.768 | 0.83 | 428M |
Il modality gap di Qwen è di 0,25, circa un terzo dello 0,73 di Gemini. In un database vettoriale come Milvus, un piccolo divario di modalità significa che è possibile memorizzare le incorporazioni di testo e di immagine nella stessa raccolta e cercare direttamente in entrambe. Un divario elevato può rendere meno affidabile la ricerca di similarità cross-modale e potrebbe essere necessario un passaggio di ri-classificazione per compensare.
Recupero interlinguistico: Quali modelli allineano il significato tra le varie lingue?
Le basi di conoscenza multilingue sono comuni nella produzione. Un utente pone una domanda in cinese, ma la risposta si trova in un documento inglese, o viceversa. Il modello di incorporazione deve allineare il significato tra le varie lingue, non solo all'interno di una di esse.
Il metodo
Abbiamo costruito 166 coppie di frasi parallele in cinese e in inglese su tre livelli di difficoltà:
Livelli di difficoltà interlinguistici: Il livello facile mappa traduzioni letterali come 我爱你 a I love you; il livello medio mappa frasi parafrasate come 这道菜太咸了 a This dish is too salty con negativi duri; il livello duro mappa idiomi cinesi come 画蛇添足 a gilda con negativi duri semanticamente diversi.
Ogni lingua riceve anche 152 distrattori negativi duri.
Punteggio:
- Generare embeddings per tutto il testo cinese (166 corretti + 152 distrattori) e per tutto il testo inglese (166 corretti + 152 distrattori).
- Cinese → Inglese: Ogni frase cinese cerca la sua traduzione corretta in 318 testi inglesi.
- Inglese → Cinese: Stessa cosa al contrario.
- Punteggio finale: hard_avg_R@1 = (accuratezza zh→en + accuratezza en→zh) / 2
Risultati
Grafico a barre orizzontali che mostra la classifica di recupero cross-lingue: Gemini Embed 2 è in testa con 0,997, seguito da Qwen3-VL-2B a 0,988, Jina v4 a 0,985, Voyage MM-3.5 a 0,982, fino a mxbai a 0,120 .
Gemini Embedding 2 ha ottenuto un punteggio di 0,997, il più alto di tutti i modelli testati. È stato l'unico modello a ottenere un punteggio perfetto di 1,000 nel livello Hard, dove coppie come "画蛇添足" → "gildare il giglio" richiedono una vera comprensione semantica tra le lingue, non una corrispondenza di modelli.
| Modello | Punteggio (R@1) | Facile | Medio | Difficile (idiomi) |
|---|---|---|---|---|
| Incorporazione Gemini 2 | 0.997 | 1.000 | 1.000 | 1.000 |
| Qwen3-VL-2B | 0.988 | 1.000 | 1.000 | 0.969 |
| Jina Embeddings v4 | 0.985 | 1.000 | 1.000 | 0.969 |
| Voyage Multimodal 3.5 | 0.982 | 1.000 | 1.000 | 0.938 |
| OpenAI 3-grande | 0.967 | 1.000 | 1.000 | 0.906 |
| Cohere Embed v4 | 0.955 | 1.000 | 0.980 | 0.875 |
| BGE-M3 (568M) | 0.940 | 1.000 | 0.960 | 0.844 |
| testo incorporato nomico (137M) | 0.154 | 0.300 | 0.120 | 0.031 |
| mxbai-embed-grande (335M) | 0.120 | 0.220 | 0.080 | 0.031 |
I primi 7 modelli hanno tutti un punteggio complessivo di 0,93 - la vera differenziazione avviene nel livello Hard (idiomi cinesi). nomic-embed-text e mxbai-embed-large, entrambi modelli leggeri incentrati sull'inglese, ottengono un punteggio vicino allo zero nei compiti cross-lingue.
Recupero di informazioni chiave: I modelli possono trovare un ago in un documento di 32K parole?
I sistemi RAG spesso elaborano documenti lunghi - contratti legali, documenti di ricerca, rapporti interni contenenti dati non strutturati. La domanda è se un modello di embedding può ancora trovare un fatto specifico sepolto in migliaia di caratteri di testo circostante.
Il metodo
Abbiamo preso come pagliaio articoli di Wikipedia di lunghezza variabile (da 4K a 32K caratteri) e abbiamo inserito un singolo fatto inventato - l'ago - in diverse posizioni: inizio, 25%, 50%, 75% e fine. Il modello deve determinare, sulla base di una query embedding, quale versione del documento contiene l'ago.
Esempio:
- Ago: "La Meridian Corporation ha registrato un fatturato trimestrale di 847,3 milioni di dollari nel terzo trimestre del 2025".
- Interrogazione: "Qual è stato il fatturato trimestrale della Meridian Corporation?".
- Covone: Un articolo di Wikipedia di 32.000 caratteri sulla fotosintesi, con l'ago nascosto da qualche parte.
Punteggio:
- Generare embeddings per la query, il documento con l'ago e il documento senza.
- Se la query è più simile al documento contenente l'ago, lo si considera un risultato positivo.
- Accuratezza media per tutte le lunghezze dei documenti e le posizioni degli aghi.
- Metriche finali: overall_accuracy e degradation_rate (quanto cala l'accuratezza dal documento più corto a quello più lungo).
Risultati
Mappa di calore che mostra l'accuratezza di Needle-in-a-Haystack in base alla lunghezza del documento: Gemini Embed 2 ottiene un punteggio di 1.000 in tutte le lunghezze fino a 32K; i primi 7 modelli ottengono un punteggio perfetto all'interno delle loro finestre di contesto; mxbai e nomic degradano bruscamente a 4K+ .
Gemini Embedding 2 è l'unico modello testato sull'intera gamma 4K-32K e ha ottenuto un punteggio perfetto per ogni lunghezza. Nessun altro modello in questo test ha una finestra di contesto che raggiunge i 32K.
| Modello | 1K | 4K | 8K | 16K | 32K | Complessivamente | Degradazione |
|---|---|---|---|---|---|---|---|
| Incorporazione Gemini 2 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 0% |
| OpenAI 3-grande | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Jina Embeddings v4 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Cohere Embed v4 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Qwen3-VL-2B | 1.000 | 1.000 | - | - | - | 1.000 | 0% |
| Voyage Multimodale 3,5 | 1.000 | 1.000 | - | - | - | 1.000 | 0% |
| Jina CLIP v2 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| BGE-M3 (568M) | 1.000 | 1.000 | 0.920 | — | - | 0.973 | 8% |
| mxbai-embed-grande (335M) | 0.980 | 0.600 | 0.400 | - | - | 0.660 | 58% |
| testo incorporato (137M) | 1.000 | 0.460 | 0.440 | - | - | 0.633 | 56% |
"-" significa che la lunghezza del documento supera la finestra contestuale del modello.
I primi 7 modelli ottengono punteggi perfettamente all'interno delle loro finestre di contesto. BGE-M3 inizia a perdere terreno a 8K (0,920). I modelli leggeri (mxbai e nomic) scendono a 0,4-0,6 a soli 4K caratteri - circa 1.000 token. Per mxbai, questo calo riflette in parte la finestra contestuale di 512 token che tronca la maggior parte del documento.
Compressione della dimensione MRL: Quanta qualità si perde con 256 dimensioni?
LaMatryoshka Representation Learning (MRL) è una tecnica di addestramento che rende le prime N dimensioni di un vettore significative da sole. Prendiamo un vettore di 3072 dimensioni, lo tronchiamo a 256 e conserva ancora la maggior parte della sua qualità semantica. Un minor numero di dimensioni significa minori costi di archiviazione e di memoria nel database vettoriale: passare da 3072 a 256 dimensioni significa ridurre di 12 volte lo spazio di archiviazione.
Illustrazione che mostra il troncamento delle dimensioni di MRL: 3072 dimensioni a qualità piena, 1024 al 95%, 512 al 90%, 256 all'85% - con un risparmio di memoria di 12 volte a 256 dimensioni.
Metodo
Abbiamo utilizzato 150 coppie di frasi del benchmark STS-B, ciascuna con un punteggio di somiglianza annotato dall'uomo (0-5). Per ogni modello, abbiamo generato embeddings a dimensioni piene, poi troncate a 1024, 512 e 256.
Esempi di dati STS-B che mostrano coppie di frasi con punteggi di somiglianza umani: Una ragazza si sta acconciando i capelli vs Una ragazza si sta spazzolando i capelli ha un punteggio di 2,5; Un gruppo di uomini gioca a calcio sulla spiaggia vs Un gruppo di ragazzi sta giocando a calcio sulla spiaggia ha un punteggio di 3,6 .
Punteggio:
- A ogni livello di dimensione, calcolare la somiglianza del coseno tra le incorporazioni di ogni coppia di frasi.
- Confrontare la classifica di somiglianza del modello con quella umana utilizzando il ρ di Spearman (correlazione di rango).
Che cos'è il ρ di Spearman? Misura il grado di concordanza tra due classifiche. Se gli esseri umani classificano la coppia A come la più simile, B come la seconda, C come la meno simile, e le somiglianze del coseno del modello producono lo stesso ordine A > B > C, allora ρ si avvicina a 1,0. Un ρ pari a 1,0 significa un accordo perfetto. Un ρ pari a 0 significa assenza di correlazione.
Metriche finali: spearman_rho (più alto è meglio) e min_viable_dim (la dimensione più piccola in cui la qualità rimane entro il 5% delle prestazioni della dimensione completa).
Risultati
Grafico a punti che mostra MRL Full Dimension vs 256 Dimension Quality: Voyage MM-3.5 è in testa con una variazione di +0,6%, Jina v4 +0,5%, mentre Gemini Embed 2 mostra un -0,6% nella parte inferiore .
Se si intende ridurre i costi di archiviazione in Milvus o in un altro database vettoriale troncando le dimensioni, questo risultato è importante.
| Modello | ρ (dimensione piena) | ρ (256 dimensioni) | Decadimento |
|---|---|---|---|
| Voyage Multimodal 3,5 | 0.880 | 0.874 | 0.7% |
| Jina Embeddings v4 | 0.833 | 0.828 | 0.6% |
| mxbai-embed-large (335M) | 0.815 | 0.795 | 2.5% |
| nomic-embed-testo (137M) | 0.781 | 0.774 | 0.8% |
| OpenAI 3-grande | 0.767 | 0.762 | 0.6% |
| Gemini Embedding 2 | 0.683 | 0.689 | -0.8% |
Voyage e Jina v4 sono in testa perché entrambi sono stati addestrati esplicitamente con MRL come obiettivo. La compressione delle dimensioni ha poco a che fare con le dimensioni del modello: ciò che conta è che il modello sia stato addestrato per questo.
Una nota sul punteggio di Gemini: la classifica MRL riflette la capacità di un modello di preservare la qualità dopo il troncamento, non la qualità del suo recupero a dimensione piena. Il reperimento di Gemini in tutte le dimensioni è forte - i risultati linguistici e delle informazioni chiave lo hanno già dimostrato. Solo che non è stato ottimizzato per la riduzione. Se non avete bisogno di una compressione delle dimensioni, questo parametro non fa al caso vostro.
Quale modello di incorporamento utilizzare?
Nessun modello vince su tutto. Ecco la classifica completa:
| Modello | Pareri | Intermodale | Interlingua | Informazioni chiave | MRL ρ |
|---|---|---|---|---|---|
| Incorporamento Gemini 2 | Non divulgato | 0.928 | 0.997 | 1.000 | 0.668 |
| Voyage Multimodale 3,5 | Non divulgato | 0.900 | 0.982 | 1.000 | 0.880 |
| Jina Embeddings v4 | 3.8B | - | 0.985 | 1.000 | 0.833 |
| Qwen3-VL-2B | 2B | 0.945 | 0.988 | 1.000 | 0.774 |
| OpenAI 3-grande | Non divulgato | - | 0.967 | 1.000 | 0.760 |
| Cohere Embed v4 | Non divulgato | - | 0.955 | 1.000 | - |
| Jina CLIP v2 | ~1B | 0.873 | 0.934 | 1.000 | - |
| BGE-M3 | 568M | - | 0.940 | 0.973 | 0.744 |
| mxbai-embed-grande | 335M | - | 0.120 | 0.660 | 0.815 |
| testo incorporato nomico | 137M | - | 0.154 | 0.633 | 0.780 |
| CLIP ViT-L-14 | 428M | 0.768 | 0.030 | - | - |
"-" significa che il modello non supporta quella modalità o capacità. CLIP è una base di riferimento per il 2021.
Ecco cosa emerge:
- Modale trasversale: Qwen3-VL-2B (0,945) primo, Gemini (0,928) secondo, Voyage (0,900) terzo. Un modello 2B open-source ha battuto ogni API closed-source. Il fattore decisivo è stato il divario tra le modalità, non il numero di parametri.
- Cross-lingual: Gemini (0,997) è in testa - l'unico modello a ottenere un punteggio perfetto sull'allineamento a livello di idioma. I primi 8 modelli hanno tutti un punteggio di 0,93. I modelli leggeri solo in inglese ottengono un punteggio vicino allo zero.
- Informazioni chiave: I modelli API e open-source di grandi dimensioni ottengono un punteggio perfetto fino a 8K. I modelli sotto i 335M iniziano a degradare a 4K. Gemini è l'unico modello che gestisce 32K con un punteggio perfetto.
- Compressione delle dimensioni MRL: Voyage (0,880) e Jina v4 (0,833) sono in testa, perdendo meno dell'1% a 256 dimensioni. Gemini (0,668) arriva ultimo - forte a dimensione piena, non ottimizzato per il troncamento.
Come scegliere: un diagramma di flusso decisionale
Diagramma di flusso per la selezione del modello di embedding: Inizio → Avete bisogno di immagini o video? → Sì: è necessario un self-hosting? → Sì: Qwen3-VL-2B, no: Gemini Embedding 2. Nessuna immagine → Necessità di risparmiare spazio di archiviazione? → Sì: Jina v4 o Voyage, No: Serve il multilingua? → Sì: Gemini Embedding 2, No: OpenAI 3-large
Il migliore tuttofare: Gemini Embedding 2
Nel complesso, Gemini Embedding 2 è il modello più forte in questo benchmark.
Punti di forza: Primo in cross-lingue (0,997) e nel recupero di informazioni chiave (1,000 su tutte le lunghezze fino a 32K). Secondo in cross-modale (0,928). Copertura della modalità più ampia: cinque modalità (testo, immagine, video, audio, PDF), mentre la maggior parte dei modelli si ferma a tre.
Punti deboli: Ultimo nella compressione MRL (ρ = 0,668). Battuto nel cross-modal dal modello open-source Qwen3-VL-2B.
Se non si ha bisogno di compressione dimensionale, Gemini non ha un vero concorrente per quanto riguarda la combinazione cross-lingual + long-document retrieval. Ma per la precisione cross-modale o l'ottimizzazione dello storage, i modelli specializzati fanno meglio.
Limitazioni
- Non abbiamo incluso tutti i modelli che valevano la pena di prendere in considerazione: NV-Embed-v2 di NVIDIA e v5-text di Jina erano nell'elenco, ma non sono stati presi in considerazione.
- Ci siamo concentrati sulle modalità di testo e immagine; video, audio e PDF embedding (nonostante alcuni modelli dichiarino di supportarli) non sono stati presi in considerazione.
- Il reperimento del codice e altri scenari specifici del dominio sono stati esclusi.
- Le dimensioni del campione erano relativamente piccole, quindi le differenze di classifica tra i modelli possono rientrare nel rumore statistico.
I risultati di questo articolo saranno obsoleti entro un anno. I nuovi modelli vengono lanciati continuamente e la classifica si rimescola a ogni rilascio. L'investimento più duraturo consiste nel costruire la propria pipeline di valutazione: definire i tipi di dati, i modelli di query, le lunghezze dei documenti e sottoporre i nuovi modelli ai propri test quando vengono rilasciati. I benchmark pubblici come MTEB, MMTEB e MMEB meritano di essere monitorati, ma la decisione finale dovrebbe sempre venire dai vostri dati.
Il nostro codice di benchmark è open-source su GitHub: modificatelo e adattatelo al vostro caso d'uso.
Una volta scelto il modello di incorporazione, è necessario un luogo in cui memorizzare e cercare i vettori su scala. Milvus è il database vettoriale open-source più diffuso al mondo, con oltre 43.000 stelle su GitHub, costruito proprio per questo: supporta le dimensioni troncate da MRL, le collezioni multimodali miste, la ricerca ibrida che combina vettori densi e radi e va da un laptop a miliardi di vettori.
- Iniziate con la guida Milvus Quickstart o installate con
pip install pymilvus. - Unitevi a Milvus Slack o Milvus Discord per porre domande sull'integrazione dei modelli di embedding, sulle strategie di indicizzazione vettoriale o sulla scalabilità della produzione.
- Prenotate una sessione gratuita di Milvus Office Hours per esaminare la vostra architettura RAG: possiamo aiutarvi con la selezione dei modelli, la progettazione degli schemi di raccolta e la messa a punto delle prestazioni.
- Se preferite evitare il lavoro di infrastruttura, Zilliz Cloud (gestito da Milvus) offre un livello gratuito per iniziare.
Alcune domande che sorgono quando gli ingegneri scelgono un modello di incorporazione per la produzione di RAG:
D: Devo usare un modello di incorporazione multimodale anche se al momento ho solo dati di testo?
Dipende dalla vostra roadmap. Se è probabile che la vostra pipeline aggiunga immagini, PDF o altre modalità nei prossimi 6-12 mesi, iniziare con un modello multimodale come Gemini Embedding 2 o Voyage Multimodal 3.5 evita una migrazione dolorosa in un secondo momento: non sarà necessario incorporare nuovamente l'intero set di dati. Se siete sicuri che il futuro sarà solo testuale, un modello focalizzato sul testo come OpenAI 3-large o Cohere Embed v4 vi offrirà un miglior rapporto prezzo/prestazioni.
D: Quanto spazio di archiviazione risparmia la compressione dimensionale MRL in un database vettoriale?
Passare da 3072 a 256 dimensioni significa ridurre di 12 volte lo spazio di archiviazione per vettore. Per una collezione Milvus con 100 milioni di vettori a float32, si tratta di circa 1,14 TB → 95 GB. Il punto è che non tutti i modelli gestiscono bene il troncamento: Voyage Multimodal 3.5 e Jina Embeddings v4 perdono meno dell'1% di qualità a 256 dimensioni, mentre altri si degradano notevolmente.
D: Qwen3-VL-2B è davvero migliore di Gemini Embedding 2 per la ricerca cross-modale?
Nel nostro benchmark, sì: Qwen3-VL-2B ha ottenuto un punteggio di 0,945 contro lo 0,928 di Gemini nella ricerca cross-modale con distrattori quasi identici. La ragione principale è il divario modale molto più ridotto di Qwen (0,25 contro 0,73), il che significa che le incorporazioni di testo e immagine si raggruppano più vicine nello spazio vettoriale. Detto questo, Gemini copre cinque modalità mentre Qwen ne copre tre, quindi se avete bisogno di incorporazioni audio o PDF, Gemini è l'unica opzione.
D: Posso usare questi modelli di incorporamento direttamente con Milvus?
Si. Tutti questi modelli producono vettori float standard, che possono essere inseriti in Milvus e ricercati con la similarità del coseno, la distanza L2 o il prodotto interno. PyMilvus funziona con qualsiasi modello di incorporamento: generate i vostri vettori con l'SDK del modello, quindi memorizzateli e cercateli in Milvus. Per i vettori MRL troncati, è sufficiente impostare la dimensione della collezione al valore desiderato (ad esempio, 256) al momento della creazione della collezione.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



