Cara Memilih Model Penyematan Terbaik untuk RAG pada tahun 2026: 10 Model yang Dibandingkan

  • Engineering
March 26, 2026
Cheney Zhang

TL; DR: Kami menguji 10 model penyematan di empat skenario produksi yang terlewatkan oleh tolok ukur publik: pengambilan lintas-modal, pengambilan lintas-bahasa, pengambilan informasi utama, dan kompresi dimensi. Tidak ada satu model pun yang memenangkan segalanya. Gemini Embedding 2 adalah yang terbaik secara keseluruhan. Qwen3-VL-2B sumber terbuka mengalahkan API sumber tertutup pada tugas-tugas lintas modal. Jika Anda perlu mengompres dimensi untuk menghemat penyimpanan, gunakan Voyage Multimodal 3.5 atau Jina Embeddings v4.

Mengapa MTEB Tidak Cukup untuk Memilih Model Penyematan

Sebagian besar prototipe RAG dimulai dengan penyematan teks-3-kecil dari OpenAI. Ini murah, mudah diintegrasikan, dan untuk pengambilan teks bahasa Inggris, ini bekerja dengan cukup baik. Tetapi RAG produksi berkembang dengan cepat. Pipeline Anda mengambil gambar, PDF, dokumen multibahasa - dan model penyematan teks saja tidak lagi cukup.

Papan peringkat MTEB memberi tahu Anda bahwa ada pilihan yang lebih baik. Masalahnya? MTEB hanya menguji pengambilan teks satu bahasa. Ini tidak mencakup pengambilan lintas-modal (kueri teks terhadap koleksi gambar), pencarian lintas-bahasa (kueri bahasa Mandarin yang menemukan dokumen bahasa Inggris), akurasi dokumen panjang, atau seberapa banyak kualitas yang hilang ketika Anda memotong dimensi penyematan untuk menghemat penyimpanan di basis data vektor Anda.

Jadi, model penyematan mana yang harus Anda gunakan? Hal ini tergantung pada tipe data Anda, bahasa Anda, panjang dokumen Anda, dan apakah Anda memerlukan kompresi dimensi. Kami membuat tolok ukur yang disebut CCKM dan menguji 10 model yang dirilis antara tahun 2025 dan 2026 pada dimensi tersebut.

Apa yang dimaksud dengan tolok ukur CCKM?

CCKM (Cross-modal, Cross-lingual, Informasi utama, MRL) menguji empat kemampuan yang tidak dimiliki oleh tolok ukur standar:

DimensiApa yang DiujiMengapa Ini Penting
Pengambilan lintas-modalMencocokkan deskripsi teks dengan gambar yang benar ketika terdapat distraktor yang hampir samaPipaRAG multimodal membutuhkan penyematan teks dan gambar dalam ruang vektor yang sama
Pengambilan lintas bahasaMenemukan dokumen bahasa Inggris yang benar dari kueri bahasa Mandarin, dan sebaliknyaBasis pengetahuan produksi sering kali multibahasa
Pengambilan informasi utamaMenemukan fakta spesifik yang terkubur dalam dokumen berkarakter 4K-32K (jarum di dalam tumpukan jerami)Sistem RAG sering memproses dokumen panjang seperti kontrak dan makalah penelitian
Kompresi dimensi MRLMengukur seberapa besar kualitas model yang hilang ketika Anda memotong embedding menjadi 256 dimensiLebih sedikit dimensi = biaya penyimpanan yang lebih rendah dalam basis data vektor Anda, tetapi dengan biaya kualitas yang bagaimana?

MTEB tidak mencakup semua ini. MMEB menambahkan multimodal tetapi melewatkan hard negatif, sehingga model mendapat nilai tinggi tanpa membuktikan bahwa model tersebut menangani perbedaan yang halus. CCKM dirancang untuk menutupi apa yang mereka lewatkan.

Model Embedding Mana yang Kami Uji? Penyematan Gemini 2, Penyematan Jina v4, dan Lainnya

Kami menguji 10 model yang mencakup layanan API dan opsi sumber terbuka, ditambah CLIP ViT-L-14 sebagai baseline tahun 2021.

ModelSumberParameterDimensiModalitasSifat Utama
Penyematan Gemini 2GoogleDirahasiakan3072Teks / gambar / video / audio / PDFSemua modalitas, cakupan terluas
Jina Embeddings v4Jina AI3.8B2048Teks / gambar / PDFAdaptor MRL + LoRA
Voyage Multimodal 3.5Voyage AI (MongoDB)Dirahasiakan1024Teks / gambar / videoSeimbang di seluruh tugas
Qwen3-VL-Embedding-2BAlibaba Qwen2B2048Teks / gambar / videoSumber terbuka, multimodal yang ringan
Jina CLIP v2Jina AI~1B1024Teks / gambarArsitektur CLIP yang dimodernisasi
Cohere Embed v4CohereDirahasiakanDiperbaikiTeksPengambilan perusahaan
Penyematan teks OpenAI-3-besarOpenAIDirahasiakan3072TeksPaling banyak digunakan
BGE-M3BAAI568M1024TeksSumber terbuka, 100+ bahasa
mxbai-menyematkan-besarAI Roti Campur (Mixedbread)335M1024TeksRingan, berfokus pada bahasa Inggris
teks yang disematkan nomicNomic AI137M768TeksSangat ringan
Klip ViT-L-14OpenAI (2021)428M768Teks / gambarDasar

Jika pipeline RAG Anda menangani gambar bersama teks, model penyematan harus menempatkan kedua modalitas dalam ruang vektor yang sama. Pikirkan pencarian gambar e-commerce, basis pengetahuan gambar-teks campuran, atau sistem apa pun yang membutuhkan kueri teks untuk menemukan gambar yang tepat.

Metode

Kami mengambil 200 pasangan gambar-teks dari COCO val2017. Untuk setiap gambar, GPT-4o-mini menghasilkan deskripsi yang terperinci. Kemudian kami menulis 3 hard negatif per gambar - deskripsi yang berbeda dari yang benar hanya satu atau dua detail. Model harus menemukan kecocokan yang tepat dalam kumpulan 200 gambar dan 600 pengacau.

Contoh dari kumpulan data:

Vintage brown leather suitcases with travel stickers including California and Cuba, placed on a metal luggage rack against a blue sky — used as a test image in the cross-modal retrieval benchmark Koper kulit cokelat antik dengan stiker perjalanan termasuk California dan Kuba, diletakkan di rak koper logam dengan latar belakang langit biru - digunakan sebagai gambar uji dalam tolok ukur pengambilan lintas-modal

Deskripsi yang benar: "Gambar ini menampilkan koper kulit cokelat antik dengan berbagai stiker perjalanan, termasuk 'California', 'Kuba', dan 'New York', yang ditempatkan pada rak koper logam dengan latar belakang langit biru yang jernih."

Negatif yang keras: Kalimat yang sama, tetapi "California" menjadi "Florida" dan "langit biru" menjadi "langit mendung." Sang model harus benar-benar memahami detail gambar untuk membedakannya.

Penilaian:

  • Hasilkan penyematan untuk semua gambar dan semua teks (200 deskripsi yang benar + 600 negatif).
  • Teks-ke-gambar (t2i): Setiap deskripsi mencari 200 gambar untuk mencari kecocokan terdekat. Nilai satu poin jika hasil teratas benar.
  • Gambar-ke-teks (i2t): Setiap gambar mencari semua 800 teks untuk kecocokan terdekat. Nilai satu poin hanya jika hasil teratas adalah deskripsi yang benar, bukan hard negatif.
  • Nilai akhir: hard_avg_R@1 = (akurasi t2i + akurasi i2t) / 2

Hasil

Horizontal bar chart showing Cross-Modal Retrieval Ranking: Qwen3-VL-2B leads at 0.945, followed by Gemini Embed 2 at 0.928, Voyage MM-3.5 at 0.900, Jina CLIP v2 at 0.873, and CLIP ViT-L-14 at 0.768 Diagram batang horizontal yang menunjukkan Peringkat Pencarian Lintas Moda: Qwen3-VL-2B memimpin dengan 0,945, diikuti oleh Gemini Embed 2 dengan 0,928, Voyage MM-3.5 dengan 0,900, Jina CLIP v2 dengan 0,873, dan CLIP ViT-L-14 dengan 0,768

Qwen3-VL-2B, sebuah model parameter 2B sumber terbuka dari tim Qwen Alibaba, berada di urutan pertama - mengungguli semua API sumber tertutup.

Kesenjangan modalitas menjelaskan sebagian besar perbedaannya. Model penyematan memetakan teks dan gambar ke dalam ruang vektor yang sama, tetapi dalam praktiknya, kedua modalitas tersebut cenderung mengelompok di wilayah yang berbeda. Kesenjangan modalitas mengukur jarak L2 antara kedua cluster tersebut. Kesenjangan yang lebih kecil = pengambilan lintas modalitas yang lebih mudah.

Visualization comparing large modality gap (0.73, text and image embedding clusters far apart) versus small modality gap (0.25, clusters overlapping) — smaller gap makes cross-modal matching easier Visualisasi yang membandingkan kesenjangan modalitas yang besar (0,73, klaster penyematan teks dan gambar yang berjauhan) versus kesenjangan modalitas yang kecil (0,25, klaster yang saling tumpang tindih) - kesenjangan yang lebih kecil membuat pencocokan lintas modalitas lebih mudah

ModelSkor (R@1)Kesenjangan ModalitasParameter
Qwen3-VL-2B0.9450.252B (sumber terbuka)
Penyematan Gemini 20.9280.73Tidak diketahui (tertutup)
Voyage Multimodal 3.50.9000.59Tidak diketahui (ditutup)
Jina CLIP v20.8730.87~1B
CLIP ViT-L-140.7680.83428M

Kesenjangan modalitas Qwen adalah 0,25 - kira-kira sepertiga dari 0,73 milik Gemini. Dalam basis data vektor seperti Milvus, kesenjangan modalitas yang kecil berarti Anda dapat menyimpan penyematan teks dan gambar dalam koleksi yang sama dan mencari di antara keduanya secara langsung. Kesenjangan yang besar dapat membuat pencarian kemiripan lintas modalitas menjadi kurang dapat diandalkan, dan Anda mungkin memerlukan langkah pemeringkatan ulang untuk mengimbanginya.

Pencarian Lintas Bahasa: Model Mana yang Menyelaraskan Makna Lintas Bahasa?

Basis pengetahuan multibahasa adalah hal yang umum dalam produksi. Seorang pengguna mengajukan pertanyaan dalam bahasa Mandarin, tetapi jawabannya ada dalam dokumen bahasa Inggris - atau sebaliknya. Model penyematan perlu menyelaraskan makna di seluruh bahasa, tidak hanya di dalam satu bahasa.

Metode

Kami membuat 166 pasangan kalimat paralel dalam bahasa Mandarin dan Inggris di tiga tingkat kesulitan:

Cross-lingual difficulty tiers: Easy tier maps literal translations like 我爱你 to I love you; Medium tier maps paraphrased sentences like 这道菜太咸了 to This dish is too salty with hard negatives; Hard tier maps Chinese idioms like 画蛇添足 to gilding the lily with semantically different hard negatives Tingkat kesulitan lintas bahasa: Tingkat mudah memetakan terjemahan harfiah seperti 我爱你 menjadi Aku mencintaimu; Tingkat sedang memetakan kalimat yang diparafrasekan seperti 这道菜太咸了 menjadi Hidangan ini terlalu asin dengan kata negatif yang sulit; Tingkat sulit memetakan idiom bahasa Mandarin seperti 画蛇添足 menjadi menyepuh bunga bakung dengan kata negatif yang berbeda secara semantik

Setiap bahasa juga mendapatkan 152 distraktor negatif keras.

Penilaian:

  • Buatlah penyematan untuk semua teks bahasa Mandarin (166 benar + 152 pengecoh) dan semua teks bahasa Inggris (166 benar + 152 pengecoh).
  • Bahasa Mandarin → Bahasa Inggris: Setiap kalimat bahasa Mandarin mencari 318 teks bahasa Inggris untuk mendapatkan terjemahan yang benar.
  • Bahasa Inggris → Bahasa Mandarin: Hal yang sama berlaku sebaliknya.
  • Nilai akhir: hard_avg_R@1 = (akurasi bahasa Mandarin → bahasa Inggris + akurasi bahasa Inggris → bahasa Mandarin) / 2

Hasil

Horizontal bar chart showing Cross-Lingual Retrieval Ranking: Gemini Embed 2 leads at 0.997, followed by Qwen3-VL-2B at 0.988, Jina v4 at 0.985, Voyage MM-3.5 at 0.982, down to mxbai at 0.120 Diagram batang horizontal yang menunjukkan Peringkat Pengambilan Lintas Bahasa: Gemini Embed 2 memimpin dengan 0,997, diikuti oleh Qwen3-VL-2B dengan 0,988, Jina v4 dengan 0,985, Voyage MM-3.5 dengan 0,982, hingga mxbai dengan 0,120

Gemini Embedding 2 mendapatkan nilai 0,997 - nilai tertinggi dari semua model yang diuji. Ini adalah satu-satunya model yang mendapat nilai sempurna 1.000 pada tingkat Hard, di mana pasangan seperti "画蛇添足" → "menyepuh bunga bakung" membutuhkan pemahaman semantik yang asli di seluruh bahasa, bukan pencocokan pola.

ModelSkor (R@1)MudahSedangSulit (idiom)
Penyematan Gemini 20.9971.0001.0001.000
Qwen3-VL-2B0.9881.0001.0000.969
Jina Embeddings v40.9851.0001.0000.969
Voyage Multimodal 3.50.9821.0001.0000.938
OpenAI 3-besar0.9671.0001.0000.906
Cohere Embed v40.9551.0000.9800.875
BGE-M3 (568M)0.9401.0000.9600.844
nomic-embed-text (137M)0.1540.3000.1200.031
mxbai-embed-besar (335M)0.1200.2200.0800.031

7 model teratas semuanya memiliki skor 0,93 pada skor keseluruhan - perbedaan nyata terjadi pada tingkat Hard (idiom bahasa Mandarin). nomic-embed-text dan mxbai-embed-large, keduanya merupakan model ringan yang berfokus pada bahasa Inggris, memiliki skor mendekati nol pada tugas lintas bahasa.

Pengambilan Informasi Utama: Dapatkah Model Menemukan Jarum dalam Dokumen 32K-Token?

Sistem RAG sering kali memproses dokumen yang panjang - kontrak hukum, makalah penelitian, laporan internal yang berisi data yang tidak terstruktur. Pertanyaannya adalah apakah model embedding masih dapat menemukan satu fakta spesifik yang terkubur dalam ribuan karakter teks di sekitarnya.

Metode

Kami menggunakan artikel Wikipedia dengan panjang yang bervariasi (4K hingga 32K karakter) sebagai tumpukan jerami dan menyisipkan satu fakta yang dibuat - jarum - pada posisi yang berbeda: awal, 25%, 50%, 75%, dan akhir. Model ini harus menentukan, berdasarkan penyematan kueri, versi dokumen mana yang berisi jarum tersebut.

Contoh:

  • Jarum: "Perusahaan Meridian melaporkan pendapatan kuartalan sebesar $847,3 juta pada Q3 2025."
  • Pertanyaan: "Berapa pendapatan kuartalan Meridian Corporation?"
  • Tumpukan: Artikel Wikipedia sepanjang 32.000 karakter tentang fotosintesis, dengan jarum tersembunyi di suatu tempat di dalamnya.

Penilaian:

  • Hasilkan sematan untuk kueri, dokumen dengan jarum, dan dokumen tanpa jarum.
  • Jika kueri lebih mirip dengan dokumen yang mengandung jarum, hitung sebagai hit.
  • Akurasi rata-rata di semua panjang dokumen dan posisi jarum.
  • Metrik akhir: overall_accuracy dan degradation_rate (seberapa besar penurunan akurasi dari dokumen terpendek ke dokumen terpanjang).

Hasil

Heatmap showing Needle-in-a-Haystack accuracy by document length: Gemini Embed 2 scores 1.000 across all lengths up to 32K; top 7 models score perfectly within their context windows; mxbai and nomic degrade sharply at 4K+ Peta panas yang menunjukkan akurasi Needle-in-a-Haystack berdasarkan panjang dokumen: Gemini Embed 2 mendapat skor 1.000 di semua panjang dokumen hingga 32K; 7 model teratas mendapat skor sempurna di dalam jendela konteksnya; mxbai dan nomic menurun tajam pada 4K+

Gemini Embedding 2 adalah satu-satunya model yang diuji di seluruh rentang 4K-32K, dan model ini mendapatkan skor sempurna di setiap panjangnya. Tidak ada model lain dalam pengujian ini yang memiliki jendela konteks yang mencapai 32K.

Model1K4K8K16K32KSecara keseluruhanDegradasi
Penyematan Gemini 21.0001.0001.0001.0001.0001.0000%
OpenAI 3-besar1.0001.0001.000--1.0000%
Jina Embeddings v41.0001.0001.000--1.0000%
Cohere Embed v41.0001.0001.000--1.0000%
Qwen3-VL-2B1.0001.000---1.0000%
Pelayaran Multimoda 3.51.0001.000---1.0000%
Jina CLIP v21.0001.0001.000--1.0000%
BGE-M3 (568M)1.0001.0000.920--0.9738%
mxbai-menyematkan-besar (335M)0.9800.6000.400--0.66058%
nomic-embed-text (137M)1.0000.4600.440--0.63356%

"-" berarti panjang dokumen melebihi jendela konteks model.

Tujuh model teratas memiliki nilai sempurna dalam jendela konteks mereka. BGE-M3 mulai tergelincir pada 8K (0,920). Model ringan (mxbai dan nomic) turun menjadi 0,4-0,6 hanya pada 4K karakter - sekitar 1.000 token. Untuk mxbai, penurunan ini sebagian mencerminkan jendela konteks 512 token yang memotong sebagian besar dokumen.

Kompresi Dimensi MRL: Berapa Banyak Kualitas yang Hilang pada 256 Dimensi?

Matryoshka Representation Learning (MRL ) adalah teknik pelatihan yang membuat N dimensi pertama dari sebuah vektor menjadi lebih bermakna. Ambil vektor berdimensi 3072, potong menjadi 256, dan vektor tersebut masih memiliki sebagian besar kualitas semantiknya. Dimensi yang lebih sedikit berarti biaya penyimpanan dan memori yang lebih rendah dalam basis data vektor Anda - beralih dari 3072 ke 256 dimensi adalah pengurangan penyimpanan 12x lipat.

Illustration showing MRL dimension truncation: 3072 dimensions at full quality, 1024 at 95%, 512 at 90%, 256 at 85% — with 12x storage savings at 256 dimensions Ilustrasi yang menunjukkan pemotongan dimensi MRL: 3072 dimensi dengan kualitas penuh, 1024 pada 95%, 512 pada 90%, 256 pada 85% - dengan penghematan penyimpanan 12x pada 256 dimensi

Metode

Kami menggunakan 150 pasangan kalimat dari tolok ukur STS-B, masing-masing dengan skor kemiripan yang dianotasi manusia (0-5). Untuk setiap model, kami menghasilkan embedding pada dimensi penuh, kemudian dipotong menjadi 1024, 512, dan 256.

STS-B data examples showing sentence pairs with human similarity scores: A girl is styling her hair vs A girl is brushing her hair scores 2.5; A group of men play soccer on the beach vs A group of boys are playing soccer on the beach scores 3.6 Contoh data STS-B yang menunjukkan pasangan kalimat dengan skor kemiripan manusia: Seorang gadis sedang menata rambutnya vs Seorang gadis sedang menyisir rambutnya memiliki skor 2.5; Sekelompok pria bermain sepak bola di pantai vs Sekelompok anak laki-laki bermain sepak bola di pantai memiliki skor 3.6

Pemberian skor:

  • Pada setiap tingkat dimensi, hitung kemiripan kosinus antara setiap pasangan kalimat yang disematkan.
  • Bandingkan peringkat kemiripan model dengan peringkat manusia menggunakan ρ (korelasi peringkat) Spearman.

Apa yang dimaksud dengan ρ Spearman? Ini mengukur seberapa baik kesesuaian antara dua peringkat. Jika manusia memberi peringkat pasangan A sebagai yang paling mirip, B kedua, C paling tidak mirip - dan kemiripan kosinus model menghasilkan urutan yang sama A > B > C - maka ρ mendekati 1,0. Nilai ρ sebesar 1,0 berarti kesepakatan yang sempurna. Nilai ρ sebesar 0 berarti tidak ada korelasi.

Metrik akhir: spearman_rho (lebih tinggi lebih baik) dan min_viable_dim (dimensi terkecil di mana kualitas tetap berada dalam 5% dari kinerja dimensi penuh).

Hasil

Dot plot showing MRL Full Dimension vs 256 Dimension Quality: Voyage MM-3.5 leads with +0.6% change, Jina v4 +0.5%, while Gemini Embed 2 shows -0.6% at the bottom Plot titik yang menunjukkan Dimensi Penuh MRL vs Kualitas 256 Dimensi: Voyage MM-3.5 memimpin dengan perubahan +0.6%, Jina v4 +0.5%, sedangkan Gemini Embed 2 menunjukkan -0.6% di bagian bawah

Jika Anda berencana untuk mengurangi biaya penyimpanan di Milvus atau basis data vektor lain dengan memotong dimensi, hasil ini penting.

Modelρ (redup penuh)ρ (256 redup)Peluruhan
Pelayaran Multimodal 3.50.8800.8740.7%
Jina Embeddings v40.8330.8280.6%
mxbai-embed-besar (335M)0.8150.7952.5%
nomic-embed-text (137M)0.7810.7740.8%
OpenAI 3-besar0.7670.7620.6%
Penyematan Gemini 20.6830.689-0.8%

Voyage dan Jina v4 memimpin karena keduanya dilatih secara eksplisit dengan MRL sebagai tujuan. Kompresi dimensi tidak ada hubungannya dengan ukuran model - apakah model dilatih untuk itu adalah hal yang penting.

Catatan tentang skor Gemini: peringkat MRL mencerminkan seberapa baik sebuah model mempertahankan kualitas setelah pemotongan, bukan seberapa baik pengambilan dimensi penuhnya. Pengambilan dimensi penuh Gemini sangat kuat - hasil lintas bahasa dan informasi utama sudah membuktikannya. Hanya saja tidak dioptimalkan untuk pengecilan. Jika Anda tidak membutuhkan kompresi dimensi, metrik ini tidak berlaku untuk Anda.

Model Penyematan Mana yang Harus Anda Gunakan?

Tidak ada satu model pun yang memenangkan segalanya. Berikut adalah kartu penilaian lengkapnya:

ModelParameterLintas-ModalLintas BahasaInformasi UtamaMRL ρ
Penyematan Gemini 2Dirahasiakan0.9280.9971.0000.668
Pelayaran Multimoda 3.5Tidak diungkapkan0.9000.9821.0000.880
Jina Embeddings v43.8B-0.9851.0000.833
Qwen3-VL-2B2B0.9450.9881.0000.774
OpenAI 3-besarDirahasiakan-0.9671.0000.760
Cohere Embed v4Dirahasiakan-0.9551.000-
Jina CLIP v2~1B0.8730.9341.000-
BGE-M3568M-0.9400.9730.744
mxbai-menyematkan-besar335M-0.1200.6600.815
nomic-embed-text137M-0.1540.6330.780
Jepitkan ViT-L-14428M0.7680.030--

"-" berarti model tidak mendukung modalitas atau kemampuan tersebut. CLIP adalah garis dasar tahun 2021 sebagai referensi.

Inilah yang menonjol:

  • Modal silang: Qwen3-VL-2B (0,945) pertama, Gemini (0,928) kedua, Voyage (0,900) ketiga. Model 2B sumber terbuka mengalahkan semua API sumber tertutup. Faktor yang menentukan adalah kesenjangan modalitas, bukan jumlah parameter.
  • Lintas bahasa: Gemini (0,997) memimpin - satu-satunya model yang mendapat nilai sempurna pada penyelarasan tingkat idiom. Delapan model teratas semuanya memiliki skor 0,93. Model ringan yang hanya berbahasa Inggris memiliki skor mendekati nol.
  • Informasi kunci: API dan model sumber terbuka yang besar memiliki skor sempurna hingga 8K. Model di bawah 335M mulai menurun pada 4K. Gemini adalah satu-satunya model yang menangani 32K dengan skor sempurna.
  • Kompresi dimensi MRL: Voyage (0,880) dan Jina v4 (0,833) memimpin, kehilangan kurang dari 1% pada 256 dimensi. Gemini (0,668) berada di urutan terakhir - kuat pada dimensi penuh, tidak dioptimalkan untuk pemotongan.

Cara Memilih: Diagram Alir Keputusan

Embedding model selection flowchart: Start → Need images or video? → Yes: Need to self-host? → Yes: Qwen3-VL-2B, No: Gemini Embedding 2. No images → Need to save storage? → Yes: Jina v4 or Voyage, No: Need multilingual? → Yes: Gemini Embedding 2, No: OpenAI 3-large Menanamkan diagram alir pemilihan model: Mulai → Perlu gambar atau video? → Ya: Perlu menyelenggarakan sendiri? → Ya: Qwen3-VL-2B, Tidak: Gemini Embedding 2. Tidak ada gambar → Perlu menghemat penyimpanan? → Ya: Jina v4 atau Voyage, Tidak: Perlu multibahasa? → Ya: Gemini Embedding 2, Tidak: OpenAI 3-besar

Yang Terbaik dari yang Terbaik: Gemini Embedding 2

Secara keseluruhan, Gemini Embedding 2 adalah model terkuat secara keseluruhan dalam tolok ukur ini.

Kekuatan: Pertama dalam lintas bahasa (0,997) dan pengambilan informasi utama (1,000 di semua panjang hingga 32K). Kedua dalam lintas modalitas (0,928). Cakupan modalitas terluas - lima modalitas (teks, gambar, video, audio, PDF) di mana sebagian besar model hanya memiliki tiga modalitas.

Kelemahan: Terakhir dalam kompresi MRL (ρ = 0,668). Dikalahkan dalam hal modalitas silang oleh Qwen3-VL-2B yang bersumber terbuka.

Jika Anda tidak membutuhkan kompresi dimensi, Gemini tidak memiliki pesaing yang nyata dalam kombinasi pengambilan lintas bahasa + dokumen panjang. Tetapi untuk ketepatan lintas-modal atau pengoptimalan penyimpanan, model khusus lebih baik.

Keterbatasan

  • Kami tidak menyertakan semua model yang layak dipertimbangkan - NVIDIA NV-Embed-v2 dan Jina v5-text ada dalam daftar, tetapi tidak masuk dalam putaran ini.
  • Kami berfokus pada modalitas teks dan gambar; penyematan video, audio, dan PDF (meskipun beberapa model mengklaim dukungannya) tidak tercakup.
  • Pengambilan kode dan skenario khusus domain lainnya tidak tercakup.
  • Ukuran sampel relatif kecil, sehingga perbedaan peringkat yang ketat di antara model-model tersebut mungkin termasuk dalam gangguan statistik.

Hasil artikel ini akan ketinggalan zaman dalam waktu satu tahun. Model-model baru terus diluncurkan, dan papan peringkat selalu berubah di setiap rilis. Investasi yang lebih tahan lama adalah membangun jalur evaluasi Anda sendiri - tentukan tipe data Anda, pola kueri Anda, panjang dokumen Anda, dan jalankan model-model baru melalui pengujian Anda sendiri saat model-model tersebut turun. Benchmark publik seperti MTEB, MMTEB, dan MMEB layak untuk dipantau, tetapi keputusan akhir harus selalu berasal dari data Anda sendiri.

Kode benchmark kami bersifat open-source di GitHub - gabungkan dan sesuaikan dengan kasus penggunaan Anda.


Setelah Anda memilih model penyematan, Anda memerlukan tempat untuk menyimpan dan mencari vektor-vektor tersebut dalam skala besar. Milvus adalah basis data vektor sumber terbuka yang paling banyak diadopsi di dunia dengan 43 ribu lebih bintang GitHub yang dibuat untuk hal ini - Milvus mendukung dimensi terpotong MRL, koleksi multimodal campuran, pencarian hibrida yang menggabungkan vektor padat dan jarang, dan skala dari laptop hingga miliaran vektor.

  • Mulailah dengan panduan Memulai Cepat Milvus, atau instal dengan pip install pymilvus.
  • Bergabunglah dengan Milvus Slack atau Milvus Discord untuk mengajukan pertanyaan tentang integrasi model, strategi pengindeksan vektor, atau penskalaan produksi.
  • Pesan sesi Jam Kerja Milvus gratis untuk membahas arsitektur RAG Anda - kami dapat membantu pemilihan model, desain skema koleksi, dan penyetelan kinerja.
  • Jika Anda lebih suka melewatkan pekerjaan infrastruktur, Zilliz Cloud (dikelola Milvus) menawarkan tingkat gratis untuk memulai.

Beberapa pertanyaan yang muncul ketika para insinyur memilih model penyematan untuk RAG produksi:

T: Haruskah saya menggunakan model penyematan multimodal meskipun saat ini saya hanya memiliki data teks?

Itu tergantung pada peta jalan Anda. Jika pipeline Anda kemungkinan akan menambahkan gambar, PDF, atau modalitas lain dalam 6-12 bulan ke depan, memulai dengan model multimodal seperti Gemini Embedding 2 atau Voyage Multimodal 3.5 dapat menghindari migrasi yang menyakitkan di kemudian hari - Anda tidak perlu menyematkan ulang seluruh dataset Anda. Jika Anda yakin bahwa ini hanya teks saja di masa mendatang, model yang berfokus pada teks seperti OpenAI 3-large atau Cohere Embed v4 akan memberikan harga/kinerja yang lebih baik.

T: Berapa banyak penyimpanan yang sebenarnya dihemat oleh kompresi dimensi MRL dalam basis data vektor?

Beralih dari 3072 dimensi ke 256 dimensi adalah pengurangan 12x penyimpanan per vektor. Untuk koleksi Milvus dengan 100 juta vektor pada float32, itu kira-kira 1,14 TB → 95 GB. Kuncinya adalah tidak semua model menangani pemotongan dengan baik - Voyage Multimodal 3.5 dan Jina Embeddings v4 kehilangan kualitas kurang dari 1% pada 256 dimensi, sementara model lainnya mengalami penurunan kualitas yang signifikan.

T: Apakah Qwen3-VL-2B benar-benar lebih baik daripada Gemini Embedding 2 untuk pencarian lintas-modal?

Pada tolok ukur kami, ya - Qwen3-VL-2B mendapat nilai 0,945 berbanding 0,928 dari Gemini untuk pencarian lintas-modal yang sulit dengan pengacau yang hampir sama. Alasan utamanya adalah kesenjangan modalitas Qwen yang jauh lebih kecil (0,25 vs 0,73), yang berarti penyematan teks dan gambar mengelompok lebih dekat dalam ruang vektor. Meskipun demikian, Gemini mencakup lima modalitas sementara Qwen mencakup tiga modalitas, jadi jika Anda membutuhkan penyematan audio atau PDF, Gemini adalah satu-satunya pilihan.

T: Dapatkah saya menggunakan model-model penyematan ini dengan Milvus secara langsung?

Ya. Semua model ini menghasilkan vektor float standar, yang dapat Anda masukkan ke dalam Milvus dan mencari dengan kemiripan kosinus, jarak L2, atau inner product. PyMilvus dapat digunakan dengan model penyisipan apa pun - buat vektor Anda dengan SDK model, lalu simpan dan cari di Milvus. Untuk vektor terpotong MRL, cukup atur dimensi koleksi ke target Anda (misalnya, 256) saat membuat koleksi.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Terus Baca