Cara Memilih Model Penyematan Terbaik untuk RAG pada tahun 2026: 10 Model yang Dibandingkan
TL; DR: Kami menguji 10 model penyematan di empat skenario produksi yang terlewatkan oleh tolok ukur publik: pengambilan lintas-modal, pengambilan lintas-bahasa, pengambilan informasi utama, dan kompresi dimensi. Tidak ada satu model pun yang memenangkan segalanya. Gemini Embedding 2 adalah yang terbaik secara keseluruhan. Qwen3-VL-2B sumber terbuka mengalahkan API sumber tertutup pada tugas-tugas lintas modal. Jika Anda perlu mengompres dimensi untuk menghemat penyimpanan, gunakan Voyage Multimodal 3.5 atau Jina Embeddings v4.
Mengapa MTEB Tidak Cukup untuk Memilih Model Penyematan
Sebagian besar prototipe RAG dimulai dengan penyematan teks-3-kecil dari OpenAI. Ini murah, mudah diintegrasikan, dan untuk pengambilan teks bahasa Inggris, ini bekerja dengan cukup baik. Tetapi RAG produksi berkembang dengan cepat. Pipeline Anda mengambil gambar, PDF, dokumen multibahasa - dan model penyematan teks saja tidak lagi cukup.
Papan peringkat MTEB memberi tahu Anda bahwa ada pilihan yang lebih baik. Masalahnya? MTEB hanya menguji pengambilan teks satu bahasa. Ini tidak mencakup pengambilan lintas-modal (kueri teks terhadap koleksi gambar), pencarian lintas-bahasa (kueri bahasa Mandarin yang menemukan dokumen bahasa Inggris), akurasi dokumen panjang, atau seberapa banyak kualitas yang hilang ketika Anda memotong dimensi penyematan untuk menghemat penyimpanan di basis data vektor Anda.
Jadi, model penyematan mana yang harus Anda gunakan? Hal ini tergantung pada tipe data Anda, bahasa Anda, panjang dokumen Anda, dan apakah Anda memerlukan kompresi dimensi. Kami membuat tolok ukur yang disebut CCKM dan menguji 10 model yang dirilis antara tahun 2025 dan 2026 pada dimensi tersebut.
Apa yang dimaksud dengan tolok ukur CCKM?
CCKM (Cross-modal, Cross-lingual, Informasi utama, MRL) menguji empat kemampuan yang tidak dimiliki oleh tolok ukur standar:
| Dimensi | Apa yang Diuji | Mengapa Ini Penting |
|---|---|---|
| Pengambilan lintas-modal | Mencocokkan deskripsi teks dengan gambar yang benar ketika terdapat distraktor yang hampir sama | PipaRAG multimodal membutuhkan penyematan teks dan gambar dalam ruang vektor yang sama |
| Pengambilan lintas bahasa | Menemukan dokumen bahasa Inggris yang benar dari kueri bahasa Mandarin, dan sebaliknya | Basis pengetahuan produksi sering kali multibahasa |
| Pengambilan informasi utama | Menemukan fakta spesifik yang terkubur dalam dokumen berkarakter 4K-32K (jarum di dalam tumpukan jerami) | Sistem RAG sering memproses dokumen panjang seperti kontrak dan makalah penelitian |
| Kompresi dimensi MRL | Mengukur seberapa besar kualitas model yang hilang ketika Anda memotong embedding menjadi 256 dimensi | Lebih sedikit dimensi = biaya penyimpanan yang lebih rendah dalam basis data vektor Anda, tetapi dengan biaya kualitas yang bagaimana? |
MTEB tidak mencakup semua ini. MMEB menambahkan multimodal tetapi melewatkan hard negatif, sehingga model mendapat nilai tinggi tanpa membuktikan bahwa model tersebut menangani perbedaan yang halus. CCKM dirancang untuk menutupi apa yang mereka lewatkan.
Model Embedding Mana yang Kami Uji? Penyematan Gemini 2, Penyematan Jina v4, dan Lainnya
Kami menguji 10 model yang mencakup layanan API dan opsi sumber terbuka, ditambah CLIP ViT-L-14 sebagai baseline tahun 2021.
| Model | Sumber | Parameter | Dimensi | Modalitas | Sifat Utama |
|---|---|---|---|---|---|
| Penyematan Gemini 2 | Dirahasiakan | 3072 | Teks / gambar / video / audio / PDF | Semua modalitas, cakupan terluas | |
| Jina Embeddings v4 | Jina AI | 3.8B | 2048 | Teks / gambar / PDF | Adaptor MRL + LoRA |
| Voyage Multimodal 3.5 | Voyage AI (MongoDB) | Dirahasiakan | 1024 | Teks / gambar / video | Seimbang di seluruh tugas |
| Qwen3-VL-Embedding-2B | Alibaba Qwen | 2B | 2048 | Teks / gambar / video | Sumber terbuka, multimodal yang ringan |
| Jina CLIP v2 | Jina AI | ~1B | 1024 | Teks / gambar | Arsitektur CLIP yang dimodernisasi |
| Cohere Embed v4 | Cohere | Dirahasiakan | Diperbaiki | Teks | Pengambilan perusahaan |
| Penyematan teks OpenAI-3-besar | OpenAI | Dirahasiakan | 3072 | Teks | Paling banyak digunakan |
| BGE-M3 | BAAI | 568M | 1024 | Teks | Sumber terbuka, 100+ bahasa |
| mxbai-menyematkan-besar | AI Roti Campur (Mixedbread) | 335M | 1024 | Teks | Ringan, berfokus pada bahasa Inggris |
| teks yang disematkan nomic | Nomic AI | 137M | 768 | Teks | Sangat ringan |
| Klip ViT-L-14 | OpenAI (2021) | 428M | 768 | Teks / gambar | Dasar |
Pencarian Lintas-Modal: Model Mana yang Menangani Pencarian Teks-ke-Gambar?
Jika pipeline RAG Anda menangani gambar bersama teks, model penyematan harus menempatkan kedua modalitas dalam ruang vektor yang sama. Pikirkan pencarian gambar e-commerce, basis pengetahuan gambar-teks campuran, atau sistem apa pun yang membutuhkan kueri teks untuk menemukan gambar yang tepat.
Metode
Kami mengambil 200 pasangan gambar-teks dari COCO val2017. Untuk setiap gambar, GPT-4o-mini menghasilkan deskripsi yang terperinci. Kemudian kami menulis 3 hard negatif per gambar - deskripsi yang berbeda dari yang benar hanya satu atau dua detail. Model harus menemukan kecocokan yang tepat dalam kumpulan 200 gambar dan 600 pengacau.
Contoh dari kumpulan data:
Koper kulit cokelat antik dengan stiker perjalanan termasuk California dan Kuba, diletakkan di rak koper logam dengan latar belakang langit biru - digunakan sebagai gambar uji dalam tolok ukur pengambilan lintas-modal
Deskripsi yang benar: "Gambar ini menampilkan koper kulit cokelat antik dengan berbagai stiker perjalanan, termasuk 'California', 'Kuba', dan 'New York', yang ditempatkan pada rak koper logam dengan latar belakang langit biru yang jernih."
Negatif yang keras: Kalimat yang sama, tetapi "California" menjadi "Florida" dan "langit biru" menjadi "langit mendung." Sang model harus benar-benar memahami detail gambar untuk membedakannya.
Penilaian:
- Hasilkan penyematan untuk semua gambar dan semua teks (200 deskripsi yang benar + 600 negatif).
- Teks-ke-gambar (t2i): Setiap deskripsi mencari 200 gambar untuk mencari kecocokan terdekat. Nilai satu poin jika hasil teratas benar.
- Gambar-ke-teks (i2t): Setiap gambar mencari semua 800 teks untuk kecocokan terdekat. Nilai satu poin hanya jika hasil teratas adalah deskripsi yang benar, bukan hard negatif.
- Nilai akhir: hard_avg_R@1 = (akurasi t2i + akurasi i2t) / 2
Hasil
Diagram batang horizontal yang menunjukkan Peringkat Pencarian Lintas Moda: Qwen3-VL-2B memimpin dengan 0,945, diikuti oleh Gemini Embed 2 dengan 0,928, Voyage MM-3.5 dengan 0,900, Jina CLIP v2 dengan 0,873, dan CLIP ViT-L-14 dengan 0,768
Qwen3-VL-2B, sebuah model parameter 2B sumber terbuka dari tim Qwen Alibaba, berada di urutan pertama - mengungguli semua API sumber tertutup.
Kesenjangan modalitas menjelaskan sebagian besar perbedaannya. Model penyematan memetakan teks dan gambar ke dalam ruang vektor yang sama, tetapi dalam praktiknya, kedua modalitas tersebut cenderung mengelompok di wilayah yang berbeda. Kesenjangan modalitas mengukur jarak L2 antara kedua cluster tersebut. Kesenjangan yang lebih kecil = pengambilan lintas modalitas yang lebih mudah.
Visualisasi yang membandingkan kesenjangan modalitas yang besar (0,73, klaster penyematan teks dan gambar yang berjauhan) versus kesenjangan modalitas yang kecil (0,25, klaster yang saling tumpang tindih) - kesenjangan yang lebih kecil membuat pencocokan lintas modalitas lebih mudah
| Model | Skor (R@1) | Kesenjangan Modalitas | Parameter |
|---|---|---|---|
| Qwen3-VL-2B | 0.945 | 0.25 | 2B (sumber terbuka) |
| Penyematan Gemini 2 | 0.928 | 0.73 | Tidak diketahui (tertutup) |
| Voyage Multimodal 3.5 | 0.900 | 0.59 | Tidak diketahui (ditutup) |
| Jina CLIP v2 | 0.873 | 0.87 | ~1B |
| CLIP ViT-L-14 | 0.768 | 0.83 | 428M |
Kesenjangan modalitas Qwen adalah 0,25 - kira-kira sepertiga dari 0,73 milik Gemini. Dalam basis data vektor seperti Milvus, kesenjangan modalitas yang kecil berarti Anda dapat menyimpan penyematan teks dan gambar dalam koleksi yang sama dan mencari di antara keduanya secara langsung. Kesenjangan yang besar dapat membuat pencarian kemiripan lintas modalitas menjadi kurang dapat diandalkan, dan Anda mungkin memerlukan langkah pemeringkatan ulang untuk mengimbanginya.
Pencarian Lintas Bahasa: Model Mana yang Menyelaraskan Makna Lintas Bahasa?
Basis pengetahuan multibahasa adalah hal yang umum dalam produksi. Seorang pengguna mengajukan pertanyaan dalam bahasa Mandarin, tetapi jawabannya ada dalam dokumen bahasa Inggris - atau sebaliknya. Model penyematan perlu menyelaraskan makna di seluruh bahasa, tidak hanya di dalam satu bahasa.
Metode
Kami membuat 166 pasangan kalimat paralel dalam bahasa Mandarin dan Inggris di tiga tingkat kesulitan:
Tingkat kesulitan lintas bahasa: Tingkat mudah memetakan terjemahan harfiah seperti 我爱你 menjadi Aku mencintaimu; Tingkat sedang memetakan kalimat yang diparafrasekan seperti 这道菜太咸了 menjadi Hidangan ini terlalu asin dengan kata negatif yang sulit; Tingkat sulit memetakan idiom bahasa Mandarin seperti 画蛇添足 menjadi menyepuh bunga bakung dengan kata negatif yang berbeda secara semantik
Setiap bahasa juga mendapatkan 152 distraktor negatif keras.
Penilaian:
- Buatlah penyematan untuk semua teks bahasa Mandarin (166 benar + 152 pengecoh) dan semua teks bahasa Inggris (166 benar + 152 pengecoh).
- Bahasa Mandarin → Bahasa Inggris: Setiap kalimat bahasa Mandarin mencari 318 teks bahasa Inggris untuk mendapatkan terjemahan yang benar.
- Bahasa Inggris → Bahasa Mandarin: Hal yang sama berlaku sebaliknya.
- Nilai akhir: hard_avg_R@1 = (akurasi bahasa Mandarin → bahasa Inggris + akurasi bahasa Inggris → bahasa Mandarin) / 2
Hasil
Diagram batang horizontal yang menunjukkan Peringkat Pengambilan Lintas Bahasa: Gemini Embed 2 memimpin dengan 0,997, diikuti oleh Qwen3-VL-2B dengan 0,988, Jina v4 dengan 0,985, Voyage MM-3.5 dengan 0,982, hingga mxbai dengan 0,120
Gemini Embedding 2 mendapatkan nilai 0,997 - nilai tertinggi dari semua model yang diuji. Ini adalah satu-satunya model yang mendapat nilai sempurna 1.000 pada tingkat Hard, di mana pasangan seperti "画蛇添足" → "menyepuh bunga bakung" membutuhkan pemahaman semantik yang asli di seluruh bahasa, bukan pencocokan pola.
| Model | Skor (R@1) | Mudah | Sedang | Sulit (idiom) |
|---|---|---|---|---|
| Penyematan Gemini 2 | 0.997 | 1.000 | 1.000 | 1.000 |
| Qwen3-VL-2B | 0.988 | 1.000 | 1.000 | 0.969 |
| Jina Embeddings v4 | 0.985 | 1.000 | 1.000 | 0.969 |
| Voyage Multimodal 3.5 | 0.982 | 1.000 | 1.000 | 0.938 |
| OpenAI 3-besar | 0.967 | 1.000 | 1.000 | 0.906 |
| Cohere Embed v4 | 0.955 | 1.000 | 0.980 | 0.875 |
| BGE-M3 (568M) | 0.940 | 1.000 | 0.960 | 0.844 |
| nomic-embed-text (137M) | 0.154 | 0.300 | 0.120 | 0.031 |
| mxbai-embed-besar (335M) | 0.120 | 0.220 | 0.080 | 0.031 |
7 model teratas semuanya memiliki skor 0,93 pada skor keseluruhan - perbedaan nyata terjadi pada tingkat Hard (idiom bahasa Mandarin). nomic-embed-text dan mxbai-embed-large, keduanya merupakan model ringan yang berfokus pada bahasa Inggris, memiliki skor mendekati nol pada tugas lintas bahasa.
Pengambilan Informasi Utama: Dapatkah Model Menemukan Jarum dalam Dokumen 32K-Token?
Sistem RAG sering kali memproses dokumen yang panjang - kontrak hukum, makalah penelitian, laporan internal yang berisi data yang tidak terstruktur. Pertanyaannya adalah apakah model embedding masih dapat menemukan satu fakta spesifik yang terkubur dalam ribuan karakter teks di sekitarnya.
Metode
Kami menggunakan artikel Wikipedia dengan panjang yang bervariasi (4K hingga 32K karakter) sebagai tumpukan jerami dan menyisipkan satu fakta yang dibuat - jarum - pada posisi yang berbeda: awal, 25%, 50%, 75%, dan akhir. Model ini harus menentukan, berdasarkan penyematan kueri, versi dokumen mana yang berisi jarum tersebut.
Contoh:
- Jarum: "Perusahaan Meridian melaporkan pendapatan kuartalan sebesar $847,3 juta pada Q3 2025."
- Pertanyaan: "Berapa pendapatan kuartalan Meridian Corporation?"
- Tumpukan: Artikel Wikipedia sepanjang 32.000 karakter tentang fotosintesis, dengan jarum tersembunyi di suatu tempat di dalamnya.
Penilaian:
- Hasilkan sematan untuk kueri, dokumen dengan jarum, dan dokumen tanpa jarum.
- Jika kueri lebih mirip dengan dokumen yang mengandung jarum, hitung sebagai hit.
- Akurasi rata-rata di semua panjang dokumen dan posisi jarum.
- Metrik akhir: overall_accuracy dan degradation_rate (seberapa besar penurunan akurasi dari dokumen terpendek ke dokumen terpanjang).
Hasil
Peta panas yang menunjukkan akurasi Needle-in-a-Haystack berdasarkan panjang dokumen: Gemini Embed 2 mendapat skor 1.000 di semua panjang dokumen hingga 32K; 7 model teratas mendapat skor sempurna di dalam jendela konteksnya; mxbai dan nomic menurun tajam pada 4K+
Gemini Embedding 2 adalah satu-satunya model yang diuji di seluruh rentang 4K-32K, dan model ini mendapatkan skor sempurna di setiap panjangnya. Tidak ada model lain dalam pengujian ini yang memiliki jendela konteks yang mencapai 32K.
| Model | 1K | 4K | 8K | 16K | 32K | Secara keseluruhan | Degradasi |
|---|---|---|---|---|---|---|---|
| Penyematan Gemini 2 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 0% |
| OpenAI 3-besar | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Jina Embeddings v4 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Cohere Embed v4 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Qwen3-VL-2B | 1.000 | 1.000 | - | - | - | 1.000 | 0% |
| Pelayaran Multimoda 3.5 | 1.000 | 1.000 | - | - | - | 1.000 | 0% |
| Jina CLIP v2 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| BGE-M3 (568M) | 1.000 | 1.000 | 0.920 | - | - | 0.973 | 8% |
| mxbai-menyematkan-besar (335M) | 0.980 | 0.600 | 0.400 | - | - | 0.660 | 58% |
| nomic-embed-text (137M) | 1.000 | 0.460 | 0.440 | - | - | 0.633 | 56% |
"-" berarti panjang dokumen melebihi jendela konteks model.
Tujuh model teratas memiliki nilai sempurna dalam jendela konteks mereka. BGE-M3 mulai tergelincir pada 8K (0,920). Model ringan (mxbai dan nomic) turun menjadi 0,4-0,6 hanya pada 4K karakter - sekitar 1.000 token. Untuk mxbai, penurunan ini sebagian mencerminkan jendela konteks 512 token yang memotong sebagian besar dokumen.
Kompresi Dimensi MRL: Berapa Banyak Kualitas yang Hilang pada 256 Dimensi?
Matryoshka Representation Learning (MRL ) adalah teknik pelatihan yang membuat N dimensi pertama dari sebuah vektor menjadi lebih bermakna. Ambil vektor berdimensi 3072, potong menjadi 256, dan vektor tersebut masih memiliki sebagian besar kualitas semantiknya. Dimensi yang lebih sedikit berarti biaya penyimpanan dan memori yang lebih rendah dalam basis data vektor Anda - beralih dari 3072 ke 256 dimensi adalah pengurangan penyimpanan 12x lipat.
Ilustrasi yang menunjukkan pemotongan dimensi MRL: 3072 dimensi dengan kualitas penuh, 1024 pada 95%, 512 pada 90%, 256 pada 85% - dengan penghematan penyimpanan 12x pada 256 dimensi
Metode
Kami menggunakan 150 pasangan kalimat dari tolok ukur STS-B, masing-masing dengan skor kemiripan yang dianotasi manusia (0-5). Untuk setiap model, kami menghasilkan embedding pada dimensi penuh, kemudian dipotong menjadi 1024, 512, dan 256.
Contoh data STS-B yang menunjukkan pasangan kalimat dengan skor kemiripan manusia: Seorang gadis sedang menata rambutnya vs Seorang gadis sedang menyisir rambutnya memiliki skor 2.5; Sekelompok pria bermain sepak bola di pantai vs Sekelompok anak laki-laki bermain sepak bola di pantai memiliki skor 3.6
Pemberian skor:
- Pada setiap tingkat dimensi, hitung kemiripan kosinus antara setiap pasangan kalimat yang disematkan.
- Bandingkan peringkat kemiripan model dengan peringkat manusia menggunakan ρ (korelasi peringkat) Spearman.
Apa yang dimaksud dengan ρ Spearman? Ini mengukur seberapa baik kesesuaian antara dua peringkat. Jika manusia memberi peringkat pasangan A sebagai yang paling mirip, B kedua, C paling tidak mirip - dan kemiripan kosinus model menghasilkan urutan yang sama A > B > C - maka ρ mendekati 1,0. Nilai ρ sebesar 1,0 berarti kesepakatan yang sempurna. Nilai ρ sebesar 0 berarti tidak ada korelasi.
Metrik akhir: spearman_rho (lebih tinggi lebih baik) dan min_viable_dim (dimensi terkecil di mana kualitas tetap berada dalam 5% dari kinerja dimensi penuh).
Hasil
Plot titik yang menunjukkan Dimensi Penuh MRL vs Kualitas 256 Dimensi: Voyage MM-3.5 memimpin dengan perubahan +0.6%, Jina v4 +0.5%, sedangkan Gemini Embed 2 menunjukkan -0.6% di bagian bawah
Jika Anda berencana untuk mengurangi biaya penyimpanan di Milvus atau basis data vektor lain dengan memotong dimensi, hasil ini penting.
| Model | ρ (redup penuh) | ρ (256 redup) | Peluruhan |
|---|---|---|---|
| Pelayaran Multimodal 3.5 | 0.880 | 0.874 | 0.7% |
| Jina Embeddings v4 | 0.833 | 0.828 | 0.6% |
| mxbai-embed-besar (335M) | 0.815 | 0.795 | 2.5% |
| nomic-embed-text (137M) | 0.781 | 0.774 | 0.8% |
| OpenAI 3-besar | 0.767 | 0.762 | 0.6% |
| Penyematan Gemini 2 | 0.683 | 0.689 | -0.8% |
Voyage dan Jina v4 memimpin karena keduanya dilatih secara eksplisit dengan MRL sebagai tujuan. Kompresi dimensi tidak ada hubungannya dengan ukuran model - apakah model dilatih untuk itu adalah hal yang penting.
Catatan tentang skor Gemini: peringkat MRL mencerminkan seberapa baik sebuah model mempertahankan kualitas setelah pemotongan, bukan seberapa baik pengambilan dimensi penuhnya. Pengambilan dimensi penuh Gemini sangat kuat - hasil lintas bahasa dan informasi utama sudah membuktikannya. Hanya saja tidak dioptimalkan untuk pengecilan. Jika Anda tidak membutuhkan kompresi dimensi, metrik ini tidak berlaku untuk Anda.
Model Penyematan Mana yang Harus Anda Gunakan?
Tidak ada satu model pun yang memenangkan segalanya. Berikut adalah kartu penilaian lengkapnya:
| Model | Parameter | Lintas-Modal | Lintas Bahasa | Informasi Utama | MRL ρ |
|---|---|---|---|---|---|
| Penyematan Gemini 2 | Dirahasiakan | 0.928 | 0.997 | 1.000 | 0.668 |
| Pelayaran Multimoda 3.5 | Tidak diungkapkan | 0.900 | 0.982 | 1.000 | 0.880 |
| Jina Embeddings v4 | 3.8B | - | 0.985 | 1.000 | 0.833 |
| Qwen3-VL-2B | 2B | 0.945 | 0.988 | 1.000 | 0.774 |
| OpenAI 3-besar | Dirahasiakan | - | 0.967 | 1.000 | 0.760 |
| Cohere Embed v4 | Dirahasiakan | - | 0.955 | 1.000 | - |
| Jina CLIP v2 | ~1B | 0.873 | 0.934 | 1.000 | - |
| BGE-M3 | 568M | - | 0.940 | 0.973 | 0.744 |
| mxbai-menyematkan-besar | 335M | - | 0.120 | 0.660 | 0.815 |
| nomic-embed-text | 137M | - | 0.154 | 0.633 | 0.780 |
| Jepitkan ViT-L-14 | 428M | 0.768 | 0.030 | - | - |
"-" berarti model tidak mendukung modalitas atau kemampuan tersebut. CLIP adalah garis dasar tahun 2021 sebagai referensi.
Inilah yang menonjol:
- Modal silang: Qwen3-VL-2B (0,945) pertama, Gemini (0,928) kedua, Voyage (0,900) ketiga. Model 2B sumber terbuka mengalahkan semua API sumber tertutup. Faktor yang menentukan adalah kesenjangan modalitas, bukan jumlah parameter.
- Lintas bahasa: Gemini (0,997) memimpin - satu-satunya model yang mendapat nilai sempurna pada penyelarasan tingkat idiom. Delapan model teratas semuanya memiliki skor 0,93. Model ringan yang hanya berbahasa Inggris memiliki skor mendekati nol.
- Informasi kunci: API dan model sumber terbuka yang besar memiliki skor sempurna hingga 8K. Model di bawah 335M mulai menurun pada 4K. Gemini adalah satu-satunya model yang menangani 32K dengan skor sempurna.
- Kompresi dimensi MRL: Voyage (0,880) dan Jina v4 (0,833) memimpin, kehilangan kurang dari 1% pada 256 dimensi. Gemini (0,668) berada di urutan terakhir - kuat pada dimensi penuh, tidak dioptimalkan untuk pemotongan.
Cara Memilih: Diagram Alir Keputusan
Menanamkan diagram alir pemilihan model: Mulai → Perlu gambar atau video? → Ya: Perlu menyelenggarakan sendiri? → Ya: Qwen3-VL-2B, Tidak: Gemini Embedding 2. Tidak ada gambar → Perlu menghemat penyimpanan? → Ya: Jina v4 atau Voyage, Tidak: Perlu multibahasa? → Ya: Gemini Embedding 2, Tidak: OpenAI 3-besar
Yang Terbaik dari yang Terbaik: Gemini Embedding 2
Secara keseluruhan, Gemini Embedding 2 adalah model terkuat secara keseluruhan dalam tolok ukur ini.
Kekuatan: Pertama dalam lintas bahasa (0,997) dan pengambilan informasi utama (1,000 di semua panjang hingga 32K). Kedua dalam lintas modalitas (0,928). Cakupan modalitas terluas - lima modalitas (teks, gambar, video, audio, PDF) di mana sebagian besar model hanya memiliki tiga modalitas.
Kelemahan: Terakhir dalam kompresi MRL (ρ = 0,668). Dikalahkan dalam hal modalitas silang oleh Qwen3-VL-2B yang bersumber terbuka.
Jika Anda tidak membutuhkan kompresi dimensi, Gemini tidak memiliki pesaing yang nyata dalam kombinasi pengambilan lintas bahasa + dokumen panjang. Tetapi untuk ketepatan lintas-modal atau pengoptimalan penyimpanan, model khusus lebih baik.
Keterbatasan
- Kami tidak menyertakan semua model yang layak dipertimbangkan - NVIDIA NV-Embed-v2 dan Jina v5-text ada dalam daftar, tetapi tidak masuk dalam putaran ini.
- Kami berfokus pada modalitas teks dan gambar; penyematan video, audio, dan PDF (meskipun beberapa model mengklaim dukungannya) tidak tercakup.
- Pengambilan kode dan skenario khusus domain lainnya tidak tercakup.
- Ukuran sampel relatif kecil, sehingga perbedaan peringkat yang ketat di antara model-model tersebut mungkin termasuk dalam gangguan statistik.
Hasil artikel ini akan ketinggalan zaman dalam waktu satu tahun. Model-model baru terus diluncurkan, dan papan peringkat selalu berubah di setiap rilis. Investasi yang lebih tahan lama adalah membangun jalur evaluasi Anda sendiri - tentukan tipe data Anda, pola kueri Anda, panjang dokumen Anda, dan jalankan model-model baru melalui pengujian Anda sendiri saat model-model tersebut turun. Benchmark publik seperti MTEB, MMTEB, dan MMEB layak untuk dipantau, tetapi keputusan akhir harus selalu berasal dari data Anda sendiri.
Kode benchmark kami bersifat open-source di GitHub - gabungkan dan sesuaikan dengan kasus penggunaan Anda.
Setelah Anda memilih model penyematan, Anda memerlukan tempat untuk menyimpan dan mencari vektor-vektor tersebut dalam skala besar. Milvus adalah basis data vektor sumber terbuka yang paling banyak diadopsi di dunia dengan 43 ribu lebih bintang GitHub yang dibuat untuk hal ini - Milvus mendukung dimensi terpotong MRL, koleksi multimodal campuran, pencarian hibrida yang menggabungkan vektor padat dan jarang, dan skala dari laptop hingga miliaran vektor.
- Mulailah dengan panduan Memulai Cepat Milvus, atau instal dengan
pip install pymilvus. - Bergabunglah dengan Milvus Slack atau Milvus Discord untuk mengajukan pertanyaan tentang integrasi model, strategi pengindeksan vektor, atau penskalaan produksi.
- Pesan sesi Jam Kerja Milvus gratis untuk membahas arsitektur RAG Anda - kami dapat membantu pemilihan model, desain skema koleksi, dan penyetelan kinerja.
- Jika Anda lebih suka melewatkan pekerjaan infrastruktur, Zilliz Cloud (dikelola Milvus) menawarkan tingkat gratis untuk memulai.
Beberapa pertanyaan yang muncul ketika para insinyur memilih model penyematan untuk RAG produksi:
T: Haruskah saya menggunakan model penyematan multimodal meskipun saat ini saya hanya memiliki data teks?
Itu tergantung pada peta jalan Anda. Jika pipeline Anda kemungkinan akan menambahkan gambar, PDF, atau modalitas lain dalam 6-12 bulan ke depan, memulai dengan model multimodal seperti Gemini Embedding 2 atau Voyage Multimodal 3.5 dapat menghindari migrasi yang menyakitkan di kemudian hari - Anda tidak perlu menyematkan ulang seluruh dataset Anda. Jika Anda yakin bahwa ini hanya teks saja di masa mendatang, model yang berfokus pada teks seperti OpenAI 3-large atau Cohere Embed v4 akan memberikan harga/kinerja yang lebih baik.
T: Berapa banyak penyimpanan yang sebenarnya dihemat oleh kompresi dimensi MRL dalam basis data vektor?
Beralih dari 3072 dimensi ke 256 dimensi adalah pengurangan 12x penyimpanan per vektor. Untuk koleksi Milvus dengan 100 juta vektor pada float32, itu kira-kira 1,14 TB → 95 GB. Kuncinya adalah tidak semua model menangani pemotongan dengan baik - Voyage Multimodal 3.5 dan Jina Embeddings v4 kehilangan kualitas kurang dari 1% pada 256 dimensi, sementara model lainnya mengalami penurunan kualitas yang signifikan.
T: Apakah Qwen3-VL-2B benar-benar lebih baik daripada Gemini Embedding 2 untuk pencarian lintas-modal?
Pada tolok ukur kami, ya - Qwen3-VL-2B mendapat nilai 0,945 berbanding 0,928 dari Gemini untuk pencarian lintas-modal yang sulit dengan pengacau yang hampir sama. Alasan utamanya adalah kesenjangan modalitas Qwen yang jauh lebih kecil (0,25 vs 0,73), yang berarti penyematan teks dan gambar mengelompok lebih dekat dalam ruang vektor. Meskipun demikian, Gemini mencakup lima modalitas sementara Qwen mencakup tiga modalitas, jadi jika Anda membutuhkan penyematan audio atau PDF, Gemini adalah satu-satunya pilihan.
T: Dapatkah saya menggunakan model-model penyematan ini dengan Milvus secara langsung?
Ya. Semua model ini menghasilkan vektor float standar, yang dapat Anda masukkan ke dalam Milvus dan mencari dengan kemiripan kosinus, jarak L2, atau inner product. PyMilvus dapat digunakan dengan model penyisipan apa pun - buat vektor Anda dengan SDK model, lalu simpan dan cari di Milvus. Untuk vektor terpotong MRL, cukup atur dimensi koleksi ke target Anda (misalnya, 256) saat membuat koleksi.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



