Как выбрать лучшую модель встраивания для RAG в 2026 году: 10 моделей в сравнении

  • Engineering
March 26, 2026
Cheney Zhang

TL;DR: Мы протестировали 10 моделей встраивания в четырех производственных сценариях, которые не учитываются в публичных бенчмарках: кросс-модальный поиск, кросс-языковой поиск, поиск ключевой информации и сжатие размеров. Ни одна модель не победила во всех случаях. Gemini Embedding 2 - лучший универсал. Qwen3-VL-2B с открытым исходным кодом выигрывает у закрытых API в кросс-модальных задачах. Если вам нужно сжать размеры для экономии места, выбирайте Voyage Multimodal 3.5 или Jina Embeddings v4.

Почему MTEB недостаточно для выбора модели встраивания

Большинство прототипов RAG начинают с модели OpenAI text-embedding-3-small. Она дешевая, ее легко интегрировать, и для поиска английского текста она работает достаточно хорошо. Но производственный RAG быстро перерастает его. В ваш конвейер попадают изображения, PDF-файлы, многоязычные документы - и модели встраивания только текста перестает быть достаточно.

Таблица лидеров MTEB подсказывает вам, что есть варианты получше. Проблема? MTEB тестирует только одноязычный поиск текста. Он не охватывает кросс-модальный поиск (текстовые запросы к коллекциям изображений), кросс-языковой поиск (китайский запрос находит английский документ), точность длинных документов или то, насколько теряется качество при усечении размеров встраивания для экономии места в векторной базе данных.

Так какую же модель встраивания следует использовать? Это зависит от типов данных, языков, длины документов и того, нужно ли вам сжатие размеров. Мы создали эталон под названием CCKM и протестировали 10 моделей, выпущенных в период с 2025 по 2026 год, именно по этим параметрам.

Что такое эталон CCKM?

CCKM (Cross-modal, Cross-lingual, Key information, MRL) тестирует четыре возможности, которых не хватает стандартным эталонам:

ИзмерениеЧто проверяетПочему это важно
Кросс-модальный поискСопоставление текстовых описаний с правильным изображением при наличии почти идентичных отвлекающих элементовМультимодальные конвейерыRAG нуждаются во вкраплениях текста и изображений в одном и том же векторном пространстве
Межъязыковой поискПоиск правильного английского документа по китайскому запросу и наоборотПроизводственные базы знаний часто бывают многоязычными
Поиск ключевой информацииПоиск конкретного факта в документе объемом 4K-32K символов (иголка в стоге сена).Системы RAG часто обрабатывают длинные документы, такие как контракты и исследовательские работы
Сжатие размеров MRLИзмерьте, насколько теряет качество модель при сокращении вкраплений до 256 измерений.Меньшее количество измерений = меньшая стоимость хранения в вашей векторной базе данных, но какой ценой достигается качество?

MTEB не покрывает ни одну из этих задач. MMEB добавляет мультимодальность, но пропускает жесткие отрицания, поэтому модели получают высокие баллы, не доказав, что они справляются с тонкими различиями. CCKM призвана покрыть то, что они упускают.

Какие модели встраивания мы тестировали? Gemini Embedding 2, Jina Embeddings v4 и другие.

Мы протестировали 10 моделей, охватывающих как API-сервисы, так и варианты с открытым исходным кодом, а также CLIP ViT-L-14 в качестве базового уровня 2021 года.

МодельИсточникПараметрыРазмерыМодальностьКлючевой признак
Gemini Embedding 2GoogleНераскрытый3072Текст / изображение / видео / аудио / PDFВсемодальность, широчайший охват
Jina Embeddings v4Jina AI3.8B2048Текст / изображение / PDFАдаптеры MRL + LoRA
Voyage Multimodal 3.5Voyage AI (MongoDB)Нераскрытый1024Текст / изображение / видеоСбалансированность задач
Qwen3-VL-Embedding-2BAlibaba Qwen2B2048Текст / изображение / видеоОткрытый исходный код, легкий мультимодальный
Jina CLIP v2Jina AI~1B1024Текст / изображениеМодернизированная архитектура CLIP
Cohere Embed v4CohereНераскрытыйИсправленоТекстКорпоративный поиск
OpenAI text-embedding-3-largeOpenAIНераскрытый3072ТекстНаиболее широко используемый
BGE-M3БААИ568M1024ТекстОткрытый исходный код, 100+ языков
mxbai-embed-largeСмешанный хлебный искусственный интеллект335M1024ТекстЛегкий, ориентированный на английский язык
nomic-embed-textНомический ИИ137M768ТекстСверхлегкий
CLIP ViT-L-14OpenAI (2021)428M768Текст / изображениеБазовый

Если ваш конвейер RAG работает с изображениями наряду с текстом, модель встраивания должна поместить оба вида модальности в одно векторное пространство. Подумайте о поиске изображений в электронной коммерции, смешанных базах знаний с изображениями и текстом или о любой другой системе, где текстовый запрос должен найти нужное изображение.

Метод

Мы взяли 200 пар "изображение-текст" из COCO val2017. Для каждого изображения GPT-4o-mini сгенерировал подробное описание. Затем мы написали 3 жестких негатива для каждого изображения - описания, которые отличаются от правильного всего одной или двумя деталями. Модель должна найти правильное соответствие в пуле из 200 изображений и 600 дистракторов.

Пример из набора данных:

Vintage brown leather suitcases with travel stickers including California and Cuba, placed on a metal luggage rack against a blue sky — used as a test image in the cross-modal retrieval benchmark Старинные коричневые кожаные чемоданы с наклейками о путешествиях, включая Калифорнию и Кубу, размещенные на металлической багажной полке на фоне голубого неба - используется в качестве тестового изображения в бенчмарке кросс-модального поиска .

Правильное описание: "На изображении представлены винтажные коричневые кожаные чемоданы с различными наклейками о путешествиях, включая "Калифорнию", "Кубу" и "Нью-Йорк", размещенные на металлической багажной полке на фоне ясного голубого неба."

Жесткий негатив: То же предложение, но "Калифорния" превращается в "Флориду", а "голубое небо" - в "пасмурное небо". Модель должна понять детали изображения, чтобы отличить их друг от друга.

Оценка:

  • Сгенерируйте вкрапления для всех изображений и всего текста (200 правильных описаний + 600 жестких отрицаний).
  • От текста к изображению (t2i): Для каждого описания выполняется поиск ближайшего совпадения по 200 изображениям. Очко начисляется, если верхний результат верен.
  • От изображения к тексту (i2t): Для каждого изображения выполняется поиск ближайшего совпадения по всем 800 текстам. Балл начисляется только в том случае, если верхний результат - правильное описание, а не жесткий негатив.
  • Итоговый балл: hard_avg_R@1 = (точность t2i + точность i2t) / 2

Результаты

Horizontal bar chart showing Cross-Modal Retrieval Ranking: Qwen3-VL-2B leads at 0.945, followed by Gemini Embed 2 at 0.928, Voyage MM-3.5 at 0.900, Jina CLIP v2 at 0.873, and CLIP ViT-L-14 at 0.768 Горизонтальная гистограмма, показывающая рейтинг кросс-модального поиска: Qwen3-VL-2B лидирует с результатом 0,945, за ним следуют Gemini Embed 2 с результатом 0,928, Voyage MM-3.5 с результатом 0,900, Jina CLIP v2 с результатом 0,873 и CLIP ViT-L-14 с результатом 0,768

Qwen3-VL-2B, модель с открытым исходным кодом и 2B параметрами от команды Alibaba's Qwen, заняла первое место, опередив все API с закрытым исходным кодом.

Разница в модальности объясняет большую часть разницы. Модели встраивания отображают текст и изображения в одно и то же векторное пространство, но на практике эти две модальности имеют тенденцию группироваться в разных регионах. Зазор между модальностями измеряет расстояние L2 между этими двумя кластерами. Меньший разрыв = более легкий кросс-модальный поиск.

Visualization comparing large modality gap (0.73, text and image embedding clusters far apart) versus small modality gap (0.25, clusters overlapping) — smaller gap makes cross-modal matching easier Визуализация, сравнивающая большой разрыв модальности (0,73, кластеры для встраивания текста и изображений далеко друг от друга) с малым разрывом модальности (0,25, кластеры перекрываются) - меньший разрыв облегчает кросс-модальное сопоставление

МодельОценка (R@1)Разрыв модальностиПараметры
Qwen3-VL-2B0.9450.252B (с открытым исходным кодом)
Gemini Embedding 20.9280.73Неизвестно (закрыто)
Voyage Multimodal 3.50.9000.59Неизвестно (закрыто)
Jina CLIP v20.8730.87~1B
КЛИП ViT-L-140.7680.83428M

Разрыв между модальностями у Qwen составляет 0,25 - примерно треть от 0,73 у Gemini. В векторной базе данных, подобной Milvus, небольшой разрыв между модальностями означает, что вы можете хранить вложения текста и изображений в одной коллекции и осуществлять поиск по ним напрямую. Большой разрыв может сделать поиск по кросс-модальному сходству менее надежным, и для его компенсации может потребоваться шаг повторного ранжирования.

Межъязыковой поиск: Какие модели выравнивают значение между языками?

Многоязычные базы знаний часто встречаются в производстве. Пользователь задает вопрос на китайском, а ответ находится в английском документе - или наоборот. Модель встраивания должна согласовывать смысл между языками, а не только внутри одного.

Метод

Мы создали 166 параллельных пар предложений на китайском и английском языках на трех уровнях сложности:

Cross-lingual difficulty tiers: Easy tier maps literal translations like 我爱你 to I love you; Medium tier maps paraphrased sentences like 这道菜太咸了 to This dish is too salty with hard negatives; Hard tier maps Chinese idioms like 画蛇添足 to gilding the lily with semantically different hard negatives Уровни межъязыковой сложности: Легкий уровень сопоставляет дословные переводы, такие как 我爱你 - Я люблю тебя; Средний уровень сопоставляет перефразированные предложения, такие как 这道菜太咸了 - Это блюдо слишком соленое с жесткими отрицаниями; Жесткий уровень сопоставляет китайские идиомы, такие как 画蛇添足 - Позолотить лилию с семантически различными жесткими отрицаниями.

Каждый язык также получает 152 жестких отрицательных дистрактора.

Оценка:

  • Генерируем вкрапления для всего китайского текста (166 правильных + 152 дистрактора) и всего английского текста (166 правильных + 152 дистрактора).
  • Китайский → английский: Для каждого китайского предложения ищем его правильный перевод в 318 английских текстах.
  • Английский → Китайский: То же самое в обратном порядке.
  • Итоговая оценка: hard_avg_R@1 = (точность zh→en + точность en→zh) / 2

Результаты

Horizontal bar chart showing Cross-Lingual Retrieval Ranking: Gemini Embed 2 leads at 0.997, followed by Qwen3-VL-2B at 0.988, Jina v4 at 0.985, Voyage MM-3.5 at 0.982, down to mxbai at 0.120 Горизонтальная гистограмма, показывающая рейтинг межъязыкового поиска: Gemini Embed 2 лидирует с результатом 0,997, за ним следуют Qwen3-VL-2B с результатом 0,988, Jina v4 с результатом 0,985, Voyage MM-3.5 с результатом 0,982, до mxbai с результатом 0,120

Gemini Embedding 2 получила 0,997 балла - самый высокий среди всех протестированных моделей. Это была единственная модель, набравшая 1.000 баллов на уровне Hard, где пары типа "画蛇添足" → "позолотить лилию" требуют подлинного семантического понимания на разных языках, а не сопоставления шаблонов.

МодельОценка (R@1)ЛегкоСредняяСложная (идиомы)
Gemini Embedding 20.9971.0001.0001.000
Qwen3-VL-2B0.9881.0001.0000.969
Jina Embeddings v40.9851.0001.0000.969
Voyage Multimodal 3.50.9821.0001.0000.938
OpenAI 3-большой0.9671.0001.0000.906
Cohere Embed v40.9551.0000.9800.875
BGE-M3 (568M)0.9401.0000.9600.844
nomic-embed-text (137M)0.1540.3000.1200.031
mxbai-embed-large (335M)0.1200.2200.0800.031

Все 7 лучших моделей имеют общий балл 0,93 - реальное различие происходит на уровне Hard (китайские идиомы). nomic-embed-text и mxbai-embed-large, англоязычные облегченные модели, показывают почти нулевые результаты в кросс-языковых задачах.

Поиск ключевой информации: Могут ли модели найти иголку в документе объемом 32 тыс. слов?

Системы RAG часто обрабатывают объемные документы - юридические контракты, исследовательские работы, внутренние отчеты, содержащие неструктурированные данные. Вопрос в том, сможет ли модель встраивания найти один конкретный факт в тысячах символов окружающего текста.

Метод

В качестве стога сена мы взяли статьи Википедии разной длины (от 4 до 32 тысяч символов) и вставили в них один сфабрикованный факт - иголку - в разных позициях: начало, 25 %, 50 %, 75 % и конец. Модель должна определить, основываясь на вставке запроса, в какой версии документа содержится игла.

Пример:

  • Игла: "Корпорация Meridian сообщила о квартальной выручке в размере 847,3 млн долларов в III квартале 2025 года".
  • Запрос: "Какова была квартальная выручка Meridian Corporation?".
  • Стог сена: Статья в Википедии о фотосинтезе объемом 32 000 символов, в которой игла спрятана где-то внутри.

Оценка:

  • Сгенерируйте вкрапления для запроса, документа с иглой и документа без иглы.
  • Если запрос более похож на документ, содержащий иглу, засчитываем его как попадание.
  • Средняя точность для всех длин документов и положений иглы.
  • Итоговые метрики: overall_accuracy и degradation_rate (насколько падает точность от самого короткого к самому длинному документу).

Результаты

Heatmap showing Needle-in-a-Haystack accuracy by document length: Gemini Embed 2 scores 1.000 across all lengths up to 32K; top 7 models score perfectly within their context windows; mxbai and nomic degrade sharply at 4K+ Тепловая карта, показывающая точность "игла в стоге" в зависимости от длины документа: Gemini Embed 2 набирает 1.000 баллов на всех длинах до 32K; 7 лучших моделей показывают отличные результаты в пределах своих контекстных окон; mxbai и nomic резко деградируют при 4K+

Gemini Embedding 2 - единственная модель, протестированная во всем диапазоне 4K-32K, и она показала отличные результаты при любой длине. Ни у одной другой модели в этом тесте контекстное окно не достигает 32 Кбайт.

Модель1K4K8K16K32KВ целомДеградация
Gemini Embedding 21.0001.0001.0001.0001.0001.0000%
OpenAI 3-большой1.0001.0001.000--1.0000%
Jina Embeddings v41.0001.0001.000--1.0000%
Cohere Embed v41.0001.0001.000--1.0000%
Qwen3-VL-2B1.0001.000---1.0000%
Вояж Мультимодальный 3,51.0001.000---1.0000%
Джина КЛИП v21.0001.0001.000--1.0000%
BGE-M3 (568M)1.0001.0000.920--0.9738%
mxbai-embed-large (335M)0.9800.6000.400--0.66058%
nomic-embed-text (137M)1.0000.4600.440--0.63356%

"-" означает, что длина документа превышает контекстное окно модели.

Семь лучших моделей показывают отличные результаты в пределах своего контекстного окна. BGE-M3 начинает проседать при 8K (0,920). Легкие модели (mxbai и nomic) падают до 0,4-0,6 уже при 4К символов - примерно 1 000 лексем. Для mxbai это падение частично отражает то, что его контекстное окно на 512 слов обрезает большую часть документа.

Сжатие размеров MRL: Сколько качества вы теряете при 256 измерениях?

Matryoshka Representation Learning (MRL) - это техника обучения, которая делает первые N измерений вектора значимыми сами по себе. Возьмем вектор с 3072 измерениями, усечем его до 256, и он все равно сохранит большую часть своих семантических качеств. Меньшее количество измерений означает меньшие затраты на хранение и память в вашей базе данных векторов - переход от 3072 к 256 измерениям означает 12-кратное сокращение объема памяти.

Illustration showing MRL dimension truncation: 3072 dimensions at full quality, 1024 at 95%, 512 at 90%, 256 at 85% — with 12x storage savings at 256 dimensions Иллюстрация, показывающая усечение размерности MRL: 3072 размера при полном качестве, 1024 при 95 %, 512 при 90 %, 256 при 85 % - с 12-кратной экономией на хранении при 256 размерах.

Метод

Мы использовали 150 пар предложений из бенчмарка STS-B, каждая из которых имела оценку сходства (0-5), подтвержденную человеком. Для каждой модели мы генерировали вкрапления в полной размерности, затем усекали до 1024, 512 и 256.

STS-B data examples showing sentence pairs with human similarity scores: A girl is styling her hair vs A girl is brushing her hair scores 2.5; A group of men play soccer on the beach vs A group of boys are playing soccer on the beach scores 3.6 Примеры данных STS-B, показывающие пары предложений с человеческими оценками сходства: A girl is styling her hair vs A girl is brushing her hair - 2,5 балла; A group of men play soccer on the beach vs A group of boys are playing soccer on the beach - 3,6 балла.

Подсчет баллов:

  • На каждом уровне размерности вычислите косинусоидальное сходство между вложениями каждой пары предложений.
  • Сравните рейтинг сходства, полученный моделью, с рейтингом, полученным человеком, используя ρ Спирмена (ранговая корреляция).

Что такое ρ Спирмена? Он измеряет, насколько хорошо согласуются два ранжирования. Если человек оценивает пару A как наиболее похожую, B - как вторую, C - как наименее похожую, а косинусы сходства модели дают тот же порядок A > B > C, то ρ приближается к 1,0. Значение ρ, равное 1,0, означает полное согласие. Значение ρ, равное 0, означает отсутствие корреляции.

Итоговые метрики: spearman_rho (выше - лучше) и min_viable_dim (наименьшее измерение, в котором качество остается в пределах 5 % от производительности полного измерения).

Результаты

Dot plot showing MRL Full Dimension vs 256 Dimension Quality: Voyage MM-3.5 leads with +0.6% change, Jina v4 +0.5%, while Gemini Embed 2 shows -0.6% at the bottom Точечная диаграмма, показывающая соотношение качества MRL Full Dimension и 256 Dimension: Voyage MM-3.5 лидирует с изменением на +0,6%, Jina v4 - на +0,5%, а Gemini Embed 2 показывает -0,6% в самом низу .

Если вы планируете сократить расходы на хранение в Milvus или другой векторной базе данных за счет усечения размеров, этот результат имеет значение.

Модельρ (полная размерность)ρ (256 dim)Распад
Voyage Multimodal 3,50.8800.8740.7%
Jina Embeddings v40.8330.8280.6%
mxbai-embed-large (335M)0.8150.7952.5%
nomic-embed-text (137M)0.7810.7740.8%
OpenAI 3-large0.7670.7620.6%
Gemini Embedding 20.6830.689-0.8%

Voyage и Jina v4 лидируют, потому что обе модели были явно обучены с MRL в качестве цели. Сжатие размерности имеет мало общего с размером модели - важно то, была ли модель обучена для этого.

Примечание к результату Gemini: рейтинг MRL отражает, насколько хорошо модель сохраняет качество после усечения, а не то, насколько хорош ее полноразмерный поиск. Полноразмерный поиск Gemini очень силен - это уже доказали результаты кросс-лингвистического поиска и поиска ключевой информации. Он просто не был оптимизирован для сокращения. Если вам не нужно сжатие размеров, эта метрика для вас неприменима.

Какую модель встраивания следует использовать?

Ни одна модель не выигрывает во всем. Вот полная таблица результатов:

МодельПараметрыКросс-модальнаяКросс-языковаяКлючевая информацияMRL ρ
Gemini Embedding 2Нераскрытый0.9280.9971.0000.668
Voyage Multimodal 3.5Нераскрытый0.9000.9821.0000.880
Jina Embeddings v43.8B-0.9851.0000.833
Qwen3-VL-2B2B0.9450.9881.0000.774
OpenAI 3-большойНераскрытый-0.9671.0000.760
Cohere Embed v4Не раскрыто-0.9551.000-
Джина КЛИП v2~1B0.8730.9341.000-
BGE-M3568M-0.9400.9730.744
mxbai-embed-large335M-0.1200.6600.815
nomic-embed-text137M-0.1540.6330.780
CLIP ViT-L-14428M0.7680.030--

"-" означает, что модель не поддерживает данную модальность или возможность. CLIP - это базовый уровень 2021 года для сравнения.

Вот что выделяется:

  • Кросс-модальность: Qwen3-VL-2B (0,945) - первый, Gemini (0,928) - второй, Voyage (0,900) - третий. Модель 2B с открытым исходным кодом победила все API с закрытым исходным кодом. Решающим фактором стал разрыв между модальностями, а не количество параметров.
  • Кросс-язык: лидирует Gemini (0,997) - единственная модель, получившая отличную оценку за выравнивание на уровне идиом. Все 8 лучших моделей набрали 0,93 балла. Легкомысленные модели, использующие только английский язык, показывают почти нулевые результаты.
  • Ключевая информация: API и крупные модели с открытым исходным кодом показывают отличные результаты вплоть до 8K. Модели ниже 335M начинают деградировать при 4K. Gemini - единственная модель, которая отлично справляется с 32K.
  • Сжатие размеров MRL: Voyage (0,880) и Jina v4 (0,833) лидируют, теряя менее 1% при 256 размерах. Gemini (0,668) занимает последнее место - сильная при полной размерности, не оптимизированная для усечения.

Как выбрать: блок-схема принятия решений

Embedding model selection flowchart: Start → Need images or video? → Yes: Need to self-host? → Yes: Qwen3-VL-2B, No: Gemini Embedding 2. No images → Need to save storage? → Yes: Jina v4 or Voyage, No: Need multilingual? → Yes: Gemini Embedding 2, No: OpenAI 3-large Блок-схема выбора модели встраивания: Начало → Нужны изображения или видео? → Да: Нужен ли самостоятельный хостинг? → Да: Qwen3-VL-2B, Нет: Gemini Embedding 2. Нет изображений → Нужно ли экономить место для хранения? → Да: Jina v4 или Voyage, Нет: Нужна многоязычность? → Да: Gemini Embedding 2, Нет: OpenAI 3-large

Лучший универсал: Gemini Embedding 2

В целом, Gemini Embedding 2 является самой сильной моделью в этом бенчмарке.

Сильные стороны: Первое место в кросс-лингвистическом (0,997) и ключевом поиске информации (1,000 для всех длин до 32K). Второе место по кросс-модальности (0,928). Самый широкий охват модальностей - пять модальностей (текст, изображение, видео, аудио, PDF), в то время как большинство моделей ограничиваются тремя.

Слабые стороны: Последнее место по сжатию MRL (ρ = 0,668). В кросс-модальности побеждает Qwen3-VL-2B с открытым исходным кодом.

Если вам не нужно сжатие размеров, то у Gemini нет реальных конкурентов в комбинации кросс-языковой поиск + поиск по длинным документам. Но для кросс-модальной точности или оптимизации хранения специализированные модели работают лучше.

Ограничения

  • Мы включили не все модели, заслуживающие внимания - NV-Embed-v2 от NVIDIA и v5-text от Jina были в списке, но не попали в этот раунд.
  • Мы сосредоточились на модальностях текста и изображений; встраивание видео, аудио и PDF (несмотря на то, что некоторые модели заявляют о его поддержке) не рассматривалось.
  • Поиск кода и другие специфические сценарии не рассматривались.
  • Размер выборки был относительно небольшим, поэтому сильные различия в рейтинге между моделями могут оказаться статистическим шумом.

Результаты этой статьи устареют в течение года. Постоянно появляются новые модели, и таблица лидеров перетасовывается с каждым релизом. Более долгосрочным вложением средств является создание собственного конвейера оценки - определите типы данных, шаблоны запросов, длину документов и прогоняйте новые модели через свои собственные тесты, когда они появятся. Публичные бенчмарки, такие как MTEB, MMTEB и MMEB, стоит отслеживать, но окончательный вывод всегда должен быть сделан на основе ваших собственных данных.

Наш код бенчмарка находится с открытым исходным кодом на GitHub - форкните его и адаптируйте под свои нужды.


После того как вы выбрали модель встраивания, вам нужно где-то хранить и искать эти векторы в масштабе. Milvus - самая распространенная в мире база данных векторов с открытым исходным кодом и 43K+ звездами на GitHub, созданная именно для этого - она поддерживает MRL-усеченные размеры, смешанные мультимодальные коллекции, гибридный поиск, сочетающий плотные и разреженные векторы, и масштабируется от ноутбука до миллиардов векторов.

  • Начните работу с руководством по быстрому запуску Milvus или установите его с помощью pip install pymilvus.
  • Присоединяйтесь к Milvus Slack или Milvus Discord, чтобы задать вопросы об интеграции моделей встраивания, стратегиях векторного индексирования или масштабировании производства.
  • Закажите бесплатную сессию Milvus Office Hours, чтобы обсудить вашу архитектуру RAG - мы поможем с выбором модели, разработкой схемы коллекции и настройкой производительности.
  • Если вы предпочитаете обойтись без работы с инфраструктурой, Zilliz Cloud (управляемая Milvus) предлагает бесплатный уровень для начала работы.

Несколько вопросов, которые возникают у инженеров при выборе модели встраивания для производственного RAG:

Вопрос: Следует ли мне использовать мультимодальную модель встраивания, даже если сейчас у меня есть только текстовые данные?

Это зависит от вашей дорожной карты. Если в ближайшие 6-12 месяцев в ваш конвейер будут добавлены изображения, PDF-файлы или другие модальности, начните с мультимодальной модели, например Gemini Embedding 2 или Voyage Multimodal 3.5, чтобы избежать болезненной миграции в дальнейшем - вам не придется заново встраивать весь набор данных. Если вы уверены, что в обозримом будущем данные будут использоваться только в текстовом виде, то модель, ориентированная на текстовые данные, например OpenAI 3-large или Cohere Embed v4, обеспечит лучшее соотношение цена/производительность.

В: Сколько места в векторной базе данных реально экономит сжатие размеров MRL?

Переход от 3072 измерений к 256 - это 12-кратное сокращение объема памяти на вектор. Для коллекции Milvus со 100 миллионами векторов в float32 это примерно 1,14 ТБ → 95 ГБ. Важно, что не все модели хорошо справляются с усечением - Voyage Multimodal 3.5 и Jina Embeddings v4 теряют менее 1 % качества при 256 измерениях, в то время как другие модели значительно ухудшают качество.

В: Действительно ли Qwen3-VL-2B лучше Gemini Embedding 2 для кросс-модального поиска?

В нашем бенчмарке да - Qwen3-VL-2B набрал 0,945 против 0,928 у Gemini в жестком кросс-модальном поиске с почти идентичными дистракторами. Основная причина - гораздо меньший разрыв между модальностями (0,25 против 0,73), что означает, что в векторном пространстве текстовые и графические вложения группируются ближе друг к другу. При этом Gemini охватывает пять модальностей, а Qwen - три, так что если вам нужно встраивание аудио или PDF, Gemini - единственный вариант.

В: Могу ли я использовать эти модели встраивания непосредственно в Milvus?

Да. Все эти модели выводят стандартные float-векторы, которые вы можете вставить в Milvus и искать по косинусному сходству, расстоянию L2 или внутреннему произведению. PyMilvus работает с любой моделью встраивания - генерируйте векторы с помощью SDK модели, затем сохраняйте и ищите их в Milvus. Чтобы получить MRL-усеченные векторы, просто установите размерность коллекции на целевое значение (например, 256) при создании коллекции.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Продолжить чтение