Как выбрать лучшую модель встраивания для RAG в 2026 году: 10 моделей в сравнении
TL;DR: Мы протестировали 10 моделей встраивания в четырех производственных сценариях, которые не учитываются в публичных бенчмарках: кросс-модальный поиск, кросс-языковой поиск, поиск ключевой информации и сжатие размеров. Ни одна модель не победила во всех случаях. Gemini Embedding 2 - лучший универсал. Qwen3-VL-2B с открытым исходным кодом выигрывает у закрытых API в кросс-модальных задачах. Если вам нужно сжать размеры для экономии места, выбирайте Voyage Multimodal 3.5 или Jina Embeddings v4.
Почему MTEB недостаточно для выбора модели встраивания
Большинство прототипов RAG начинают с модели OpenAI text-embedding-3-small. Она дешевая, ее легко интегрировать, и для поиска английского текста она работает достаточно хорошо. Но производственный RAG быстро перерастает его. В ваш конвейер попадают изображения, PDF-файлы, многоязычные документы - и модели встраивания только текста перестает быть достаточно.
Таблица лидеров MTEB подсказывает вам, что есть варианты получше. Проблема? MTEB тестирует только одноязычный поиск текста. Он не охватывает кросс-модальный поиск (текстовые запросы к коллекциям изображений), кросс-языковой поиск (китайский запрос находит английский документ), точность длинных документов или то, насколько теряется качество при усечении размеров встраивания для экономии места в векторной базе данных.
Так какую же модель встраивания следует использовать? Это зависит от типов данных, языков, длины документов и того, нужно ли вам сжатие размеров. Мы создали эталон под названием CCKM и протестировали 10 моделей, выпущенных в период с 2025 по 2026 год, именно по этим параметрам.
Что такое эталон CCKM?
CCKM (Cross-modal, Cross-lingual, Key information, MRL) тестирует четыре возможности, которых не хватает стандартным эталонам:
| Измерение | Что проверяет | Почему это важно |
|---|---|---|
| Кросс-модальный поиск | Сопоставление текстовых описаний с правильным изображением при наличии почти идентичных отвлекающих элементов | Мультимодальные конвейерыRAG нуждаются во вкраплениях текста и изображений в одном и том же векторном пространстве |
| Межъязыковой поиск | Поиск правильного английского документа по китайскому запросу и наоборот | Производственные базы знаний часто бывают многоязычными |
| Поиск ключевой информации | Поиск конкретного факта в документе объемом 4K-32K символов (иголка в стоге сена). | Системы RAG часто обрабатывают длинные документы, такие как контракты и исследовательские работы |
| Сжатие размеров MRL | Измерьте, насколько теряет качество модель при сокращении вкраплений до 256 измерений. | Меньшее количество измерений = меньшая стоимость хранения в вашей векторной базе данных, но какой ценой достигается качество? |
MTEB не покрывает ни одну из этих задач. MMEB добавляет мультимодальность, но пропускает жесткие отрицания, поэтому модели получают высокие баллы, не доказав, что они справляются с тонкими различиями. CCKM призвана покрыть то, что они упускают.
Какие модели встраивания мы тестировали? Gemini Embedding 2, Jina Embeddings v4 и другие.
Мы протестировали 10 моделей, охватывающих как API-сервисы, так и варианты с открытым исходным кодом, а также CLIP ViT-L-14 в качестве базового уровня 2021 года.
| Модель | Источник | Параметры | Размеры | Модальность | Ключевой признак |
|---|---|---|---|---|---|
| Gemini Embedding 2 | Нераскрытый | 3072 | Текст / изображение / видео / аудио / PDF | Всемодальность, широчайший охват | |
| Jina Embeddings v4 | Jina AI | 3.8B | 2048 | Текст / изображение / PDF | Адаптеры MRL + LoRA |
| Voyage Multimodal 3.5 | Voyage AI (MongoDB) | Нераскрытый | 1024 | Текст / изображение / видео | Сбалансированность задач |
| Qwen3-VL-Embedding-2B | Alibaba Qwen | 2B | 2048 | Текст / изображение / видео | Открытый исходный код, легкий мультимодальный |
| Jina CLIP v2 | Jina AI | ~1B | 1024 | Текст / изображение | Модернизированная архитектура CLIP |
| Cohere Embed v4 | Cohere | Нераскрытый | Исправлено | Текст | Корпоративный поиск |
| OpenAI text-embedding-3-large | OpenAI | Нераскрытый | 3072 | Текст | Наиболее широко используемый |
| BGE-M3 | БААИ | 568M | 1024 | Текст | Открытый исходный код, 100+ языков |
| mxbai-embed-large | Смешанный хлебный искусственный интеллект | 335M | 1024 | Текст | Легкий, ориентированный на английский язык |
| nomic-embed-text | Номический ИИ | 137M | 768 | Текст | Сверхлегкий |
| CLIP ViT-L-14 | OpenAI (2021) | 428M | 768 | Текст / изображение | Базовый |
Кросс-модальный поиск: Какие модели справляются с поиском от текста к изображению?
Если ваш конвейер RAG работает с изображениями наряду с текстом, модель встраивания должна поместить оба вида модальности в одно векторное пространство. Подумайте о поиске изображений в электронной коммерции, смешанных базах знаний с изображениями и текстом или о любой другой системе, где текстовый запрос должен найти нужное изображение.
Метод
Мы взяли 200 пар "изображение-текст" из COCO val2017. Для каждого изображения GPT-4o-mini сгенерировал подробное описание. Затем мы написали 3 жестких негатива для каждого изображения - описания, которые отличаются от правильного всего одной или двумя деталями. Модель должна найти правильное соответствие в пуле из 200 изображений и 600 дистракторов.
Пример из набора данных:
Старинные коричневые кожаные чемоданы с наклейками о путешествиях, включая Калифорнию и Кубу, размещенные на металлической багажной полке на фоне голубого неба - используется в качестве тестового изображения в бенчмарке кросс-модального поиска .
Правильное описание: "На изображении представлены винтажные коричневые кожаные чемоданы с различными наклейками о путешествиях, включая "Калифорнию", "Кубу" и "Нью-Йорк", размещенные на металлической багажной полке на фоне ясного голубого неба."
Жесткий негатив: То же предложение, но "Калифорния" превращается в "Флориду", а "голубое небо" - в "пасмурное небо". Модель должна понять детали изображения, чтобы отличить их друг от друга.
Оценка:
- Сгенерируйте вкрапления для всех изображений и всего текста (200 правильных описаний + 600 жестких отрицаний).
- От текста к изображению (t2i): Для каждого описания выполняется поиск ближайшего совпадения по 200 изображениям. Очко начисляется, если верхний результат верен.
- От изображения к тексту (i2t): Для каждого изображения выполняется поиск ближайшего совпадения по всем 800 текстам. Балл начисляется только в том случае, если верхний результат - правильное описание, а не жесткий негатив.
- Итоговый балл: hard_avg_R@1 = (точность t2i + точность i2t) / 2
Результаты
Горизонтальная гистограмма, показывающая рейтинг кросс-модального поиска: Qwen3-VL-2B лидирует с результатом 0,945, за ним следуют Gemini Embed 2 с результатом 0,928, Voyage MM-3.5 с результатом 0,900, Jina CLIP v2 с результатом 0,873 и CLIP ViT-L-14 с результатом 0,768
Qwen3-VL-2B, модель с открытым исходным кодом и 2B параметрами от команды Alibaba's Qwen, заняла первое место, опередив все API с закрытым исходным кодом.
Разница в модальности объясняет большую часть разницы. Модели встраивания отображают текст и изображения в одно и то же векторное пространство, но на практике эти две модальности имеют тенденцию группироваться в разных регионах. Зазор между модальностями измеряет расстояние L2 между этими двумя кластерами. Меньший разрыв = более легкий кросс-модальный поиск.
Визуализация, сравнивающая большой разрыв модальности (0,73, кластеры для встраивания текста и изображений далеко друг от друга) с малым разрывом модальности (0,25, кластеры перекрываются) - меньший разрыв облегчает кросс-модальное сопоставление
| Модель | Оценка (R@1) | Разрыв модальности | Параметры |
|---|---|---|---|
| Qwen3-VL-2B | 0.945 | 0.25 | 2B (с открытым исходным кодом) |
| Gemini Embedding 2 | 0.928 | 0.73 | Неизвестно (закрыто) |
| Voyage Multimodal 3.5 | 0.900 | 0.59 | Неизвестно (закрыто) |
| Jina CLIP v2 | 0.873 | 0.87 | ~1B |
| КЛИП ViT-L-14 | 0.768 | 0.83 | 428M |
Разрыв между модальностями у Qwen составляет 0,25 - примерно треть от 0,73 у Gemini. В векторной базе данных, подобной Milvus, небольшой разрыв между модальностями означает, что вы можете хранить вложения текста и изображений в одной коллекции и осуществлять поиск по ним напрямую. Большой разрыв может сделать поиск по кросс-модальному сходству менее надежным, и для его компенсации может потребоваться шаг повторного ранжирования.
Межъязыковой поиск: Какие модели выравнивают значение между языками?
Многоязычные базы знаний часто встречаются в производстве. Пользователь задает вопрос на китайском, а ответ находится в английском документе - или наоборот. Модель встраивания должна согласовывать смысл между языками, а не только внутри одного.
Метод
Мы создали 166 параллельных пар предложений на китайском и английском языках на трех уровнях сложности:
Уровни межъязыковой сложности: Легкий уровень сопоставляет дословные переводы, такие как 我爱你 - Я люблю тебя; Средний уровень сопоставляет перефразированные предложения, такие как 这道菜太咸了 - Это блюдо слишком соленое с жесткими отрицаниями; Жесткий уровень сопоставляет китайские идиомы, такие как 画蛇添足 - Позолотить лилию с семантически различными жесткими отрицаниями.
Каждый язык также получает 152 жестких отрицательных дистрактора.
Оценка:
- Генерируем вкрапления для всего китайского текста (166 правильных + 152 дистрактора) и всего английского текста (166 правильных + 152 дистрактора).
- Китайский → английский: Для каждого китайского предложения ищем его правильный перевод в 318 английских текстах.
- Английский → Китайский: То же самое в обратном порядке.
- Итоговая оценка: hard_avg_R@1 = (точность zh→en + точность en→zh) / 2
Результаты
Горизонтальная гистограмма, показывающая рейтинг межъязыкового поиска: Gemini Embed 2 лидирует с результатом 0,997, за ним следуют Qwen3-VL-2B с результатом 0,988, Jina v4 с результатом 0,985, Voyage MM-3.5 с результатом 0,982, до mxbai с результатом 0,120
Gemini Embedding 2 получила 0,997 балла - самый высокий среди всех протестированных моделей. Это была единственная модель, набравшая 1.000 баллов на уровне Hard, где пары типа "画蛇添足" → "позолотить лилию" требуют подлинного семантического понимания на разных языках, а не сопоставления шаблонов.
| Модель | Оценка (R@1) | Легко | Средняя | Сложная (идиомы) |
|---|---|---|---|---|
| Gemini Embedding 2 | 0.997 | 1.000 | 1.000 | 1.000 |
| Qwen3-VL-2B | 0.988 | 1.000 | 1.000 | 0.969 |
| Jina Embeddings v4 | 0.985 | 1.000 | 1.000 | 0.969 |
| Voyage Multimodal 3.5 | 0.982 | 1.000 | 1.000 | 0.938 |
| OpenAI 3-большой | 0.967 | 1.000 | 1.000 | 0.906 |
| Cohere Embed v4 | 0.955 | 1.000 | 0.980 | 0.875 |
| BGE-M3 (568M) | 0.940 | 1.000 | 0.960 | 0.844 |
| nomic-embed-text (137M) | 0.154 | 0.300 | 0.120 | 0.031 |
| mxbai-embed-large (335M) | 0.120 | 0.220 | 0.080 | 0.031 |
Все 7 лучших моделей имеют общий балл 0,93 - реальное различие происходит на уровне Hard (китайские идиомы). nomic-embed-text и mxbai-embed-large, англоязычные облегченные модели, показывают почти нулевые результаты в кросс-языковых задачах.
Поиск ключевой информации: Могут ли модели найти иголку в документе объемом 32 тыс. слов?
Системы RAG часто обрабатывают объемные документы - юридические контракты, исследовательские работы, внутренние отчеты, содержащие неструктурированные данные. Вопрос в том, сможет ли модель встраивания найти один конкретный факт в тысячах символов окружающего текста.
Метод
В качестве стога сена мы взяли статьи Википедии разной длины (от 4 до 32 тысяч символов) и вставили в них один сфабрикованный факт - иголку - в разных позициях: начало, 25 %, 50 %, 75 % и конец. Модель должна определить, основываясь на вставке запроса, в какой версии документа содержится игла.
Пример:
- Игла: "Корпорация Meridian сообщила о квартальной выручке в размере 847,3 млн долларов в III квартале 2025 года".
- Запрос: "Какова была квартальная выручка Meridian Corporation?".
- Стог сена: Статья в Википедии о фотосинтезе объемом 32 000 символов, в которой игла спрятана где-то внутри.
Оценка:
- Сгенерируйте вкрапления для запроса, документа с иглой и документа без иглы.
- Если запрос более похож на документ, содержащий иглу, засчитываем его как попадание.
- Средняя точность для всех длин документов и положений иглы.
- Итоговые метрики: overall_accuracy и degradation_rate (насколько падает точность от самого короткого к самому длинному документу).
Результаты
Тепловая карта, показывающая точность "игла в стоге" в зависимости от длины документа: Gemini Embed 2 набирает 1.000 баллов на всех длинах до 32K; 7 лучших моделей показывают отличные результаты в пределах своих контекстных окон; mxbai и nomic резко деградируют при 4K+
Gemini Embedding 2 - единственная модель, протестированная во всем диапазоне 4K-32K, и она показала отличные результаты при любой длине. Ни у одной другой модели в этом тесте контекстное окно не достигает 32 Кбайт.
| Модель | 1K | 4K | 8K | 16K | 32K | В целом | Деградация |
|---|---|---|---|---|---|---|---|
| Gemini Embedding 2 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 0% |
| OpenAI 3-большой | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Jina Embeddings v4 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Cohere Embed v4 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| Qwen3-VL-2B | 1.000 | 1.000 | - | - | - | 1.000 | 0% |
| Вояж Мультимодальный 3,5 | 1.000 | 1.000 | - | - | - | 1.000 | 0% |
| Джина КЛИП v2 | 1.000 | 1.000 | 1.000 | - | - | 1.000 | 0% |
| BGE-M3 (568M) | 1.000 | 1.000 | 0.920 | - | - | 0.973 | 8% |
| mxbai-embed-large (335M) | 0.980 | 0.600 | 0.400 | - | - | 0.660 | 58% |
| nomic-embed-text (137M) | 1.000 | 0.460 | 0.440 | - | - | 0.633 | 56% |
"-" означает, что длина документа превышает контекстное окно модели.
Семь лучших моделей показывают отличные результаты в пределах своего контекстного окна. BGE-M3 начинает проседать при 8K (0,920). Легкие модели (mxbai и nomic) падают до 0,4-0,6 уже при 4К символов - примерно 1 000 лексем. Для mxbai это падение частично отражает то, что его контекстное окно на 512 слов обрезает большую часть документа.
Сжатие размеров MRL: Сколько качества вы теряете при 256 измерениях?
Matryoshka Representation Learning (MRL) - это техника обучения, которая делает первые N измерений вектора значимыми сами по себе. Возьмем вектор с 3072 измерениями, усечем его до 256, и он все равно сохранит большую часть своих семантических качеств. Меньшее количество измерений означает меньшие затраты на хранение и память в вашей базе данных векторов - переход от 3072 к 256 измерениям означает 12-кратное сокращение объема памяти.
Иллюстрация, показывающая усечение размерности MRL: 3072 размера при полном качестве, 1024 при 95 %, 512 при 90 %, 256 при 85 % - с 12-кратной экономией на хранении при 256 размерах.
Метод
Мы использовали 150 пар предложений из бенчмарка STS-B, каждая из которых имела оценку сходства (0-5), подтвержденную человеком. Для каждой модели мы генерировали вкрапления в полной размерности, затем усекали до 1024, 512 и 256.
Примеры данных STS-B, показывающие пары предложений с человеческими оценками сходства: A girl is styling her hair vs A girl is brushing her hair - 2,5 балла; A group of men play soccer on the beach vs A group of boys are playing soccer on the beach - 3,6 балла.
Подсчет баллов:
- На каждом уровне размерности вычислите косинусоидальное сходство между вложениями каждой пары предложений.
- Сравните рейтинг сходства, полученный моделью, с рейтингом, полученным человеком, используя ρ Спирмена (ранговая корреляция).
Что такое ρ Спирмена? Он измеряет, насколько хорошо согласуются два ранжирования. Если человек оценивает пару A как наиболее похожую, B - как вторую, C - как наименее похожую, а косинусы сходства модели дают тот же порядок A > B > C, то ρ приближается к 1,0. Значение ρ, равное 1,0, означает полное согласие. Значение ρ, равное 0, означает отсутствие корреляции.
Итоговые метрики: spearman_rho (выше - лучше) и min_viable_dim (наименьшее измерение, в котором качество остается в пределах 5 % от производительности полного измерения).
Результаты
Точечная диаграмма, показывающая соотношение качества MRL Full Dimension и 256 Dimension: Voyage MM-3.5 лидирует с изменением на +0,6%, Jina v4 - на +0,5%, а Gemini Embed 2 показывает -0,6% в самом низу .
Если вы планируете сократить расходы на хранение в Milvus или другой векторной базе данных за счет усечения размеров, этот результат имеет значение.
| Модель | ρ (полная размерность) | ρ (256 dim) | Распад |
|---|---|---|---|
| Voyage Multimodal 3,5 | 0.880 | 0.874 | 0.7% |
| Jina Embeddings v4 | 0.833 | 0.828 | 0.6% |
| mxbai-embed-large (335M) | 0.815 | 0.795 | 2.5% |
| nomic-embed-text (137M) | 0.781 | 0.774 | 0.8% |
| OpenAI 3-large | 0.767 | 0.762 | 0.6% |
| Gemini Embedding 2 | 0.683 | 0.689 | -0.8% |
Voyage и Jina v4 лидируют, потому что обе модели были явно обучены с MRL в качестве цели. Сжатие размерности имеет мало общего с размером модели - важно то, была ли модель обучена для этого.
Примечание к результату Gemini: рейтинг MRL отражает, насколько хорошо модель сохраняет качество после усечения, а не то, насколько хорош ее полноразмерный поиск. Полноразмерный поиск Gemini очень силен - это уже доказали результаты кросс-лингвистического поиска и поиска ключевой информации. Он просто не был оптимизирован для сокращения. Если вам не нужно сжатие размеров, эта метрика для вас неприменима.
Какую модель встраивания следует использовать?
Ни одна модель не выигрывает во всем. Вот полная таблица результатов:
| Модель | Параметры | Кросс-модальная | Кросс-языковая | Ключевая информация | MRL ρ |
|---|---|---|---|---|---|
| Gemini Embedding 2 | Нераскрытый | 0.928 | 0.997 | 1.000 | 0.668 |
| Voyage Multimodal 3.5 | Нераскрытый | 0.900 | 0.982 | 1.000 | 0.880 |
| Jina Embeddings v4 | 3.8B | - | 0.985 | 1.000 | 0.833 |
| Qwen3-VL-2B | 2B | 0.945 | 0.988 | 1.000 | 0.774 |
| OpenAI 3-большой | Нераскрытый | - | 0.967 | 1.000 | 0.760 |
| Cohere Embed v4 | Не раскрыто | - | 0.955 | 1.000 | - |
| Джина КЛИП v2 | ~1B | 0.873 | 0.934 | 1.000 | - |
| BGE-M3 | 568M | - | 0.940 | 0.973 | 0.744 |
| mxbai-embed-large | 335M | - | 0.120 | 0.660 | 0.815 |
| nomic-embed-text | 137M | - | 0.154 | 0.633 | 0.780 |
| CLIP ViT-L-14 | 428M | 0.768 | 0.030 | - | - |
"-" означает, что модель не поддерживает данную модальность или возможность. CLIP - это базовый уровень 2021 года для сравнения.
Вот что выделяется:
- Кросс-модальность: Qwen3-VL-2B (0,945) - первый, Gemini (0,928) - второй, Voyage (0,900) - третий. Модель 2B с открытым исходным кодом победила все API с закрытым исходным кодом. Решающим фактором стал разрыв между модальностями, а не количество параметров.
- Кросс-язык: лидирует Gemini (0,997) - единственная модель, получившая отличную оценку за выравнивание на уровне идиом. Все 8 лучших моделей набрали 0,93 балла. Легкомысленные модели, использующие только английский язык, показывают почти нулевые результаты.
- Ключевая информация: API и крупные модели с открытым исходным кодом показывают отличные результаты вплоть до 8K. Модели ниже 335M начинают деградировать при 4K. Gemini - единственная модель, которая отлично справляется с 32K.
- Сжатие размеров MRL: Voyage (0,880) и Jina v4 (0,833) лидируют, теряя менее 1% при 256 размерах. Gemini (0,668) занимает последнее место - сильная при полной размерности, не оптимизированная для усечения.
Как выбрать: блок-схема принятия решений
Блок-схема выбора модели встраивания: Начало → Нужны изображения или видео? → Да: Нужен ли самостоятельный хостинг? → Да: Qwen3-VL-2B, Нет: Gemini Embedding 2. Нет изображений → Нужно ли экономить место для хранения? → Да: Jina v4 или Voyage, Нет: Нужна многоязычность? → Да: Gemini Embedding 2, Нет: OpenAI 3-large
Лучший универсал: Gemini Embedding 2
В целом, Gemini Embedding 2 является самой сильной моделью в этом бенчмарке.
Сильные стороны: Первое место в кросс-лингвистическом (0,997) и ключевом поиске информации (1,000 для всех длин до 32K). Второе место по кросс-модальности (0,928). Самый широкий охват модальностей - пять модальностей (текст, изображение, видео, аудио, PDF), в то время как большинство моделей ограничиваются тремя.
Слабые стороны: Последнее место по сжатию MRL (ρ = 0,668). В кросс-модальности побеждает Qwen3-VL-2B с открытым исходным кодом.
Если вам не нужно сжатие размеров, то у Gemini нет реальных конкурентов в комбинации кросс-языковой поиск + поиск по длинным документам. Но для кросс-модальной точности или оптимизации хранения специализированные модели работают лучше.
Ограничения
- Мы включили не все модели, заслуживающие внимания - NV-Embed-v2 от NVIDIA и v5-text от Jina были в списке, но не попали в этот раунд.
- Мы сосредоточились на модальностях текста и изображений; встраивание видео, аудио и PDF (несмотря на то, что некоторые модели заявляют о его поддержке) не рассматривалось.
- Поиск кода и другие специфические сценарии не рассматривались.
- Размер выборки был относительно небольшим, поэтому сильные различия в рейтинге между моделями могут оказаться статистическим шумом.
Результаты этой статьи устареют в течение года. Постоянно появляются новые модели, и таблица лидеров перетасовывается с каждым релизом. Более долгосрочным вложением средств является создание собственного конвейера оценки - определите типы данных, шаблоны запросов, длину документов и прогоняйте новые модели через свои собственные тесты, когда они появятся. Публичные бенчмарки, такие как MTEB, MMTEB и MMEB, стоит отслеживать, но окончательный вывод всегда должен быть сделан на основе ваших собственных данных.
Наш код бенчмарка находится с открытым исходным кодом на GitHub - форкните его и адаптируйте под свои нужды.
После того как вы выбрали модель встраивания, вам нужно где-то хранить и искать эти векторы в масштабе. Milvus - самая распространенная в мире база данных векторов с открытым исходным кодом и 43K+ звездами на GitHub, созданная именно для этого - она поддерживает MRL-усеченные размеры, смешанные мультимодальные коллекции, гибридный поиск, сочетающий плотные и разреженные векторы, и масштабируется от ноутбука до миллиардов векторов.
- Начните работу с руководством по быстрому запуску Milvus или установите его с помощью
pip install pymilvus. - Присоединяйтесь к Milvus Slack или Milvus Discord, чтобы задать вопросы об интеграции моделей встраивания, стратегиях векторного индексирования или масштабировании производства.
- Закажите бесплатную сессию Milvus Office Hours, чтобы обсудить вашу архитектуру RAG - мы поможем с выбором модели, разработкой схемы коллекции и настройкой производительности.
- Если вы предпочитаете обойтись без работы с инфраструктурой, Zilliz Cloud (управляемая Milvus) предлагает бесплатный уровень для начала работы.
Несколько вопросов, которые возникают у инженеров при выборе модели встраивания для производственного RAG:
Вопрос: Следует ли мне использовать мультимодальную модель встраивания, даже если сейчас у меня есть только текстовые данные?
Это зависит от вашей дорожной карты. Если в ближайшие 6-12 месяцев в ваш конвейер будут добавлены изображения, PDF-файлы или другие модальности, начните с мультимодальной модели, например Gemini Embedding 2 или Voyage Multimodal 3.5, чтобы избежать болезненной миграции в дальнейшем - вам не придется заново встраивать весь набор данных. Если вы уверены, что в обозримом будущем данные будут использоваться только в текстовом виде, то модель, ориентированная на текстовые данные, например OpenAI 3-large или Cohere Embed v4, обеспечит лучшее соотношение цена/производительность.
В: Сколько места в векторной базе данных реально экономит сжатие размеров MRL?
Переход от 3072 измерений к 256 - это 12-кратное сокращение объема памяти на вектор. Для коллекции Milvus со 100 миллионами векторов в float32 это примерно 1,14 ТБ → 95 ГБ. Важно, что не все модели хорошо справляются с усечением - Voyage Multimodal 3.5 и Jina Embeddings v4 теряют менее 1 % качества при 256 измерениях, в то время как другие модели значительно ухудшают качество.
В: Действительно ли Qwen3-VL-2B лучше Gemini Embedding 2 для кросс-модального поиска?
В нашем бенчмарке да - Qwen3-VL-2B набрал 0,945 против 0,928 у Gemini в жестком кросс-модальном поиске с почти идентичными дистракторами. Основная причина - гораздо меньший разрыв между модальностями (0,25 против 0,73), что означает, что в векторном пространстве текстовые и графические вложения группируются ближе друг к другу. При этом Gemini охватывает пять модальностей, а Qwen - три, так что если вам нужно встраивание аудио или PDF, Gemini - единственный вариант.
В: Могу ли я использовать эти модели встраивания непосредственно в Milvus?
Да. Все эти модели выводят стандартные float-векторы, которые вы можете вставить в Milvus и искать по косинусному сходству, расстоянию L2 или внутреннему произведению. PyMilvus работает с любой моделью встраивания - генерируйте векторы с помощью SDK модели, затем сохраняйте и ищите их в Milvus. Чтобы получить MRL-усеченные векторы, просто установите размерность коллекции на целевое значение (например, 256) при создании коллекции.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



