Milvus
Zilliz
  • Home
  • Blog
  • GLM-5 vs. MiniMax M2.5 vs. Gemini 3 Глубоко задумайтесь: какая модель подходит для вашего стека агентов ИИ?

GLM-5 vs. MiniMax M2.5 vs. Gemini 3 Глубоко задумайтесь: какая модель подходит для вашего стека агентов ИИ?

  • Engineering
February 14, 2026
Lumina Wang, Julie Xia

Чуть более чем за два дня в продажу поступили сразу три крупные модели: GLM-5, MiniMax M2.5 и Gemini 3 Deep Think. Все три модели имеют одинаковые возможности: кодирование, глубокие рассуждения и агентные рабочие процессы. Все три заявляют о самых передовых результатах. Если присмотреться к техническим характеристикам, то можно практически сыграть в игру на соответствие и выявить идентичные тезисы во всех трех системах.

А что еще страшнее? Ваш босс, вероятно, уже ознакомился с анонсами и ждет, что вы создадите девять внутренних приложений с использованием этих трех моделей еще до конца недели.

Так что же на самом деле отличает эти модели? Как выбрать одну из них? И (как всегда) как соединить их с Milvus, чтобы создать внутреннюю базу знаний? Добавьте эту страницу в закладки. Здесь есть все, что вам нужно.

GLM-5, MiniMax M2.5 и Gemini 3 Deep Think с первого взгляда

GLM-5 лидирует в комплексном системном проектировании и решении дальних агентских задач

12 февраля компания Zhipu официально представила GLM-5, который отлично справляется со сложными системными и долгосрочными агентскими задачами.

Модель имеет 355B-744B параметров (40B активных), обученных на 28,5T токенах. В ней интегрированы механизмы разреженного внимания и асинхронный фреймворк обучения с подкреплением под названием Slime, что позволяет ей обрабатывать сверхдлинные контексты без потери качества, сохраняя при этом низкую стоимость развертывания.

GLM-5 лидирует в ключевых бенчмарках с открытым исходным кодом, заняв первое место в SWE-bench Verified (77,8) и первое место в Terminal Bench 2.0 (56,2) - опередив MiniMax 2.5 и Gemini 3 Deep Think. Тем не менее, по своим показателям он все еще уступает лучшим моделям с закрытым исходным кодом, таким как Claude Opus 4.5 и GPT-5.2. В Vending Bench 2, оценке бизнес-моделирования, GLM-5 принесла 4 432 доллара симулированной годовой прибыли, что ставит ее примерно в один ряд с системами с закрытым исходным кодом.

В GLM-5 также были значительно улучшены возможности системного проектирования и агентов дальнего действия. Теперь он может конвертировать текст или исходные материалы непосредственно в файлы .docx, .pdf и .xlsx, а также генерировать такие специфические материалы, как документы с требованиями к продукту, планы занятий, экзамены, электронные таблицы, финансовые отчеты, блок-схемы и меню.

Gemini 3 Deep Think устанавливает новую планку для научных рассуждений

Ранним утром 13 февраля 2026 года компания Google официально выпустила Gemini 3 Deep Think - крупное обновление, которое я (условно) назову самой сильной моделью научных исследований и рассуждений на планете. В конце концов, Gemini была единственной моделью, которая прошла тест на мойку автомобиля: "Я хочу помыть машину, а автомойка находится всего в 50 метрах. Должен ли я завести машину и поехать туда или просто пройтись пешком?".

Его основная сила - первоклассные рассуждения и соревновательная производительность: он набрал 3455 Elo на Codeforces, что соответствует восьмому лучшему в мире соревновательному программисту. Он достиг золотых медалей в письменной части международных олимпиад по физике, химии и математике 2025 года. Еще один прорыв - экономическая эффективность. ARC-AGI-1 стоит всего 7,17 доллара за задачу, что в 280 раз - 420 раз меньше, чем в OpenAI o3-preview 14-месячной давности. Что касается прикладной стороны, то наибольшие успехи Deep Think связаны с научными исследованиями. Эксперты уже используют его для рецензирования профессиональных математических работ и оптимизации сложных процессов подготовки к выращиванию кристаллов.

MiniMax M2.5 конкурирует по цене и скорости для производственных рабочих нагрузок

В тот же день MiniMax выпустил версию M2.5, позиционируя ее как чемпиона по стоимости и эффективности для производственных задач.

Будучи одним из самых быстродействующих семейств моделей в отрасли, M2.5 устанавливает новые результаты SOTA в области кодирования, вызова инструментов, поиска и офисной производительности. Стоимость является его главным преимуществом: быстрая версия работает примерно со скоростью 100 TPS, при этом входные данные оцениваются в 0,30permilliontokensandoutputat0,30 за миллион токенов, а выходные -0 ,40 за миллион токенов. Версия 50 TPS снижает стоимость выпуска еще в два раза. Скорость выросла на 37 % по сравнению с предыдущей версией M2.1, и она выполняет задачи SWE-bench Verified в среднем за 22,8 минуты, что примерно соответствует Claude Opus 4.6. Что касается возможностей, то M2.5 поддерживает полностековую разработку на более чем 10 языках, включая Go, Rust и Kotlin, охватывая все - от проектирования систем "от нуля до единицы" до полного обзора кода. Для офисной работы функция Office Skills обеспечивает глубокую интеграцию с Word, PPT и Excel. В сочетании со знаниями в области финансов и права она позволяет генерировать исследовательские отчеты и финансовые модели, готовые к непосредственному использованию.

Это общий обзор. Далее давайте посмотрим, как они работают в практических тестах.

Сравнение на практике

Рендеринг 3D-сцен: Gemini 3 Deep Think дает наиболее реалистичные результаты

Мы взяли задание, которое пользователи уже тестировали на Gemini 3 Deep Think, и прогнали его через GLM-5 и MiniMax M2.5 для прямого сравнения. Задача: создать полную сцену Three.js в одном HTML-файле, которая отображает полностью 3D-интерьер комнаты, неотличимый от классической картины маслом в музее.

Gemini 3 Deep Think

GLM-5

MiniMax M2.5

Gemini 3 Deep Think показал самый сильный результат. Он точно интерпретировал подсказку и создал высококачественную 3D-сцену. Особого внимания заслуживает освещение: направление и падение теней выглядели естественно, четко передавая пространственные отношения естественного света, проникающего через окно. Впечатляют и мелкие детали, в том числе полурасплавленная текстура свечей и качество материала красных сургучных печатей. В целом визуальная достоверность была высокой.

ВGLM-5 детально проработаны модели объектов и текстуры, но система освещения имеет заметные проблемы. Тени от столов отображались как твердые, чисто черные блоки без мягких переходов. Сургучная печать, казалось, парила над поверхностью стола, не позволяя корректно обрабатывать контакт между объектами и столешницей. Эти артефакты указывают на необходимость улучшения глобального освещения и пространственного мышления.

MiniMax M2.5 не смог эффективно разобрать сложное описание сцены. На выходе получалось лишь беспорядочное движение частиц, что говорит о значительных ограничениях как в понимании, так и в генерации при работе с многослойными семантическими инструкциями с точными визуальными требованиями.

Генерация SVG: все три модели справляются с этим по-разному

Задача: Создайте SVG-изображение калифорнийского коричневого пеликана, едущего на велосипеде. Велосипед должен иметь спицы и раму правильной формы. У пеликана должна быть характерная большая сумка, и должны быть четко видны перья. Пеликан должен четко крутить педали велосипеда. На рисунке должно быть изображено полное гнездовое оперение калифорнийского бурого пеликана.

Близнецы 3 Глубокая мысль

Gemini 3 Deep Think Gemini 3 Deep Think

ГЛМ-5

GLM-5 GLM-5

MiniMax M2.5

MiniMax M2.5 MiniMax M2.5

Gemini 3 Deep Think создал самый полный SVG. Поза пеликана при езде точна: его центр тяжести естественно располагается на сиденье, а ноги лежат на педалях в динамичной позе велосипедиста. Текстура перьев детализирована и многослойна. Единственное слабое место - фирменный горловой мешок пеликана нарисован слишком большим, что немного нарушает общие пропорции.

УGLM-5 были заметные проблемы с осанкой. Ноги правильно расположены на педалях, но общее положение сидящего отклоняется от естественной позы для езды, а соотношение тела и сиденья выглядит не совсем правильным. При этом детализация проработана хорошо: горловой мешок имеет правильные пропорции, а качество текстуры перьев заслуживает уважения.

MiniMax M2.5 придерживается минималистского стиля и полностью отказался от фоновых элементов. Позиция пеликана на велосипеде примерно правильная, но детализация оставляет желать лучшего. Руль неправильной формы, текстура перьев практически отсутствует, шея слишком толстая, а на изображении присутствуют блуждающие белые овальные артефакты, которых не должно быть.

Как выбрать между GLM-5, MiniMax M2.5 и Gemin 3 Deep Think

Во всех наших тестах MiniMax M2.5 генерировал результаты медленнее всех и требовал больше всего времени на размышления и рассуждения. GLM-5 работал стабильно и по скорости был примерно на одном уровне с Gemini 3 Deep Think.

Вот краткое руководство по выбору, которое мы подготовили:

Основной сценарий использованияРекомендуемая модельКлючевые сильные стороны
Научные исследования, сложные рассуждения (физика, химия, математика, разработка сложных алгоритмов)Близнецы 3 Глубокое мышлениеЗолотые медали в академических соревнованиях. Проверка научных данных на высшем уровне. Соревновательное программирование мирового класса на Codeforces. Проверенное применение в научных исследованиях, включая выявление логических недостатков в профессиональных работах. (В настоящее время доступна только подписчикам Google AI Ultra и избранным корпоративным пользователям; стоимость каждой задачи относительно высока).
Развертывание с открытым исходным кодом, настройка корпоративной интрасети, полнофункциональная разработка, интеграция офисных навыковZhipu GLM-5Лучшая модель с открытым исходным кодом. Сильные инженерные возможности на уровне системы. Поддерживает локальное развертывание с приемлемыми затратами.
Рабочие нагрузки, чувствительные к затратам, многоязычное программирование, кросс-платформенная разработка (Web/Android/iOS/Windows), совместимость с офисомMiniMax M2.5При 100 TPS: 0.30permillioninputtokens,0.30 на миллион входных токенов,0 2.40 на миллион выходных токенов. SOTA в офисных, кодировочных и инструментальных эталонах. Занимает первое место в бенчмарке Multi-SWE-Bench. Сильная обобщенность. Процент сдачи на Droid/OpenCode превышает Claude Opus 4.6.

Учебное пособие RAG: Подключение GLM-5 к Milvus для базы знаний

И GLM-5, и MiniMax M2.5 доступны через OpenRouter. Зарегистрируйтесь и создайте OPENROUTER_API_KEY, чтобы начать работу.

В этом руководстве в качестве примера LLM используется GLM-5 от Zhipu. Чтобы использовать MiniMax вместо него, просто поменяйте название модели на minimax/minimax-m2.5.

Зависимости и настройка среды

Установите или обновите pymilvus, openai, requests и tqdm до последних версий:

pip install --upgrade pymilvus openai requests tqdm 

В данном руководстве в качестве LLM используется GLM-5, а в качестве модели встраивания - текстовая модель OpenAI text-embedding-3-small.

import os
os.environ["OPENROUTER_API_KEY"] = "**********" 

Подготовка данных

Мы будем использовать страницы FAQ из документации Milvus 2.4.x в качестве нашей частной базы знаний.

Скачайте zip-файл и распакуйте документацию в папку milvus_docs:

wget https://github.com/milvus-io/milvus-docs/releases/download/v2.4.6-preview/milvus_docs_2.4.x_en.zip
unzip -q milvus_docs_2.4.x_en.zip -d milvus_docs

Загрузите все Markdown-файлы из папки milvus_docs/en/faq. Мы разделили каждый файл на "# ", чтобы примерно разделить содержимое по основным разделам:

from glob import glob
text_lines = []
for file_path in glob("milvus_docs/en/faq/*.md", recursive=True):
    with open(file_path, "r") as file:
        file_text = file.read()
    text_lines += file_text.split("# ")

Настройка LLM и модели встраивания

Мы будем использовать GLM-5 в качестве LLM и text-embedding-3-small в качестве модели встраивания:

from openai import OpenAI
glm_client = OpenAI(
    api_key=os.environ["OPENROUTER_API_KEY"],
    base_url="https://openrouter.ai/api/v1",
)

Сгенерируйте тестовый эмбеддинг и выведите его размеры и первые несколько элементов:

EMBEDDING_MODEL = "openai/text-embedding-3-small"  # OpenRouter embedding model
resp = glm_client.embeddings.create(
    model=EMBEDDING_MODEL,
    input=["This is a test1", "This is a test2"],
)
test_embeddings = [d.embedding for d in resp.data]
embedding_dim = len(test_embeddings[0])
print(embedding_dim)
print(test_embeddings[0][:10])

Выходные данные:

1536
[0.010637564584612846, -0.017222722992300987, 0.05409347265958786, -0.04377825930714607, -0.017545074224472046, -0.04196695610880852, -0.0011963422875851393, 0.03837504982948303, 0.0008855042979121208, 0.015181170776486397]

Загрузка данных в Milvus

Создание коллекции:

from pymilvus import MilvusClient
milvus_client = MilvusClient(uri="./milvus_demo.db")
collection_name = "my_rag_collection"

Замечание по конфигурации MilvusClient:

  • Установка URI на локальный файл (например, ./milvus.db) - самый простой вариант. Он автоматически использует Milvus Lite для хранения всех данных в этом файле.

  • Для больших объемов данных можно развернуть более производительный сервер Milvus на Docker или Kubernetes. В этом случае используйте URI сервера (например, http://localhost:19530).

  • Чтобы использовать Zilliz Cloud (полностью управляемую облачную версию Milvus), установите URI и токен на публичную конечную точку и ключ API в консоли Zilliz Cloud.

Проверьте, существует ли уже коллекция, и удалите ее, если да:

if milvus_client.has_collection(collection_name):
    milvus_client.drop_collection(collection_name)

Создайте новую коллекцию с указанными параметрами. Если вы не указали определения полей, Milvus автоматически создает поле по умолчанию id в качестве первичного ключа и поле vector для векторных данных. В зарезервированном поле JSON хранятся любые поля и значения, не определенные в схеме:

milvus_client.create_collection(
    collection_name=collection_name,
    dimension=embedding_dim,
    metric_type="COSINE",
    consistency_level="Strong",
)

Вставка данных

Пройдитесь по текстовым строкам, сгенерируйте вкрапления и вставьте данные в Milvus. Поле text здесь не определено в схеме. Оно автоматически добавляется как динамическое поле, поддерживаемое зарезервированным JSON-полем Milvus:

from tqdm import tqdm
data = []
resp = glm_client.embeddings.create(model=EMBEDDING_MODEL, input=text_lines)
doc_embeddings = [d.embedding for d in resp.data]
for i, line in enumerate(tqdm(text_lines, desc="Creating embeddings")):
    data.append({"id": i, "vector": doc_embeddings[i], "text": line})
milvus_client.insert(collection_name=collection_name, data=data)

Output:

Creating embeddings: 100%|██████████████████████████| 72/72 [00:00<00:00, 125203.10it/s]
{'insert_count': 72, 'ids': [0, 1, 2, ..., 71], 'cost': 0}

Построение конвейера RAG

Получение релевантных документов:

Зададим распространенный вопрос о Milvus:

question = "How is data stored in milvus?"

Поиск по коллекции для получения 3 наиболее релевантных результатов:

resp = glm_client.embeddings.create(model=EMBEDDING_MODEL, input=[question])
question_embedding = resp.data[0].embedding
search_res = milvus_client.search(
    collection_name=collection_name,
    data=[question_embedding],
    limit=3,
    search_params={"metric_type": "COSINE", "params": {}},
    output_fields=["text"],
)

Результаты сортируются по расстоянию, ближайшие первые:

import json

retrieved_lines_with_distances = [ (res[“entity”][“text”], res[“distance”]) for res in search_res[0] ] print(json.dumps(retrieved_lines_with_distances, indent=4))

[ [ " Where does Milvus store data?\n\nMilvus deals with two types of data, inserted data and metadata. \n\nInserted data, including vector data, scalar data, and collection-specific schema, are stored in persistent storage as incremental log. Milvus supports multiple object storage backends, including MinIO, AWS S3, Google Cloud Storage (GCS), Azure Blob Storage, Alibaba Cloud OSS, and Tencent Cloud Object Storage (COS).\n\nMetadata are generated within Milvus. Each Milvus module has its own metadata that are stored in etcd.\n\n###", 0.7826977372169495 ], [ “How does Milvus handle vector data types and precision?\n\nMilvus supports Binary, Float32, Float16, and BFloat16 vector types.\n\n- Binary vectors: Store binary data as sequences of 0s and 1s, used in image processing and information retrieval.\n- Float32 vectors: Default storage with a precision of about 7 decimal digits. Even Float64 values are stored with Float32 precision, leading to potential precision loss upon retrieval.\n- Float16 and BFloat16 vectors: Offer reduced precision and memory usage. Float16 is suitable for applications with limited bandwidth and storage, while BFloat16 balances range and efficiency, commonly used in deep learning to reduce computational requirements without significantly impacting accuracy.\n\n###”, 0.6772387027740479 ], [ “How much does Milvus cost?\n\nMilvus is a 100% free open-source project.\n\nPlease adhere to Apache License 2.0 when using Milvus for production or distribution purposes.\n\nZilliz, the company behind Milvus, also offers a fully managed cloud version of the platform for those that don’t want to build and maintain their own distributed instance. Zilliz Cloud automatically maintains data reliability and allows users to pay only for what they use.\n\n###”, 0.6467022895812988 ] ]

Сгенерировать ответ с помощью LLM:

Объедините найденные документы в контекстную строку:

context = "\n".join(
    [line_with_distance[0] for line_with_distance in retrieved_lines_with_distances]
)

Настройте системные и пользовательские подсказки. Пользовательская подсказка строится на основе документов, полученных из Milvus:

SYSTEM_PROMPT = """
Human: You are an AI assistant. You can find answers to the questions in the contextual passage snippets provided.
"""
USER_PROMPT = f"""
Use the following pieces of information enclosed in <context> tags to provide an answer to the question enclosed in <question> tags.
<context>
{context}
</context>
<question>
{question}
</question>
"""

Вызов GLM-5 для генерации окончательного ответа:

response = glm_client.chat.completions.create(
    model="z-ai/glm-5",
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": USER_PROMPT},
    ],
)
print(response.choices[0].message.content)

GLM-5 возвращает хорошо структурированный ответ:

Based on the provided context, Milvus stores data in two main ways, depending on the data type:

1. Inserted Data

  • What it includes: vector data, scalar data, and collection-specific schema.
  • How it is stored: in persistent storage as an incremental log.
  • Storage Backends: Milvus supports multiple object storage backends, including MinIO, AWS S3, Google Cloud Storage (GCS), Azure Blob Storage, Alibaba Cloud OSS, and Tencent Cloud Object Storage (COS).
  • Vector Specifics: vector data can be stored as Binary vectors (sequences of 0s and 1s), Float32 vectors (default storage), or Float16 and BFloat16 vectors (offering reduced precision and memory usage).
  1. Metadata
    • What it includes: data generated within Milvus modules.
    • How it is stored: in etcd.

Заключение: Выберите модель, а затем постройте конвейер

Все три модели сильны, но они сильны в разных вещах. Gemini 3 Deep Think - лучший выбор, когда глубина рассуждений важнее стоимости. GLM-5 - лучший вариант с открытым исходным кодом для команд, которым требуется локальное развертывание и проектирование на уровне системы. MiniMax M2.5 имеет смысл использовать, если вы оптимизируете производительность и бюджет для производственных рабочих нагрузок.

Выбор модели - это только половина уравнения. Чтобы превратить любую из них в полезное приложение, необходим слой извлечения, который может масштабироваться вместе с данными. Именно здесь и пригодится Milvus. Приведенный выше учебник по RAG работает с любой OpenAI-совместимой моделью, поэтому для перехода между GLM-5, MiniMax M2.5 или любой другой будущей версией достаточно изменить всего одну строку.

Если вы разрабатываете локальные или локальные агенты ИИ и хотите более подробно обсудить архитектуру хранилища, дизайн сессий или безопасный откат, присоединяйтесь к нашему каналу Slack. Вы также можете заказать 20-минутную индивидуальную встречу через Milvus Office Hours, чтобы получить индивидуальные рекомендации.

Если вы хотите углубиться в создание агентов искусственного интеллекта, вот другие ресурсы, которые помогут вам начать.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Продолжить чтение