GLM-5 vs. MiniMax M2.5 vs. Gemini 3 Riflessione approfondita: quale modello si adatta al vostro stack di agenti AI?
In poco più di due giorni sono stati rilasciati tre modelli importanti uno dietro l'altro: GLM-5, MiniMax M2.5 e Gemini 3 Deep Think. Tutti e tre hanno le stesse capacità: codifica, ragionamento profondo e flussi di lavoro agici. Tutti e tre dichiarano risultati all'avanguardia. Se si osservano le schede tecniche, si potrebbe quasi giocare a un gioco di abbinamento ed eliminare gli stessi punti chiave di tutte e tre le soluzioni.
Il pensiero più spaventoso? Probabilmente il vostro capo ha già visto gli annunci e non vede l'ora che voi creiate nove applicazioni interne utilizzando i tre modelli prima ancora che la settimana sia finita.
Cosa distingue effettivamente questi modelli? Come scegliere tra loro? E (come sempre) come collegarli a Milvus per creare una base di conoscenza interna? Segnatevi questa pagina. C'è tutto quello che vi serve.
GLM-5, MiniMax M2.5 e Gemini 3 Deep Think in sintesi
GLM-5 è leader nell'ingegneria di sistemi complessi e nei compiti di agente con orizzonte lungo
Il 12 febbraio Zhipu ha lanciato ufficialmente GLM-5, che eccelle nell'ingegneria di sistema complessa e nei flussi di lavoro degli agenti a lungo termine.
Il modello ha 355B-744B parametri (40B attivi), addestrati su 28,5T token. Integra meccanismi di attenzione rada con un framework di apprendimento per rinforzo asincrono chiamato Slime, che gli consente di gestire contesti lunghissimi senza perdita di qualità e mantenendo bassi i costi di implementazione.
GLM-5 ha guidato il gruppo open-source nei principali benchmark, posizionandosi al primo posto su SWE-bench Verified (77,8) e al primo posto su Terminal Bench 2.0 (56,2), davanti a MiniMax 2.5 e Gemini 3 Deep Think. Detto questo, i suoi punteggi principali sono ancora inferiori a quelli dei migliori modelli closed-source come Claude Opus 4.5 e GPT-5.2. In Vending Bench 2, una valutazione di simulazione aziendale, GLM-5 ha generato 4.432 dollari di profitto annuo simulato, collocandosi più o meno nella stessa fascia dei sistemi closed-source.
GLM-5 ha anche apportato significativi aggiornamenti alle sue capacità di ingegneria di sistema e di agente a lungo termine. Ora è in grado di convertire testi o materiali grezzi direttamente in file .docx, .pdf e .xlsx e di generare prodotti specifici come documenti sui requisiti del prodotto, piani di lezione, esami, fogli di calcolo, rapporti finanziari, diagrammi di flusso e menu.
Gemini 3 Deep Think stabilisce un nuovo limite per il ragionamento scientifico
Nelle prime ore del 13 febbraio 2026, Google ha rilasciato ufficialmente Gemini 3 Deep Think, un aggiornamento importante che definirò (provvisoriamente) il modello di ricerca e ragionamento più forte del pianeta. Dopo tutto, Gemini è stato l'unico modello a superare il test dell'autolavaggio: "Voglio lavare la mia auto e l'autolavaggio è a soli 50 metri di distanza. Devo accendere l'auto e guidare fino a lì o andare a piedi?".
Il suo punto di forza è il ragionamento di alto livello e le prestazioni nelle competizioni: ha raggiunto 3455 Elo su Codeforces, pari all'ottavo miglior programmatore competitivo del mondo. Ha raggiunto la medaglia d'oro nelle parti scritte delle Olimpiadi Internazionali di Fisica, Chimica e Matematica del 2025. L'efficienza dei costi è un altro punto di forza. ARC-AGI-1 costa solo 7,17 dollari per task, una riduzione da 280 a 420 volte rispetto a o3-preview di OpenAI di 14 mesi prima. Dal punto di vista applicativo, i maggiori vantaggi di Deep Think riguardano la ricerca scientifica. Gli esperti lo stanno già utilizzando per la revisione paritaria di documenti matematici professionali e per l'ottimizzazione di complessi flussi di lavoro per la preparazione della crescita dei cristalli.
MiniMax M2.5 compete su costi e velocità per i carichi di lavoro di produzione
Lo stesso giorno, MiniMax ha rilasciato M2.5, posizionandosi come campione di costo ed efficienza per i casi di utilizzo in produzione.
Essendo una delle famiglie di modelli più veloci del settore, M2.5 stabilisce nuovi risultati SOTA per quanto riguarda la codifica, la chiamata agli strumenti, la ricerca e la produttività d'ufficio. Il costo è il suo principale punto di forza: la versione veloce funziona a circa 100 TPS, con l'input al prezzo di 0 ,40 per milione di tokens. La versione a 50 TPS riduce il costo di produzione di un'altra metà. La velocità è migliorata del 37% rispetto al precedente M2.1 e completa i task SWE-bench Verified in una media di 22,8 minuti, più o meno come Claude Opus 4.6. Per quanto riguarda le funzionalità, M2.5 supporta lo sviluppo full-stack in oltre 10 linguaggi, tra cui Go, Rust e Kotlin, coprendo tutto, dalla progettazione di sistemi zero-to-one alla revisione completa del codice. Per i flussi di lavoro in ufficio, la funzione Office Skills si integra profondamente con Word, PPT ed Excel. Se combinata con le conoscenze di dominio in ambito finanziario e legale, può generare rapporti di ricerca e modelli finanziari pronti per l'uso diretto.
Questa è la panoramica di alto livello. Vediamo ora come si comportano effettivamente nei test pratici.
Confronti pratici
Rendering di scene 3D: Gemini 3 Deep Think produce i risultati più realistici
Abbiamo preso una richiesta che gli utenti avevano già testato su Gemini 3 Deep Think e l'abbiamo fatta passare attraverso GLM-5 e MiniMax M2.5 per un confronto diretto. La richiesta: costruire una scena Three.js completa in un singolo file HTML che renderizzi una stanza interna completamente in 3D, indistinguibile da un classico dipinto a olio in un museo.
Gemini 3 Pensare in profondità
GLM-5
MiniMax M2.5
Gemini 3 Deep Think ha fornito il risultato migliore. Ha interpretato accuratamente la richiesta e ha generato una scena 3D di alta qualità. L'illuminazione è stata il fiore all'occhiello: la direzione e la caduta delle ombre sono risultate naturali, trasmettendo chiaramente la relazione spaziale della luce naturale che entra da una finestra. Anche i dettagli sono stati notevoli, come la consistenza semi-fusa delle candele e la qualità dei materiali dei sigilli di cera rossi. La fedeltà visiva complessiva è stata elevata.
GLM-5 ha prodotto una modellazione dettagliata degli oggetti e un lavoro sulle texture, ma il suo sistema di illuminazione presentava problemi evidenti. Le ombre dei tavoli venivano rappresentate come blocchi neri puri e duri, senza transizioni morbide. Il sigillo di cera sembrava fluttuare sopra la superficie del tavolo, non riuscendo a gestire correttamente la relazione di contatto tra gli oggetti e il piano del tavolo. Questi artefatti indicano la necessità di migliorare l'illuminazione globale e il ragionamento spaziale.
MiniMax M2.5 non è riuscito ad analizzare efficacemente la complessa descrizione della scena. L'output era solo il movimento disordinato delle particelle, indicando limiti significativi sia nella comprensione che nella generazione quando si gestiscono istruzioni semantiche a più livelli con requisiti visivi precisi.
Generazione SVG: tutti e tre i modelli la gestiscono in modo diverso
Prompt: Generare un SVG di un pellicano marrone della California che va in bicicletta. La bicicletta deve avere i raggi e un telaio di forma corretta. Il pellicano deve avere il suo caratteristico marsupio di grandi dimensioni e deve avere una chiara indicazione delle piume. Il pellicano deve chiaramente pedalare sulla bicicletta. L'immagine deve mostrare il piumaggio riproduttivo completo del pellicano bruno della California.
Gemelli 3 Pensiero profondo
Gemelli 3 Pensiero profondo
GLM-5
GLM-5
MiniMax M2.5
MiniMax M2.5
Gemini 3 Deep Think ha prodotto l'SVG più completo in assoluto. La postura del pellicano è accurata: il suo centro di gravità si trova naturalmente sul sedile e i suoi piedi poggiano sui pedali in una posa dinamica da ciclista. La texture delle piume è dettagliata e stratificata. L'unico punto debole è che il marsupio del pellicano è disegnato troppo grande, il che altera leggermente le proporzioni complessive.
GLM-5 presenta notevoli problemi di postura. I piedi sono posizionati correttamente sui pedali, ma la posizione generale di seduta si allontana da una postura di guida naturale e il rapporto corpo-sedile sembra sbagliato. Detto questo, il lavoro sui dettagli è solido: il marsupio è ben proporzionato e la qualità delle texture delle piume è rispettabile.
MiniMax M2.5 ha scelto uno stile minimalista, saltando completamente gli elementi di sfondo. La posizione del pellicano sulla bicicletta è approssimativamente corretta, ma il lavoro di dettaglio non è all'altezza. Il manubrio ha la forma sbagliata, la texture della piuma è quasi inesistente, il collo è troppo spesso e nell'immagine sono presenti artefatti ovali bianchi che non dovrebbero esserci.
Come scegliere tra GLM-5, MiniMax M2.5 e Gemin 3 Deep Think
In tutti i nostri test, MiniMax M2.5 è stato il più lento a generare l'output, richiedendo il tempo più lungo per pensare e ragionare. GLM-5 si è comportato in modo coerente ed è stato all'incirca alla pari con Gemini 3 Deep Think in termini di velocità.
Ecco una rapida guida alla selezione che abbiamo messo insieme:
| Caso d'uso principale | Modello consigliato | Punti di forza |
|---|---|---|
| Ricerca scientifica, ragionamento avanzato (fisica, chimica, matematica, progettazione di algoritmi complessi) | Gemelli 3 Pensiero profondo | Prestazioni da medaglia d'oro nelle competizioni accademiche. Verifica dei dati scientifici di alto livello. Programmazione competitiva di livello mondiale su Codeforces. Applicazioni di ricerca comprovate, tra cui l'identificazione di difetti logici in documenti professionali. (Attualmente limitato agli abbonati a Google AI Ultra e a utenti aziendali selezionati; il costo per attività è relativamente alto). |
| Distribuzione open-source, personalizzazione di intranet aziendali, sviluppo full-stack, integrazione delle competenze di Office. | Zhipu GLM-5 | Modello open-source di prim'ordine. Forti capacità di progettazione a livello di sistema. Supporta la distribuzione locale con costi gestibili. |
| Carichi di lavoro sensibili ai costi, programmazione multilingue, sviluppo multipiattaforma (Web/Android/iOS/Windows), compatibilità con l'ufficio. | MiniMax M2.5 | A 100 TPS: 0 2,40 per milione di output tokens. SOTA nei benchmark di ufficio, codifica e chiamata di strumenti. Primo posto nel Multi-SWE-Bench. Forte generalizzazione. I tassi di superamento su Droid/OpenCode superano Claude Opus 4.6. |
Esercitazione RAG: Collegare GLM-5 con Milvus per una base di conoscenza
Sia GLM-5 che MiniMax M2.5 sono disponibili tramite OpenRouter. Registratevi e create un OPENROUTER_API_KEY per iniziare.
Questa esercitazione utilizza GLM-5 di Zhipu come esempio di LLM. Per utilizzare MiniMax, è sufficiente cambiare il nome del modello in minimax/minimax-m2.5.
Dipendenze e configurazione dell'ambiente
Installare o aggiornare pymilvus, openai, requests e tqdm alle loro ultime versioni:
pip install --upgrade pymilvus openai requests tqdm
Questo tutorial utilizza GLM-5 come LLM e text-embedding-3-small di OpenAI come modello di embedding.
import os
os.environ["OPENROUTER_API_KEY"] = "**********"
Preparazione dei dati
Utilizzeremo le pagine FAQ della documentazione di Milvus 2.4.x come base di conoscenza privata.
Scaricare il file zip ed estrarre i documenti in una cartella milvus_docs:
wget https://github.com/milvus-io/milvus-docs/releases/download/v2.4.6-preview/milvus_docs_2.4.x_en.zip
unzip -q milvus_docs_2.4.x_en.zip -d milvus_docs
Caricare tutti i file Markdown da milvus_docs/en/faq. Dividiamo ogni file in "# " per separare approssimativamente il contenuto per sezioni principali:
from glob import glob
text_lines = []
for file_path in glob("milvus_docs/en/faq/*.md", recursive=True):
with open(file_path, "r") as file:
file_text = file.read()
text_lines += file_text.split("# ")
Impostazione del modello LLM e di incorporazione
Useremo GLM-5 come LLM e text-embedding-3-small come modello di embedding:
from openai import OpenAI
glm_client = OpenAI(
api_key=os.environ["OPENROUTER_API_KEY"],
base_url="https://openrouter.ai/api/v1",
)
Generare un embedding di prova e stamparne le dimensioni e i primi elementi:
EMBEDDING_MODEL = "openai/text-embedding-3-small" # OpenRouter embedding model
resp = glm_client.embeddings.create(
model=EMBEDDING_MODEL,
input=["This is a test1", "This is a test2"],
)
test_embeddings = [d.embedding for d in resp.data]
embedding_dim = len(test_embeddings[0])
print(embedding_dim)
print(test_embeddings[0][:10])
Output:
1536
[0.010637564584612846, -0.017222722992300987, 0.05409347265958786, -0.04377825930714607, -0.017545074224472046, -0.04196695610880852, -0.0011963422875851393, 0.03837504982948303, 0.0008855042979121208, 0.015181170776486397]
Caricare i dati in Milvus
Creare una collezione:
from pymilvus import MilvusClient
milvus_client = MilvusClient(uri="./milvus_demo.db")
collection_name = "my_rag_collection"
Una nota sulla configurazione di MilvusClient:
L'impostazione dell'URI a un file locale (ad esempio,
./milvus.db) è l'opzione più semplice. Utilizza automaticamente Milvus Lite per memorizzare tutti i dati in quel file.Per i dati su larga scala, è possibile distribuire un server Milvus più performante su Docker o Kubernetes. In questo caso, utilizzare l'URI del server (ad esempio,
http://localhost:19530).Per utilizzare Zilliz Cloud (la versione cloud completamente gestita di Milvus), impostare l'URI e il token sull'Endpoint pubblico e sulla chiave API dalla console di Zilliz Cloud.
Verificare se la raccolta esiste già e, in caso affermativo, eliminarla:
if milvus_client.has_collection(collection_name):
milvus_client.drop_collection(collection_name)
Creare una nuova raccolta con i parametri specificati. Se non si forniscono definizioni di campi, Milvus crea automaticamente un campo id predefinito come chiave primaria e un campo vector per i dati vettoriali. Un campo JSON riservato memorizza i campi e i valori non definiti nello schema:
milvus_client.create_collection(
collection_name=collection_name,
dimension=embedding_dim,
metric_type="COSINE",
consistency_level="Strong",
)
Inserire i dati
Interagire con le righe di testo, generare le incorporazioni e inserire i dati in Milvus. Il campo text non è definito nello schema. Viene aggiunto automaticamente come campo dinamico supportato dal campo JSON riservato di Milvus:
from tqdm import tqdm
data = []
resp = glm_client.embeddings.create(model=EMBEDDING_MODEL, input=text_lines)
doc_embeddings = [d.embedding for d in resp.data]
for i, line in enumerate(tqdm(text_lines, desc="Creating embeddings")):
data.append({"id": i, "vector": doc_embeddings[i], "text": line})
milvus_client.insert(collection_name=collection_name, data=data)
Output:
Creating embeddings: 100%|██████████████████████████| 72/72 [00:00<00:00, 125203.10it/s]
{'insert_count': 72, 'ids': [0, 1, 2, ..., 71], 'cost': 0}
Costruire la pipeline RAG
Recuperare i documenti rilevanti:
Poniamo una domanda comune su Milvus:
question = "How is data stored in milvus?"
Cercare nella raccolta i 3 risultati più rilevanti:
resp = glm_client.embeddings.create(model=EMBEDDING_MODEL, input=[question])
question_embedding = resp.data[0].embedding
search_res = milvus_client.search(
collection_name=collection_name,
data=[question_embedding],
limit=3,
search_params={"metric_type": "COSINE", "params": {}},
output_fields=["text"],
)
I risultati sono ordinati per distanza, il più vicino per primo:
import json
retrieved_lines_with_distances = [
(res[“entity”][“text”], res[“distance”]) for res in search_res[0]
]
print(json.dumps(retrieved_lines_with_distances, indent=4))
[
[
" Where does Milvus store data?\n\nMilvus deals with two types of data, inserted data and metadata. \n\nInserted data, including vector data, scalar data, and collection-specific schema, are stored in persistent storage as incremental log. Milvus supports multiple object storage backends, including MinIO, AWS S3, Google Cloud Storage (GCS), Azure Blob Storage, Alibaba Cloud OSS, and Tencent Cloud Object Storage (COS).\n\nMetadata are generated within Milvus. Each Milvus module has its own metadata that are stored in etcd.\n\n###",
0.7826977372169495
],
[
“How does Milvus handle vector data types and precision?\n\nMilvus supports Binary, Float32, Float16, and BFloat16 vector types.\n\n- Binary vectors: Store binary data as sequences of 0s and 1s, used in image processing and information retrieval.\n- Float32 vectors: Default storage with a precision of about 7 decimal digits. Even Float64 values are stored with Float32 precision, leading to potential precision loss upon retrieval.\n- Float16 and BFloat16 vectors: Offer reduced precision and memory usage. Float16 is suitable for applications with limited bandwidth and storage, while BFloat16 balances range and efficiency, commonly used in deep learning to reduce computational requirements without significantly impacting accuracy.\n\n###”,
0.6772387027740479
],
[
“How much does Milvus cost?\n\nMilvus is a 100% free open-source project.\n\nPlease adhere to Apache License 2.0 when using Milvus for production or distribution purposes.\n\nZilliz, the company behind Milvus, also offers a fully managed cloud version of the platform for those that don’t want to build and maintain their own distributed instance. Zilliz Cloud automatically maintains data reliability and allows users to pay only for what they use.\n\n###”,
0.6467022895812988
]
]
Generare una risposta con il LLM:
Combinare i documenti recuperati in una stringa di contesto:
context = "\n".join(
[line_with_distance[0] for line_with_distance in retrieved_lines_with_distances]
)
Impostare i prompt del sistema e dell'utente. Il prompt dell'utente viene costruito a partire dai documenti recuperati da Milvus:
SYSTEM_PROMPT = """
Human: You are an AI assistant. You can find answers to the questions in the contextual passage snippets provided.
"""
USER_PROMPT = f"""
Use the following pieces of information enclosed in <context> tags to provide an answer to the question enclosed in <question> tags.
<context>
{context}
</context>
<question>
{question}
</question>
"""
Chiamare GLM-5 per generare la risposta finale:
response = glm_client.chat.completions.create(
model="z-ai/glm-5",
messages=[
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": USER_PROMPT},
],
)
print(response.choices[0].message.content)
GLM-5 restituisce una risposta ben strutturata:
Based on the provided context, Milvus stores data in two main ways, depending on the data type:
1. Inserted Data
- What it includes: vector data, scalar data, and collection-specific schema.
- How it is stored: in persistent storage as an incremental log.
- Storage Backends: Milvus supports multiple object storage backends, including MinIO, AWS S3, Google Cloud Storage (GCS), Azure Blob Storage, Alibaba Cloud OSS, and Tencent Cloud Object Storage (COS).
- Vector Specifics: vector data can be stored as Binary vectors (sequences of 0s and 1s), Float32 vectors (default storage), or Float16 and BFloat16 vectors (offering reduced precision and memory usage).
- Metadata
- What it includes: data generated within Milvus modules.
- How it is stored: in etcd.
Conclusione: Scegliere il modello, poi costruire la pipeline
Tutti e tre i modelli sono forti, ma lo sono in modo diverso. Gemini 3 Deep Think è il modello da scegliere quando la profondità del ragionamento è più importante del costo. GLM-5 è la migliore opzione open-source per i team che hanno bisogno di implementazione locale e di ingegneria a livello di sistema. MiniMax M2.5 ha senso quando si tratta di ottimizzare il throughput e il budget per i carichi di lavoro di produzione.
Il modello scelto è solo metà dell'equazione. Per trasformare uno di questi modelli in un'applicazione utile, è necessario un livello di recupero in grado di scalare con i dati. È qui che entra in gioco Milvus. L'esercitazione RAG di cui sopra funziona con qualsiasi modello compatibile con OpenAI, quindi per passare da GLM-5 a MiniMax M2.5 o a qualsiasi altra versione futura basta cambiare una sola riga.
Se state progettando agenti AI locali o on-premise e volete discutere più dettagliatamente dell'architettura di archiviazione, del design delle sessioni o del rollback sicuro, non esitate a unirvi al nostro canale Slack. Potete anche prenotare un incontro individuale di 20 minuti tramite Milvus Office Hours per una guida personalizzata.
Se volete approfondire la costruzione di agenti AI, ecco altre risorse per aiutarvi a iniziare.
Come costruire sistemi multi-agente pronti per la produzione con Agno e Milvus
Scegliere il giusto modello di embedding per la vostra pipeline RAG
Esercitazione su OpenClaw: Connettersi a Slack per un assistente AI locale
Costruire agenti di intelligenza artificiale in stile Clawdbot con LangGraph e Milvus
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word


