milvus-logo
LFAI
Casa
  • Guida per l'utente

Standard

Il tokenizzatore standard di Milvus divide il testo in base agli spazi e ai segni di punteggiatura, rendendolo adatto alla maggior parte delle lingue.

Configurazione

Per configurare un analizzatore che utilizza il tokenizer standard, impostare tokenizer su standard in analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
}

Il tokenizer standard può funzionare insieme a uno o più filtri. Per esempio, il codice seguente definisce un analizzatore che utilizza il tokenizer standard e il filtro lowercase.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Per una configurazione più semplice, si può scegliere di usare il filtro standard analyzerche combina il tokenizer standard con il filtro lowercase filter.

Dopo aver definito analyzer_params, è possibile applicarli a un campo VARCHAR quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo usando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.

Esempio di output

Ecco un esempio di come il tokenizer standard elabora il testo.

Testo originale.

"The Milvus vector database is built for scale!"

Risultato atteso.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

Tradotto daDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Questa pagina è stata utile?