milvus-logo
LFAI
Casa
  • Guida per l'utente

Spazio bianco

Il tokenizer whitespace divide il testo in termini ogni volta che c'è uno spazio tra le parole.

Configurazione

Per configurare un analizzatore che utilizza il tokenizer whitespace, impostare tokenizer su whitespace in analyzer_params.

analyzer_params = {
    "tokenizer": "whitespace",
}

Il tokenizer degli spazi bianchi può funzionare insieme a uno o più filtri. Ad esempio, il codice seguente definisce un analizzatore che usa il tokenizer whitespace e il filtro lowercase filter:

analyzer_params = {
    "tokenizer": "whitespace",
    "filter": ["lowercase"]
}

Dopo aver definito analyzer_params, è possibile applicarli a un campo VARCHAR quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo di quel campo usando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.

Esempio di output

Ecco un esempio di come il tokenizer whitespace elabora il testo.

Testo originale.

"The Milvus vector database is built for scale!"

Risultato atteso.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]

Tradotto daDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Questa pagina è stata utile?