milvus-logo
LFAI
Casa
  • Guida per l'utente

Standard

L'analizzatore standard è l'analizzatore predefinito di Milvus, che viene applicato automaticamente ai campi di testo se non viene specificato alcun analizzatore. Utilizza una tokenizzazione basata sulla grammatica, che lo rende efficace per la maggior parte delle lingue.

Definizione

L'analizzatore standard è composto da.

  • Tokenizzatore: Utilizza il tokenizer di standard per suddividere il testo in unità discrete di parole in base alle regole grammaticali. Per ulteriori informazioni, consultare Standard.

  • Filtro: Utilizza il filtro di lowercase per convertire tutti i token in minuscolo, consentendo ricerche senza distinzione tra maiuscole e minuscole. Per ulteriori informazioni, fare riferimento alowercase filter.

La funzionalità dell'analizzatore standard è equivalente alla seguente configurazione dell'analizzatore personalizzato.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Configurazione

Per applicare l'analizzatore standard a un campo, è sufficiente impostare type su standard in analyzer_params e includere i parametri opzionali necessari.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

L'analizzatore standard accetta i seguenti parametri opzionali:

Parametro

Descrizione

stop_words

Un array contenente un elenco di stop words, che saranno rimosse dalla tokenizzazione. L'impostazione predefinita è _english_, un insieme integrato di parole d'arresto inglesi comuni. I dettagli di _english_ sono disponibili qui.

Esempio di configurazione di stop word personalizzate.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

Dopo aver definito analyzer_params, è possibile applicarle a un campo VARCHAR quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per ulteriori informazioni, vedere Esempio di utilizzo.

Esempio di output

Ecco come l'analizzatore standard elabora il testo.

Testo originale.

"The Milvus vector database is built for scale!"

Risultato atteso.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

Tradotto daDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Questa pagina è stata utile?