milvus-logo
LFAI
Casa
  • Guida per l'utente

Stemmer

Il filtro stemmer riduce le parole alla loro forma di base o radice (nota come stemming), facilitando la corrispondenza tra parole con significati simili e inflessioni diverse. Il filtro stemmer supporta più lingue, consentendo una ricerca e un'indicizzazione efficaci in vari contesti linguistici.

Configurazione

Il filtro stemmer è un filtro personalizzato di Milvus. Per utilizzarlo, è necessario specificare "type": "stemmer" nella configurazione del filtro, insieme a un parametro language per selezionare la lingua desiderata per lo stemming.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stemmer", # Specifies the filter type as stemmer
        "language": "english", # Sets the language for stemming to English
    }],
}

Il filtro stemmer accetta i seguenti parametri configurabili.

Parametro

Descrizione

language

Specifica la lingua per il processo di stemming. Le lingue supportate sono: "arabic", "danish", "dutch", "english", "finnish", "french", "german", "greek", "hungarian", "italian", "norwegian", "portuguese", "romanian", "russian", "spanish", "swedish", "tamil", "turkish"

Il filtro stemmer opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.

Dopo aver definito analyzer_params, è possibile applicarli a un campo VARCHAR quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.

Esempio di output

Ecco un esempio di come il filtro stemmer elabora il testo.

Testo originale.

"running runs looked ran runner"

Risultato atteso (con language: "english").

["run", "run", "look", "ran", "runner"]

Tradotto daDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Questa pagina è stata utile?