milvus-logo
LFAI
Casa
  • Guida per l'utente

Stop

Il filtro stop rimuove le parole di stop specificate dal testo tokenizzato, aiutando a eliminare le parole comuni e meno significative. È possibile configurare l'elenco delle parole di arresto utilizzando il parametro stop_words.

Configurazione

Il filtro length è un filtro personalizzato di Milvus. Per usarlo, si deve specificare "type": "stop" nella configurazione del filtro, insieme al parametro stop_words che fornisce un elenco di stop word.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

Il filtro stop accetta i seguenti parametri configurabili.

Parametro

Descrizione

stop_words

Un elenco di parole da rimuovere dalla tokenizzazione. Per impostazione predefinita, viene utilizzato l'elenco predefinito _english_, contenente le più comuni stop words inglesi. I dettagli di _english_ sono disponibili qui.

Il filtro stop opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.

Dopo aver definito analyzer_params, è possibile applicarlo a un campo VARCHAR quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.

Esempio di output

Ecco un esempio di come il filtro stop elabora il testo.

Testo originale.

"The stop filter allows control over common stop words for text processing."

Risultato atteso (con stop_words: ["the", "over", "_english_"]).

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

Tradotto daDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Questa pagina è stata utile?