Stop
Il filtro stop
rimuove le parole di stop specificate dal testo tokenizzato, aiutando a eliminare le parole comuni e meno significative. È possibile configurare l'elenco delle parole di arresto utilizzando il parametro stop_words
.
Configurazione
Il filtro length
è un filtro personalizzato di Milvus. Per usarlo, si deve specificare "type": "stop"
nella configurazione del filtro, insieme al parametro stop_words
che fornisce un elenco di stop word.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
Il filtro stop
accetta i seguenti parametri configurabili.
Parametro | Descrizione |
---|---|
| Un elenco di parole da rimuovere dalla tokenizzazione. Per impostazione predefinita, viene utilizzato l'elenco predefinito |
Il filtro stop
opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.
Dopo aver definito analyzer_params
, è possibile applicarlo a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il filtro stop
elabora il testo.
Testo originale.
"The stop filter allows control over common stop words for text processing."
Risultato atteso (con stop_words: ["the", "over", "_english_"]
).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]