Solo alfanumerico
Il filtro alphanumonly
rimuove i token che contengono caratteri non ASCII, mantenendo solo i termini alfanumerici. Questo filtro è utile per l'elaborazione di testi in cui sono rilevanti solo lettere e numeri di base, escludendo caratteri speciali o simboli.
Configurazione
Il filtro alphanumonly
è integrato in Milvus. Per utilizzarlo, è sufficiente specificarne il nome nella sezione filter
all'interno di analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
Il filtro alphanumonly
opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.
Dopo aver definito analyzer_params
, è possibile applicarli a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il filtro alphanumonly
elabora il testo.
Testo originale.
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
Risultato atteso.
["Milvus", "2", "0", "Scale", "AI", "Vector"]