Piegatura ASCII
Il filtro asciifolding
** **converte i caratteri al di fuori del blocco Basic Latin Unicode (i primi 127 caratteri ASCII) nei loro equivalenti ASCII. Ad esempio, trasforma caratteri come í
in i
, rendendo l'elaborazione del testo più semplice e coerente, soprattutto per i contenuti multilingue.
Configurazione
Il filtro asciifolding
è integrato in Milvus. Per utilizzarlo, è sufficiente specificarne il nome nella sezione filter
all'interno di analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
Il filtro asciifolding
opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.
Dopo aver definito analyzer_params
, è possibile applicarli a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il filtro asciifolding
elabora il testo.
Testo originale.
"Café Möller serves crème brûlée and piñatas."
Risultato atteso.
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]