Standard
L'analizzatore standard
è l'analizzatore predefinito di Milvus, che viene applicato automaticamente ai campi di testo se non viene specificato alcun analizzatore. Utilizza una tokenizzazione basata sulla grammatica, che lo rende efficace per la maggior parte delle lingue.
Definizione
L'analizzatore standard
è composto da.
Tokenizzatore: Utilizza il tokenizer di
standard
per suddividere il testo in unità discrete di parole in base alle regole grammaticali. Per ulteriori informazioni, consultare Standard.Filtro: Utilizza il filtro di
lowercase
per convertire tutti i token in minuscolo, consentendo ricerche senza distinzione tra maiuscole e minuscole. Per ulteriori informazioni, fare riferimento alowercase filter
.
La funzionalità dell'analizzatore standard
è equivalente alla seguente configurazione dell'analizzatore personalizzato.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Configurazione
Per applicare l'analizzatore standard
a un campo, è sufficiente impostare type
su standard
in analyzer_params
e includere i parametri opzionali necessari.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
L'analizzatore standard
accetta i seguenti parametri opzionali:
Parametro | Descrizione |
---|---|
| Un array contenente un elenco di stop words, che saranno rimosse dalla tokenizzazione. L'impostazione predefinita è |
Esempio di configurazione di stop word personalizzate.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Dopo aver definito analyzer_params
, è possibile applicarle a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per ulteriori informazioni, vedere Esempio di utilizzo.
Esempio di output
Ecco come l'analizzatore standard
elabora il testo.
Testo originale.
"The Milvus vector database is built for scale!"
Risultato atteso.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]