milvus-logo
LFAI
Casa
  • Guida per l'utente

Inglese

L'analizzatore english di Milvus è progettato per elaborare testi in inglese, applicando regole specifiche per la lingua per la tokenizzazione e il filtraggio.

Definizione

L'analizzatore english utilizza i seguenti componenti.

  • Tokenizzatore: Utilizza la funzione standard tokenizer per dividere il testo in unità di parole discrete.

  • Filtri: Include diversi filtri per un'elaborazione completa del testo.

    • lowercase: Converte tutti i token in minuscolo, consentendo ricerche senza distinzione tra maiuscole e minuscole.

    • stemmer: Riduce le parole alla loro forma radicale per supportare una corrispondenza più ampia (ad esempio, "running" diventa "run").

    • stop_words: Rimuove le comuni stop words inglesi per concentrarsi sui termini chiave del testo.

La funzionalità dell'analizzatore english è equivalente alla seguente configurazione personalizzata dell'analizzatore.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

Configurazione

Per applicare l'analizzatore english a un campo, è sufficiente impostare type su english in analyzer_params e includere i parametri opzionali necessari.

analyzer_params = {
    "type": "english",
}

L'analizzatore english accetta i seguenti parametri opzionali:

Parametro

Descrizione

stop_words

Un array contenente un elenco di stop words che saranno rimosse dalla tokenizzazione. L'impostazione predefinita è _english_, un insieme integrato di parole di arresto comuni in inglese.

Esempio di configurazione con stop word personalizzate.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

Dopo aver definito analyzer_params, è possibile applicarle a un campo VARCHAR quando si definisce uno schema di raccolta. Questo permette a Milvus di elaborare il testo in quel campo usando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.

Esempio di output

Ecco come l'analizzatore english elabora il testo.

Testo originale.

"The Milvus vector database is built for scale!"

Risultato atteso.

["milvus", "vector", "databas", "built", "scale"]

Tradotto daDeepL

Tabella dei contenuti

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Questa pagina è stata utile?