milvus-logo
LFAI
Home
  • Guía del usuario

Inglés

El analizador english de Milvus está diseñado para procesar texto en inglés, aplicando reglas específicas del idioma para la tokenización y el filtrado.

Definición

El analizador english utiliza los siguientes componentes.

  • Tokenizador: Utiliza el standard tokenizer para dividir el texto en unidades discretas de palabras.

  • Filtros: Incluye múltiples filtros para un procesamiento exhaustivo del texto.

    • lowercase: Convierte todos los tokens a minúsculas, lo que permite realizar búsquedas sin distinguir mayúsculas de minúsculas.

    • stemmer: Reduce las palabras a su raíz para permitir una búsqueda más amplia (por ejemplo, "correr" se convierte en "correr").

    • stop_words: Elimina las palabras de parada comunes en inglés para centrarse en los términos clave del texto.

La funcionalidad del analizador english es equivalente a la siguiente configuración personalizada del analizador.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

Configuración

Para aplicar el analizador english a un campo, basta con configurar type en english en analyzer_params, e incluir los parámetros opcionales que sean necesarios.

analyzer_params = {
    "type": "english",
}

El analizador english acepta los siguientes parámetros opcionales:

Parámetro

Descripción

stop_words

Matriz que contiene una lista de palabras vacías que se eliminarán de la tokenización. El valor predeterminado es _english_, un conjunto integrado de palabras reservadas comunes en inglés.

Ejemplo de configuración con palabras reservadas personalizadas.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

Después de definir analyzer_params, puede aplicarlas a un campo VARCHAR al definir un esquema de recopilación. Esto permite a Milvus procesar el texto en ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.

Ejemplo de salida

A continuación se muestra cómo procesa el texto el analizador english.

Texto original.

"The Milvus vector database is built for scale!"

Salida esperada.

["milvus", "vector", "databas", "built", "scale"]

Traducido porDeepL

Tabla de contenidos

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

¿Fue útil esta página?