milvus-logo
LFAI
Home
  • Guía del usuario

Estándar

El analizador standard es el analizador por defecto en Milvus, que se aplica automáticamente a los campos de texto si no se especifica ningún analizador. Utiliza la tokenización basada en la gramática, lo que lo hace eficaz para la mayoría de los idiomas.

Definición

El analizador standard consta de

  • Tokenizador: Utiliza el tokenizador standard para dividir el texto en unidades discretas de palabras basándose en reglas gramaticales. Para más información, consulte Norma.

  • Filtro: Utiliza el filtro lowercase para convertir todos los tokens a minúsculas, lo que permite realizar búsquedas sin distinguir mayúsculas de minúsculas. Para más información, consultelowercase filter.

La funcionalidad del analizador standard es equivalente a la siguiente configuración personalizada del analizador.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Configuración

Para aplicar el analizador standard a un campo, basta con establecer type en standard en analyzer_params, e incluir los parámetros opcionales que sean necesarios.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

El analizador standard acepta los siguientes parámetros opcionales:

Parámetro

Descripción

stop_words

Matriz que contiene una lista de palabras vacías que se eliminarán de la tokenización. El valor predeterminado es _english_, un conjunto integrado de palabras de parada comunes en inglés. Los detalles de _english_ pueden encontrarse aquí.

Ejemplo de configuración de palabras reservadas personalizadas.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

Después de definir analyzer_params, puede aplicarlas a un campo VARCHAR al definir un esquema de colección. Esto permite a Milvus procesar el texto en ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más información, consulte Ejemplo de uso.

Ejemplo de salida

A continuación se muestra cómo procesa el texto el analizador standard.

Texto original.

"The Milvus vector database is built for scale!"

Salida esperada.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

Traducido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

¿Fue útil esta página?