Estándar
El analizador standard
es el analizador por defecto en Milvus, que se aplica automáticamente a los campos de texto si no se especifica ningún analizador. Utiliza la tokenización basada en la gramática, lo que lo hace eficaz para la mayoría de los idiomas.
Definición
El analizador standard
consta de
Tokenizador: Utiliza el tokenizador
standard
para dividir el texto en unidades discretas de palabras basándose en reglas gramaticales. Para más información, consulte Norma.Filtro: Utiliza el filtro
lowercase
para convertir todos los tokens a minúsculas, lo que permite realizar búsquedas sin distinguir mayúsculas de minúsculas. Para más información, consultelowercase filter
.
La funcionalidad del analizador standard
es equivalente a la siguiente configuración personalizada del analizador.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Configuración
Para aplicar el analizador standard
a un campo, basta con establecer type
en standard
en analyzer_params
, e incluir los parámetros opcionales que sean necesarios.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
El analizador standard
acepta los siguientes parámetros opcionales:
Parámetro | Descripción |
---|---|
| Matriz que contiene una lista de palabras vacías que se eliminarán de la tokenización. El valor predeterminado es |
Ejemplo de configuración de palabras reservadas personalizadas.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Después de definir analyzer_params
, puede aplicarlas a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto en ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más información, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra cómo procesa el texto el analizador standard
.
Texto original.
"The Milvus vector database is built for scale!"
Salida esperada.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]