Inglés
El analizador english
de Milvus está diseñado para procesar texto en inglés, aplicando reglas específicas del idioma para la tokenización y el filtrado.
Definición
El analizador english
utiliza los siguientes componentes.
Tokenizador: Utiliza el
standard tokenizer
para dividir el texto en unidades discretas de palabras.Filtros: Incluye múltiples filtros para un procesamiento exhaustivo del texto.
lowercase
: Convierte todos los tokens a minúsculas, lo que permite realizar búsquedas sin distinguir mayúsculas de minúsculas.stemmer
: Reduce las palabras a su raíz para permitir una búsqueda más amplia (por ejemplo, "correr" se convierte en "correr").stop_words
: Elimina las palabras de parada comunes en inglés para centrarse en los términos clave del texto.
La funcionalidad del analizador english
es equivalente a la siguiente configuración personalizada del analizador.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
Configuración
Para aplicar el analizador english
a un campo, basta con configurar type
en english
en analyzer_params
, e incluir los parámetros opcionales que sean necesarios.
analyzer_params = {
"type": "english",
}
El analizador english
acepta los siguientes parámetros opcionales:
Parámetro | Descripción |
---|---|
| Matriz que contiene una lista de palabras vacías que se eliminarán de la tokenización. El valor predeterminado es |
Ejemplo de configuración con palabras reservadas personalizadas.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
Después de definir analyzer_params
, puede aplicarlas a un campo VARCHAR
al definir un esquema de recopilación. Esto permite a Milvus procesar el texto en ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra cómo procesa el texto el analizador english
.
Texto original.
"The Milvus vector database is built for scale!"
Salida esperada.
["milvus", "vector", "databas", "built", "scale"]