Espacios en blanco
El tokenizador whitespace
divide el texto en términos siempre que haya un espacio entre las palabras.
Configuración
Para configurar un analizador que utilice el tokenizador whitespace
, establezca tokenizer
en whitespace
en analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
El tokenizador de espacios en blanco puede funcionar junto con uno o más filtros. Por ejemplo, el siguiente código define un analizador que utiliza el tokenizador whitespace
y los filtros lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Después de definir analyzer_params
, puede aplicarlos a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra un ejemplo de cómo procesa el texto el tokenizador whitespace
.
Texto original.
"The Milvus vector database is built for scale!"
Resultado esperado.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]