Estándar
El tokenizador standard
de Milvus divide el texto en función de los espacios y los signos de puntuación, por lo que es adecuado para la mayoría de los idiomas.
Configuración
Para configurar un analizador que utilice el tokenizador standard
, establezca tokenizer
en standard
en analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
}
El tokenizador standard
puede funcionar junto con uno o varios filtros. Por ejemplo, el siguiente código define un analizador que utiliza el tokenizador standard
y el filtro lowercase
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Para una configuración más sencilla, puede optar por utilizar el filtro standard analyzer
que combina el tokenizador standard
con el filtro lowercase filter
.
Después de definir analyzer_params
, puede aplicarlos a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra un ejemplo de cómo procesa el texto el tokenizador standard
.
Texto original.
"The Milvus vector database is built for scale!"
Resultado esperado.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]