milvus-logo
LFAI
Home
  • Guía del usuario

Estándar

El tokenizador standard de Milvus divide el texto en función de los espacios y los signos de puntuación, por lo que es adecuado para la mayoría de los idiomas.

Configuración

Para configurar un analizador que utilice el tokenizador standard, establezca tokenizer en standard en analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
}

El tokenizador standard puede funcionar junto con uno o varios filtros. Por ejemplo, el siguiente código define un analizador que utiliza el tokenizador standard y el filtro lowercase.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Para una configuración más sencilla, puede optar por utilizar el filtro standard analyzerque combina el tokenizador standard con el filtro lowercase filter.

Después de definir analyzer_params, puede aplicarlos a un campo VARCHAR al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.

Ejemplo de salida

A continuación se muestra un ejemplo de cómo procesa el texto el tokenizador standard.

Texto original.

"The Milvus vector database is built for scale!"

Resultado esperado.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

Traducido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

¿Fue útil esta página?