Sólo alfanuméricos
El filtro alphanumonly
elimina los tokens que contienen caracteres no ASCII, manteniendo sólo los términos alfanuméricos. Este filtro es útil para procesar texto en el que sólo son relevantes las letras y números básicos, excluyendo cualquier carácter especial o símbolo.
Configuración
El filtro alphanumonly
está integrado en Milvus. Para utilizarlo, basta con especificar su nombre en la sección filter
dentro de analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
El filtro alphanumonly
funciona con los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.
Después de definir analyzer_params
, puede aplicarlos a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra un ejemplo de cómo procesa el texto el filtro alphanumonly
.
Texto original.
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
Salida esperada.
["Milvus", "2", "0", "Scale", "AI", "Vector"]