Eliminar signos de puntuaciónCompatible with Milvus 2.5.11+
El filtro removepunct elimina los signos de puntuación, los espacios y los saltos de línea que algunos tokenizadores -como jieba, lindera y icu- suelen mantener. Utilícelo cuando desee un flujo de tokens más limpio que sólo contenga tokens de texto con sentido, sin comas, puntos ni otros signos de puntuación.
Configuración
El filtro removepunct está integrado en Milvus. Para usarlo, simplemente especifique su nombre en la sección filter dentro de analyzer_params.
{
"tokenizer": "jieba",
"filter": ["removepunct"]
}
// java
// node
// go
# restful
El filtro removepunct opera sobre los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.
Después de definir analyzer_params, puede aplicarlos a un campo VARCHAR al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplos
Antes de aplicar la configuración del analizador a su esquema de recopilación, verifique su comportamiento utilizando el método run_analyzer.
Configuración del analizador
{
"tokenizer": "icu",
"filter": ["removepunct"]
}
// java
// node
// go
# restful
Verificación mediante run_analyzer
# Sample text to analyze
sample_text = "Привет! Как дела?"
# Run the standard analyzer with the defined configuration
result = MilvusClient.run_analyzer(sample_text, analyzer_params)
print(result)
// java
// javascript
// go
# restful
Salida esperada
['Привет', 'Как', 'дела']