Eliminar signos de puntuaciónCompatible with Milvus 2.5.11+

El filtro removepunct elimina los signos de puntuación, los espacios y los saltos de línea que algunos tokenizadores -como jieba, lindera y icu- suelen mantener. Utilícelo cuando desee un flujo de tokens más limpio que sólo contenga tokens de texto con sentido, sin comas, puntos ni otros signos de puntuación.

Configuración

El filtro removepunct está integrado en Milvus. Para usarlo, simplemente especifique su nombre en la sección filter dentro de analyzer_params.

{
    "tokenizer": "jieba",
    "filter": ["removepunct"]
}
// java
// node
// go
# restful

El filtro removepunct opera sobre los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.

Después de definir analyzer_params, puede aplicarlos a un campo VARCHAR al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.

Ejemplos

Antes de aplicar la configuración del analizador a su esquema de recopilación, verifique su comportamiento utilizando el método run_analyzer.

Configuración del analizador

{
    "tokenizer": "icu",
    "filter": ["removepunct"]
}
// java
// node
// go
# restful

Verificación mediante run_analyzer

# Sample text to analyze
sample_text = "Привет! Как дела?"

# Run the standard analyzer with the defined configuration
result = MilvusClient.run_analyzer(sample_text, analyzer_params)
print(result)
// java
// javascript
// go
# restful

Salida esperada

['Привет', 'Как', 'дела']

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

¿Fue útil esta página?