milvus-logo
LFAI
Home
  • Guia do utilizador

Cnalphanumonly

O filtro cnalphanumonly remove tokens que contenham quaisquer caracteres que não sejam caracteres chineses, letras inglesas ou dígitos.

Configuração

O filtro cnalphanumonly está integrado no Milvus. Para o utilizar, basta especificar o seu nome na secção filter em analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["cnalphanumonly"],
}

O filtro cnalphanumonly opera nos termos gerados pelo tokenizador, por isso deve ser usado em combinação com um tokenizador.

Depois de definir analyzer_params, pode aplicá-los a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.

Exemplo de saída

Aqui está um exemplo de como o filtro cnalphanumonly processa o texto.

Texto original.

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

Saída esperada.

["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]

Traduzido porDeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?