Cnalphanumonly
O filtro cnalphanumonly
remove tokens que contenham quaisquer caracteres que não sejam caracteres chineses, letras inglesas ou dígitos.
Configuração
O filtro cnalphanumonly
está integrado no Milvus. Para o utilizar, basta especificar o seu nome na secção filter
em analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
O filtro cnalphanumonly
opera nos termos gerados pelo tokenizador, por isso deve ser usado em combinação com um tokenizador.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o filtro cnalphanumonly
processa o texto.
Texto original.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
Saída esperada.
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]