milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Cnalphanumonly

Le filtre cnalphanumonly supprime les jetons qui contiennent des caractères autres que des caractères chinois, des lettres anglaises ou des chiffres.

Configuration

Le filtre cnalphanumonly est intégré à Milvus. Pour l'utiliser, il suffit de spécifier son nom dans la section filter de analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["cnalphanumonly"],
}

Le filtre cnalphanumonly fonctionne sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.

Exemple de sortie

Voici un exemple de traitement du texte par le filtre cnalphanumonly.

Texte original.

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

Résultat attendu.

["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]

Traduit parDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?