Cncharonly
Le filtre cncharonly
supprime les jetons contenant des caractères non chinois. Ce filtre est utile lorsque vous souhaitez vous concentrer uniquement sur le texte chinois, en éliminant tous les jetons contenant d'autres caractères, chiffres ou symboles.
Configuration
Le filtre cncharonly
est intégré à Milvus. Pour l'utiliser, il suffit de spécifier son nom dans la section filter
de analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
Le filtre cncharonly
fonctionne sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.
Exemple de sortie
Voici un exemple de traitement du texte par le filtre cncharonly
.
Texte original.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
Résultat attendu.
["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]