milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Jieba

Le tokenizer jieba traite le texte chinois en le décomposant en mots.

Configuration

Pour configurer un analyseur utilisant le tokenizer jieba, définissez tokenizer à jieba dans analyzer_params.

analyzer_params = {
    "tokenizer": "jieba",
}

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.

Exemple de sortie

Voici un exemple de traitement de texte par le tokenizer jieba.

Texte original.

"Milvus 是一个高性能、可扩展的向量数据库!"

Résultat attendu.

["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]

Traduit parDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?