milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Chinois

L'analyseur chinese est conçu spécifiquement pour traiter le texte chinois, offrant une segmentation et une tokenisation efficaces.

Définition

L'analyseur chinese se compose de

  • Tokenizer: Utilise le tokenizer jieba pour segmenter le texte chinois en tokens basés sur le vocabulaire et le contexte. Pour plus d'informations, voir Jieba.

  • Filtre: Utilise le filtre cnalphanumonly pour supprimer les tokens qui contiennent des caractères non chinois. Pour plus d'informations, voir Cnalphanumonly.

La fonctionnalité de l'analyseur chinese est équivalente à la configuration de l'analyseur personnalisé suivant.

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

Configuration

Pour appliquer l'analyseur chinese à un champ, il suffit de définir type sur chinese dans analyzer_params.

analyzer_params = {
    "type": "chinese",
}

L'analyseur chinese n'accepte aucun paramètre facultatif.

Exemple de sortie

Voici comment l'analyseur chinese traite le texte.

Texte original.

"Milvus 是一个高性能、可扩展的向量数据库!"

Résultat attendu.

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]

Traduit parDeepL

Table de contenu

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?