Chinois
L'analyseur chinese
est conçu spécifiquement pour traiter le texte chinois, offrant une segmentation et une tokenisation efficaces.
Définition
L'analyseur chinese
se compose de
Tokenizer: Utilise le tokenizer
jieba
pour segmenter le texte chinois en tokens basés sur le vocabulaire et le contexte. Pour plus d'informations, voir Jieba.Filtre: Utilise le filtre
cnalphanumonly
pour supprimer les tokens qui contiennent des caractères non chinois. Pour plus d'informations, voir Cnalphanumonly.
La fonctionnalité de l'analyseur chinese
est équivalente à la configuration de l'analyseur personnalisé suivant.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
Configuration
Pour appliquer l'analyseur chinese
à un champ, il suffit de définir type
sur chinese
dans analyzer_params
.
analyzer_params = {
"type": "chinese",
}
L'analyseur chinese
n'accepte aucun paramètre facultatif.
Exemple de sortie
Voici comment l'analyseur chinese
traite le texte.
Texte original.
"Milvus 是一个高性能、可扩展的向量数据库!"
Résultat attendu.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]