Cinese
L'analizzatore chinese
è stato progettato specificamente per gestire il testo cinese, fornendo una segmentazione e una tokenizzazione efficaci.
Definizione
L'analizzatore chinese
è composto da.
Tokenizzatore: Utilizza il tokenizer di
jieba
per segmentare il testo cinese in token basati sul vocabolario e sul contesto. Per ulteriori informazioni, consultare Jieba.Filtro: Utilizza il filtro di
cnalphanumonly
per rimuovere i token che contengono caratteri non cinesi. Per ulteriori informazioni, consultare Cnalphanumonly.
La funzionalità dell'analizzatore chinese
è equivalente alla seguente configurazione personalizzata dell'analizzatore.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
Configurazione
Per applicare l'analizzatore chinese
a un campo, è sufficiente impostare type
su chinese
in analyzer_params
.
analyzer_params = {
"type": "chinese",
}
L'analizzatore chinese
non accetta alcun parametro opzionale.
Esempio di output
Ecco come l'analizzatore chinese
elabora il testo.
Testo originale.
"Milvus 是一个高性能、可扩展的向量数据库!"
Risultato atteso.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]