milvus-logo
LFAI
Casa
  • Guida per l'utente

Cinese

L'analizzatore chinese è stato progettato specificamente per gestire il testo cinese, fornendo una segmentazione e una tokenizzazione efficaci.

Definizione

L'analizzatore chinese è composto da.

  • Tokenizzatore: Utilizza il tokenizer di jieba per segmentare il testo cinese in token basati sul vocabolario e sul contesto. Per ulteriori informazioni, consultare Jieba.

  • Filtro: Utilizza il filtro di cnalphanumonly per rimuovere i token che contengono caratteri non cinesi. Per ulteriori informazioni, consultare Cnalphanumonly.

La funzionalità dell'analizzatore chinese è equivalente alla seguente configurazione personalizzata dell'analizzatore.

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

Configurazione

Per applicare l'analizzatore chinese a un campo, è sufficiente impostare type su chinese in analyzer_params.

analyzer_params = {
    "type": "chinese",
}

L'analizzatore chinese non accetta alcun parametro opzionale.

Esempio di output

Ecco come l'analizzatore chinese elabora il testo.

Testo originale.

"Milvus 是一个高性能、可扩展的向量数据库!"

Risultato atteso.

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]

Tradotto daDeepLogo

Tabella dei contenuti

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Questa pagina è stata utile?