milvus-logo
LFAI
Home
  • Guia do utilizador

Chinês

O analisador chinese foi concebido especificamente para lidar com texto chinês, fornecendo segmentação e tokenização eficazes.

Definição

O analisador chinese é composto por.

  • Tokenizador: Utiliza o tokenizador jieba para segmentar o texto chinês em tokens com base no vocabulário e no contexto. Para obter mais informações, consulte Jieba.

  • Filtro: Utiliza o filtro cnalphanumonly para remover tokens que contenham caracteres não chineses. Para obter mais informações, consulte Cnalphanumonly.

A funcionalidade do analisador chinese é equivalente à seguinte configuração de analisador personalizado.

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

Configuração

Para aplicar o analisador chinese a um campo, basta definir type para chinese em analyzer_params.

analyzer_params = {
    "type": "chinese",
}

O analisador chinese não aceita nenhum parâmetro opcional.

Exemplo de saída

Veja como o analisador chinese processa o texto.

Texto original.

"Milvus 是一个高性能、可扩展的向量数据库!"

Saída esperada.

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]

Traduzido porDeepL

Tabela de conteúdos

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?