Chinês
O analisador chinese
foi concebido especificamente para lidar com texto chinês, fornecendo segmentação e tokenização eficazes.
Definição
O analisador chinese
é composto por.
Tokenizador: Utiliza o tokenizador
jieba
para segmentar o texto chinês em tokens com base no vocabulário e no contexto. Para obter mais informações, consulte Jieba.Filtro: Utiliza o filtro
cnalphanumonly
para remover tokens que contenham caracteres não chineses. Para obter mais informações, consulte Cnalphanumonly.
A funcionalidade do analisador chinese
é equivalente à seguinte configuração de analisador personalizado.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
Configuração
Para aplicar o analisador chinese
a um campo, basta definir type
para chinese
em analyzer_params
.
analyzer_params = {
"type": "chinese",
}
O analisador chinese
não aceita nenhum parâmetro opcional.
Exemplo de saída
Veja como o analisador chinese
processa o texto.
Texto original.
"Milvus 是一个高性能、可扩展的向量数据库!"
Saída esperada.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]