Jieba
El tokenizador jieba
procesa el texto chino descomponiéndolo en las palabras que lo componen.
Configuración
Para configurar un analizador que utilice el tokenizador jieba
, defina tokenizer
como jieba
en analyzer_params
.
analyzer_params = {
"tokenizer": "jieba",
}
Después de definir analyzer_params
, puede aplicarlos a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra un ejemplo de cómo procesa el texto el tokenizador jieba
.
Texto original.
"Milvus 是一个高性能、可扩展的向量数据库!"
Resultado esperado.
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]