Chino
El analizador chinese
se ha diseñado específicamente para tratar texto chino, proporcionando una segmentación y tokenización eficaces.
Definición
El analizador chinese
consta de
Tokenizador: Utiliza el tokenizador
jieba
para segmentar el texto chino en tokens basados en el vocabulario y el contexto. Para más información, consulte Jieba.Filtro: Utiliza el filtro
cnalphanumonly
para eliminar los tokens que contienen caracteres no chinos. Para más información, consulte Cnalphanumonly.
La funcionalidad del analizador chinese
es equivalente a la siguiente configuración personalizada del analizador.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
Configuración
Para aplicar el analizador chinese
a un campo, basta con establecer type
en chinese
en analyzer_params
.
analyzer_params = {
"type": "chinese",
}
El analizador chinese
no acepta ningún parámetro opcional.
Ejemplo de salida
A continuación se muestra cómo procesa el texto el analizador chinese
.
Texto original.
"Milvus 是一个高性能、可扩展的向量数据库!"
Salida esperada.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]