Китайский
Анализатор chinese
разработан специально для работы с китайским текстом, обеспечивая эффективную сегментацию и токенизацию.
Определение
Анализатор chinese
состоит из.
Токенизатор: Использует токенизатор
jieba
для сегментации китайского текста на лексемы, основанные на словарном запасе и контексте. Дополнительную информацию см. в разделе Jieba.Фильтр: Использует фильтр
cnalphanumonly
для удаления лексем, содержащих некитайские символы. Дополнительные сведения см. в разделе Cnalphanumonly.
Функциональность анализатора chinese
эквивалентна следующей пользовательской конфигурации анализатора.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
Конфигурация .
Чтобы применить анализатор chinese
к полю, просто установите type
на chinese
в analyzer_params
.
analyzer_params = {
"type": "chinese",
}
Анализатор chinese
не принимает никаких дополнительных параметров.
Пример вывода
Вот как анализатор chinese
обрабатывает текст.
Исходный текст.
"Milvus 是一个高性能、可扩展的向量数据库!"
Ожидаемый результат.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]