Jieba
Токенизатор jieba
обрабатывает китайский текст, разбивая его на составляющие слова.
Конфигурация
Чтобы сконфигурировать анализатор, использующий токенизатор jieba
, установите tokenizer
на jieba
в analyzer_params
.
analyzer_params = {
"tokenizer": "jieba",
}
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как токенизатор jieba
обрабатывает текст.
Исходный текст.
"Milvus 是一个高性能、可扩展的向量数据库!"
Ожидаемый результат.
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]