Пробел
Токенизатор whitespace
разделяет текст на термины, когда между словами есть пробел.
Конфигурация
Чтобы сконфигурировать анализатор, использующий токенизатор whitespace
, установите tokenizer
на whitespace
в analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
Токенизатор пробельных символов может работать в сочетании с одним или несколькими фильтрами. Например, следующий код определяет анализатор, использующий токенизатор whitespace
и lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как токенизатор whitespace
обрабатывает текст.
Исходный текст.
"The Milvus vector database is built for scale!"
Ожидаемый результат.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]