Стандартный
Токенизатор standard
в Milvus разделяет текст на основе пробелов и знаков препинания, что делает его подходящим для большинства языков.
Конфигурация
Чтобы настроить анализатор на использование токенизатора standard
, установите tokenizer
на standard
в analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
}
Токенизатор standard
может работать в сочетании с одним или несколькими фильтрами. Например, следующий код определяет анализатор, использующий токенизатор standard
и фильтр lowercase
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Для упрощения настройки вы можете использовать фильтр standard analyzer
, который объединяет токенизатор standard
с фильтром lowercase filter
.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как токенизатор standard
обрабатывает текст.
Исходный текст.
"The Milvus vector database is built for scale!"
Ожидаемый результат.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]