🚀 Попробуйте Zilliz Cloud, полностью управляемый Milvus, бесплатно — ощутите 10-кратное увеличение производительности! Попробовать сейчас>

milvus-logo
LFAI
Главная
  • Руководство пользователя
  • Home
  • Docs
  • Руководство пользователя

  • Схема и поля данных

  • Анализатор

  • Токенизаторы

  • Стандарт

Стандартный

Токенизатор standard в Milvus разделяет текст на основе пробелов и знаков препинания, что делает его подходящим для большинства языков.

Конфигурация

Чтобы настроить анализатор на использование токенизатора standard, установите tokenizer на standard в analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
}

Токенизатор standard может работать в сочетании с одним или несколькими фильтрами. Например, следующий код определяет анализатор, использующий токенизатор standard и фильтр lowercase.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Для упрощения настройки вы можете использовать фильтр standard analyzer, который объединяет токенизатор standard с фильтром lowercase filter.

Определив analyzer_params, вы можете применить их к полю VARCHAR при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.

Пример вывода

Вот пример того, как токенизатор standard обрабатывает текст.

Исходный текст.

"The Milvus vector database is built for scale!"

Ожидаемый результат.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

Попробуйте Managed Milvus бесплатно

Zilliz Cloud работает без проблем, поддерживается Milvus и в 10 раз быстрее.

Начать
Обратная связь

Была ли эта страница полезной?