🚀 Попробуйте Zilliz Cloud, полностью управляемый Milvus, бесплатно — ощутите 10-кратное увеличение производительности! Попробовать сейчас>

milvus-logo
LFAI
Главная
  • Руководство пользователя
  • Home
  • Docs
  • Руководство пользователя

  • Схема и поля данных

  • Анализатор

  • Встроенные анализаторы

  • Стандарт

Стандартный

Анализатор standard - это анализатор по умолчанию в Milvus, который автоматически применяется к текстовым полям, если анализатор не указан. Он использует грамматическую токенизацию, что делает его эффективным для большинства языков.

Определение

Анализатор standard состоит из.

  • Токенизатор: Использует токенизатор standard для разбиения текста на отдельные единицы слов на основе правил грамматики. Дополнительную информацию см. в разделе Стандарт.

  • Фильтр: Использует фильтр lowercase для преобразования всех лексем в нижний регистр, что позволяет осуществлять поиск без учета регистра. Для получения дополнительной информации см.lowercase filter.

Функциональность анализатора standard эквивалентна следующей пользовательской конфигурации анализатора.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Конфигурация .

Чтобы применить анализатор standard к полю, просто установите type на standard в analyzer_params, и включите дополнительные параметры по мере необходимости.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

Анализатор standard принимает следующие необязательные параметры:

Параметр

Описание

stop_words

Массив, содержащий список стоп-слов, которые будут удалены при токенизации. По умолчанию используется _english_, встроенный набор распространенных английских стоп-слов. Подробности о _english_ можно найти здесь.

Пример настройки пользовательских стоп-слов.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

Определив analyzer_params, вы можете применить их к полю VARCHAR при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Дополнительные сведения см. в разделе Пример использования.

Пример вывода

Вот как анализатор standard обрабатывает текст.

Исходный текст.

"The Milvus vector database is built for scale!"

Ожидаемый результат.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

Попробуйте Managed Milvus бесплатно

Zilliz Cloud работает без проблем, поддерживается Milvus и в 10 раз быстрее.

Начать
Обратная связь

Была ли эта страница полезной?