🚀 Попробуйте Zilliz Cloud, полностью управляемый Milvus, бесплатно — ощутите 10-кратное увеличение производительности! Попробовать сейчас>

milvus-logo
LFAI
Главная
  • Руководство пользователя
  • Home
  • Docs
  • Руководство пользователя

  • Схема и поля данных

  • Анализатор

  • Фильтры

  • Длина

Длина

Фильтр length удаляет лексемы, не соответствующие заданным требованиям по длине, позволяя контролировать длину лексем, сохраняемых при обработке текста.

Конфигурация

Фильтр length - это пользовательский фильтр в Milvus, задаваемый параметром "type": "length" в конфигурации фильтра. Вы можете настроить его как словарь внутри analyzer_params для определения ограничений длины.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "length", # Specifies the filter type as length
        "max": 10, # Sets the maximum token length to 10 characters
    }],
}

Фильтр length принимает следующие настраиваемые параметры.

Параметр

Описание

max

Устанавливает максимальную длину токена. Токены, превышающие эту длину, удаляются.

Фильтр length работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.

Определив analyzer_params, вы можете применить их к полю VARCHAR при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.

Пример вывода

Вот пример того, как фильтр length обрабатывает текст.

Пример текста.

"The length filter allows control over token length requirements for text processing."

Ожидаемый результатmax: 10).

["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]

Попробуйте Managed Milvus бесплатно

Zilliz Cloud работает без проблем, поддерживается Milvus и в 10 раз быстрее.

Начать
Обратная связь

Была ли эта страница полезной?